资质
当前位置:首页 > 资质荣誉 > 资质
中信建投:AI算力产业链投资机遇
来源:资质      发布时间:2024-12-22 03:09:01      


中信建投:AI算力产业链投资机遇


  台积电第三财季业绩与第四财季业绩指引均超分析师预期,印证算力需求强劲,台积电表示,预计2024年资本支出将略高于300亿美元,2025年的资本支出很可能高于2024年,体现对未来需求的乐观。英伟达B系列新产品出货临近,鸿海表示,搭载英伟达GB200的新一代服务器将在四季度晚些时间开始发货,正在墨西哥建设全球最大的GB200生产基地。下周全球四大CSP厂商预计发布最新财报。持续推荐光模块,直接受益海外算力板块,有坚实的基本面支撑,业绩兑现好,估值水平较低。此外更多A股上市公司参与海外算力链,包括液冷、铜连接、电源等环节。

  17日下午,习活动中提出,推进中国式现代化,科技要打头阵。科学技术创新是必由之路。国产算力产业持续推进,包括芯片端和应用端,相关产业链公司有望逐步开始明显体现业绩。新质生产力的大方向,未来将有更多的产业政策支持,比如鸿蒙、量子、低空经济、数据要素、卫星通信等领域。

  今年以来,通信板块在红利股和AI算力带领下表现较好,尤其AI算力板块相关个股具备较强的业绩增长支撑,但从估值角度来看,部分公司明年预期PE仍处于较低水平,在业绩快速地增长预期下,应当对后续行情表现乐观。当前我们坚定看好AI算力板块,包括海外算力产业链和国产算力。

  党的二十届三中全会要求“健全因地制宜发展新质生产力体制机制”,并作出全面部署,我们大家都认为,“新质生产力”将会是未来政策支持的重点方向。在通信行业的研究视角下,新质生产力的内涵可以总结为三个方面。一是新技术,强调原创性、颠覆性科学技术创新,科技自立自强,典型代表是人工智能、量子技术、鸿蒙等;二是新业态,强调挖掘新生产要素和技术潜力,催生新的生产模式,典型代表是数据要素、低空经济、卫星通信等;三是新发展,强调应用科学技术创新成果,加快绿色科学技术创新,典型代表是人机一体化智能系统、新能源等。

  核心观点:OpenAI发布新的具有深度思考能力的o1推理模型,模型在复杂问题上花更多时间进行思考而非直接回应,具有改善和调整策略的能力,在科学、代码和数学等复杂问题上表现出色。OpenAI o1融合思维树和强化学习,实现思维模式的深度探索。Open o1在模型推理侧同样满足scaling law,即模型推理时间越久模型处理复杂问题能力愈强,通过不断的思维树检索和反复自我博弈,o1呈现出类人的逻辑思维潜力。由于推理过程的反复博弈,新架构下推理侧算力消耗将大幅增加。

  OpenAI o1具备深度思考能力,在复杂问题上表现出色。从ChatGPT爆火整个社交网络后,大模型行业进入如火如荼的发展阶段,模型的基础能力得到非常明显提升,然而Transformer模型由于其架构限制存在一定的能力边界难以逾越,涉及到复杂数理逻辑推理时表现仍然有待提升。提示词工程应运而生,在合理的提示词设计下,大模型推理能力得到非常明显提升。OpenAI发布新的具有深度思考能力的o1推理模型,模型在复杂问题上花更多时间进行思考而非直接回应,具有改善和调整策略的能力,在科学、代码和数学等复杂问题上表现出色。

  OpenAI o1融合思维树和强化学习,实现思维模式的深度探索。思维链和思维树通过中间推理步骤帮助大模型实现了复杂的推理能力,大语言模型能自己对严谨推理过程的中间思维做评估。强化学习是人工智能重要的研究领域,智能体在与环境的反复交互过程中持续学习,不断最大化其奖励。OpenAI o1深层次地融合思维树和强化学习,实现思维树的自我训练,同时通过广度搜索和深度搜索一直在优化其思维树结构,进而实现思维模式的深度探索。

  推理侧scaling law同样存在,大模型算力需求逐步迁移至推理侧。过去在训练侧证实了scaling law的存在,即训练越多模型愈发聪明。Open o1在模型推理侧同时发现了scaling law,即模型推理时间越久模型处理复杂问题能力愈强,推理侧的scaling law同样展现了巨大的潜力,通过不断的思维树检索和反复自我博弈,o1呈现出类人的逻辑思维潜力。由于在推理过程的反复博弈,模型当前推理算力需求大幅度的提高,大模型整体算力消耗从训练侧逐渐迁移至推理侧,对整个算力需求起到长期的重要支撑。

  核心观点:英伟达推出新一代GB200 NVL72服务器,集成化程度全方面提升,其机柜内部采用高速铜缆进行通信互连。无源DAC作为电通信的主要解决方案其不包含光电转换器模块,具备极高的成本效益和运营可靠性,成为实现短距离传输的优秀解决方案。目前的铜缆已经实现224G以太网Serdes高速通信技术升级,短距离性价比突出,合理假设下测算,英伟达NVL72/36服务器带来的增量铜缆市场空间超过70亿人民币。在AI服务器高集成度的趋势下,我们大家都认为铜连接或成为AI服务器的重要组成。目前安费诺是NVL72/36机柜铜连接的核心供应商,部分国内企业或成为安费诺供应商从而受益于英伟达NVL72/36机柜放量。

  英伟达推出新一代GB200 NVL72服务器,集成化程度全方面提升。2024春季GTC上,英伟达CEO黄仁勋正式推出了Blackwell计算架构,主打GB200超级芯片,GB200计算托盘包含两个Grace CPU和四个Blackwell GPU,18个计算托盘组成NVL72服务器,这中间还包括36个CPU和72个Blackwell构架GPU。GB200 NVL72服务器集成化程度相比来说较高,并提供水冷散热方案,内部大量使用高速铜缆进行通信互连。

  GB200 NVL72服务器使用铜缆进行柜内互联,铜连接成为AI服务器的重要组成。通信网络中常见的连接解决方案包括光通信和高速电通信,无源DAC作为电通信的主要解决方案其不包含光电转换器模块,具备极高的成本效益和运营可靠性,成为实现短距离传输的优秀解决方案。服务器中的铜缆种类大致包括外部高速连接、OverPass高速飞线服务器中均有分布,合理假设下测算,英伟达NVL72/36服务器带来的增量芯线亿人民币。目前的铜缆已经实现224G以太网Serdes高速通信技术升级,短距离传输性价比突出,在AI服务器高集成度的趋势下,我们大家都认为铜连接将成为AI服务器的重要组成。

  风险提示:人工智能技术发展没有到达预期、互联网厂商资本开支没有到达预期、参与厂商众多导致竞争格局恶化、政策监督管理力度不及预期。

  展望AI投资的下半年,我们大家都认为有两大投资方向:一是全球产业趋势,核心是算力;二是围绕国内政策拉动内需,尤其是AI与G端以及B端各行业的结合。

  算力领域有三方面投资逻辑:第一,围绕增量变化投资,下半年最重要的变化是AI服务器形态从过去的8卡向英伟达NVL36、72机柜方向发展和过渡,机柜集成度更高,是众多大厂主要选择方向,其中铜连接、液冷是新的增量,今年下半年开始步入订单密集期,从Q4开始步入业绩催化;第二,围绕份额变化投资,随着龙头公司订单外溢,整个产业链都呈现高景气度,部分公司份额提升,着重关注存储、PCB、电源等板块;第三,估值波动,AI算力全球估值体系参照英伟达,英伟达业绩增速超预期与否,某一些程度上决定了整个算力产业链的估值区间,参照台积电Cowos扩产节奏,下半年有所加速,我们看好英伟达下半年业绩,因此也看好整个板块向明年估值切换。同时,在4月份的欧洲技术研讨会上,台积电宣布至少到2026年,都将以超过 60% 的复合年增长率 (CAGR) 扩大CoWoS产能。能够正常的看到,台积电对AI整体需求判断乐观。

  铜连接价值量大幅度的提高,并于下半年放量:1)用量大幅度增长:相比过去8卡服务器里面主要使用PCIE线机柜除了计算托盘内使用PCIE线,还在计算托盘之间、交换芯片到背板之间、交换芯片到前板I/O端口之间均使用了高速铜缆连接,不同机柜互联也能够正常的使用高速铜连接;2)下半年产业链开始放量:根据集邦咨询,Q3新平台Blackwell将进入市场,Q4开始放量。展望明年,Blackwell系列将成为英伟达主力销售产品,并且主要为机柜形式。对于中国厂商来说,铜连接主要机会来自于安费诺的订单外溢,考虑到明年NVL36、NVL72 机柜整体出货量(等效NVL72预计在4-5万台),仅柜内线亿,若考虑柜外线,则市场规模将更大。

  云端内存需求均呈高景气度:1)算力中心需求量大:显存价值占比高,一台NVL72机柜中HBM3e和LPDDR5x合计需求约20.74万美金,约占NVL72机柜价值量的7%;2)端侧设备需求:长久来看端侧设备参数量会不断变大,内存也将持续不断的增加,下一代AI手机内存有望增长至12-16GB。对于该产业链投资机会核心为两点:1)HBM3e份额以及苹果手机8GB DRAM及下一代DRAM供应商变化;2)目前对于存储大厂来说,其实是以转产为主,未来存储供需平衡可能被打破,带动存储价格持续回升。

  电源方案的全新升级:服务器采用Rack一体化设计,使用外部统一电源,从而逐步优化电源管理,提升系统整体性能和可靠性。NVL72需要6个power shelf构成,单台机柜需要电源200kw左右。DrMOS模块是GPU的具体供电单元,B系列芯片的DrMOS模块需求量不断提升。

  液冷散热的全面应用:目前液冷主要以冷却板与浸没式为主,相较传统风冷,算力密集度增加背景下液冷具备三点优势:1)液冷机柜具备较高功耗承载上限,可承载20 KW以上AI服务器运行;2)液冷机房PUE值更接近于1,满足最新政策要求;3)低PUE背景下同样算力需求电力消耗更少,长期经营成本优势显著。整体看液冷普及率提升是算力密集度高增时代的必然趋势。

  AI端侧主要投资趋势:一是DRAM增加:对于30亿参数量的模型,以Int 4精度计算对内存占用量大概是1.4GB,6GB的DRAM比较难支持AI大模型。目前能支持该端侧大模型的是苹果手机中配备 8GB DRAM 的机型。我们大家都认为,如果苹果之后端侧模型升级到70亿的参数量之后,那对内存占用将达到3GB,现有的8GB机型支持也将非常吃力,未来每代手机升级,苹果DRAM升级将及其重要。安卓方面,谷歌最新推出的 Pixel 8 系列中,只有 Pixel 8 Pro 支持运行 AI 大模型 Gemini,原因主要在于其配备了 12GB DRAM。二是安全问题及隐私计算:未来AIPC或者AI手机都会形成本地的知识库,保证个人信息安全至关重要,未来端侧安全芯片以及算法也会升级。另外,Apple Intelligence会分析用户发出的请求能否在设备端运行,若需要更强的计算能力,就能借助私密云计算仅将与任务相关的数据发送给采用苹果芯片的服务器,对于部分手机大厂未来将自建为手机服务的云上推理中心。三是声学的升级:语音交互将是AI时代的一个重要入口,端侧很重要的一点是声学器件的升级。四是电池和散热变化明显:随着端侧芯片算力的增加,功耗增加,电池变大,同时散热材料也有所变化。五是关注iPhone17硬件新变化所带来的机器视觉检测设备需求变化。六是Arm PC:凭借更强大的AI能力、更强的续航、微软的重点支持、高通着力打造PC芯片等几个要素,各家大厂开始重点推出Arm PC。

  特斯拉引领无人驾驶端到端变革:特斯拉FSD Beta V12.3为第一个使用端到端神经网络的FSD版本,根据特斯拉公开的最新安全数据,特斯拉车辆在开启FSD功能后,每行驶539万英里才有几率发生一起事故,远低于全美每行驶67万英里即有一起事故的中等水准。大模型相比过去的算法有四个重要特点及优势:1)数据驱动:过去是靠写规则去定义无人驾驶,现在是由数据驱动,每看100-150万个视频片段,效果会有明显提升;2)上限高:大模型的涌现能力目前看在无人驾驶中也有体现,意味着把参数量做大,能解决过去无人驾驶过程中一些难解决的驾驶行为;3)迭代速度加快:过去特斯拉接近每两周迭代一次FSD算法, 大模型时代每2-3天就更新一下版本;4)驾驶体验逼近人类:过去规则定义下的无人驾驶很生硬,目前体验更加类似于人类驾驶的感受,以此来降低了接管次数。特斯拉也公布了FSD12.3一系列数据,平均接管里程从 116 英里提升至 286 英里,用户完全无接管的行程次数占比从 FSD V11.4 的 47%上升至 72%,效果有明显提升,乘用车辅助驾驶能力进一步提升。但是对于L4级无人驾驶来说,特斯拉的平均接管里程数相比于人类仍有很大的差距,目前仅依靠单车智能尚无法完全实现无人驾驶,要关注国内车路云建设。

  AI应用赋能千行百业:大模型应用的另外一个主战场是行业应用,5月26日在山东省的企业和专家座谈会上,重点提及用科技改造传统行业。其次,超长期国债也将大力投入“科技自立自强”等领域。同时,《扩大内需战略规划纲要(2022-2035年)》:坚定实施扩大内需战略、培育完整内需体系。并重点提出推动5G、人工智能、大数据等技术与交通物流、能源、生态环保、水利、应急、公共服务等深层次地融合,助力相关行业治理能力提升。我们大家都认为,围绕AI在金融、工业、教育、交通、军事、医疗等领域开始落地。金融端,大模型逐步成为更好的投研助手、财富管理虚拟人、金融知识库等。工业端,大模型慢慢的开始在CAD等软件提供人机交互、AIGC生成样本等。在机器人领域,接入大模型后的机器人智能化程度快速提升,慢慢的开始在工厂等场景替代人完成简单任务。军事领域,海外的Palantir公司已经成功的在战场中利用大模型作为战场助手。教育领域,AI逐步在更多学科成为虚拟教师。在交通领域,车路云协同对基础设施提出更高要求,赋能智能交通管理的同时,能够大大降低智能驾驶车端成本。医疗领域,过往AI本身在医疗影像,新药研发等领域均有较为深入的应用(传统模型),生成式模型的出现使得上述领域的AI发展得到进一步深化,但整体看来,海外研发方向更偏制药,国内研发方向更偏健康管理,依据大模型效力的不同二者应用方向存在差异。

  北美经济衰退预期逐步增强,宏观环境存在比较大的不确定性,国际环境变化影响供应链及海外拓展;芯片紧缺可能会影响相关公司的正常生产和交付,公司出货没有到达预期;信息化和数字化方面的需求和资本开支没有到达预期;市场之间的竞争加剧,导致毛利率快速下滑;主要原材料价格持续上涨,导致毛利率没有到达预期;汇率波动影响外向型企业的汇兑收益与毛利率;大模型算法更新迭代效果没有到达预期,可能会影响大模型演进及拓展,进而会影响其商业化落地等;汽车与工业智能化进展没有到达预期等。

  证券研究报告名称:《人工智能2024年中期投资策略报告:全球产业趋势投资看算力,国内看B端应用,端侧AI打开更多可能性》

  海外大模型向多模态、更大数据集训练演进,对算力提出更加高的要求。一方面,支持多模态输入输出的GPT-4o、视频生成模型Sora、采用原生多模态结构的Gemini、支持视觉能力的Claude 3等最新海外大模型,均向着支持文本+声音+图像+视频的多模态能力发展,训练侧和推理侧需要的算力资源大幅度提升;另一方面,端侧部署对大模型的参数量提出了一定的要求,Scaling Law的推动下,部分公司开始使用更大的数据集对模型进行训练,例如Llama 3基于超过15T token训练,也需求更高的训练算力。

  北美四家云厂商均对AI长期发展预期乐观。在最新电话会上,北美四家云厂商对AI未来的发展均保持较强的信心,同时表示将继续加大AI相关投入。亚马逊表示,现在AI还处于相对早期阶段,未来慢慢的变多的模型将在AWS上构建。微软表示,多年来,公司一直进行资本配置,以成为AI领域的领导者,并计划继续推进该进程。谷歌表示,公司在人工智能方面布局良久,确定AI是重要的行业趋势。AI将影响企业的搜索、YouTube、云等多个业务,这一领域的创新非常快。Meta表示,公司应该在未来几年投入更多资金,以构建更先进的模型和世界上最大规模的AI服务。

  北美云厂商单季度资本开支持续处于高位。2023Q4和2024Q1,北美四家云厂商的资本开支总计分别为430.07亿美元和442.89亿美元,分别同比增长8.87%和30.47%(其中,23Q3同比-5.90%),分别环比增长16.25%和2.98%,2023Q4已然浮现Capex增速拐点。分厂商看,2024Q1,亚马逊的资本开支为149.25亿美元,微软为109.52亿美元,谷歌为120.12亿美元,Meta为64.00亿美元,分别同比+5.05%、+65.76%、+91.00%和-6.46%。值得一提的是,微软连续三个季度单季度的资本开支同比增速超50%;谷歌连续两个季度同比增速超40%;而亚马逊的资本开支在连续五个季度同比下降后首次出现增长。

  受AI基础设施建设投资驱动,各家云厂商对未来资本开支指引保持乐观。亚马逊预计一季度资本开支将是24年最低水平;微软预计24Q2资本支出环比大幅度的增加,且25财年资本支出将高于24财年;谷歌预计24年的各季度资本支出将大致等于或高于Q1水平,若按照全年480亿美元计算同比增速近50%;Meta全年资本支出由300亿-370亿美元上调至350亿-400亿美元,调整后资本支出预计同比增长28%-47%,且公司预计25年资本支出将继续增加。

  AI基础设施建设如火如荼,网络硬件需求保持旺盛,Capex占比有望逐步提升。明年800G需求持续上修,超出市场预期,头部光模块公司有望充分受益。随着英伟达Blackwell GPU的产能逐步释放,配套的1.6T光模块等网络硬件需求有望快速提升。同时,按照英伟达1-2年升级一代GPU和网络硬件的节奏下,预计3.2T光模块的出货节奏也将显著加快。

  1.6T光模块有望在2024年下半年小批量出货,比预期提早一年左右。在AI数据中心中,慢慢的变多的客户倾向于选择更大带宽的网络硬件。带宽越大,单位bit传输的成本更低、功耗更低及尺寸更小。800G光模块的高增速已经能够反映出AI对于带宽迫切的需求,其在2022年底开始小批量,2023年需求明显提升,2024年的出货量有望大幅度增长。而AI对于带宽的需求是没有极限的,得益于网络较高的性价比,1.6T光模块有望加速应用。从下游客户来看,2025年1.6T光模块的主要需求方预计将是英伟达和谷歌。

  海外巨头厂商纷纷布局硅光子技术,有望实现加快速度进行发展。硅光子技术是以硅或者硅基材料(Si, SiO2,SiGe)作为衬底材料,利用与集成电路兼容的CMOS工艺制造对应的光子器件和光电器件,以实现对光的激发,调制,响应等功能,大范围的应用于设备互连、光计算等下游多个领域中。硅基材料具备兼容CMOS工艺、低成本和低功耗等优势。布局硅光子技术的海外巨头厂商较多,有望在AI浪潮下实现加快速度进行发展。随着AI的加快速度进行发展,硅光子技术从通信逐步拓展到算力基础设施及下游应用领域,包括板间芯片光互连、芯片内chiplet光互连、光计算和激光雷达等领域。

  假设在同样的良率水平下,硅光模块相比较传统光模块的成本有一定的下降,大多数表现在:

  1、硅光模块的光源成本相比较传统分立式方案,大幅度降低。英特尔的激光器方案采用异质集成方案,成本较低;目前大部分厂商的光源方案采用大功率CW光源,将传统EML激光器中的EA调制器功能转移到硅光芯片上,成本显著降低。

  2、硅光芯片能够集成部分光无源器件,减少相关成本。目前硅光芯片主要是用于发射端,因此能够集成发射端的准直镜、波分复用器件等光器件,有效的降低成本。

  3、通道数越多,硅光方案制造工艺成本越有优势。400G往800G和1.6T升级时,主流方案中的通道数从四通道升级到八通道,传统方案中制造工艺步骤大幅度的增加,成本明显地增长,而硅光芯片只需要多设计四个通道,工艺上变化较小,成本较低。

  硅光与CMOS工艺兼容性高,但也要解决很多know-how问题,并且可能会影响最终硅光模块是否能大批量生产。光无源硅光芯片的外延层包括下包层、硅光波导层和上包层,刻蚀时需要保证侧壁粗糙度满足需求以保证传输损耗相比来说较低,总的来看工艺相对来说还是比较成熟,能够批量化生产包括PLC分路器、AWG等多种光无源硅光芯片。

  光有源硅光芯片结构相对更复杂一些,比如调制器的结构,在保证无源硅光工艺稳定性的基础之上,还要增加离子掺杂、金属电极等相关工艺,以使得带宽和功耗等性能满足要求。硅光和III-V族材料的异质集成工艺难度很高,需要长时间的工艺积累以攻克较多的know-how问题。异质集成工艺中,材料外延难度较高,片上光源耦合及老化问题是绕不开的难题,在量产阶段对良率的影响较大。

  硅光子技术下游需求旺盛,上游设计的具体方案百花齐放,代工厂积极布局。硅光子技术产业链的上游包括光芯片设计、SOI衬底、外延片和代工厂,中游为光模块厂商,下游分为数通领域和电信领域。一体化布局的厂商优势显而易见。英特尔、旭创、Coherent、思科和Marvell等厂商同时具备PIC设计和模块集成能力,且与下游云厂商和AI等巨头客户保持紧密合作,优势显著,在供应链中的引领作用较为明显。

  从硅光模块的格局来看,思科和英特尔的市场占有率远远领先于其他厂商。2022年的硅光模块市场来看,电信领域市场规模为12亿美金,思科份额为49%,Lumentum份额为30%;数通领域市场规模为5.1亿美金,英特尔占比61%,思科占比20%。随着AI的加快速度进行发展,400G及800G等高速光模块的需求大幅度的提高,光模块头部公司的硅光方案进展处于行业领头羊。虽然思科和英特尔在当前的硅光市场占比较高,但是AI将带来更广阔的400G和800G硅光模块市场,而中际旭创、Coherent等公司有望获取大部分份额,颠覆行业竞争格局。

  随着AI的加快速度进行发展,多模态大模型的参数量大幅度的提高使带宽容量也快速扩张。无论是训练侧还是推理侧,数据传输带宽愈发成为总系统的瓶颈。虽然目前电信号传输还具备一定的优势,但是随着带宽的加速增长,电信号传输距离越来越短,在芯片互连领域“光进铜退”目前看来也是势在必行的行业趋势。英伟达与Ayar Labs、台积电等多家公司合作硅光子集成项目。在传统的DGX服务器中,服务器内部GPU与NVSwitch之间用电信号连接,硅光子方案中将GPU和NVSwitch都接入硅光I/O,每个GPU对应2个光引擎,每个NVSwitch对应6个光引擎,双向带宽达到25.6Tbps。数据收发过程单位bit消耗3.5pJ能量,英伟达仍在努力降低功耗,从而提升该方案的性价比。

  共封装光学(CPO)是业界公认的未来更高速率光通信的主流产品形态之一,可明显降低交换机的功耗和成本。随着交换机带宽从最初的640G升级到51.2T,Serdes速率一直在升级叠加数量的持续增加,交换机总功耗大幅度的提高约22倍,而CPO技术能够大大降低Serdes的功耗,因此在51.2T及以上带宽交换机时代,CPO有望实现突破。硅光芯片是CPO交换机中光引擎的最佳产品形态,有望在未来得到普遍应用。目前英特尔、博通和Meta等海外巨头厂商在CPO交换机产品具有布局。

  台积电推出iOIS平台,Integrated Optical Interconnect Systems,能够很好的满足计算和通信系统的多样化光电共封装需求,是切实可行的量产方案,也是台积电2.5D/3D封装roadmap中的重要节点。iOIS平台的主要特色包括COUPE 2.0和CI,可提供优秀的光电性能的CPO产品。相比MCM和InFO_oS,CI在ASIC-OE连接的电性能上优势显著,CI的带宽密度是MCM的80倍,功耗仅为五分之一。在光学性能上,单通道100G的速率传输损耗为0.21dB/cm,90度弯曲损耗为0.009dB,Beachfront BWD达到44.9T/mm。

  InfiniBand最重要的一个特点是采用RDMA协议(远程直接内存访问),以此来实现低时延。相较于传统TCP/IP网络协议,RDMA可以让应用与网卡之间直接进行数据读写,无需操作系统内核的介入,从而使得数据传输时延明显降低。在大规模并行计算机集群中,低时延可以有明显效果地提升算力设施的利用效率。InfiniBand技术以端到端流量控制为网络数据包收发的基础,能保证无拥塞发出报文,从而大幅度降低规避丢包所导致的网络性能直线下降的风险。SHARP技术(可扩展分层聚合和归约协议)的引入使得InfiniBand系统能够在转发数据的同时在交换机内进行计算,以降低计算节点间进行数据传输的次数,从而大幅度的提高计算效率。

  随着AI的加快速度进行发展,IB在算力集群发挥着关键的作用。InfiniBand作为一个用于高性能计算的网络通信标准,其优点是高吞吐和低延迟,能够适用于计算机和计算机、计算机和存储以及存储之间的高速交换互连。HPC领域对带宽有更高的要求,InfiniBand目前传输速度达到400Gb/s。根据技术发展路线年IBTA计划推出XDR产品,四通道对应速率800Gb/s,八通道对应速率是1600Gb/s,并将于2年后发布GDR产品,四通道速率达1600Gb/s。InfiniBand系统的硬件由网卡适配器、交换机、电缆和光模块组成。

  在传统云计算数据中心领域,以太网技术的产品市占率保持绝对领先的地位。以太网领域的头部厂商,充分享受云计算加快速度进行发展带来的强劲需求,包括博通、Marvell、Arista和思科等厂商。在HPC领域,对于网络的性能要求越高,IB的渗透率越高,全球前10大超算中心,IB市占率70%。IB市场上,主要是Nvidia(收购的Mellanox公司)和Intel(收购的Qlogic公司)两大玩家。IB虽然性能更好,但价格较贵。

  随着ChatGPT的横空出世,AIGC的大模型引爆了算力的需求,大模型的训练对于网络性能要求比较高,因此Mellanox的IB产品受到了绝大部分客户的青睐。虽然IB的时延具有很大的优势,尤其在训练场景下,但是基于RDMA的以太网技术ROCE也保持较低的时延,且成本优势较大,性价比更高。我们大家都认为,IB短期内在AI领域仍然具备较强的优势,但是以太网联盟的发展也会使得其渗透率有一定的提升。

  政策持续推动人工智能发展。2023年7月,国家网信办、国家发展改革委、教育部、科技部、工业与信息化部、公安部、广电总局联合印发《生成式人工智能服务管理暂行办法》,提出国家坚持发展和安全并重、促进创新和依法治理相结合的原则,规定生成式人工智能服务的基本规范,促使监管部门采取精细化措施进行监管,鼓励生成式AI创新发展和产业应用。2024年2月,国务院国资委召开中央企业人工智能专题推进会。2024年6月,工信部、中央网络安全和信息化委员会办公室国家发展和改革委员会、国家标准化管理委员会联合印发《国家AI产业综合标准化体系建设指南(2024版)》,加快构建满足AI产业高水平质量的发展和“人工智能+”高水平赋能需求的标准体系。

  国内算力投资加大。互联网厂商侧,从腾讯、阿里巴巴两家云厂商资本开支情况去看,2023Q1开始呈现逐季度回暖态势。2024Q1,腾讯和阿里巴巴的资本开支分别为143.59亿元、101.74亿元,同比增长225.53%、304.85%。

  运营商也在明显加码算力网络方面的资本开支。中国移动2024年计划总体资本开支1730亿元,同比下降4%,用于算力资本开支计划475亿元,同比增长21%。中国电信2024年计划总体资本开支960亿元,同比下降4%,用于产业数字化资本开支370亿元,同比增长4%,用于云/算力投资180亿元。中国联通2024年计划总体资本开支650亿元,同比下降12%,公司表示投资重点将由稳基础的联网通信业务转向高增长的算网数智业务。

  国产芯片、大模型、应用端持续获得加快速度进行发展。国产头部芯片单芯片算力或已接近A100,或优于H20。以FP16精度为例,国产芯片中华为昇腾910算力为256TFLOPS,略低于A100的312TFLOPS,相较于H100的1513TFLOPS有很大的差距,但强于H20的148TFLOPS。此外,平头哥含光800在INT8精度,壁仞科技BR100在FP32精度均超过A100。在单颗芯片峰值算力上,国产芯片已满足大规模使用条件。

  国内大模型厂商的能力在快速提升,应用加速发展。2023年5月,国内大模型总体与GPT3.5有约20分的差距,国产得分最高的星火认知大模型总分53.58,而GPT3.5为66.18。2023年11月,国产头部大模型已基本完成对GPT3.5的总分超越,与GPT4-Turbo仍有很大的差距(文心一言4.0为74.02分,GPT3.5为59.39分,GPT4为89.79分)仍有距离。SuperCLUE最新2024年4月测评结果为,国产第一梯队大模型已将与GPT4.0的得分差距拉至10分以内。2024年5月,字节跳动正式对外发布豆包大模型,模型已接入抖音、番茄小说、飞书、巨量引擎等50余个业务,2024年5月钛媒体信息,字节跳动产品和战略副总裁朱骏透露,豆包上已有超过800万个智能体被创建,月度活跃用户达到2600万。2024MWC上海期间,百度发布文心大模型4.0 Turbo,文心一言累计用户规模已达3亿,日调用次数达到5亿;科大讯飞发布星火大模型4.0,基于国产万卡算力集群训练,实现七大核心能力升级,在国际主流测试中表现优异,尤其在文本生成、语音理解、知识问答、逻辑推理和数学能力方面超越GPT-4 Turbo。

  随着国产芯片能力、大模型能力的提升、AI应用的发展,国内算力基础设施需求预测将持续被拉动。此前国内AI发展掣肘于海外AI芯片禁运和国产AI芯片能力不够,随着国内自研AI芯片供给能力的逐步提升,国内算力基础设施建设蓄势待发。在海外AI芯片主导的AI算力产业链中,AI芯片、服务器、交换机等大价值量环节基本由海外企业主导,而国产算力产业链自身基本能实现闭环,包括AI芯片、服务器、交换机、光模块、液冷、连接器/线束、PCB等各环节在内的国内公司都将集中受益。

  单卡算力相对有限,为了缩短训练时间,通常采用分布式训练技术,通过多台节点构建出一个计算能力和显存能力超大的集群,随着AI发展,算力集群部署呈现从千卡往万卡、超万卡升级。海外头部厂商在2022年、2023年已经完成万卡集群搭建,国内头部互联网厂商和电信运营商也加速万卡集群建设布局。2024年7月,腾讯云信息,腾讯自研星脉高性能计算网络全面升级,相比上一代,星脉网络2.0可支撑的整体组网规模实现翻倍,支持单集群10万卡GPU以上的规模,自研交换机从25.6T升级到51.2T,容量提升一倍;自研硅光模块从200G升级到400G,速率提升一倍;搭载自研算力网卡;整机通信带宽3.2T。2024年7月,国产GPU厂商摩尔线程宣布其AI旗舰产品夸娥(KUAE)智算集群解决方案从千卡级别大幅扩展至万卡规模,能够为万亿参数级别大模型训练提供算力基础。

  针对万卡、超万卡集群建设,高能效计算能力是重要支撑。参考《面向超万卡集群的新型智算技术白皮书》,集群计算能效涵盖单芯片能力、超节点计算能力、多计算能力融合、极致算力能效比等方面,其中超节点计算能力提升的关键几个方面包括推进超越单机8卡的超节点形态服务器、加快引入面向Scale-up的Switch芯片、优化GPU卡间互联协议以实现通信效率跃升等。上述AI芯片、服务器、交换机、光模块、液冷、连接器/线束、PCB等环节厂商也进一步面临行业技术、产品升级带来的机会和挑战。

  服务器:AI服务器高增,AI服务器占比提升和国产化率提升,国内服务器厂商竞争格局或存变数。

  AI服务器市场高增。IDC数据显示,2023全年中国加速服务器市场规模达到94亿美元,同比增长104%,从行业角度看,互联网依然是最大的采购行业,占整体加速服务器市场近60%的份额,此外金融、电信、交通和医疗健康等多数行业均有超过一倍以上的增长。

  AI服务器占比提升和国产化率提升,国内服务器厂商竞争格局或存变数。此前服务器竞争格局中,浪潮、新华三等厂商份额较高。2022年中国服务器市场份额来看,浪潮、新华三、超聚变、宁畅、中兴位列前五,份额分别为28%、17%、10%、6%、5%。2022年我国AI服务器市场份额来看,浪潮、新华三、宁畅位居前三,份额分别为47%、11%、9%。随着国产AI芯片占比的提升,AI服务器供应商格局或存在变化。当前昇腾在国产GPU中性能较为领先,国内深度参与华为昇腾算力服务器供应的厂商有望更为受益,具体可参考中国电信、中国移动等中标候选人情况。未来随着国内其他厂商GPU新产品的推出以及推理等场景的丰富,国内GPU生态也有望更加丰富,进一步可能存在新的变化。

  2023年国内交换机市场规模小幅下滑,2024年在AI拉动下,高速交换机有望放量,市场或恢复增长。根据IDC数据,2023年中国交换机市场规模约69.79亿美元,同比下降4.37%。主要由于英伟达、华为等GPU卡供不应求,国内互联网厂商、电信运营商加大了GPU采购力度,而网络设备采购相对滞后,因此国内交换机市场规模出现下滑。随着下游客户训练集群的陆续搭建,预计将带动网络设备采购。此外,预计高速交换机比例也有望提升,2023年中国10G及以下交换机出货占比为56.4%(注:均按销售额计算,下同),200G/400G交换机出货占比为8.0%。随着2023年来博通TH5交换芯片的规模出货,预计2024年起800G交换机将开始放量。

  2022年开始,北美传统云计算市场的光模块已经开始向800G速率升级,2024年800G光模块的出货量预计大幅增长,1.6T光模块有望在2024年下半年小批量出货并有望在2025年大幅增长。国内光模块最新代际发展来看稍晚于海外,2024年预计400G需求大幅增长,部分头部CSP采购800G产品。随着国内AI服务器发货增长,预计也将带动相关光模块环节放量。

  AI发展,GPU性能不断提升,相关数据中心连接系统架构也向高速升级,从10Gbps-40Gbps向56Gbps、112Gbps、224Gbps等持续迭代升级,拉动相关高速连接器及配套高速铜缆等需求。当前海外已经发展到224Gbps的数据传输速率,国内由于整体网络侧部署升级略晚于海外,同样连接系统升级也会略晚于海外。当前国内厂商产品仍以56Gbps为主,在部分产品领域实现112Gbps、224Gbps产品突破。

  目前在224Gbps的连接系统中,仍以海外厂商更为领先,安费诺、Molex、TI等全球头部厂商推出了相对完整的224G连接系统解决方案。国内由于整体网络侧部署升级略晚于海外,同样连接系统升级也会略晚于海外。当前国内厂商产品仍以56Gbps为主,在部分产品领域实现112Gbps、224Gbps产品突破。

  液冷是趋势相对已经明确,当前主流为冷板式液冷方案。预计液冷2024年将进入规模部署阶段,并且我们认为随着规模应用带来的方案成熟度的验证以及成本端的下降,叠加PUE监管要求的实质性落地,液冷有望进一步向通用服务器市场进行渗透,短中期来看,冷板式液冷方案是主流,通过对于AI服务器出货量、通用服务器出货量、单KW成本造价、液冷渗透率等假设,我们匡算整体规模有望达到200亿元。而随着AI的发展,带动服务器的量有望进一步明显提升,行业规模有望进一步打开。

  从产业链角度,冷板式液冷主要分为在服务器内部的冷板、管路、快接等部件,以及进行冷量分配的CDU、manifold等,以及对于散热进行补充的风冷部分。服务器内部的环节,主要由服务器厂商进行采购,部分芯片厂商在供应链环节具备一定话语权。CDU、Manifold相关的冷量分配系统,主要由互联网厂商、运营商、数据中心厂商或集成商、模块化设备提供商等下游客户进行采购。不同厂商参与的环节不同,整体的业务可达空间也存在差异。

  AI热点应用及变现能力不及预期可能导致AI算力投资快速回落,进而导致算力板块利润率、业绩预期明显下修;红利资产在估值修复后可能形成新的抱团,可能因业绩增速下降、预期股息率下降或者筹码结构交易因素等导致估值、股价回落;国际环境变化对供应链的安全和稳定产生影响,对相关公司向海外拓展的进度产生影响;人工智能行业发展不及预期,影响云计算产业链相关公司的需求;市场竞争加剧,导致毛利率快速下滑;汇率波动影响外向型企业的汇兑收益与毛利率,包括ICT设备、光模块/光器件等板块的企业;数字经济和数字中国建设发展不及预期等;电信运营商的云计算业务发展不及预期;运营商资本开支不及预期;云厂商资本开支不及预期;通信模组、智能控制器行业需求不及预期。

  政策持续大力推动国内AI产业发展,国产算力基础设施行业将快速增长。国产头部AI芯片单芯片算力或已接近A100、或优于H20,已基本满足大规模使用条件。模型和应用层面,国内领先的大模型基本实现能力边界的突破,应用端有望迎来加速落地。AI产业发展,算力先行,尤其在美国对中国先进芯片进口限制持续升级的背景下,国产算力自立自强大势所趋,将直接拉动服务器、交换机、光模块、液冷、连接器/线束、PCB、IDC建设等环节需求,建议重视。

  1、美国再次升级AI芯片和相关工具出口管制措施,国产算力自立自强大势所趋。AI发展,算力先行,此前国内AI发展掣肘于海外AI芯片禁运和国产AI芯片能力不足,目前华为海思、寒武纪、平头哥、壁仞科技、百度昆仑芯、燧原科技、海光等国内GPU厂商均已经推出用于训练、推理场景的算力芯片,性能在不断提升,国产头部芯片单芯片算力或已接近A100、或优于H20,已基本满足大规模使用条件。

  2、国产算力发展,将使更多价值量留存在国内产业链。在海外AI芯片主导的AI算力产业链中,AI芯片、服务器、交换机等大价值量环节基本由海外公司主导,而国产算力产业链自身基本能轻松实现闭环,各环节的国内公司都将集中受益。

  3、服务器:AI服务器高增,芯片国产化渗透提升带来竞争格局变化。交换机:以太网支撑高性能计算场景已经逐步得到验证,国内交换机厂商400G、800G相关订单预计将实现高速增长。光模块:2024年国内预计400G需求大幅增长,部分头部CSP可能将采购800G产品。液冷:运营商新增AI服务器招标中液冷渗透比例已经达到大份额,2024年进入实质性规模部署阶段。连接器/线束:AI带动连接器系统向112G/224G等升级,拉动高速产品需求。PCB:AI拉动高速PCB升级,利好头部厂商份额和盈利提升。IDC建设:关注智算中心建设和存量改造机会。

  风险提示:国内算力芯片等关键器件供应不足;国内大模型发展和AI应用落地不及预期;资本开支投入不及预期;市场竞争加剧等。

  生成式AI取得突破,我们对生成式AI带来的算力需求做了上下游梳理,并做了交叉验证,可以看到以ChatGPT为代表的大模型训练和推理端均需要强大的算力支撑,产业链共振明显,产业链放量顺序为:先进制程制造-以 Chiplet 为代表的 2.5D/3D 封装、HBM-AI 芯片-板卡组装-交换机-光模块-液冷-AI 服务器-IDC 出租运维。综合来看,大模型仍处于混战阶段,应用处于渗透率早期,AI板块中算力需求增长的确定性较高,在未来两年时间内,算力板块都将处于高景气度阶段,重点推荐AI算力产业链各环节相关公司。

  生成式AI取得突破,实现了从0到1的跨越,以ChatGPT为代表的人工智能大模型训练和推理需要强大的算力支撑。自2022年底OpenAI正式推出ChatGPT后,用户量大幅增长,围绕ChatGPT相关的应用层出不穷,其通用性能力帮助人类在文字等工作上节省了大量时间。同时在Transformer新架构下,多模态大模型也取得新的突破,文生图、文生视频等功能不断完善,并在广告、游戏等领域取得不错的进展。生成式AI将是未来几年最重要的生产力工具,并深刻改变各个产业环节,围绕生成式AI,无论是训练还是推理端,算力需求都将有望爆发式增长。

  训练和推理端AI算力需求或几何倍数增长。首先是训练侧,参考OpenAI论文,大模型训练侧算力需求=训练所需要的token数量*6*大模型参数量。可以看到从GPT3.5到GPT4,模型效果越来越好,模型也越来越大,训练所需要的token数量和参数量均大幅增长,相应的训练算力需求也大幅增长。并且,与GPT4相关的公开论文也比较少,各家巨头向GPT4迈进的时候,需要更多方向上的探索,也将带来更多的训练侧算力需求。 根据我们的推算,2023年-2027年,全球大模型训练端峰值算力需求量的年复合增长率有望达到78.0%,2023年全球大模型训练端所需全部算力换算成的A100芯片总量可能超过200万张。其次是推理侧,单个token的推理过程整体运算量为2*大模型参数量,因此大模型推理侧每日算力需求=每日调用大模型次数*每人平均查询Token数量*2*大模型参数量,仅以Google搜索引擎为例,每年调用次数至少超过2万亿,一旦和大模型结合,其AI算力需求将十分可观。随着越来越多的应用和大模型结合,推理侧算力需求也有望呈现爆发增长势头。根据我们的推算,2023年-2027年,全球大模型云端推理的峰值算力需求量的年复合增长率有望高达113%。

  先进封装、HBM:为了解决先进制程成本快速提升和“内存墙”等问题,Chiplet设计+异构先进封装成为性能与成本平衡的最佳方案,台积电开发的CoWoS封装技术可以实现计算核心与HBM通过2.5D封装互连,因此英伟达A100、H100等AI芯片纷纷采用台积电CoWos封装,并分别配备40GB HBM2E、80GB的HBM3内存。全球晶圆代工龙头台积电打造全球2.5D/3D先进封装工艺标杆,未来几年封装市场增长主要受益于先进封装的扩产。

  AI芯片/板卡封装:以英伟达为代表,今年二季度开始释放业绩。模型训练需要规模化的算力芯片部署于智能服务器,CPU不可或缺,但性能提升遭遇瓶颈,CPU+xPU异构方案成为大算力场景标配。其中GPU并行计算优势明显,CPU+GPU成为目前最流行的异构计算系统,而NPU在特定场景下的性能、效率优势明显,推理端应用潜力巨大,随着大模型多模态发展,硬件需求有望从GPU扩展至周边编解码硬件。AI加速芯片市场上,英伟达凭借其硬件产品性能的先进性和生态构建的完善性处于市场领导地位,在训练、推理端均占据领先地位。根据Liftr Insights数据,2022年数据中心AI加速市场中,英伟达份额达82%。因此AI芯片需求爆发,英伟达最为受益,其 Q2收入指引110亿美金,预计其数据中心芯片业务收入接近翻倍。国内厂商虽然在硬件产品性能和产业链生态架构方面与前者有所差距,但正在逐步完善产品布局和生态构建,不断缩小与行业龙头厂商的差距,并且英伟达、AMD对华供应高端GPU芯片受限,国产算力芯片迎来国产替代窗口期。

  交换机:与传统数据中心的网络架构相比,AI数据网络架构会带来更多的交换机端口的需求。交换机具备技术壁垒,中国市场格局稳定。

  光模块:AI算力带动数据中心内部数据流量较大,光模块速率及数量均有显著提升。训练侧光模块需求与GPU出货量强相关,推理侧光模块需求与数据流量强相关,伴随应用加速渗透,未来推理所需的算力和流量实际上可能远大于训练。目前,训练侧英伟达的A100 GPU主要对应200G光模块和400G光模块,H100 GPU可以对应400G或800G光模块。根据我们的测算,训练端A100和200G光模块的比例是1:7,H100和800G光模块的比例是1:3.5。800G光模块2022年底开始小批量出货,2023年需求主要来自于英伟达和谷歌。在2023年这个时间点,市场下一代高速率光模块均指向800G光模块,叠加AIGC带来的算力和模型竞赛,我们预计北美各大云厂商和相关科技巨头均有望在2024年大量采购800G光模块,同时2023年也可能提前采购。

  光模块上游——光芯片:以AWG、PLC等为代表的无源光芯片,国内厂商市占率全球领先。以EEL、VCSEL、DFB等激光器芯片、探测器芯片和调制器芯片为代表的有源光芯片是现代光学技术的重要基石,是有源光器件的重要组成部分。

  液冷:AI大模型训练和推理所用的GPU服务器功率密度将大幅提升,以英伟达DGX A100服务器为例,其单机最大功率约可达到6.5kW,大幅超过单台普通CPU服务器500w左右的功率水平。根据《冷板式液冷服务器可靠性白皮书》多个方面数据显示,自然风冷的数据中心单柜密度一般只支持8kW-10kW,通常液冷数据中心单机柜可支持30kW以上的散热能力,并能较好演进到100kW以上,相较而言液冷的散热能力和经济性均有明显优势。同时“东数西算” 明确PUE(数据中心总能耗/IT设备能耗)要求,枢纽节点PUE要求更高,同时考虑到整体规划布局,未来新增机柜更多将在枢纽节点内,风冷方案在某些地区可能无法严格满足要求,液冷方案渗透率有望加速提升。目前在AI算力需求的推动下,如浪潮信息、中兴通讯等服务器厂商慢慢的开始大力布局液冷服务器产品。在液冷方案加速渗透过程中,数据中心温控厂商、液冷板制造厂商等有望受益。

  AI服务器:预计今年Q2-Q3开始逐步释放业绩。具体来看,训练型AI服务器成本中,约7成以上由GPU构成,其余CPU、存储、内存等占比相对较小,均价常达到百万元以上。对于推理型服务器,其GPU成本约为2-3成,整体成本构成与高性能型相近,价格常在20-30万。根据IDC数据,2022年全球AI服务器市场规模202亿美元,同比增长29.8%,占服务器市场规模的比例为16.4%,同比提升1.2pct。我们大家都认为全球AI服务器市场规模未来3年内将保持高速增长,市场规模分别为395/890/1601亿美元,对应增速96%/125%/80%。根据IDC数据,2022年中国AI服务器市场规模67亿美元,同比增长24%。我们预计,2023-2025年,结合对于全球AI服务器市场规模的预判,以及对于我国份额占比持续提升的假设,我国AI服务器市场规模有望达到134/307/561亿美元,同比增长101%/128%/83%。竞争格局方面,考虑到AI服务器研发和投入上需要更充足的资金及技术支持,国内市场的竞争格局预计将继续向头部集中,保持一超多强的竞争格局。

  IDC:在数字中国和人工智能推动云计算市场回暖的背景下,IDC作为云基础设施产业链的关键环节,也有望进入需求释放阶段。在过去两年半,受多重因素影响下,云计算需求景气度下行,但IDC建设与供给未出现明显放缓,2021年和2022年分别新增机柜数量120万架和150万架,因此短期内出现供需失衡情况(核心区域供需状况相对良好),部分地区上电率情况一般。所以IDC公司2022年业绩普遍承压。当前,我们认为国内IDC行业有望边际向好。随着宏观经济向好,平台经济发展恢复,AI等拉动,IDC需求有望逐步释放,叠加2023新增供给量有望较2022年减少(例如三大运营商2022年新增IDC机柜15.6万架,2023年计划新增11.4万架)。展望未来,电信运营商在云计算业务方面仍将实现快速增长,百度、字节跳动等互联网公司在AIGC领域有望实现突破性进展,都将对包括IDC在内的云基础设施产生较大新增需求,相关IDC厂商有望获益。

  风险提示:国产替代进程没有到达预期。GPU的国产替代过程中面临诸多困难,国产替代进程可能不及预期;AI技术进展不及预期。当前AI技术的快速进步带动了巨大的AI算力需求,如果AI技术进展不及预期,可能对GPU市场的整体需求产生不利影响;互联网厂商资本开支不及预期。互联网厂商是AI算力和GPGPU的重要采购方和使用方,如果互联网厂商资本开支不及预期,可能会对GPGPU的需求情况产生不利影响;在GPU需求旺盛的背景下,国内外涌现出诸多GPU行业的新兴玩家,众多参与厂商可能会引起整体竞争格局恶化。