《AI算力行业研究:智算供给格局分化国产化进程有望加速.docx》由会员分享,可在线阅读,更多相关《AI算力行业研究:智算供给格局分化国产化进程有望加速.docx(14页珍藏版)》请在课桌文档上搜索。
1、AI算力行业研究:智算供给格局分化,国产化进程有望加速1大模型浪潮推动作用下,算力需求缺口将持续扩大1.1 大模型发展对算力需求的推动作用大模型的训练效果、成本和时间与算力资源有密切的关系。大模型发展浪潮有望进一步增加Al行业对智算算力的需求规模。1.1.1 国外大模型的发展大模型数量加速增长,算力成为模型竞赛底座。自2018年以来,海外云厂商巨头接连发布NLP大模型。据赛迪顾问2023年7月发布的数据显示,海外大模型发布数量逐年上升,年发布数量在五年中由2个增长至48个。且仅2023年17月就发布了31个大模型。自2021年起,海外大模型数量呈现加速增长的趋势,结合2023年1-7月的情况,
2、该趋势有望延续。2017-2023年,从各公司发布的公开信息来看,大模型在7年的时间里实现参数量从千万到万亿级的指数型增长。2017年,谷歌团队提出Transformer架构,奠定了当前大模型领域主流的算法架构基础。2018年6月,OpenAI发布了TranSfOrmer模型GPT-1,训练参数量1.2亿。同年10月,谷歌发布了大规模预训练语言模型BERT,参数量超过3亿。2019年,OPenAl推出15亿参数的GPT-2o2019年9月,英伟达推出了83亿参数的Megatron-LMo同年,谷歌推出了110亿参数的T5,微软推出了170亿参数的图灵Turing-NLGo2020年,OpenA
3、I推出了大语言训练模型GPT-3,参数达到1750亿。微软和英伟达在同年10月联合发布了5300亿参数的Megatron-Turing大模型。2021年1月,谷歌推出SwitchTransformer模型,参数量达到1.6万亿,大模型参数量首次突破万亿。2022年,OpenAI推出基于GPT-3.5大模型的ChatGPT,宣告了GPT-3.5版本的存在。2023年,OpenAI推出GPT-4,估计参数规模达到1.8万亿。GPU数量与不同量级大模型所需的算力之间的线性关系。根据2021年8月DeepakNarayanan等人发布的论文,随着模型参数增加,大模型训练需要的总浮点数与GPU数量呈现正
4、相关的线性关系。175B参数量级的大模型所需的A100级别芯片数量为1024片(Token数为300B,训练34天情况下)。当参数增长到IT时,大模型训练所需的A100芯片数量为3072片(TOken数为450B,i)练84天情况下)。加大成本投入,海外大模型训练周期有望进一步缩短。从2020年6月OPenAl发布首个千亿参数量级大模型GPT-3到2021年1月谷歌推出首个万亿参数量级的SwitchTranSformer模型,大模型实现参数量级从千亿到万亿的跨越只用了不到一年。随着海外大厂商加大对大模型训练的成本投入,预计大模型发布周期将进一步缩短。在商业逻辑上,大模型发布数量指数型增长,意味
5、着市场竞争越来越激烈。厂商更愿意通过使用高性能的芯片缩短大模型训练时间,使大模型更早投入应用为公司带来业务增长。因此,芯片性能的提高并不会削弱厂商对芯片数量的需求意愿。1.1.2 国内大模型的发展数量增长情况与海外类似,短期内呈现密集发布的特点。自2019年至2023年7月底,国内累计发布130个大模型,2023年17月国内共有64个大模型发布,大模型发布数量呈现加速增长趋势。数量增长趋势与海外情况一致,我国大模型研发起步较晚,随着在大模型领域布局的厂商数量快速增加,大模型发布周期逐步缩短,预期未来两到三年内国产大模型数量将呈现爆发式增长局面。图3:国内大模型发布数量巨头引领,千亿级参数规模大
6、模型陆续落地。2023年3月,百度发布文心一言1.0;同年4月,阿里发布通义千问大模型、商汤科技发布日日新大模型体系;同年5月,科大讯飞发布星火大模型;同年7月,华为发布面向行业的盘古大模型3.0,千亿级参数规模大模型密集发布。2023年10月,随着百度发布万亿级参数大模型文心一言4.0,国产大模型或将具备对标GPT-4性能的能力。按类型划分,大模型分为行业大模型和通用大模型。据赛迪顾问于2023年7月统计的数据显示,我国通用大模型和行业大模型占比分别为40%和60%o行业大模型分布较多的领域为商业(14个)、金融(13个)、医疗(10个)、工业(7个)、教育(6个)和科研(6个)。研究显示,
7、通用大模型在行业领域及行业细分场景的表现一般。但行业模型可以在通用模型的基础上通过行业数据库进一步训练出来。大模型应用向细分场景下沉。华为发布的盘古大模型实际分为LO(基础大模型)L1(行业大模型)L2(场景模型)三个层级。采取5+N+X模式,即5个基础大模型、N个行业大模型和X个细分场景应用模型。目前行业模型主要应用于矿山、政务、气象、汽车、医学、数字人和研发共七大领域,覆盖14个细分场景。这种通过基础大模型+行业大模型实现大模型商业化落地的模式已经逐渐得到验证,未来行业大模型有望带动大模型本地化部署热潮,在解决行业长尾问题上将发挥更大优势并成为打通大模型“最后一公里”的桥梁。1.2 国产大
8、模型Al算力需求测算大模型算力需求测算方法:根据2023年8月腾讯公布的大模型算力评估通用方法,在大模型训练过程中,训练侧算力需求可量化表达为:训练所需浮点运算量(FLOPS)=6STrainingTokens若训练中使用激活重计算技术,则对应算力需求可量化表达为:训练所需浮点运算量(FLOPS)=8参数量XTrainingTOkenS同时,在大模型推理过程中的算力需求可量化表达为:推理侧所需浮点运算量(FLOPs)=2参数量XPromptTokens由于激活重计算技术是可选的,因此假设在训练中没有选择使用激活重计算技术,按照以上计算方法可得:训练GPT-3量级的大模型算力需求估算为3.15E
9、+23FLOPS;训练GPT-4量级的大模型算力估算为2.15E+25FLOPs,由于GPT-4采用了混合专家(MoE)模型,实际训练调用参数量按约2770亿计算。1.2.1 通用大模型Al算力需求测算训练侧:2023年10月,百度发布文心一言4.0大模型。据百度公开的信息,该大模型在综合水平上可以对标GPT-4o乐观预期下,2023年内,国内头部互联网厂商中,百度能够训练出GPT-4量级的大模型。且假设阿里、腾讯、字节跳动、商汤、科大讯飞、浪潮、华为这7家厂商能够训练出GPT-3量级的大模型。参考2023年上半年国产大模型发布数量情况,预估到2023年年底,国内大模型发布数量可达约200个,
10、年内新增约134个,其中通用大模型新增约80个。除头部大厂商外,其他厂商和科研机构发布的通用大模型数量估计为72个,参数在百亿至千亿之间,保守估计平均参数量级为500亿。由此计算,2023年年内国产通用大模型训练侧算力需求为3.03E+25FLOPSo推理侧:推理侧的算力需求需要在用户的访问峰值情境下计算。通常情况下,访问时间中,80%的访问量都集中在20%的访问时间里。以GPT-4为基准,按日访问量2亿(次),每个用户占用Tokens数80计算,单模型推理算力需求为4.10E+17FLOPSo以GPT-3为基准,按日访问量1亿(次),每个用户占用Tokens数80计算,单模型推理算力需求为1
11、.30E+17FLOPs以500亿参数大模型为基准,按日访问量5000万(次),每个用户占用Tokens数80计算,单模型推理算力需求为1.85E+16FLOPSo结合各参数基准下的大模型数量,2023年国产通用大模型推理侧算力需求预估为2.65E+18FLOPSo表3:2023年国产通用大模型推理侧算力需求测算大模型量皴单模算力需求(FLOP8)数量个)各量级大模型算力需求(FLOPs)GPT-4量级,4.10E+1714.10E17GPT-3lit1.30E1779.07E+17其他量煤1.85E*16721.33E*18推理制总算力需求(FLOPs)2.65E18资料来源:华龙证券研究所
12、由此,2023年国产通用大模型训练和推理侧的算力需求总和为3.03E+25FLOPSo1.2.2 行业大模型Al算力需求测算我国垂类大模型主要分布在遥感、生物制药、气象、轨道交通、代码生成/编辑、金融等领域。未来垂类大模型数量有望随着其在各行业细分场景的渗透上升而加速增长。华为已经在算力和软硬件方面,为多个国产垂类大模型的训练提供支持。在医疗方面,华为和医渡科技于2023年9月在华为全联接大会上联合发布医疗垂类领域大模型训推一体机。该一体机由昇腾Al提供算力支持,内置医渡科技研发的医疗垂类大模型,目标是帮助医院、机构等医疗场所实现大模型私有化。在遥感方面,2022年8月,中科院推出了“空天灵眸
13、”遥感预训练大模型。该大模型基于华为昇腾Al澎湃算力和MindSpore训练而成,有望在中科星图的线下业务中,通过Al赋能公司的数字化产品。总结近年来国内大模型商业化落地的过程和效果可以得出,商业化的一般路径为:厂商基于通用大模型训练行业垂类大模型,再通过定制化服务为企业提供所处行业的细分场景Al解决方案。从垂类大模型数量上看,截至2023年上半年,垂类大模型占国产大模型的40%,预计2023年新增量为54个。垂类大模型训练侧算力需求测算:2023年国内发布的垂类大模型参数量在百亿一千亿量级范围内,按平均500亿参数和5,000亿Tokens估算,训练侧总算力需求为8.1E+24FLOPS。垂
14、类大模型推理侧算力需求测算:按日访问量3000万(次),每个用户占用Tokens数80计算,2023年国产垂类大模型推理侧算力需求为6E+17FLOPso由此,2023年国内发布的垂类大模型训练侧和推理侧总算力需求为8.1E+24FLOPSo综上,根据我们对国产通用大模型和垂类大模型的算力需求测算,预计2023年国产大模型总算力需求为3.84E+25FLOPsoAl芯片需求大模型算力需求具象表现。据英伟达2023年5月的研究数据所示,训练GPT-3的GPU数量随着模型规模的增长而增加,同时GPU的利用效率从44%提升到了52%,说明GPU的利用率存在较大的限制。因此在大模型算力需求细化到GPU
15、数量需求上时,需考虑GPU在模型训练时的实际每秒浮点吞吐量。按44.8%的GPU利用率来计算(GPT-3训练用A100的实际利用率),A100在FP16精度下的算力约为140TFLOPSo随着模型参数量增加,GPU实际利用率会相应有所提升,因此以大模型训练周期60-90天、GPU效率50%计算,2023年国内大模型训练和推理一共约需要31,648-47,472块A100级别芯片。根据以上结论,结合芯片性能和深度学习时代的算力需求增速情况,2025年大模型带来的算力需求估算如下:芯片性能方面,按摩尔定律所述,芯片算力每18个月性能会提升一倍。根据OPenAl的测算,在深度学习快速发展的2012年
16、之后,训练大模型的算力需求约每3.4个月翻一倍。近年来,从2020年6月GPT-3发布到2023年3月GPT-4发布,大模型计算量增长约7倍。未来大模型计算量增速可能受限于成本和硬件效率,因此估计未来两年,即到2025年,训练大模型所需的算力需求增速范围约为5倍到133倍。对比摩尔定律中芯片算力的增速,训练大模型带来的算力需求增长速度预估远大于算力性能的增长速度。1.3 Al算力供给方面:高端芯片进口受限,国产替代为大势所趋1.3.1国际形势:美国进一步收紧芯片对华出口标准2023年10月180,美国发布新禁令提出对高端芯片出口限制标准,从原来对单芯片算力UTP)的关注向“性能密度阈值”(PD
17、)转移,首次提出对小型高性能芯片的出口限制。意在防范Chiplet技术对芯片性能利用率的提升效果。1.3.1 Al芯片国产化替代智算规模计划稳步提升,以长足发展为目标。根据10月8日,工业和信息化部等六部门联合印发的算力基础设施高质量发展行动计划,我国算力发展的主要目标是:到2023年,智算规模达到5.5E+19FLOPSo到2025年,算力规模超过300EFLOPS,智能算力占比达到35%,将超过1.05E+20FLOPS。按照计划指标,国内智算供给与实际需求差距较大。国产Al芯片短期看好华为,长期关注各厂商研发进度。按本次美国禁售芯片的性能标准,市面上主流国产芯片中只有少数能够对标美国禁售
18、的A100/A800等芯片。国产芯片替代化道路还处于起步阶段,距离在大模型训练中大规模使用仍有一段距离。一方面,在芯片IP设计之后,厂商需要根据芯片在大规模生态中应用的实际效果对算子做出调整,不断做出优化以使芯片达到实际应用级别。另一方面,在芯片量产的过程中还需考虑芯片代工厂商的制造工艺、交货周期和定价等等。目前华为发布的昇腾910与英伟达A100/A800性能较为接近,且经过大模型自用和调整,已经具备了大规模商业化应用的条件。截至2023年5月,基于昇腾算力的华为昇腾Al基础软硬件平台已孵化和适配了30多个主流大模型。随着更多国内厂商宣布进入芯片自研领域和发布自研芯片,如百度、腾讯等,未来将
19、持续看好国产芯片领域。1.3.2 Al芯片产能:台积电产能复苏伴随订单激增,供不应求情况仍将持续短期内台积电的芯片制造工艺难有替代。目前台积电依靠2.5D、3D等适用于高端芯片的先进封装技术,在芯片制造行业仍然处于垄断地位。其他代工厂商,如三星、格芯等,所占市场份额较少。为提高良率、降低成本、提高芯片制造的精度,目前各芯片IP厂商在芯片量产环节广泛依赖台积电。台积电产能复苏,同时英伟达等大客户订单激增。2023年10月,台积电的产能利用率释放回暖信号,目前76nm产线利用率从40%恢复到60%,到年底预估可以达到70%。另外,54nm产线利用率为75-80%o预计台积电明年的COWOS(即2.
20、5D、3D封装技术)月产能将同比增长120%。与此同时,国外大厂商也在大量追加订单。在英伟达10月份确定扩大下单后,苹果、超威、博通、迈威尔等重量级客户近期也开始向台积电追单。加上国内四大厂商到2024年共计50亿美元的芯片订单,台积电大客户订单量全面激增。虽然在台积电在明年计划将7nm以下芯片代工定价提高3-6%,但英伟达、微软等大客户对定价接受度比较高,侧面表现出大厂商对台积电代工的依赖程度比较大。因此短期内订单量仍有保持增速的趋势,且考虑到台积电出货周期拉长以及产能恢复周期的情况,短期内可能出现大量订单积压的现象。2 AI算力租赁行业的内在价值具有大模型训练需求的厂商,按算力付费方式,可
21、分为自建算力的重资产模式和租赁算力的轻资产模式。2.1 Al算力租赁对下游公司:带来成本和时间优势对下游公司来说,在大模型训练方面,自建算力成本过高,且自建算力对设备的运维能力要求很高。这就意味着自建算力的公司除了支付购买硬件设备的高额成本之外还需要支付运维成本,组建运维团队以及付出额外的时间成本。目前市场上购买硬件设备及安装调试的时间过长(1-2年),过长的设备等待时间会导致大模型训练速度和数量落后于行业整体水平。另一方面,能够通过自建算力形成规模效应的大厂商较少,小型厂商既有算力需求又难以通过自建算力的方式形成规模效应。这类小型厂商的算力需求使拥有算力资源的公司从业务中分化出算力租赁这一新
22、的业务模式。2.2 对具备算力资源的公司:算力租赁可为公司带来第二业务增长线2.2.1 Al算力租赁成本回收周期测算算力租赁业务模式近年来在国外头部云厂商中已经得到验证。国内具备Al算力资源的公司可以分为三类。一类是传统云计算服务提供商,如三大运营商、阿里、腾讯等。一类是具备IDC建设运营能力的企业,如云赛智能、中科曙光(海光信息)、中贝通信等。以及跨界厂商,如恒润股份、莲花健康等。国内算力租赁目前的定价方式分为两种,一种按单台设备定价、一种按每P算力定价。国内市场上用于算力租赁的服务器主要有A100/A800/H800等型号。本报告中以英伟达H800服务器(8卡)为例测算短期算力租赁成本回收
23、周期。按恒润股份披露的采购公告,英伟达H800服务器的采购价格为228万元每台。每台服务器搭载8块GPU,算力约为16Po按鸿博股份2023年披露数据显示,该公司H系列服务器刊例价格为29.9万/月/台,与其他同行业同类型服务的租金基本持平,或价差浮动不超过5%o参考阿里云年租定价折扣(年租约5折),同时考虑到租金浮动因素,因此市场面上的租赁均价按12万元/P/年计算。表6:算力租贷行业成本回收周期测算(以H800服务器为租赁产品)机/现金流入/池由H800市场价(万元/台)228机贷设备投资能(万元)228算力(P)16极依价格(万p年)12租贷收入(万元)192人工/管理/销曾费用(万元)
24、22.80机柜板首费用(万元)2.98宽带费用(万元)1.20修理费用万元)1.1总费用(万元)38.38成本回收周期(月)16.70注:人工rSi理/侦普费用:按10%的投资联计算机柜租W费用:按一个机柜(平均6KW)功率,月租费用为9545元宽带费用:按为IOoo台服务器所用费用均林计算修理费用:按0.5%的投资计算3 AI算力未来发展方向增质提效3.1 以云网融合为前提,算力调度成为提高资源配置效率的核心算力资源紧缺使算力供给加速进入到共享时代。对有算力需求的公司,租用云端算力可以大幅度降低硬件成本,提高对成本的控制能力。另一方面,算力上云也为算力调度奠定了基础。有效的算力调度能够使算力
25、资源能够得到精准管理,分时复用,从而解决算力闲置问题。近两年,我国已着力在算力资源调度方面布局。2022年2月,我国“东数西算”工程正式启动,旨在通过构建数据中心、云计算、大数据一体化的新型算力网络体系,解决东西部算力供需不匹配的问题。2023年6月,全国一体化算力算网调度平台发布,该平台是我国首个实现多元异构算力调度的全国性平台,有望成为“东数西算”项目的有力助益。国内多家上市公司,如中兴通信、浪潮信息、中科曙光、商汤科技、思特奇等以不同的形式参与了该平台的建设。3.2 芯片数据传输效率:关注Chiplet技术和芯片互联技术3.2.1 Chiplet技术芯片性能提升存在物理极限,摩尔定律或将
26、失效。摩尔定律的核心内容为:集成电路上可以容纳的晶体管数目在大约每经过18个月到24个月便会增加一倍。换言之,处理器的性能大约每两年翻一倍,同时价格下降为之前的一半。但单集成电路的面积存在物理极限,不能无限容纳晶体管。近年来,摩尔定律中所预言的增速已经明显减慢。随着单芯片面积的缩小,芯片制造的难度和成本也大大提高。根据AMD在IEDM会议上的资料,若将生产250平方毫米的45nm芯片的生产成本定为基准1,1416nm芯片的成本将达到2,而生产7nm芯片的成本更将翻倍达到4o在此情况下,Chiplet技术有望降低芯片成本增速,也能够在突破单芯物理极限方面持续发挥作用。Chiplet技术是指通过把
27、不同芯片的能力模块化,利用新的设计、互连接口、封装等技术,在一个封装的产品中使用来自不同技术、不同制程甚至不同工厂的芯片。其优势在于通过缩小单个计算芯粒的面积,提高良率、降低成本、提高算力性能,也可满足定制化需求。Chiplet技术在国内已有显著发展成果。下游应用方面,寒武纪在2021年就已推出公司首款采用Chiplet技术的芯片思元370o芯片封测厂商中,长电科技、通富微电等已宣布掌握Chiplet技术。3.2.2 芯片互联技术芯片互联技术是Chiplet技术得以存续和发展的底层技术之一。2022年3月3日,英特尔、AMD、Arm、高通、台积电、三星、日月光、Google云、Meta.微软等
28、十大行业巨头联合成立了Chiplet标准联盟,正式推出了通用Chiplet高速互联标准“UniversalChipletInterConneCtEXPreSS(通用芯粒互连,简称“UCIe”),UCIe是PCIe的扩展,不但支持PCIe.CXL,还支持用户定制的RawModeo国内厂商中,芯片IP厂商芯原股份、封测厂商长电科技也加入了UCIe产业联盟。总体来说,建立广泛兼容的芯片互联标准,有利于形成良好的上下游生态,提高Chiplet的应用范围和技术提升的底层基础。国内芯片互联标准发展进程构建自有Chiplet标准。2023年1月13日,中国计算机互连技术联盟(CCITA)发布小芯片接口总线技
29、术要求。国内构建符合国内行业状况的自有芯片互联标准有利于加快芯片国产替代化速度,能够有效预防国际技术封锁,也为国产芯片行业从IP设计到封测的全产业链提供了价值增长点。4重点公司分析4.1 寒武纪U公司推出自研芯片思元系列,有望搭乘Al芯片国产替代化的东风。寒武纪现已推出基于思元290、思元270和思元370芯片的智能加速卡系列产品,Cambricon-IM和Cambricon-IH终端智能处理器IP以及基于思元220芯片的智能边缘计算模组。目前产品体系已覆盖云端、边缘端的智能芯片及其加速卡、终端智能处理器IP,实现云、边、端三大场景的布局。在公司推出的中高端Al芯片思元系列中,思元590芯片已
30、在百度文心一言大模型中投入使用,在一定程度上对标英伟达A100芯片,有望成为除华为昇腾910/920芯片外的A100国产替代芯片。图13:2020-2025年寒武纪归母净利润及增长率归母净利润(百万)增长率(%)4.2 中贝通信算力租赁业务为公司带来第二业务增量,业务利润率有望持续提升。中贝通信在2023年8月份发布公告,拟投资建设中贝通信合肥智算中心项目,计划总投资金额约8.5亿元。中贝通信合肥智算中心建成后拟提供算力租赁服务,为Al企业提供人工智能模型训练和推理等服务。截至2023年11月15日,公司已公告签订的算力服务合同金额总计约合人民币67,160万元。中贝通信在算力租赁业务上布局较
31、早,有比较大的先发优势。2023年11月,中贝通信在关于签订算力服务框架合同的公告中披露,12个月租期下算力租赁定价为18万元/P/年,租赁容量为1920P,共计提供128套高性能算力一体机柜,单机柜提供算力不低于15Po合同涉及金额共计34,560万元。H800服务器(8卡GPU)单台约提供16P算力,因此按租赁用算力设备为H800服务器测算租赁回收周期。参考H800服务器市场价约228万元/台,该合同涉及的设备投入总额约为29,184万元。若折旧年限按五年计算,参照前文公式,中贝通信在该合同中的算力租赁业务成本回收周期约为11个月,低于按市场定价测算的成本回收周期。且中贝通信的算力租赁业务有涨价趋势,业务利润有进一步增长空间。