《2023新一代人工智能基础设施白皮书.docx》由会员分享,可在线阅读,更多相关《2023新一代人工智能基础设施白皮书.docx(65页珍藏版)》请在课桌文档上搜索。
1、算黑黑?ICPA鬟智算联盟S鲍|。0梯更新一代人工智能基础设施白皮书中国智能算力产业联盟人工智能算力产业生态联盟商汤科技智能产业研究院编委会指导单位中国信息通信研究院云计算与大数据研究所、中国科学院计算技术研究所、中国智能算力产业联盟、人工智能算力产业生态联盟指导委员会何宝宏中国信息通信研究院云计算与大数据研究所所长张云泉中国科学院计算技术研究所研究员安静中国智能算力产业联盟秘书长杨帆商汤科技联合创始人、大装置事业群总裁陈宇恒商汤科技联合创始人、大装置事业群副总裁鸣谢王婉秋、李兆松、成功、杨松、宾佳丽、孙振邦、苏立宇、刘武、贾海刚、刘雅靖、代继、何聪辉、曹阳、张雯、许伟军、杨学燕、蒋慧、王进、
2、谭覃、何茜、刘沛、张琛编写组王月中国信息通信研究院云计算与大数据研究所数据中心部副主任周彩红中国信息通信研究院云计算与大数据研究所数据中心部工程师程大宁中国科学院计算技术研究所特别研究助理刘亮商汤科技智能产业研究院战略研究主任杨燕商汤科技智能产业研究院战略研究主任田丰商汤科技智能产业研究院院长“商汤成立之初,我们认为Al产业在未来一定会形成分化。在分化的过程中,整个Al基础设施上的各个要素,以一种更加高效、低成本的方式,被提供给更多的人使用,从而降低Al基础设施的构建成本和使用门槛。”杨帆,商汤联合创始人、大装置事业群总裁目录关键发现6导语:AI新基建开启“三浪变革”8一、大模型、生成式AI推
3、动AI2.O时代到来121 .生成式Al推进产业规模化,Al无处不在愿景加速实现132 .产业链成熟分化,基础设施成为Al产业发展基座和保障16二、AI20时代对Al基础设施提出了全新要求19L传统计算基础设施无法满足大模型、生成式Al的新要求193 .数据质量和效率决定大模型的高质量发展之路224 .大模型需要全新的Al平台服务模式23三、新一代Al基础设施的定义、特点和价值251 .新一代Al基础设施的主要特点272 .新一代Al基础设施创造社会价值293 .新一代Al基础设施赋能企业享受生成式Al红利31四、新一代AI基础设施厂商格局与评估331 .云计算、Al原生、硬件系统三类厂商塑造
4、市场格局332 .评估体系:产品能力、战略愿景与市场生态363 .商汤科技评估结果:新一代Al基础设施市场领导者394 .SenseCore商汤大装置技术发展优势415 .SenseCore商汤大装置业务布局优势45五、新一代Al基础设施实践案例481 .大模型训练482 .生成式Al应用513 .Al专家服务544 .智算中心建设与运营55六、建议59结语:新一代人工智能基础设施的“经济规律”61关键发现1 .2023年是人工智能产业发展的分水岭,以大模型、生成式AI为发展里程碑的技术革新,推动着人工智能发展进入全新的20时代,人工智能由之前点状、创新应用,逐步规模化发展赋能企业业务流程各个
5、环节,并逐步向产业深水区发展,推动产业链分化成熟,需要全新的基础设施来实现更好的支撑。2 .大模型和生成式的发展对算力、算法平台、数据提出全新要求,传统以CPU为中心的云计算基础设施已无法满足。不仅需要大规模、高性能、高稳定性算力资源,智能化数据管理流程,以及高效普惠Al开发平台;还要打造体系化工程系统保证基础设施面向大模型训练、生成式Al应用落地的新目标。3 .ModelasaService(MaaS)成为新一代Al基础设施的核心,其本质是通过云服务向开发者和企业提供更高效的大模型服务。MaaS加速了AI应用部署的周期,提升了创新的迭代速度,降低了企业应用大模型服务的多方面成本,推动了AI与
6、各行业的深度整合。通过纳入开源和闭源大模型,MaaS还助力于构建成熟的生态系统,促进生成式Al应用的规模化落地。4 .新一代AI基础设施不是传统云的Al化,两者具有明显定位和发展路径的差别。新一代Al基础设施主要面向产业用户,为大模型训练、区域行业及应用孵化创新提供Al基座。新一代Al基础设施跟随产业布局,采用“大中心+节点”模式,构建起覆盖整个区域的算力网络,并通过建(设)运(营)联动促进区域经济的一体化和智能化发展。5 .新一代Al基础设施为政务服务、产业升级和科研创新等领域带来了前所未有的社会价值。将原本分散、碎片化的政务应用,通过“一模通办”为政务服务提质增效。将加快推进传统产业上下游
7、各个环节的智能化转型,催生新业态、新模式的不断涌现。加速科学实验的自动化和智能化,激发人工智能驱动科学研究(AIforScience)的新范式。6 .本白皮书提出业界首个“新一代人工智能基础设施评估体系”,通过产品技术、战略愿景、市场生态三大维度、十二个评估指标,对Al基础设施厂商进行定性和定量的全面评估。SenSeCore商汤大装置,成为市场领导者,在各个评估指标的得分超过厂商平均分,并在市场响应、市场认知、产品战略、工程化建设四个评估指标拿到满分。7 .SenseCore商汤大装置在产品服务能力呈现出较强的产品实力和技术积累,不仅超前布局了算力基础设施,还通过布局MaaS平台,在自身大模型
8、业务的加持下,形成了整套AI基础设施产品架构,满足客户大模型训练、生成式Al应用的大规模落地需求。8 .新一代人工智能基础设施将会通过支持大模型的爆发式发展,带来知识工程的生产力变革,重构软件生态,颠覆原有数字经济霸主,并随着本身的技术革新和突破,实现边际成本持续下降,边际效益持续增长等特征,进而实现AI算力成本的持续下降,真正带来普惠Io导语:Al新基建开启“三浪变革”第一浪是“知识生产力变革”,大模型是知识工程的生产力变革,天然具有跨领域知识的连接性。上一次知识革命是11世纪的毕昇发明的泥活字印刷术、15世纪的古登堡发明的铅活字印刷术,让人类千年历史中积累的庞大知识工程通过印刷书籍形式推广
9、传承,知识从手工抄写到活字印刷速度提升了118倍,自此浩瀚的知识源源不断地从印刷作坊以令人惊叹的速度向全球传播,堪称中世纪的“知识互联网”。在比尔盖茨的未来之路中提到,在谷登堡印刷革命之前,整个欧洲大陆大约只有3万册书,几乎都是圣经或圣经评注性著作,而到了1500年,各类题材的图书猛增到900多万册。各种传单和其他印刷物影响了政府、宗教、科学以及文学。宗教精英圈子以外的人士第一次有机会接触到书面信息。据多方研究数据表明,大型语言模型显著提高知识学习速度、知识检索速度、知识传播速度、知识推荐准确性,具有跨语言、跨学科领域、跨信源的独特优势。在人机协同模式下,大型语言模型将人类科学论文的阅读时间缩
10、短40%,知识搜索时间缩短20%,而这仅仅是ChatGPT出现一周年的“起点”,鉴于大型语言模型远超人类的超高速学习能力,预计将在2026年学习完所有人类历史上的高质量文本数据人类的知识革命大幕刚刚开启,高新科研、三大类产业、公共服务的知识型工作范式正在遵循“计算-数据-模型-服务”链条重构。第二浪是“软件变革”,每次软件大革新,都会诞生新的超级平台,颠覆原数字经济霸主,从WindoWs、APPStOre到GPTS都不例外,当前智能编程助手改变代码生产流程,大语言模型成为新一代AGl服务入口、软件调度枢纽。,Ep。ChAlReSearCh研究机构预测.大模型对数据的需求正在飞速增加.人类历史上
11、可用于训练的高质量文本将在2026年“耗尽”。20世纪90年代,未来学家雷喀韦尔发现指数级发展的规律:“一旦技术变得数字化,即被编辑为。和1表示的计算机代码,它就能够脱离摩尔定律的舒服,开始呈指数级加速发展。”所以数字经济中每一代超级平台企业都是软件创新型企业。中国程序员人数位居全球第二,世界上最好的开发语言应是中文,例如商汤科技发布的“代码小浣熊”RaCCOOn智能编程助手,覆盖软件需求分析、架构设计、代码编写、软件测试等环节,支持中文、英文注释生成代码、跨编程语言翻译、单元测试用力生成、代码修正(改BUg)、代码重构、编程技术知识问答,在PythOn、JavasC、C+、Go、SQL等30
12、多种主流编程语言,以及VSCode、InteniJIDEA等主流集成开发环境(IED)上,提升开发者编程效率超过50%,并在以71%的一次通过率刷新HUmanEVal测试集成绩(GPT-4-次通过率67%)。从此人类程序员将80%的代码量交由语言大模型编写,人类开发专家的时间和精力逐步转移到更具创新性和高价值的工作中,商汤称其为软件20时代的“新二八定律(见图1)。另一方面,多篇权威论文显示,大型语言模型能够面对复杂任务,灵活自动实现多软件串行、多模型协同组合,例如AlAgentxMoE架构(Mixture-Of-Experts)、综合型智能客服、GitHubCopilot,能在日常使用中跨模
13、型共享成果、快速学习迭代、增强安全性与伦理性保障。在庞大Al算力规模、训练数据集基础上,新一代Al原生软件应用,导致“传统软件智能化,智能软件枢纽化”全面普及,尤其是那些能满足目前还难以预知需求的新工具,新一代青少年将在新兴AI软件与MaaS模型化创新思维逻辑上成长起来,并将新型生产力软件带入办公室与家庭。图1:大语言模型智能编程助手,赋能软件开发提效降本软件开发全生命周期需求分析架构设计代码编写软件测试部署上线系统维沪子流程需求哪技术架构IwRS随海需求规格设计用户界面侬岭模块镰睇较现单很依代码评审版本管理敏构建环境准备三iiCI结果两(用户以Jll模型能力多轮对话注释生弋码卜全代码重构(t
14、Bi?代码生成琥注释生成代招代码林全生成涌试用例多轮对话注释生成代码 代码!卜全 生底8试用例 长文本理解 多轮对话 情感分析多轮对话情思分析第三浪是“AI计算变革”,在大型语言模型的SCaIingLaW(规模定律)指数级算力需求,与线性增长的区域基建投入矛盾下,Al算力基础设施将迎来大量技术工程创新,持续降本增效,普惠优势让Al真正成为赋能千行百业的通用型基础设施,同时“百模大战”变为Al产业专业化分工。据AlNoW计算能力和人工智能报告指出,早期Al模型算力需求是每21.3个月翻一番,而2010年深度学习后(小模型时代),模型对Al算力需求缩短至5.7个月翻一番,而2023年,大模型需要的
15、Al算力需求每1-2个月就翻一番,摩尔定律的增速显著落后于社会对AI算力的指数级需求增长速度,即“AI超级需求曲线”遥遥领先传统架构的Al算力供给,带来了Al芯片产能瓶颈、涨价等短期市场现象。CSET(CenterforSecurityandEmergingTechnology)在AIandCompute报告中预测:“在计算价格没有任何变化的情况下,尖端模型成本预计将在2026年6-11月超过美国GDP(见图2)。”未来学家雷库兹韦尔认为,从1890年到现在,人类计算设备的(单位时间)的运算能力一直在成倍增强,每当一项指数型技术(例如符合摩尔定律的芯片技术)的实用性达到极限时,就会有另一项技术
16、取而代之。所以,针对大模型高昂的训练成本、有限的GPU供应量、芯片间通讯瓶颈的核心挑战,各国均采用大规模智能基建资源投入,并在Al芯片、智能算力集群、大模型架构、专用模型加速等技术栈环节创新突破,相信在未来3年通过一系列基础设施的技术革新,持续降低Al计算整体成本(采购、建设与运营),释放出各行各业的生成智能全民应用创新能力,尤其是推理算力成本下降,对中国AI20的大市场、大用户量至关重要。同水电煤等平价公共服务一样,人人用得起Al算力,人人训得起Al数据,人人做得好AI模型。图2:大模型算力的成本压力(来源:CSET)-pusUm sP=Oa Jo SUO=-QLNote:Theblueli
17、nerepresentsgrowingcostsassumingcomputeperdollardoubleseveryfouryears,witherrorshadingrepresentingnochangeincomputecostsoradoublingtimeasfastaseverytwoyears.TheredlinerepresentsexpectedGDPatagrowthof3percentperyearfrom2019levelswitherrorshadingrepresentinggrowthbetween2and5percent.一、大模型、生成式Al推动AI2.O
18、时代到来2023年是人工智能发展的分水岭,大模型、生成式Al的发展带动了人工智能领域的范式转换,AI20时代已经来临。在此之前,人工智能通过模式检测或遵循规则来帮助分析数据和做出预测,更像是一种“分类器”,而AI20时代则开启了新阶段:基于大模型的生成式AIo生成式AI可以通过数据训练进而模仿人类的创造过程,将人工智能从传统的“分类器”进化成“生成器”。这样本质上的变化,让Al发展到了一个全新的时代(见图3)CGartnerOJ,到2027年,高速增长的生成式Al将会贡献全球人工智能支出的42%,规模将超过1800亿美元,2023年到2027年的复合增长率高达169.7% wForecast
19、Analysis: Artificial Intelligence Services, 2023-2027, Worldwidew, Gartner, October 2023j Top Strategic Technology Trends for 2024: Gartner; October 2023o另外,作为生成式Al发展的基础,大模型也在高速发展。IDC数据显示,截止2023年11月底,中国市场发布的大模型已经超过300个。生成式Al的颠覆性潜能得到越来越多的企业认可,企业不再追问何为生成式AL而是希望了解生成式Al的投入能带来哪些具体业务价值。Gartner预测,到2026年,超过
20、80%的企业将使用生成式Al的APl或模型,或在生产环境中部署支持生成式Al的应用,而在2023年初这一比例不到5炉。技术变革带动场景拓展,生成式Al正在从热烈讨论走向应用落地,其价值创造潜力极为惊人,麦肯锡预测,生成式Al有望为全球经济贡献约7万亿美元的价值,并将AI的总体经济效益提高50%左右;中国则有望贡献其中约2万亿美元,将近全球总量的l3生成式AI在中国:2万亿美元的经济价值,麦肯锡,2023年9月o图3:生成式AI驱动AI市场规模化发展,并带来全新经济效益(来源:Gartnerx麦肯锡、IDC)300+中国市场大模型数量,202380%+企业将会使用生成式AL20261 .生成式A
21、l推进产业规模化,Al无处不在愿景加速实现生成式Al呈爆炸式增长,使Al由之前的点状、创新应用,逐步开始在业务流程的各个环节应用部署,企业在积极探索相关价值,以期增强自身业务的竞争优势。麦肯锡调研显示,已有1/3的企业受访者表示,其所在组织会在至少一项业务职能中经常使用生成式Al应用(见图4)。企业通过以下一系列举措,不断推动AI无处不在的愿景实现:加强生成式Al领域的投资,应用部署获得持续动力。自从ChatGPT发布以来,企业在ICT领域的投资发生了调整与变化,为了更好的跟上此轮技术变革所带来的潜在红利,企业将更多的ICT预算投入到生成式Al领域,并将会从中获得客观的收益。IDC调研显示,已
22、有24%的中国企业在生成式Al上投入资金,69%企业正筛选潜在应用场景或开始测试和概念验证,到2026年,中国40%的企业将掌握生成式Al的使用,共同开发数字产品和服务,从而实现与竞争对手相比两倍的收入增长。改变现有AI战略,驱动生成式Al覆盖公司业务全流程。企业组织正在改变自身的人工智能战略,围绕人工智能战略的愿景、路线图、用例、治理、以及相应的人才都发生了全面的变化。AILO时代,企业组织在制定一个典型的人工智能战略更多考虑的是一个长远的规划,并且碎片化的布局,这些随着AI20时代生成式Al爆发增长所带来的日新月异而发生彻底改变,短期目标、快速行动并逐渐覆盖关键业务成为人工智能战略的新内核
23、,更关键的转变则是用例方面,从之前的预测分析、自动化应用场景,转向内容生成和创造。同时,由于生成式Al将会成为不可或缺的生产力工具,培训每个员工如何负责任地使用生成式Al工具也成为重点(见图5)。拥抱生成式AI,促使Al与员工实现协同创新。生成式Al扩大了人类的专业知识、创造力和知识范围,提高了人类工作的效率。更关键的是,生成式Al使得新洞察、新模式、新能力的创造变得更为清晰,创新的本质是可能性的不断组合,确定最有前景的组合项后,对其进行改进直到实现。人类团队只能探索创新解决方案的一小部分,而生成式AI可以帮助人类能够利用更多变量在短时间内探索更多解决方案可能性,并且能够以最小化成本撬动更多价
24、值的产出。Gartner预测,到2026年,将会有超过1亿人将与“机器人同事(合成虚拟同事)”协同工作I“TheFutureofAl:ReshapingSociety”,Gartner,July2023图4:各地区、行业和资历级别的受访者表示,他们已经在使用生成式AI(来源:麦肯锡)在工作中经常使用在工作之外经常使用没有接做过在工作中和工作之外经常使用至少叁试过一次不知道校办公地点正太Hna13发展中市场9343欧洲MH6大中华区911TIB46143北美638wrm13按行业先选制造业Ina5商业、法律和专业服务7|1621-2消费品/零售能沃和材料3Hi503金融服务MiMOl4健康、制药
25、和医疗产品44HBB7科技、媒体和电信93按职位企业领导16MMMB-2高级管理层!14153中级管理层4按年龄1964年或更早出生130HBH9出生于19657980年7|18173出生于19817996年TF22113捺性别男性164女性12463图5:Al2.0时代,企业需要重新制定AI战略愿景原有的Al战略升级的Al战略Al自动执行任务生成式Al增强员工能力皿路线图3年展望,商业创新1年展望,关键业务应用预测性分析生成内容(文本、音视频、代码)击治理碎片化或作为整体IT治理的组成部分明确商业责任,且建立站门的Al治理团队%人才Al卓越中心教育所有员工负责任的使用生成式Al2 .产业链成
26、熟分化,基础设施成为Al产业发展基座和保障企业积极拥抱大模型、生成式Al的态度,加速了Al应用逐步向产业深水区发展,面临千变万化的业务需求和标准,为了更好的应对不同的业务诉求,AI产业链将会一步成熟分化,上下游的产业角色和环节不断增多,开始需要全新的基础设施来实现更好的支撑,其带来的影响如下:智能算力成为AI产业发展的关键支撑要素。大模型训练趋势企业将更多地使用Al就绪的数据中心设施或GPU集群,从而缩短部署时间,降低设施的长期投资成本。适合大模型训练的智能算力已经成为算力增长的主要动力。IDC预测,2022年中国智能算力规模达259.9EFLoPS,2023年将达到414.1EFLOPS1预
27、计到2027年将达到1117.4EFLOPS(见图6)o2022-2027年期间,中国智能算力规模年复合增长率达33.9%,同期通用算力规模年复合增长率为16.6%人工智能生产范式转向以大模型为核心的开发路径。在AILO时代,Al应用的开发处于“精耕细作”的阶段,开发人员基于场景化的数据集用明确的代码去表达程序执行的逻辑,并不断基于业务发展而进行迭代,而随着业务场景从通用场景发展到长尾、碎片场景,该模式则逐渐显现出开发成本高,精确度不佳等一系列挑战,在某种程度上,反而限制了Al产业的进一步发展。而在AI20时代,在基模型+人工反馈的强化学习相结合的加持下,人工智能应用的开发进入“规模化”阶段,
28、体现出“大力出奇迹”的特色。面向业务逻辑对基模型进行微调,辅助提示词工程来开发相应的生成式Al应用,进而更快速、低成本、高精度的覆盖更多业务场景,这使得Al产业进中国人工智能计算力发展评估报告,2023-2024),IDC12023年12月入了一个高速发展且无处不在的全新时代(见图7)。作为新的生产力工具,生成式Al应用发展进入大航海时代。伴随基模型的高速成熟化发展,生成式Al应用也迎来爆发式增长(见图8)。最早,以ChatGPTxMiCljoUrney为代表的文生文、文生图应用推向市场并获得高速增长的用户群体。随后,音频生成、视频生成、多模态生成类的应用,以及面向不同行业领域或用户群体的工具
29、类应用,如代码生成、Copilot.数字人、营销工具、聊天助手等,不断推向市场。2023年11月,OPenAl推出GPTS并计划打造GPTStore,让用户无需代码,结合自己的指令、外部知识和能力创建自定义版本的应用,这种客制化的模式和清晰的商业化模式,让生成式Al应用的开发主体由数量不多的Al厂商走向海量AI开发者7图6:中国智能算力规模及预测,2020-2027,基于FP16计算,EFLOPS(来源:IDC)IntroducingGPTsw,OpenAI,November2023图7:Al2.0时代,人工智能的生产范式发生了根本性改变模型迭代云基础设施手工标注Al+高性能计其十大数据“Al
30、 2.0”规模化Ai.y一精耕细作图8:AI2.0时代,人工智能产业迎来更加繁荣的“大航海时代”(来源:IDC)GiI与Hf假跖业务影啕应用“景案例关活动负CiMAI政策 园针险体茶霍梅培”与技能重相AI任与Xl督二、AI2.O时代对Al基础设施提出了全新要求进入AI20时代,传统针对移动互联时代应用、以CPU为中心的云计算基础设施,无法满足大模型训练、生成式Al应用爆发所带来的挑战,这些新的挑战对Al基础设施的关键环节都提出了全新的要求,包括算力、算法平台、数据,以及围绕三个环节的工程系统建设。1.传统计算基础设施无法满足大模型、生成式Al的新要求大模型训练、生成式Al应用不仅对GPU或异构
31、计算的需求大幅增加,传统CPlJ算力已经无法满足;还对GPl集群的计算效率、稳定性等方面的提出诸多要求,算力不是一个简单的堆砌,而是要转为大模型而优化的复杂的系统性工程,再加上巨大的投资,如何保持稳定性和高效率也成为关键,展开来看:以GPU为核心的Al算力需求爆发性增长。以OPenAl为例训练一次1750亿参数的GPT-3模型大概需要的算力约为3640PFlops-day,共使用了1024块AIoO(GPU)训练34天。随着模型参数量不断升级,Al算力需求也在持续递增。过去四年,大模型参数量以年均400%复合增长,Al算力需求增长也超过15万倍,远超摩尔定律8。例如,GPT-4参数量大约是GP
32、T-3的500倍,用了约2万-3万张A100,训练1个月左右的时间。除大模型训练外,随着生成式Al应用爆发,高并发推理也将进一步推高算力需求,未来或将远远超过训练阶段的算力当量(见图9)。高性能和高效率成为算力基础设施的关键。为了更好支持大模型训练,多机多卡组成大集群分布式训练成为必选。但大集群不等于大算力,在分布式训WOT全球技术创新大会:创新不止,实战为王,东方财富网,2023年6月练下集群中由于网络通信或数据缓存等问题都会造成大模型训练效率降低。例如,一般千亿、万亿参数规模的大模型,训练过程中通信时间占比最高可达50娟。如果通信互联不好,会影响大模型训练效率,也会限制算力集群的进一步扩展
33、,这就要求集群具备高速互联的网络连接。并行训练要求网络基础设施具备高度可靠,一条链路的负载不均导致网络堵塞,就会成为系统短板,影响到数十个甚至全部GPU节点信息同步(见图10)o此外,大模型训练过程中会通过CheCkPoinl来保存模型参数(权重),进而实现大模型训练的连续性。但是,传统训练方式下当模型参数量大时,Checkpoint写入时间会变久,导致导致GPU利用率降低。例如,1750亿参数的GPT-3模型,假设文件系统写入速度为15GBst完成一次CheCkPoint需要25分钟,也就相应造成25分钟的资源浪费。因此,支撑大模型训练的算力资源,不仅需要在集群硬件层面提升,还需要结合软件层
34、面进行优化设计。独占式、大规模、长时间训练对GPlJ集群稳定性提出更高要求。大模型训练需要长时间占据规模庞大的GPl集群,这导致单个节点发生故障就使得整个训练中断,且故障原因和位置难以迅速界定。以Meta的OPT-17B训练为例,理论上在LOoo个80GAlOo上训练3,000亿个单词,需要33天,而实际训练却用了90天,期间出现了112次故障,其中主要是硬件故障,导致手动重启35次,自动重启约70次节点故障不仅造成训练时间被拉长,也对算力资源带来了巨大浪费。因此,集群训练稳定性非常重要,对集群建设提出更高要求。例如,集群是否具备故障实时监测、断点续训、故障节点自动隔离等能力,以及在故障发生时
35、能否快速定位、迅速恢复等。大模型需要大算力,但光靠GPU也不行,21世纪经济报道,2023年6月10如果没有Al算力,大模型这场战役我们可能胜不了.堂子位,2023年12月图9:Al算力需求呈指数级增长,用以满足大模型开发和实践(来源:Epoch)GPT-42.0E+25训懒所需算力(Flops)2.25E+252E+252.77E+10200,0,一,y,19571980198719891992199720122023训练集群规模2 .数据质量和效率决定大模型的高质量发展之路高质量数据决定大模型性能和价值观,对数据的获取、清洗、标注等工作带来了更大挑战,需要更高效的Al数据管理流程来匹配大模
36、型时代的新需求。而大模型的训练和应用过程还可能涉及用户隐私和敏感数据等,需要采取有效的数据治理手段来保障隐私和数据安全。构建性能强大和价值对齐的大模型,数据质量和效率是关键。不同来源数据质量参差不齐,存在重复、无效、虚假或敏感等数据,会直接影响模型性能及价值观。例如,训练数据固有偏见会导致模型产生偏见内容,需要对原始数据进行清洗、标注等预处理过程来保障数据质量和价值对齐。传统数据处理“作坊式”的工作模式,已无法满足大模型训练和迭代激增的“工业化”数据需求。一方面,训练大模型的预处理数据量大,一般可达到TB甚至PB级别,远多于传统数据规模;另一方面,频繁的模型迭代、再训练也需要加快增量数据的预处
37、理节奏。打造高效的“智能化数据处理流水线”成为关键,弥补传统重人力投入带来的高成本、低效率等问题。保障数据安全和用户隐私,需要更高效的数据治理手段。企业在使用生成式Al将会面临更加突出的用户隐私和数据安全问题。例如,企业开发人员使用AI代码辅助生成工具时,一般需要上传企业已有代码库,使大模型给出更精准的代码预测结果;企业营销人员上传过往的营销数据生成高质量的营销内容。这些上传的数据可能关系到用户隐私或涉及企业核心机密,如果保护不当或会造成严重的数据泄露,对用户造成不可逆损害。IDC全球2023年生成式Al市场调研数据显示,用户在选择Al软件供应商时,强大的数据安全性是最重要的参考指标之一。因此
38、,在大模型训练和交互时,如何将这些上传数据进行充分隔离、安全保护,这对数据治理提出了很高的要求。3 .大模型需要全新的Al平台服务模式大模型应用能够帮助企业更高效率的实现商业目标,但对于绝大多数企业而言,自研大模型成本高,且模型设计、训练、调优等环节对开发人员专业能力要求较高。MaaS(ModelasaService,大模型即服务)代表着一种全新的Al云服务范式,它将大模型作为Al基础设施的核心组成,以云服务方式提供给开发人员和企业进行更高效的工业化开发(见图11)。目前,包括微软、华为、百度、商汤等厂商均推出MaaS服务。MaaS降低了企业享受大模型、生成式Al红利的门槛,具体来看:MaaS
39、加快了Al应用开发过程,提高了创新迭代速度。MaaS平台将预训练好的大模型与开发工具、数据管理一系列等功能封装在一起供开发人员直接调用,大幅节省了企业从零自建大模型及训练调优所耗费的时间和精力,加快了AI开发和应用部署速度,使企业能够快速将AI功能引入到自身业务场景中,缩短了Al新产品、新服务、新模式的上线时间,也加快了创新迭代速度,提升了企业市场竞争力。MaaS降低了企业成本投入,推动AI与各行各业的深度融合。All.0时代,由于小模型的场景适用性低且开发成本、专业要求都很高,Al在传统行业的渗透率只有4%。大模型时代,基于“基础大模型+微调”,不仅大大提升了场景适用性,同时MaaS模式也使
40、得企业可以直接调用已训练好的大模型能力,这大大降低了企业Al开发成本和Al专业门槛,使得企业更愿意在内部更大范围的推进与业务相结合的Al创新,促进Al与行业的深度融合,行业AI应用的渗透率将全面提速。MaaS促进大模型生态体系建立,推动大模型应用规模化落地。MaaS模式有助于AI产业链的高效分工,其中一部分技术实力强和AI专家资源丰富的厂商成为MaaS主要提供者,将重心侧重在基础大模型能力,以及平台化工具和服务效率上的持续提升,并通过平台开放、开源社区等方式吸引更多的企业和开发者汇集,形成百花齐放的大模型应用开发生态,从而满足更大范围、更多细分场景的Al需求,推动应用规模化落地。图11:Maa
41、S平台帮助企业更好的调用大模型能力应用场景金融政务医疗智能投顾市场旗H智助客服便民咨询 奥情分析 政务办理智能问医学影像分析药物研发营销交通数字人直播 智能推荐智能出行规划Il区导览 智能客服 路况监测弼 MH智能出行服务传媒 智能剪病 创意文案 活动策划通用领域多轮对话个性化角色代码生成图像视频生成等三、新一代Al基础设施的定义、特点和价值AI2O时代需要新一代的基础设施来支撑大模型的训练与推理、生成式AI应用的规模化落地,其核心要素,如算力、数据服务、大模型服务都需精细化的设计和重构,而非简单的服务器或GPU实例的堆砌。新一代AI基础设施定义:以大模型能力输出为核心平台,集成算力资源、数据
42、服务和云服务,专门设计用于最大限度提升大模型和生成式AI应用的表现:数据准备与管理、大模型训练、推理、模型能力调用、生成式Al应用部署。企业通过新一代Al基础设施开发和运行生成式Al业务和客户应用程序,以及基模型和行业模型的训练与微调(见图12)。在落地实践中,厂商还会基于自身的经验积累,针对用户在训练和使用大模型时面临的Al技术问题,为用户提供围绕大模型开发实践的咨询类服务。图12:新一代AI基础设施主要由算力、MaaS及相关工具构成生成式Al应用生态企业业务应用场景MaaSAl应用开发和部署工具代 Al 基 础 设 施大模型生产与应用平台(模型构建、训瞰撤调、评估、推理部署等)可调用基础大
43、模型库(开源,闭源大模型)(赛、成期、 特、可视化隐柘 嘀咨询服务(+3l5w算力笠力基础设施(AI芯片、网络、存储、及工程化系统)算力基础设施,为大模型训练和推理提供全面的计算、存储等产品及服务,具有“大算力、高协同、强扩展”的基本特性:由高性能异构集群组成强大的算力底座作为算力支撑,具备高互联的计算网络、高性能的文件存储和大规模的AI算力资源。高度的软硬件系统协同为保障,护航大模型任务的高效、稳定运行。在建构硬件层面的算力集群过程中,融合大模型分布式训练对计算、网络、存储的需求特点,高度集成AI软件能力,充分关注数据传输、任务调度、并行优化、资源利用、故障监测等,设计和构建高性能、弹性灵活
44、、高容错的集群系统,保障训练和推理的高效、稳定运行。具备非常强的线性扩展能力,提供弹性灵活的云原生服务。将GPU等Al算力资源容器化、资源池化,在高弹性、高可用、高安全性的云原生架构下,使算力的管理能力拓展到整个智算中心,实现对Al计算资源的灵活调度、远程共享等目标,可以轻易支持万卡万参的大模型训练迭代。MaaS平台层为大模型应用落地提供完整的服务和工具链体系,包括基础大模型库、大模型生产平台、数据管理平台、应用程序开发等主要部分。针对不同用户需求,MaaS平台层可以提供不同服务类型:提供预构建的基础大模型及API,包括开源和闭源的大模型,允许用户调用API,直接获取大模型相关的能力和服务,降
45、低客户的使用成本,快速满足多个业务场景需求。提供一站式大模型开发工具及服务,包括模型训练、微调、评估、推理部署等,支持用户训练新的模型,或根据不同行业和业务场景进行微调,快速生成满足自身需求的专属大模型,强化大模型在细分领域的专项能力,推动大模型在不同行业领域的快速落地。提供Al原生应用开发工具,满足用户基于大模型开发Al原生应用需求,赋能和重塑上层AI应用生态发展,为终端用户提供更卓越的生成式AI体验。提供预构建的高质量数据集及AI数据管理服务,包括数据清洗、标注、安全、合规等,降低用户在数据层面上的投入和成本,保障隐私和数据安全。1 .新一代AI基础设施的主要特点新一代AI基础设施不是传统
46、云的Al化,两者具有明显定位和发展路径的差别(见图13)。新一代Al基础设施主要面向产业用户,为超大模型研发训练、区域行业及应用孵化创新提供Al基座,并跟随产业区域落地向周边辐射,通过可持续运营带动区域经济智能化发展。“建运一体”的智算中心充分发挥基础设施效益,支持区域智能化经济发展。智算中心不仅是新一代Al基础设施的物理载体,还是集公共算力服务、数据开放共享、智能生态建设和产业创新聚集四大功能于一体的综合服务平台。国家信息中心智能计算中心创新发展指南测算,在智算中心实现80国应用水平下,区域对智算中心的投资可带动Al核心产业增长293.4倍、带动相关产业增长约3642倍。因此,“建好”智算中心不是目的只有“用好”才能发挥效益。在建设规划阶段,需要以产业生态为导向,强调对区域产业、科研等应用场景的支撑,选择合理的建设和运营模式,进行集约化建设,并在建成后实现可持续运营,帮助当地更好的消化算力资源,以及促进智能产业生态发展和Al人才培养,发挥智算中心普惠高效的赋能效果。“大中心+节点”布局,建设跨地域互补、协同调度的超大规模Al算