《人工智能应用专题(4):国内AI大模型趋势探讨互联网大厂AI进程梳理正式版.docx》由会员分享,可在线阅读,更多相关《人工智能应用专题(4):国内AI大模型趋势探讨互联网大厂AI进程梳理正式版.docx(77页珍藏版)》请在课桌文档上搜索。
1、里拿辿惠智券研究报告I2024年01月02人工智能应用专题(4):国内Al大模型趋势探讨,互联网大厂Al进程梳理行业研究行业专题投资评级:超配(维持评级)联系人:王颖婕0755-81983057wangy i ngj i e1 uosen. com. cn联系人:陈淑媛021-60375431chenshuyuan证券分析师:张伦可0755-81982651zhanglunkeS0980521120004联系人:刘子谭Iiuzitan摘要 大模型技术本质上来源于科研创新与技术积累,我国大模型厂商根据自身特点演绎出不同的发展方向。大模型诞生与技术的积累与不断创新,伴随海外技术进步与大模型开源,我
2、国大模型企业也在不断追赶,包括根据其技术路径自研或在其开源框架上优化调整。 有效数据集有限,优质数据集仍旧稀缺,关注具备高质置内容的平台。大模型的未来发展依赖于训练数据集的质量,而非仅仅是数量。Al技术把原先难以利用的非结构数据带入分析领域,内容创作者所聚集的平台成为高质量数据的重要来源。 大模型后续竞争格局B端与C端分化:C端更易于产生通用底座以及大一统的入口,通过丰富的插件、定制化功能、AlAgent满足用户的高度定制化和长尾需求。B端定制化模型或垂类模型性价比更高,不同B端行业可能用各自模型来满足企业场景、业务流程、模型大小和性能的差异化需求。 AlAgent框架带来全链路、定制化的信息
3、处理能力,成为生产环节的重要辅助,助力智能硬件ltAIIinOne”抢占终端流置入口。AIAgent需要标准定义和模型能力进化,同时GeneratiVeUl可能带来人机交互方式的革新。月之暗面、清华GL*百川智能:作为独立的第三方模型厂商,创始人技术背景强,模型迭代速度快,产品布局AlGC等各个领域。 互联网大厂腾讯、字节、百度、阿里:结合自身业务场景进行模型和Al应用的开发,同时布局算力、平台、大模型与应用全环节,关注Al生态建设。投资建议:国内模型能力有望快速提升,带动应用百花齐放。建议积极布局大模型相关厂商和产业链机会。风险提示:宏观经济波动风险,下游需求不及预期风险,AI伦理风险,核心
4、技术水平升级不及预期的风险等。请务必阅读正文之后的免责声明及其项下所有内容目录01大模型的竞争格局演绎的关键因素02独立的模型团队一月之暗面、清华GLM、百川智能03互联网大厂的模型和应用进展一腾讯、字节、百度、阿里04风险提TF请务必阅读正文之后的免责声明及其项下所有内容大模型技术本质上来源于科研创新与技术积累伞更侯蛙烹 海外大厂核心大模型的能力迁移是国内Al发展的重要考。考察是否有海外大厂核心大模型研发的技术积累和知识迁移到国内,以及这些技术在本土的应用情况和调整,对理解国内外Al技术的差异和互动具有重要意义。 国内企业大模型技术路线有两类:自研效果复现类:参考GPT论文自研复现效果,前期
5、耗时、后续FinetUning对于数据数量质量也有一定要求,能力天花板高;基于开源迭代类:训练更顺畅但天花板低,依赖开源社区,且开源模型如Uanla2比较GPT3.5还是有差距。 国内企业大模型团队发展路径有两类:从搜广推背景转向大模型研发,如百度和百川;成立之初主要基于大模型研究路线和学术背景,如月之暗面的杨植麟团队和清华的智谱团队。:不同公司/组织/院校近三年top-100 Al发文 WM MnTeam-Baidu11Huawei Noah,s ArkLabNEZHA- Plus86.712Alibaba PAI&ICBUPAI Albert86.114TencentJarvis LabR
6、pBERTa( nsemble)85915Zhuiyi TechnologyRpBERTa- mtl-adv85.7Tsinghua GLMGLM 515M78.8图2:海外沙卧IUe模型号里排名(截至2吟3.于12月) 资料来源:蟾i CaSte 11 a苔 %p6,资料来源:Du4YQian等,GLM:GeneralLanguageModelPretrainingwithAutoregressiveBlankInfilling,ComputationandLanguage(cs.CL),42022,arXiv:2103.10360,国信证券经济研究所整理基于开源大模型框架进行优化调整、应用
7、创新较易落地伞里!!明烹OpenAI的核心能力主要体现在三个方面:1)数据收集和处理的能力,包括数据来源,清洗方式,数据结构等;2)模型结构,包括注意力、隐藏层等设计;3)训练方法,包括各类超参数,学习率等。海外大模型开源后,我国大模型企业可在其框架上进行优化调整,以百川智能为例:基于开源模型提升性能:据GitHUb,百川智能通过对LLaMA框架进行修改以提升训练时的吞吐。此外,在LLaMA较为薄弱的中文语料方面,百川智能采用2000万条以中英为主的多语言语料训练分词模型,显著提高中文的压缩率。A大模型+搜索增强解决方案服务B端场景:百川智能通过借助搜索增强,解决大模型在幻觉和时效性问题,提升
8、了模型的可用性,并拓展了应用领域,如金融、政务、司法、教育等行业的智能客服、知识问答、合规风控、营销顾问等。图3:Baichuan-7B对LLaMA框架进行优化后的性能提升图4:在LLaMA上进行的研究工作的演化图资料来源:Wayne Xin Zhaov Kun ZhoU 等,A Survey of Large Language Models,I信证券经济研究所整!Computation and Language, 2023, arXiv:2303.18223.ModdBAkhuanJBIUMAFikonmpV7BChMGLMmossmoon-003Compress Rate0.7371312
9、104912060.6310.659VbcabSize64,0003Z00065,024502S4130r344106,029资料来源:GitHub BaiChUan主页,国信证券经济研究所整理请务必阅读正文之后的免责声明及其项下所有内容高质量训练数据促进大模型技术的提升,但优质数据集稀缺伞里!姓烹有效数据集有限,优质数据集仍旧稀缺。当前开源榜单公开训练数量级,现有常见的大模型训练数据集往往在几十到几百B的量级,优质的数据集可能就只有300-5OOBtoken,进化到多模态数据量有所增加,但总量也不多。有的模型会用万亿级别的数据token训练,但很多数据其实是无效的。大模型的未来发展依赖于训练
10、数据集的质,而非仅仅是数量。根据ScalingLaw,Transformer架构的语言模型性能在很大程度上取决于模型大小、数据集大小和训练计算量,性能与这三个因素之间存在累律关系,且趋势跨越多个数量级,而对其他架构细节(如网络深度或宽度)的依赖相对较小。未来的大模型可能会经历增长飞轮效应,但关键在于训练数据集的质量。这强调了选择和使用高质量数据的重性,而不仅仅是追求数量。单纯的用户数据上不一定会产生飞轮效应,比如某些用户数据目前只具备统计学的能力,能够发现逻辑、数学的问题还需要找逻辑、数学数据集去优化。图5:各大模型训练数据集对比图6:ScalingLaW模型性能与模型参数、数据集和训练计算量
11、成幕律关系UdlB)IXZAgMhUPI-J (IT5BMTiLG JOBlvhm BVcMl3U MCH Swm*A12K 2ItW rc MkdW*r 4I, WoI BU.3(HSl (AHb MIk IVKlnrift ROIG J(n BCt A!t*fl7*U X)ln BRI l Hf W2N.加明 WtfWr ArXn (7. 2S(L 4 % M MvMfd AbtactiOKi. XX”-. 30ft t Nt - M 0OMM资料来源:OpenAI官网,国信证券经济研究所整理资料来源:WayneXinZhao%KUnZhoU等,ASurveyofLargeLanguage
12、Models,ComputationandLanguage,2023,arXiv:2303.18223,国信证券经济研究所整理Al技术将更大范围的数据带入分析领域,关注稀缺内容平台伞三B三Al技术把原先难以利用的非结构数据(占比80%)带入分析领域。Al浪潮下数据资产的重要性凸显,SnoWflake在财报会提到Al技术把原来客户无法利用的非结构化数据带入分析领域构成新的增量。一系列数据公司与产品受益,包括云数据仓库领域(SnowfIake)、非结构化/向量数据库(MangoDBxPinecone)、云数据监控(DataDog)和ML/AIOps领域(DatabricksxAWSBedrockx
13、Weights&Biases)o内容创作者所聚集的平台,如字节和腾讯视频号成为高质量数据的重要来源。随着内容创作者转向音视频平台,这些平台成为了聚集高质量数据的热点,如字节跳动和腾讯视频号等平台。部分观点类数据可能具有一定时效性,如百度问答和知乎等平台上的数据。图7:各大模型训练数据集对比图8:AI技术下数据分析各领域的增量公司模型敷数据规模阿里巴巴M610T1.9丁8图像和29268文本智源研究院悟道2.01.75T4.9T腾讯混元1T2T百度文心260B45TB中科院自动化所紫东太初100B1.42TB中文智谱华章ChatGLM31.5B、3B 和 6B百川智能百川2B/7B/13B2.6
14、T上海人工智能实验 室缶生7B/20B2.3T (lnternLM-20B)科大讯飞星火170B数十亿的语言数据集商汤科技InternLM1,04B16 万亿 token春田知韵(抖音)豆包7B1300fZ,阿里云通义千问7B3 万亿 tokens华为盘古200B40TB中文文本、3B图像资料来源:各公司官网、国信证券经济研究所整理资料来源:KarIKeirStead等,AlSurveyofEnterpriseExecs-ShapingtheAlNarrativeInto2024,U.S.Software,2023,国信证券经济研究所整理责声明及其项下所有内容大模型的竞争格局猜想一C端集中,B
15、端差异化竞争 C端:通用的大模型技术底座不会太多,可能只会有一个大一统的入口,通过丰富的插件、定制化功能、AlAgent满足用户的高度定制化和长尾需求。从大模型的迭代发展,我们看到底层技术基于TranSfOrmer架构的统一化。随着模型能力的增强,与硬件终端协同可能加剧流量入口的集成和统一。 B端:不同行业具有各自垂类模型,不同大小的模型适用于不同场景。由于企业场景、业务流程差异化,不同的领域模型功能、数据集、模型大小和性能都有较大差别,定制化模型厂商或小模型性价比更高。目前出现很多竞争厂商在B端发力,比如Cohere、或者在Huggingface上用开源模型改造。图9:近年来现有(大于IOB
16、)大语言模型的时间轴图10:北美各大企业的Al应用行业分布l*ttNkl aihMrWrbrGI.M GMl、LG KctKl )0MGLM4f 做SG r4 NI to./C U 0、-W V L*LSAS b2资料来源:Wayne Xin Zhao、Kun ZhOU 等,A Survey of Large Language Models, Computation and Language, 2023, arXiv:2303. 18223,国信证券经济研究所整理资料来源:Kar I KeirStead 等,Al Survey of Enterprise Execs - Shaping the
17、 Al NarrativeIRlI请务必阅读正文之后的免责声明及其项下所有丙容OPenAl商业模式:大模型技术领先,积极尝试构建生态壁垒三三S三通过先进的闭源实现商业化,通过开源前代模型构建生态:OPenAl的GPT技术路线是当前模型自研商家优先选择并跟随的技术方向,而OPenAl凭借大模型的领先优势,后续更新到GPT5后,有可能将前代GPT3.5开源,通过更新一代、开源一代来实现自身战略。领先模型闭源、服务B端客户实现商业化,落后模型开源繁荣GPT生态与应用建设。通过AlAgent的形态去构建流入口:OPenAl在AlAgent与流量入口领域有许多尝试,比如插件生态、GPTsoGPTS出现打
18、破过去的软件孤岛、复杂、不能满足长尾需求的缺点,创建过程工具化标准化而且创建成果产品化。但是AlAgent必须要对个人有全链路的信息处理能力,当前GPTS实际上对个人信息的创建和积累是分裂的,比如单人创建不同的GPTs,其实它们之间互不相连,导致可能会产生训练和数据的浪费。图11:OPenAI模型演进图图12:OpenAIGPTS应用资料来源:0PenAl官网,参考文献:WayneXinZha0、KUnZhOU等,ASurveyofLarge资料来源:GPtShUnter官网,国信证券经济研究所整理1.anguageModels,ComputationandLanguage,20231arXi
19、v:2303.18223,国信证券经济研究所AlAgent:成为生产环节的定制化辅助,带来人机交互的革新伞里假照! AlAgent框架为大模型提供结构化思考方法,成为生产环节的重要辅助:大模型作为理解推理能力不断增强,软件生产进入低门槛、高定制化时代,面向用户的长尾、个性化需求,Agent框架可以打造每个知识工作者的Al助理。 AIAgent需要标准定义和模型能力进化,同时GenerativeUl可能带来人机交互方式的革新:当前大模型对连续的复杂推理问题包括对多模态信息的交叉处理仍有不足,需要用更复杂、结构化、多维度的数据来进一步学习。另一方面,Agent应用对当前的人机交互方式带来改变,演进
20、成为同时适用于人类和Al操作的形式。 案例:Agent以类人的方式与智能手机应用进行交互,使用点击和滑动等底层操作来操作图形用户界面(GUI)。利用大型语言模型的视觉能力以类似人类的方式操作智能手机应用程序。在探索阶段,智能体与智能手机应用程序交互并从结果中学习,以创建一个全面的参考文档。在部署阶段,智能体利用这个文档汇编的信息来有效操作和导航应用程序。图14:多模态智能体框架在智能手机APP操作中的多种应用图13:用于操作智能手机应用程序的多模态智能体框架概述资料来源:Chi Zhang, Zhao Yang 等,AppAgent: Multimodal Agents as Smartpho
21、ne Users, Computer Vision and Pattern Recognition(cs. CV), 2023, arXiv:2312. 13771,国信证券经济研 究所整理资料来源:ChiZhang,ZhaoYang等,AppAgent:MultimodaIAgentsasSmartphoneUsers,ComputerVisionandPatternRecognition(cs.CV),2023,arXiv:2312.13771,国信证券经济研究所整理1o有内智能硬件AllinOne终端流量入口的抢占之路AIGC将带来无限的内容生产与供给,进而颠覆当前的信息分发方式:a16
22、z曾说过“芯片将计算的边际成本降到了零,互联网将分发的边际成本降到了零,现在AIGC实际上将创作的边际成本降到零”。每个人都有机会获得无限的娱乐内容供给,互联网常见的信息分发方式未来可能都面临重组。人会从主动生产和管理信息,进化到与Al共同生产以及与Al辅助管控共存。智能终端充当人类和Al认知世界的延伸,依托大模型同时满足生产力、社交娱乐等全面需求。相比软件产品智能硬件终端更容易演化SJaIIinone的形态,从而抢占终端的流量入口。从苹果生态来看,智能终端的壁垒同时取决于生态业务场景的广度和深度,而Al大模型的技术同时带来两个维度的革新。图15:苹果MR眼镜图16:谷歌PiXelAl手机图1
23、7:AlPin资料来源:公司官网、国信证券经济研究所整理资料来源:公司官网、国信证券经济研究所整资料来源:公司官网、国信证券经济研究所整理理11请务必阅读正文之后的免责声明及其项下所有内容目录01大模型的竞争格局演绎的关键因素02独立的模型团队一月之暗面、清华GLM、百川智能03互联网大厂的模型和应用进展一腾讯、字节、百度、阿里04风险提TF请务必阅读正文之后的免责声明及其项下所有内容国信证券GUOSENSECURITIES请务必阅读正文之后的免责声明及其项下所有内容独立的模型团队一月之暗面、清华GLM、百川智能月之暗面:清华系新星杨植麟领衔,团队核心人员多为清华同门国信证券月之暗面(Moon
24、shotAD创始人杨植麟自2020年起便坚信“大模型是未来”.2020年下半年为华为的盘古大模型做核心技术研发,2021年参与智源研究院的悟道大模型研发。2022年底杨植麟前往美国进行为期2个月的考察,美国民众对于GPT的狂热让他更坚信此时正是成立大模型公司的合适时机,于是他在接下来的1个月内完成首轮融资,拿到来自红杉等头部机构6000万美元的启动资金,并于3个月内组建起了大约40人的技术研发团队。MoonshotAl于2023年3月成立,成立前其团队主要通过与其他公司合作,以团队提供技术、合作方提供算力的形式来完成大模型相关工作。创始团队核心成员参与了GoogleGeminixGoogleB
25、ardx盘古NLP、悟道等多个大模型的研发,多项核心技术被GooglePaLM、MetaLLaMa、StabIeDiffUSion等主流产品采用。表1:MoonshotAl创始人团队背景介绍姓名持股比例职位简介杨植麟78.97%MoonshotAl创始人,CEO本科毕业于清华大学计算机科学与技术系,博士毕业于CMU计算机系,师从苹果Al研究负责人RuslanSalakhutdinov和谷歌首席科学家WilliamCohen;博士期间,先后以一作身份,发表Transformer-XL和XLNet两项工作,谷歌学术被引次数近2万;据GitHUb个人资料,杨植麟曾效力于GoogIe和MetaPlat
26、fOrmS人工智能实验室,曾任循环智能联合创始人。张宇韬5%MoonshotAl联合创始人CTO本硕博均毕业于清华大学计算机系,师从清华大学计算机系副系主任数据挖掘顶级专家唐杰教授,研究方向是异构数据融合和知识图谱构建;曾作为核心开发者研发了全球知名的科技大数据分析平台AMiner,产品服务于BATH等科技巨头及国家科技部等政府科研管理机构。周昕宇10%MoonshotAl联合创始人与杨植麟一同毕业于清华大学计算机系,毕业后加入旷视,从事算法量产工作,旨在提升算法生产效率;就职期间,他和旷视研究院基础科研负责人张祥雨一同研究移动端模型,以共同一作的身份撰写ShUffIeNet论文,中标CVPR
27、,这项工作为包括苹果3D人脸解锁在内的各种手机毫秒级人脸解锁技术的发展提供了关键支持。吴育昕5.96%MoonshotAl联合创始人与杨植就背景类似,先后毕业于清华大学与CMU,研究方向为计算机视觉中的检测和识别问题;曾就职于MetaFAIR,和队员何恺明共同提出组归一化(GroupNormalization)的方法,吴育昕创建的detectron2,成为Meta受欢迎的Al项目之谷歌学术被引次数超过19万次。资料来源:天眼查、国信证券经济研究所整理14请务必阅读正文之后的免责声明及其项下所有内容2023年首次发布大模型产品KirniChat,长文本能力为核心能力国信证券尸 Guosen Cu
28、rities基于千亿大模型的智能助手KiIniChat,核心能力为长文本能力(LongcOnteXt):2023年10月9日,MoonshotAl推出首款产品,拥有长达20万汉字的上下文处理能力,据MoonShotAl官方,这是目前全球市场上能够产品化使用的大模型服务中所能支持的最长上下文输入长度。此外,KimiChat还可处理多种文档格式(如PDF、EXCel等),具备较强的多语言能力,以及调用搜索引擎获取信息,旨在为用户提供强大、智能的对话伙伴,并为其工作、学习、生活提供助力。核心优势应用实例底层技术处理长文本:依靠长文本技术,Kimi Chat拥有长达20万汉字 的上下文处理能力,这意味
29、着其能够覆盖更多应用场景,且可 直接基于全文理解进行问答和信息处理,从而极大程度上解决 大模型的“幻觉”问题。Kimi Chat根据提供的文章链接,快速总结分析公众号长文;KimiChat根据提供的上市公司财报,快速总结要点;支持多语言:相比当前市面上以英文为基础训练的大模型服务,Kimi Chat在中文上具备显著优势,实际使用效果能够支持约可阅读长篇中文小说(如三体),并梳理内容概要、角20万汉字的上下文,2.5倍于CIaUdeTOOk (实测约8万字),色介绍等8倍于GPT-4-32k (实测约2. 5万字)。长程注意力机制:Kimi Chat通过创新的网络结构和工程优 化,可在千亿参数下
30、实现无损的长程注意力机制,不依赖于滑动 窗口、降采样、小模型等对性能损害较大的方案。可基于长篇小说、游戏设定进行角色扮演,不会在多次对话 后脱离设定大语言模型、长文本处理技术 注意力机制可处理多种文档格式:Kimi Chat可处理多种文档格式(包 括 PDF、ExceL CSV 等) 可一次接收多篇上市公司财报并进行市场分析; 可一次接收多份出差发票并整理相关信息 可一次接收多份求职简历并根据用户需求筛选排序出Top5 求职者表2:MoonshotAl推出的大模型产品KimiChat简介15资料来源:MoonshotAl官网、国信证券经济研究所整理请务必阅读正文之后的免责声明及其项下所有内容图
31、18: Kimi Chat最新版本可从扫描件提取手写文字并解析资料来源:MoonShotAl官网,国信证券经济研究所整理二 IteSXea 二模型版本经历两次更新,在多个场景下持续优化模型效果伞更感正考KimiChat更新历程:2023年11月15日,KimiChatVI.1面向全社会开放版本,模型版本更新至moonshoLv1-20231115,主要更新内容包括(1)大幅解决模型在复杂场景下输出重复的问题;(2)关闭页面不再导致模型回复停止,同一对话下,各终端同步输出内容;2023年12月25日,Kimi讣21:模型版本更新至(11。0成卜0t71-20231225,主要更新包括(1)内容生
32、成长度提升(2)优化首字回复速度(3)实现从扫描件(文档、合同、白板等)提取文字的功能,目前已支持扫描文件以PDF格式上传解析(4)微信小程序端上线uKimi智能助手”图19:KimiChat上线微信小程序uKimi智能助手”资料来源:MoonShotAl官方公众号,国信证券经济研究所整理请务必阅读正文之后的免责声明及其项下所有内容智谱:清华KEG孵化而来,团队核心成员多有清华背景国信证券智谱Al由清华大学计算机系教授唐杰领衔的清华KEG(知识工程实验室)孵化而来,其团队核心成员多有清华系背景。 2019年成立以来,智谱Al始终坚持投身大模型技术研发,愿景是“未来让机器像人一样思考”,并希望能
33、对标OPenAI; 2020年6月,GPT-3发布,智谱Al意识到GPT模型已实现越级提升;2022年8月,智谱Al推出自研大模型GLM730B,结合了GPT的单向向后预测模型框架与BERT的双向预测的模型框架;公司专注于ToB和ToG服务,客户主要是企业和政府机构。2023年,智谱Al获融资25亿,估值超百亿人民币。目前智谱的合作案例包括:1)G端,跟北京政府合作提供智能客服能产品;跟北京中医院合作中医药在线问诊模型构建等;2)B端,跟中石油合作ERP改造企业工作流;跟美团合作对话、广告、搜索等功能;3)C端,提供ChatGLM通用大模型入口。图20:智谱股权图表3:智谱Al创始人团队背景介
34、绍姓名职位 简介科学技术三等奖及2009年王选新闻科学技术奖二等奖等多项重要奖项。刘德董事长、师从高文院士,曾任清华数据科学研究院科技大数据研究中心副兵 经理 主任王绍R总裁清华创新领军博士资料来源:天眼查、国信证券经济研究所整理资料来源:天眼查,国信证券经济研究所整理请务必阅读正文之后的免责声明及其项下所有内容模型迭代历程:创新动力充足,多个模型持续迭代伞里!姓烹GLM: 2021.9设计GLM算法,发布拥有自主知识产权的开源百亿大模型GLM70B; 2022.8发布高精度千亿大模型GLM-130B并开源,效果对标GPT-3175B,收到70余个国家、100O余个研究机构的使用需求; 202
35、2.10发布开源的100+语言预训练模型mGLM-1BChatGLM: 2023.3发布千亿基座的对话模型ChatGLM及其单卡开源版本ChatGLM-6B,全球下载量超过800万;为实现从GLM到ChatGLM的迭代,智谱Al加入了代码训练、进行SFT(SupervisedFineTuning,有监督微调)、加入RLHF(ReinforcementLearningwithHumanFeedback,基于人类反馈的强化学习); 2023.6发布全面升级的ChatGLM2模型矩阵,据GitHUb,主要更新包括(1)升级基座模型以提升模型在MMLU(+23%)、CEvaI(+33%)、GSM8K(
36、+571%)、BBH(+60%)等数据集的性能表现(2)上下文长度从2k扩展至32k(3)推理速度提升42%; 2023.8搭载ChatGLM2模型的Al生成式助手“智谱清言”上线; 2023.10发布全面升级的ChatGLM3模型及相关系列产品,主要更新包括(1)升级基座模型以提升模型在MMLU(+36%)、CEvaI(+33%)、GSM8K(+179%)、BBH(126%)等数据集的性能表现(2)在多模态理解、代码增强、网络搜索等功能上进行迭代更新(3)集成自研AgentTuning技术,激活模型智能体能力(4)推出可手机部署的端测模型,支持包括Vivo、小米、三星在内的多种手机以及车载平
37、台(5)推理速度提升2-3倍,以上更新同样作用于智谱清言;CodeGeeX: 2022.9发布代码生成模型COdeGeeX;2023.7发布新一代代码生成模型CodeGeeX2,主要更新包括(1)代码能力大幅提升,据GitHUb,六种编程语言能力均大幅提升(PythOn+57%,C+71%,Java+54%,JavaScript+83%fGo+56%,Rust+321%);(2)支持编程语言数量大幅提升,达到IoO余种;请务必阅读正文之后的免责声明及其项下所有内容大模型产品涵盖Al开放平台、智谱清言及一系列AIGC产品+里剧E冬智谱Al合作研发大模型GLM730B,并基于此推出对话模型Chat
38、GLM,开源单卡版模型ChatGLM-6B,并推出Al提效助手智谱清言(ChatGLM)oAlGC模型及其产品矩阵包括高效率代码模型COdeGeeX、多模态理解模型COgVLM和文生图模型CogVieW等;建立大模型MaaS开放平台,致力于Al生态建设。Iq表4:智谱Al的大模型产品矩阵产品功能介绍应用实例底层模型Al开放平台为开发者提供开放平台,使其通过APl调用,实现基于ChatGLM系列模型(ChatGLM730B、ChatGLM-6B、GLMT30B)、CodeGeeX代码大模型、多模态大模型(CogViewxCogVideo)快速搭建Al应再。电子签约SaaS提供商上上签集成GLM-
39、130B大模型与行业数据,推出签约智能产品Hubble哈勃。-ChatGLM(智谱清言)基于ChatGLM2开发的千亿参数对话模型,支持多轮对话,具备内容创作、信息归纳总结、代码生成等能力。代码生成能力:支持100余种编程语言,帮助用户快速准确生成代码。ChatGu13:具问答和对话功能的千亿中英语言模型,不同于BERTxGPT-3以及T5的架构,是一个包含多目标函数的自回归预训练模型。CodeGeeX基于CodeGeeX代码大模型的全能的智能编程助手,支持主流编程语言,并适配多种主流IDE。可实现代码的生成与补全、自动添加注释、代码翻译以及智能问答等功能。CodeGeeX:千亿级参数的多编程
40、语言代码生成大模型,在超过20种编程语言的大型代码语料库上进行预训练。写作蛙免费智能写作工具,可生成Al原创内容创意以及完成各种文本任务,如文章、报告、新闻稿、营销文案等。可根据不同创作模板完成不同类型的文案创作,如“元旦祝福”、“文章润色”等。GLM(GeneralLanguageModel)s通用语言模型,通过自回归空白填充目标进行预训练,并可在各种自然语言理解和生成任务上进行微调。小呆对话基于GLM模型的智能对话机器人,可根据用户定义的人设切换对话风格、进行有情感地流畅表达。可创造多种不同人设,如“林妹妹”、“带货主播”等。GLMCogView/CogVideo基于COgVieW/Cog
41、Viede。大模型的文(中文)生图工具可根据用户输入的中文文字描述生成相关图片/视频。CogViews全球首个中文的全领域文到图生成模型,40亿级参数;COgVideo:是全球首个开源的大规模文本到视频生成模型,90亿级参数。资料来源:智谱Al官网、智谱官方公众号、GitHub.国信证券经济研究所整理请务必阅读正文之后的免责声明及其项下所有内容百川智能:前搜狗CEO王小川带领,团队核心成员多为知名科技公司AI顶尖人思辰亚考百川智能由前搜狗公司CEO王小川联合前搜狗公司Coo茹立云于2023年4月10日创立,团队核心成员多为来自搜狗、百度、华为、微软、字节、腾讯等知名科技公司的Al顶尖人才,截至
42、2023年10月,团队规模170余人,其中硕士及以上学历员工占比近70%,研发人员占比超80%o融资方面,启动资金5000万美元来自创始人王小川及其业内好友个人支持,2023年10月完成Al轮战略融资,获阿里、腾讯等科技巨头及顶级投资机构的3亿美元融资金额,创下国内大模型初创企业最快晋升独角兽的记录。目前已有超过200家企业申请百川大模型开源和商业授权,并已将百川模型投入实际生产场景。企业涵盖互联网、软件和信息技术、金融、法律、教育、制造业、企业服务等众多领域,客户包括阿里云、腾讯、火山引擎、京东科技、顺丰科技、浪潮、中国农业银行、蔚来汽车等。20表5:百川智能创始人团队背景介绍姓名持股比例职
43、位简介毕业于清华大学计算机科学与技术专业,拥有学士、硕士及EMBA学位;曾任搜狗CEO,搜狐高级副王小川76.43%百川智能创始人,总裁兼CTO;先后发明了有5亿多用户在使用的搜狗输入法、搜狗搜索等互联网标志性产品;曾带CEO领搜狗公司发展语音、图像、翻译等Al技术并率先实用化,带领搜狗公司成长为国内用户规模第四大互联网公司,并赴美上市中国人工智能第一股。毕业于清华大学计算机系,获学士、硕士、博士学位及长江商学院EMBA学位;曾任搜狗Co0,葡萄茹立云0.77%百川智能联合创始智学创始人;曾带领搜狗搜索在多个搜索领域取得不俗成绩,如率先发布分类搜索、推出全新的人知识库搜索引擎知立方、搜狗语音助
44、手等产品,并成为唯一一家能够提供“通用搜索”、“微信公众平台搜索”及微信内容差异化阅读服务的搜索引擎。资料来源:天眼查、国信证券经济研究所整理请务必阅读正文之后的免责声明及其项下所有内容成立8个月内发布8款自研大模型,速度与性能俱佳4三三S三模型研发方面,自成立以来,百川智能先后发布Baichuan-7B13B,Baichuan2-7B13B四款开源模型和BaiChUan-53B、Baichuan2-53B、Baichuan2-192KvBaichuan2-Turbo四款闭源模型,并与国家级科研机构鹏城实验室共同发布基于国产算力训练的最长上下文窗口大模型“鹏城-百川脑海33B”。表6:百川智能
45、大模型基本信息及测评表现模型基本信息发布时间是否开源测评表现Baichuan-7B基于TranSfOrmer结构,在大约1.2万亿tokens上训练而成,参数量70亿,支持中英双语,上下文窗口长度为4096。2023.6.15是国内首个开源可商用模型,国内外多榜单排名第一,在中文榜大幅度领先,英文榜首超LlaMA。Baichuan-13B在Baichuan-7B的基础上提升参数量到130亿,在高质量语料上训练L4万亿tokens(同等级别开源模型中训练数据最多,超LLaMA-13B40%);同时开源预训练模型(BaiChUan-型B-BaSe)和对齐模型(Baichuan-ISB-Chat),服务于开发者与普通用户。2023.7.11是同等级开源模型中效果最好的可商用大语言模型,中文