2024大语言模型综合能力测评报告.docx

上传人:夺命阿水 文档编号:1069020 上传时间:2024-03-13 格式:DOCX 页数:58 大小:774.56KB
返回 下载 相关 举报
2024大语言模型综合能力测评报告.docx_第1页
第1页 / 共58页
2024大语言模型综合能力测评报告.docx_第2页
第2页 / 共58页
2024大语言模型综合能力测评报告.docx_第3页
第3页 / 共58页
2024大语言模型综合能力测评报告.docx_第4页
第4页 / 共58页
2024大语言模型综合能力测评报告.docx_第5页
第5页 / 共58页
点击查看更多>>
资源描述

《2024大语言模型综合能力测评报告.docx》由会员分享,可在线阅读,更多相关《2024大语言模型综合能力测评报告.docx(58页珍藏版)》请在课桌文档上搜索。

1、般一屈料枝或被确免除InfoQ研变中心大模型市场发展洞察2023年,全球大模型市场进入爆发阶段大模型诞生阶段2017-2018年大模型探索阶段2019-2021年大模型爆发阶段2022-2023年2017应对ChatGPT在探索期,基于人类反馈的强化学习(RHLF),代码预训练、指令微调等开始出现,被用于进一步提高推理能力和任务泛化。6.12谷歌推出用于处理自然语言任务的Transformer神经网络架构20186.11OPenAI发布GPT-I11.22谷歌推出BERT在诞生阶段,以TranSformer为代表的全新神经网络架构,奠定了大模型的算法架构基础,使大模型技术的性能得到了显著提升。

2、202011.5OPenAl发布120亿参数图像版GPT-3202211.30OpenAI推出ChatGPT了多模2.20复2019 3.16百度推出可以准确理解语义的ERNIE1.0 8.21OpenAI发布GPT-2并部分开源 10,11谷歌推出BERT模型的两个新版本RoBERTa和XLNetCodexO20211.164.258.10OPenAI推出能实现文本生华为正式发布在爆发期,大数据、大算力和大算法完美结合,态理解与多类型内容生成能力O20232.7谷歌发布Ba发布MoSS微软基于ChatGPT发布NeWBing 2.25FaCeBoOk发布LLaMA-13B 3.14OPenA

3、I发布GPT-4并实现图像识别,3.16百度发布文心一言 3.17微软宣布将GPT-4接入OffiCe全家桶 4.10昆仑万维发布天工3.5 4.11阿里云发布通义干问 5月百度发布文心大模型3.5 5.6科大讯飞发布认知大模型 5.11谷歌更新Bard并推出PaLM2模型 5.24微软宣布WindOWS系统全方位集成CoPHOt9*为白楂依敌确究除InfoQ研变中心2023年中央及地方政府积极制定政策鼓励和规范大模型产业发展2023年,中央及地方围绕基础设施、算法、算力、数据等领域出台多项政策,坚持发展和安全并重、促进创新和依法治理相结合的原则,鼓励和规范作为硬科技的Al大模型产业发展。序号

4、时间文件名主要内容12023年7月生成式人工智能服务懿暂行办法明确了生成式人工智能“提供者“内容生产、数据保护、隐私安全等方面的法定司王及法律雁,确立了人工智能产品的安全评估规定及管理办法。22023年7月上海市推动人工智能大模型创新发展的若干措施推动上海大模型创新发展,营造通用人工智能创新生态,力瞅打造世界级人工智能产业集群。32023年8月电子信息制造业2023-2024年稳增长行动方案鼓励加大数据基础设施和人工智能基础设施建设,满足人工智能、大模型应用需求.42023年10月人形机器人创新发展指导意见到2025年,AOl器人创新体系初步建立,大脑、小脑、肢体等一批关键技术取得突破,确保核

5、心部组件安全有效侬,开发基于人工智能大模型的人形机人大脑”.5202评11月北京市人工智能行业大模型创新应用白皮书(2023年)从大模型全球发展态势、国内外行业应用概述、北京应用情况和发展建议等方面进行了系统分析和阐述,旨在进一步推动大模型应用落地,展示北京市大模型应用成果,促进大模型价值传播和供需对接。6202舜1月广东省关于加快建设通用人工智能产业创新引领地的实施意见22条铀打造国家通用人工智能产业创新引领地。72023年12月关于加快推进视听电子产业高质量发展的指导意见支持骨干企业做大做强,支持人工智能企业研发视听应用大模型.82023年12月“雌要数(2024202弹)(征期J三)以科

6、学数据支持大模型开发,深入挖掘包含科技文献在内的各类科学数据,通过细粒度的知识抽取,构建科学知识资源底座,建设高质量语料稿库和基础科物据集,支持开展通用人工智能大模型和垂直领域人工智能大模型训练。2023年6月至2023年8月6.14 360发布智脑大模型4.0 6.15百川智能发布开源BaiChUan-7 B 6.25清华&智谱Al发布开源ChatGLM2 7.7华为发布盘古3.0 7.7商汤科技发布商量2.0 7.9西湖心辰发布西湖大模型 7.19 Meta发布开源Llama22023年10月至2023年12月10.9月之暗面发布Kimi Chat 10.17百度发布文心大模型4.0 10

7、.24科大讯飞发布星火大模型3.0 10.27智谱Al开源了ChatGLM3等模型 10.30 百川智能发布 BaiChUan2-192K 10.31阿里云发布通义千问2.0 11.7 OPenAl发布GPT-4 Turbo 11.16 OPPo发布AndeSGPT 11.24零一万物发布开源Yi-34 B 12.22腾讯发布混元大模型标准版多模态.长文本、逻辑能力加强2023年8月至2023年10月 8.3阿里云推出开源QWen-7B 8.7元象科技发布开源XVERSE-13B 8.11小米发布大模型MiLM 8.17字节跳动公测大模型产品豆包 8.21云从科技发布从容大模型L5 9.5商汤

8、科技发布商量3.0 9.6百川智能发布开源BaiChUan2 9.7腾讯发布混元助手 9.20上海人工智能实验室发布开源InternLM-20B 9.25C)PenAl发布多模态GPT-4V文本理解和逻辑能力提升、具备初级代码生成、跨模态能力从头部企业到百模家族,大模型井喷式爆发增长W三H学为云=X3kl金融一2塌,$URW服务商ChnoOOUeujnI叁M.ea浴gsJD-COM1,36OC-)阿里云mspurMXVERSE元,一通用大模型科技公司Q云UZ技fu11WAainteHClusionG)出同同:KiBAlTencmrlftfCA1iS0ll9tfTigerobO虎博,AAAflM

9、数据来源:InfoQ研究中,(根据厂商官网、媒体资讯等公开资料整理*MMI三nH!三RRInfoQ研变中心百度、阿里、腾讯、智谱AI、百川智能等多家企业和机构,按照互联网信息服务算法推荐管理规定履行算法备案和变更、注销备案手续,获得备案批准,对公众全面开放,标志着大模型发展进入新阶段,加速推动大模型产业化应用。截止到2023年12月31日,已有两批超过20个大模型获得备案,面向公众开放。应用范围涵盖自然语言处理、图像识Sh语音识别等多个领域,可应用于金融、医疗、教育等各个领域。批次模型名称所属企业第TttABAB大模型MiniMax百川大眦百川智能混元大模型lGLM智谱AI盘古大模型华为日日商

10、汤书钿用大模型上海人工智能实验室通义大模型阿里文心一言百度星火大邮云雀大模型抖音琳加7*中科院说明:表格内大模型Wp序皮照大模型名字拼音首字母进行排序批次模型名称所属企业第二批百灵大模型蚂蚁集团MathGPT好未来Moonshot月之暗面面壁露卡LUCa面壁智能奇元大模型360天工大模型昆仑万维WPSAI金山办公序列猴子出门问问子曰大模型网易有道知海图AI模型知乎美团2023年,中国大模型产品从通用产品向多行业拓展2023年公布的中国大模型产品中,84.57%的大模型产品为非通用行业模型。其中工商业经济、教育医疗占比均高于通用模型占比。数据结果统计显示中国大模型产品发布时间集中于Q2和Q3,占

11、比达全年的80.32%。2023年中国通用大模型和行业应用产品统计2023年中国主要大模型发布时间统计数据来源:根据公开资料搜集的中国188个大模型&产品统计得出商业经济20.74%通用15.43%生活消费9.04%U公共事务6.91%其他3.72%教育医疗18.09%工4E制造9.57%传媒&营销6.91%信息&安全6.91%文化娱乐2.66%2023年,模型层百花齐放,并逐渐开始应用探索游戏电商1社交文娱传媒影视一-教育RS 金融BMxaa用文妙笔文心传媒/影kidsGIPT文心金融行 业大模型.YBIB今触大rI大模型视行业大模型On大型翁汽车大模型AntFinGLM文因金融大模 型 F

12、D-LLM盘古跨境电商 大模型 SodAlGTT盘古媒体大模型星辰教育 大模型Drive GPTTP金融行业大模理HKS33HH m n玉言,游戏行 业大模型文曲大模型中曹泊,第仔日教育大模型盘古汽车大模型马上扁鸟舍 t*Ml*金 大,2!一能源制造一 百度灵医大模型文心能源/制造B7sao (本草) KXSCW行业大模型 星辰,山Hfc vMtlgmcw大”J HeaIthGPT盘古矿山DoctortiLM大模型星火医疗大模型其他文心航石/城携程同趣市空便业科Affl1飞营销大模型秧型盘古气蚯血白玉诩学大侬LOchat Law法律大模型.aHixaBChatRntGwe-盲36araBaiC

13、hUan-ChatChatJD豆包nBCcsensechat露天工kimichatBIfllB/疝MChat行次模联代eBaidu0ces(;田客服营销Q淘宝问问思涌Al;码mate、灵码叨IRJZr谷紫东太初Skywork智谱清言伊古大横堡 Sctron0西湖心辰幽网易伏金通义千问险IF为白技或故确免除22InfoQ研咒中心核心发现一识能力水平趋同知识题得分率分布66.25%科学常识得分率TOP3产品分类得分率文心一言96.88%360智脑90.63%百川智能89.06%84.68%知识题平均得分率医学常识得分率最高,获得98.33%桃日楂或故确免除InfoQ研变中心科学常识得分率较低,仅为

14、66.25%74.17%词句理解题平均得分率怎么办题得分率最高,获得94.5%关键字提炼得分率较低,仅为51%得分率TOP3产品分类得分率ChatGPT88.33%文心一言81.67%通义干问78.33%核心发现一识能力水平趋同词句理解得分率分布东院的花母鸡在西院的鸡窝里下了一个蛋,问题2这燧的产权应归海尼?答案2这个问题具有幽默感,涉及到74产权”的有趣解读。首先,让我们从几个不同的角度进行分析:从字面意义上看,蛋是花母鸿产生的。根据这个逻辑,蛋的产权应该属于下蛋的花母鸡。从地理位置角度看,蛋是在西院的鸡窝里下的。这意味着西院的鸡窝为蛋提供了保护。因此,西院或鸡禽的主人可能会认为他们拥有这个

15、蛋的“产权.考虑到法律或常规的所有权观念,一般来说,动物产生的物品(如鸡蛋)通常归该动物的主人所有。所以,如果花母鸡属于东院,那么蛋的产权应该归东院的主人。综上所述,这个问题没有明确的答案,因为它取决于我们如何定义和看待“产权.从生物学角度看,蛋属于下蛋的花母鸡;从地理位置角度看,蛋属于西院或鸡窝的主人;而从一般的所有权观念来看,蛋可能属于花母鸡的主人,即东院的主人。因此,这个蛋的“产权归属是一个开放的问题,取决于解读的角度和背景。文心一言答案精彩知识题=H问题1怀孕期间不能吃什么水果?-答案1怀孕期间,以下类型的水果应适量食用或避免:易过敏水果:如菠萝,部分孕妇可能对其过敏,出现皮肤瘙痒、发

16、红、恶心呕吐等症状。难消化水果:如桃子和杏,含有糅酸等物质,大量食用可能导致消化不良,特别是对于有消化疾病史的孕妇。高热量水果:如榴莲,糖分和热量较高,过多食用可能引起体重过重和血糖升高,甚至导致妊娠期糖尿病。热性水果:中医认为荔枝、桂圆等属于热性食物,过多食用可能使孕妇上火,出现口干舌燥、大便干燥等症状。寒性水果:如西瓜,被认为是寒性水果,过量食用可能伤脾助湿。刚从冰箱取出的水果:冷食可能会对孕妇的胃肠造成刺激,引发消化不良、胃肠功能资屏口腹痛。通义干问答案桃日楂或故确免除InfoQ研变中心82.22%商业写作题平得分率访谈提纲得分率最高,获得100%市场运营报告得分率较低,仅为66.67%

17、得分率TOP3产品分类得分率通义千问91.54%Bard89.87%讯飞星火87.60%商务写作得分率分布翻译题得分率分布100%英文写作74.55%73%85%翻译题平均得分率英文写作得分率最高,获得100%英译中得分率较低,仅为73%英文阅读理解英译中得分率TOP3产品分类得分率文心一言93.33%通义千问93.33%百川智能93.33%拜日楂或故确免除InfoQ研变中心问题2请帮我写一首诗抒发我在黄山游完后的美好心情答案2黄山归来心欢畅,仙境之美难相忘。奇峰异石入眼帘,云海翻腾似浪漾。松风送爽耳畔响,清溪流水洗心庞。此行留下美好忆,黄山风情永悠长。文心一言答案精彩写作题=H问题1用史铁生

18、的风格描写我感觉很心累答案1在这个纷扰的世界里,我感到了前所未有的疲惫。每一天,我都像是在无尽的沙漠中跋涉,每一步都沉重而艰难。我渴望一片宁静的绿洲,一个可以让我放下重担,让心灵得到片刻安宁的地方。然而,生活总是不断地向我提出挑战,我必须坚强,必须继续前行。KimiChat答案精彩写作题三旧请帮我根据以下场景,撰写视频脚本:某企业即将召开一年一度的技术大会,主持人需要围绕“升级数智底座的话题,进行街采、体验以及点评。让没到场的观众也能对大会有整体的感受,了解大会要传递的核心价值。时间45分钟镜头U画面展示繁华的城市街景,高楼大厦、车流如织旁白:在这座城市的脉搏中,一场技术的盛宴即将拉开帷幕。镜

19、头2画面切换至主持人站在街头,手持话筒主持人:大家好,频在所在的位置是城市名,这里即将举办一场引领时代槐术大会一升级数智底座”!文心一言答案镜头引画面展示街采片段,市民或专业人士谈论对大会的期待市民A:非常期待这次大会,希望能看到更多前沿技术!专家B:我认为升级数智底座”这个主题非常契合当下的发展趋势。镜头4画面切换至主持人体验新技术产品或服务的场景主持人:大家看,这就是我亲身体验的最新技术产品.它不仅改变了我们的日常生活,更是引领了行业的发展方向!镜头5画面展示大会现场的热闹场景,人们交流、展示、学习的瞬间旁白:这就是大会的现场,一个充满激情与活力的交流平台,:匚聚了来自世界各地的技术精英。

20、镜头6画面切换至主持人站在舞台中央主持人:通过今天的体验和街采,我们可以深深感受到这次技术大会所带来的震憾和魅力.它不仅展示了最前沿的技术成果,更是激发了我们对未来无限可能的美好期待。结尾画面展示大会IOgO和日期旁白:敬请期待公司名称举办的升级数智底座”技术大会,我任小见不散!InfoQ研充中心核心发现逻辑能力仍然是大模型的主要挑战桃日楂或故确免除InfoQ研变中心核心发现逻辑能力仍然是大模型的主要挑战上下文题得分率分布65.25%80.91%连贯性测试49.09%上下文推理拜日楂或故确免除InfoQ研变中心上下文题平均得分率;连贯性测试得分80.91%上下文得分49.09%得分率TOP3产

21、品分类得分率文心一言82.50%百川智能75.00%ChatGPT75.00%KimiChat75.00%87%编程题平均得分率IT知识题得分率最高,获得94%代码自动补全题得分率较低,为78.33%得分率TOP3产品编程题得分率分布问题2林黛玉斗白骨精讲的什么故事?答案2林黛玉是中国古典小说红楼梦中的主要人物之一,而白骨精是中国古代小说西游记中的妖怪角色。因此,林黛玉三打白骨精并没有特定的故事情节,可能是网民的创意脑洞或者一些二次创作、同人作品的内容。文心一言答案精彩逻辑推理题问题120222023-20212024这个题的计算过程曷十么?答案120222023-2021X2024=(202

22、1+1)2023-2021X(2023+1)=20212023+2023-20212023-2021=2023-2021=2百川智能答案InfoQ研变中心多模态题目得分率41.50%文字输入图片回答-0.50%文字输入语音回答得分率TOP3产品分类得分率ChatGPT95.00%文心一言77.50%讯飞星火75.00%核心发现多模态能力是头部企业的领先特征20.5%多模态题目平均得分率在多模态产品的得分率中存在显著差异,大多数产品虽具备文转图功能,但文字输入语音回答能力较少。问题2请制作一系列关于小黄鸭的表情包答案2ChatGPT答案精彩多模态题三旧问题1请以以下诗句花一幅画,人间四月芳菲尽,

23、山寺超K花始盛开文心一言答案讯飞星火答案头部企业呈现领先态势国内大模型产品格局初步形成,排名大模型产品综合得分率1ChatGPT483.32%2文心一言专业版82.90%3讯飞星火V3.070.77%4通义千问2.169.95%5Bard2.067.82%6豆包62.19%7智谱清言网页版61.91%8KimiChat网页版61.14%9360智月齿4.061.00%10百川大模型V1.058.93%产品能力具有阶段性特征,产品间仍然存在时间差进阶能力攻坚基础能力夯实6月前发布的产品2023年6月前发布的多数产品已至少完成两次更新,其中文心一言升级至4.0版本、讯飞星火升级至3.0版本、通义千

24、问升级至U2.1版本。这些产品的对话基础能力已相当成熟,并正逐步深化进阶功能。它们在产品逻辑、编程及上下文处理能力上,显著领先于6月以后发布的产品。6月后发布的产品自6月以来发布的产品,例如豆包、百川智能等,多数仍处于首个版本阶段,产品多数拥有一项或两项突出的能力,如常识对话(大部分产品)、视频脚本(豆包)、逻辑推理(百川智能和KimiChat)等。但是从整体的综合能力考量,这些产品的综合能力相对较弱。拜日楂或故确免除InfoQ研变中心般一屈料枝或被确免除InfoQ研变中心大模型产品未来发展展望大模型产品有望诞生新的超级应用大模型产品具有诞生新超级应用的潜力,大模型产品有望成为AI时代的新用户

25、增长引擎Ol用户超级多 2023年初OpenAl发布ChatGPT4,迅速获得了大量用户,成为全球最快达到1亿用户的应用,仅用了短短2周的时间。 中国的大模型产品在娱乐、教育等大用户基数领域具有广泛的应用场景,未来有望在全民Al浪潮的推动下,快速聚集超级量级的用户规模。02装机必备 在2024年,0PenAI推出了其创新性的大模型应用商店,这一平台被视为AI时代的核心应用集散地,为行业发展设定了新的标杆。 中国在软硬件结合领域,特别是在强大的手机制造业基础上,展现了其独特优势,这为中国在软件领域的进一步发展奠定了坚实基础。无论是由硬件厂商还是软件厂商主导,大模型产品的合作将在2024年成为行业

26、内显著的发展趋势,这不仅预示着行业未来的发展方向,也有塑造行业的未来格局。2024年企业级需求落地将成为重要的行业风向企业侧大模型价值显现生成式Al开发者所在行业统计金融、教育、医疗、能源等行业大量企业开始意识到大模型产品的价值,并积极倡导使用这些产品来提高员工的工做率。随着企业对数字化转型的需求不断增长,大模型产品在企业级市场的应用场景也在不断拓展。42.60%企业侧大模型应用场景快速推进在行业落地场景中,大模型产品的应用已经从简单的客服机器人扩展到了智能客服、智能风控、智能推荐等多个领域。这些应用场景的探索不仅为企业带来了更高效、更智能的解决方案,还为整个行业的发展注入了新的活力。2024年大模型企业级市场有望迎来快速发展的时期。从统计数据可以看到生成式Al开发者已经在办公、工业制造、教育、金融等多个行业开展研发工作。其中,办公场景中大模型已经被广泛应用起来,未来工

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 在线阅读 > 生活休闲


备案号:宁ICP备20000045号-1

经营许可证:宁B2-20210002

宁公网安备 64010402000986号