计算机行业“智能网联”系列报告26:GPT大模型多模态应用展望-20230312-中信证券-43页正式版.docx

上传人:夺命阿水 文档编号:1194849 上传时间:2024-03-30 格式:DOCX 页数:68 大小:1,023.62KB
返回 下载 相关 举报
计算机行业“智能网联”系列报告26:GPT大模型多模态应用展望-20230312-中信证券-43页正式版.docx_第1页
第1页 / 共68页
计算机行业“智能网联”系列报告26:GPT大模型多模态应用展望-20230312-中信证券-43页正式版.docx_第2页
第2页 / 共68页
计算机行业“智能网联”系列报告26:GPT大模型多模态应用展望-20230312-中信证券-43页正式版.docx_第3页
第3页 / 共68页
计算机行业“智能网联”系列报告26:GPT大模型多模态应用展望-20230312-中信证券-43页正式版.docx_第4页
第4页 / 共68页
计算机行业“智能网联”系列报告26:GPT大模型多模态应用展望-20230312-中信证券-43页正式版.docx_第5页
第5页 / 共68页
点击查看更多>>
资源描述

《计算机行业“智能网联”系列报告26:GPT大模型多模态应用展望-20230312-中信证券-43页正式版.docx》由会员分享,可在线阅读,更多相关《计算机行业“智能网联”系列报告26:GPT大模型多模态应用展望-20230312-中信证券-43页正式版.docx(68页珍藏版)》请在课桌文档上搜索。

1、e中信证券CITICSECURITIES计算机行业“智能网联”系列报告26GPTj夫横型号横本应甬雇童杨泽原/丁奇/潘儒琛/李康桥中信证券研究部计算机组2023年3月12日请务必阅读末页的免责条款和声明核心观点e中信证券CITICSECURITIES ChatGPT通过大模型突破Al瓶颈,GPT4多模态应用带动商业化加速。AChatGPT凭借大算力、大规模数据训练、基于人类知识的强化学习等方式突破AI技术瓶颈,获得超预期的用户体验效果与市场反响。回顾GPT系列模型演进,GPT-1结合无监督预训练与有监督微调过程,GPT-2突出零样本设定,GPT-3强调上下文学习能力,参数量、训练数据量不断提升

2、。我们预计即将推出的GPT-4或支持多模态应用,开启通往人工通用智能(AGi)之路,并有望控制训练成本,降低使用门槛。目前,ChatGPT已在C端推出ChatGPTPlus订阅计划,B端开放ChatGPTAPI,且成本降低为0.002美金/WOOtoken,海外多个应用率先接入。我们预计在GPT-4带动下,未来大模型以及多模态模型的商业化应用将进一步加速,带动行业景气度持续向上。 TranSfOrmer架构支撑GPT走向多模态,构筑AlGC领域核心基石。GPT系列模型使用Transformer架构,当前基于Transformer的多模态研究为Al领域研究热点,Transformer已开始打破N

3、LP与CV领域壁垒,有望支撑GPT系列模型走向多模态应用,构筑AIGC领域核心能力基石。我们梳理出GPT的潜在基础能力包括文本生成(分析)、代码生成、对话交互、机器翻译、图像生成、视频生成等。我们认为,前述基础能力将支撑GPT系列模型在通用与垂直领域的应用,典型应用场景如:通用领域一搜索引擎/办公软件,垂直领域一教育/金融/医疗/图像视频等。通用与垂直场景多点开花,GPT变革内容生成与交互方式。“GPT有望革新各行各业的内容生成与交互方式。基于GPT+文本&代码&对话&翻译&图像&视频,我们看好GPT类技术未来在通用与垂直场景的应用空间。例如,搜索引擎结合GPT将重塑搜索结果呈现方式,多模态的

4、引入带来一站式的文本、图像、视频汇集结果,将大为提升用户信息收集效率,百度文心一言有望引领用户搜索体验的代际变革;在办公软件领域,金山WPS、福昕PDF未来若结合多模态GPT,有望深化用户在流程/事务/知识/创意/协作型等多类工作事项上的智能办公体验,同时支撑产品打开客单价提升空间;讯飞将以Al学习机率先落地类ChatGPT技术,有望在作文辅导、口语学习方面实现跃升;当虹科技具有视频Al建模能力、落地AlGC相关技术,GPT赋能下或进一步深化传媒、安全领域应用。投资策略:伴随成本下降以及多模态的持续演进,GPT等大模型有望构筑AlGC核心基石,推动Al商业化进程加速和市场天花板打开。建议持续关

5、注相关领域的Al公司:1)应用层:Al+行业:办公一金山办公、福昕软件,教育一科大讯飞,金融一同花顺、东方财富,医疗一创业慧康、卫宁健康,图像视频一商汤科技、当虹科技、云从科技、格灵深瞳、创新奇智、虹软科技、魅视科技,其他-拓尔思、汉王科技、海天瑞声等;2)基础设施层:海光信息、景嘉微、寒武纪、浪潮信息、工业富联、中科曙光等。风险提示:Al核心技术发展不及预期风险;科技领域政策监督收紧风险;企业数据安全风险;信息安全风险;行业竞争加剧风险。e中信证券CmCSCCURrnES目录1 .ChatGPT通过大模型突破Al瓶颈,GPT4多模态应用带动商业化加速2 .TranSfOrmer架构支撑GPT

6、走向多模态,构筑AlGC领域核心基石3 .通用与垂直场景多点开花,GPT变革内容生成与交互方式4 .投资策略5 .风险提示1.ChatGPT通过大模型突破Al瓶颈,GPT-4多模态应用带动商业化加速11概述:ChatGPT为NLP下的Al大模型,性能和使用体验超预期0 ChatGPT是自然语言处理(NLP)下的Al大模型,通过大算力、大规模训练数据突破Al瓶颈。2022年11月,OPenAl推出ChatGPT,ChatGPT基于GPT3.5,使用人类反馈强化学习技术,将人类偏好作为奖励信号并微调模型,实现有逻辑的对话能力。 ChatGPT本质上是通过超大的统计语言模型,对词语序列的概率分布进行

7、建模,利用上下文信息预测后续词语出现的概率分布,其表现的超预期反映了在算力水平提升的情况下大语言模型技术路线的成功,通过对大规模的未标注的文本数据进行训练,突破了Al发展的技术瓶颈。根据瞭望新闻周刊报道,OpenAI为了让ChatGPT的语言合成结果更自然流畅,使用了45TB的数据、近1万亿个单词来训练模型,训练一次的成本高达千万美元,一个月的运营成本需要数百万美CChatGPT帮助用户给邻居写信debughelp me w4e a short rate to introduce rnysetf to ry nc3b0rlis Cse S no WorkE like I expect - bo

8、w do I fix It?HtraMy nafe is (Ybur Name* an I just med 1 next door. I wanted to rcad OJt and GtrCQM mf%fi fm lookIng ftwAr1 to gHting to krow you Sd the fw)htXMood If you v* nod antmg or g want t CtuL plas dont huut to slop by or gtv m acaiBeatf Hrw)can yo make it w*e former?r*ul*f*9skrfrr : kdfr cl

9、o( Mltoxfr)90 fwnc()(dfr cncl()r*ulWorketCxx b. rultWork(ct)()n : b.worker(ctx)eancl()f n EI rtwm - zultnot*xCr)“turn Mltxrox. Aopnd (tt, IMarhteiQhbof.,am WrWng to ltrodb mylf. My CdHte (YlMK Nanw ana I Mv rcuy tca m rmt CkMr I WAntMl Ina rrowtf tn re more information about Whatthe code b supposed

10、to do and Wtmtisnl working as expected? AHo.s this te entire code or just a part of It?资料来源:OPenAl官网资料来源:OPenAl官网中信证券ClTlC SECURITIESIJ概述:OPenAl倾力打造ChatGPT,获得微软有力加持 ChatGPT出自美国Al创业公司OpenAI,是Al大模型领域的领军者。OpenAI在2015年由SamAltmanPeterThieLReidHoffmanvElonMUSk等人创办。公司成立之初,即确定了包括制造“通用”机器人和使用自然语言的聊天机器人的发展目标。

11、2019年,OpenAI获得来自微软的10亿美元投资,为Azure云端平台服务开发Al技术。2018年起,OPenAl开始发布GPT(GenerativePre-trainedTransformer)模型,2020年发布GPT-3,可以完成答题、写论文、代码生成等任务,被视为人工智能竞赛的里程碑事件,并直至ChatGPT的推出引起Al的热潮。 除了NLP领域,OpenAI还在多模态领域取得成就,包括发布了Al图像生成器DALL-E2,对音频转录编辑器DescriptxAl笔记应用Mem等进行投资。OpenAI发展历程OpenAI成立,马斯克等人参与发布ProximalPolicyOptimiz

12、ation算法发布GPT-2,获微软10亿美元投资研究从文本创建图像神经网络DALL-E展的主要目标,发布第一个项目OpenAIGymBeta发布GPT-1发布GPT-3,开放人工智能应用程序接口发布人工智能系统DALLE2与ChatGPT资料来源:OPenAl官网,中信证券研究部1.2演变:GPT1-无监督预训练+有监督微调中信证券ClTlCSECURITIES GPT1发布于2018年6月,参数量达117亿,预训练数据量约5GB。GPT1包含预训练和微调两个阶段,考虑到自然语言处理任务中有标签的语料少,GPT-1先在大量的无标签数据上训练语言模型,然后在下游具体任务(如分类、常识推理、自然

13、语言推理等)的有标签数据集上进行微调。1)在无监督训练中,GPT-1采用TranSfOrmer的架构,即标准的语言模型的目标函数,通过前面的词预测后面的词;2)在有监督训练中,采用标准的分类目标函数,仅需对第一阶段预训练的语言模型做出很小的结构改变,即可应用于各种下游任务。GPT-1包含预训练和微调两个训练阶段 GPT-1使用了BOokSCorPUS数据集来训练语言模型,其中有7000余本未出版的书籍。具体表现上,在有监督学习的12项任务中,GPT-1在其中9项上的表现优于专门训练的受监督模型。GPT-1在自然语言推理任务、问答和常识推理任务中的表现货科来源:improvingLanguage

14、Unaerstanamgoygenerativerre-raining(AleCHactorckKann6厢SSlmnan、msaiimans寺JMNLImMNUmnSNLISdTatIQNLIRTEESlM*ELSto44SllSM99.9S60MethodSlofyCkvcRACEmRACFhRACEvalLSkip(5576J.HtddcnCiMiercnccModd777.6DynamicFIHiOnNet679x).49.451.2BiAncntionMRU59119x)-0.250.3533FinelunedTransformerLM#ofparametersinLM资料来源:La

15、nguageModelsareUnsupervisedMultitaskLearners(AlecRadford、JeffreyWu、RewonChiId等)1.2演变:GPT3-无监督预训练+海量参数中信证券ClTlCSECURITIESGPT3发布于2020年5月,参数量达1750亿,预训练数据量约45TB。GPT3采用海量的参数来进行训练和学习,不追求GPT2中的Zerochot设定,而是通过少量样例(FeWshot或Oneshot)理解并执行任务,对应为模型的上下文学习能力。GPT-3在作用到子任务时,无需进行微调,以避免庞大的模型体量所带来的高成本。具体表现上,在大量的语言模型数据集

16、中,Zero-shot或FeW-shot设置下,GPT-3超过了LAMBADA和PennTreeBank;GPT-3也在很多复杂的NLP任务中超过微调后的最佳方法。Zero-shot% one-shot% few-shot fine-tune 5btFeWshot准确性表现增速更快表明大模型在上下文学习上更强大Aggregate Performance Across Benchmarks货科米源: % Language Models are t-ew-bot Learners uom B. Brown Benjamin Mann x NiCkRyder 等)1f*e Ephin reinfor

17、cement MerfUn0 6 a gA prompt and several model outputs are sampled.A new prompt is sampled from the dataset.This data is used to fine-tune G PT-35 with supervised learning.A labeler ranks the outputs from best to worst.This data is used to train our reward model.Explain reriforcetnerrt 6yw MThe PPO

18、model is initialized from the supervised policy.The policy generates an output.The reward model calculates a reward for the output.The reward is used to update the policy using PPO.ChatGPT训练包括训练监督策略模型、训练奖励模型、PPO强化学习三个阶段资料来源:OPenAl官网13展望:GPT4一此前外界预期参数量变化不大、使用门槛有望降低SSlSt GPT4备受业界期待,训练成本控制有望带动商业潜力的极大增强

19、。ChatGPT的突出表现使得外界对GPT-4十分期待,自2021年以来便有报道称GPT-4即将推出,OpenAI公司CEOSamAltman今年受StrictIyVC采访时表示GPT-4将在“有信心可以安全且负责任地运行时”推出。外界此前也曾预期,GPT-4的推出或分阶段进行,例如GPT-3也是先开放给合作伙伴、付费用户和学术机构,才在2022年底开放给公众。 在参数量上,针对有传言称GPT-4参数量将达到百万亿,OpenAI公司CEOSamAltman予以否定。此外,Al专家AlbertoRomero预测,GPT-4的重点在数据处理优化上,因此其使用门槛有望降低,我们预计训练成本的控制将带

20、动其商业潜力的增强。GPT-4参数的传闻遭到否定Altman谈及GPT-4预计推出时间GPT-4175,000f000,000100r000,OOOrOOOzOOO资料来源:微信公众号“机器之心”100r000,000r000z000OpvrtAlCEOSmnlunnhasddrvscdruonrcgirdingGPT4thecoanyasyetunreleasedlanguagenxtelandlatestintheGPTseriesthatformsthet)unw Omm . WV MB* .a. WMv资料来源:C)PenAl官网Thenewsubscriptionplan.ChatG

21、PTRus.willbeavailableforS20moth,andsubscriberswillreceiveanumberofbenefits: GeneralaccesstoChatGPT.evenduringpeaktimes Fasterresponsetimes PriorityaccesstonewfeaturesandimprovementsChatGPTPlusisavailabletocustomersintheUnitedStatesandaroundtheworld.*Weloveourfreeusersandwillcontinuetoofferfreeaccess

22、toChatGPT.Byofferingthissubscriptionpricing,wewillbeabletohelpsupportfreeaccessavailabilitytoasmanypeopleaspossible.资料来源:OPenAl官网,T走向多模态,构筑AlGC领域核心基石2.Transformer架构支撑GP中信证券ClTlC SECURITIES2.1 GPT采用的Transformer架构在NLP领域已跻身主流Transformer 的 Encoder-Decoder 示意图前馈神经网络自注意力机制输入部分RNNQ三(ISOOB)10201820192020202

23、12022资料来源:为何TranSf Ormer在计算机视觉中如此受欢迎?(微软亚洲研究院)资料来源:为何TranSfOrmer在计算机视觉中如此受欢迎?(微软亚洲研究院)2.3Transformer支撑下GPT有望走向多模态,构筑AIGC领域核心基石S中信证券ClTlCSECURITIESGPT有望基于TranSfOrmer延伸至多模态,构筑AlGC核心基石,GPTM或实现领跑。当前,基于TranSfOrmer的多模态学习成为Al领域的研究热点,研究者们提出了大量的Transformer变体。鉴于Transformer具有较少的特定于模态的架构假设,以及生成式预训练、大模型&大数据路线的成功

24、,Transformer能够联动CV与NLP,通过联合建模完成,打破CV与NLP领域之间的壁垒。微软亚洲研究院2022年推出BEiT-3预训练模型,在目标检测、实例分割、语义分割、视觉推理、图片描述生成等任务上取得了SOTA的迁移性能。我们认为,基于TranSfOrmer架构,GPT未来有望延伸至多模态,助力内容创作由UGC、PGC全面走向AlGC,赋能通用领域以及金融、教育、医疗、传媒等垂直行业。BEiT-3预训练示意图Masked Data Modeling7S*cr*fi MMMh EW*v-re 5N m8harcckA1*-MMd Strf-AeaMan9 小BEiT-3 (Mult

25、fway Transformer)*mQMMwfemodai inputOwtttJOTOMa Dttccbcr ICOCOJ(IckrKkle.iCO)SemanU SeVrrMut 6 (AOF)O)F*ctuncd 2T (C0lVSMZMr,E !NlVUlTJtPreVgirt SOTACoC4 FlaaMnQOBEiT-3在视觉语言任务上表现突出资料来源:通用多模态基础模型BEiT-3:引领文本、图像多模态预训练迈向“大一统”(微软亚洲研究院)资料来源:通用多模态基础模型BEiT-3:引领文本图像、多模态预训练迈向“大一统”(微软亚洲研究院)2.3Transformer支撑下GPT

26、有望走向多模态,构筑AIGC领域核心基石S中信证券ClTlCSECURITIES微软Kosmos-I基于Transformer可完成语言任务和基础的视觉任务,反映GPT发展潜力。2023年3月初,微软推出多模态模型Kosmos-I,可以处理文本、音频、图像和视频等内容,并遵循指令(即零样本学习)以及在上下文中学习(即少样本学习)。Kosmos-I能够分析图像内容、解决视觉难题、执行视觉文本识别、通过视觉智商测试(准确度在22-26%之间)以及理解自然语言指令等。KosmoS-I的骨干网络是基于TranSfOrmer的因果语言模型,用于训练的数据来自多模态语料库,包括单模态数据(如文本)、跨模态

27、配对数据(图像-文本对)和交错的多模态数据。Kosmos-I的表现说明了多模态大模型的应用潜力。Kosmos-I能够进行图像解释、视觉应答、数字识别Kosmos-I是第一个能完成零样本瑞文智商测试的Al模型EMmpItofK)TMWhichopbocancompletethematrix?ABCFSInpiMFrompt+田回+S13lcorct?It.correct?I*correct?.KCofTaCPIsKccrcf71itCO(TeCI?Pt*sIInput)资料来源:LanguageIsNotAllYouNeed(微软亚洲研究院)资料来源:LanguageIsNotAllYouNee

28、d(微软亚洲研究院)2.3Transformer支撑下GPT有望走向多模态,构筑AIGC领域核心基石一醯中信证券超ClTlCSECURITIESGPT基础能力包括文本生成(分析)、代码生成、对话交互、机器翻译、图像生成、视频生成等,借此赋能通用与垂直领域应用,有望带来商业模式的重塑与变革。A结合ChatGPT现有应用场景,以及对GPT未来模型演变的展望,我们归纳出GPT的基础能力,具体包括:文本生成(分析)、代码生成、对话交互、机器翻译、图像生成、视频生成等。我们认为,这些基础能力将支撑GPT在通用与垂直领域的应用,新的应用领域的出现也将基于这些能力的组合。例如,在办公软件领域,主要涉及GPT

29、的文本能力;在教育行业,主要应用到文本、对话、翻译能力。GPT能力与主要应用领域NLP能力 拼写检查信息检索主题建模文本分类信息提取封闭会话文本概括问题回答机器翻译开放会话GPT能力赋能GPT应用多模态演进搜索引擎T重塑结果呈现方式办公软件教育T打Y深_T打开客单价空间金融医疗I图像视频资料来源:中信证券研究部整理弋个性化精准学习“强大投研能力支持Y导诊问诊辅助M临床研究助手7电子病历助手4信息采集信息制作19中信证券cmcSECURfTlEST变革内容生成与交互方式3.通用与垂直场景多点开花,GP3.1 通用场景:搜索引擎一GPT+文本&图像&视频重塑搜索结果呈现方,B1意建案搜索引擎接入G

30、PT后结果呈现方式大为变化,或影响行业盈利模式与竞争格局。用户使用传统的搜索引擎时,需要手动翻阅搜索结果,判断是否为所需要的信息;而当搜索引擎接入GPT后,用户可直接获得答案集合。尽管受制于训练语蒋、成本等因素,答案准确性有待商榷,但在结果呈现方式上实现了变革,未来或与传统的搜索引擎相结合。如进一步实现多模态,搜索结果将更加丰富。微软在Bing中上线ChatGPT能力并开启测试,以聊天方式展示搜索结果,并可在对话中推荐广告。微软必应官方博客宣布,目前Bing日活突破1亿,集成搜索+聊天功能的Bing预览版自推出以来总聊天次数已超过4500万次。鉴于微软可能掀起搜索行业的第二次变革并颠覆此前的盈利模式,谷歌在2月初展示由大型语言模型LaMDA驱动的类ChatGPT应用Bard,并计划大范围推广。全球搜索引擎市场份额分布用户在新版Bing对话中发现广告推荐内容20U-U4 OCk * M.9$ Y4rf02.K 0.7X Y AMXHI.S1* DmklhnklLfO0.M* Goog

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 在线阅读 > 生活休闲


备案号:宁ICP备20000045号-1

经营许可证:宁B2-20210002

宁公网安备 64010402000986号