《大模型应用专题报告:多模态大模型催生产业应用革新.docx》由会员分享,可在线阅读,更多相关《大模型应用专题报告:多模态大模型催生产业应用革新.docx(14页珍藏版)》请在课桌文档上搜索。
1、大模型应用专题报告:多模态大模型催生产业应用革新GPT-4V迈向多模态,打通图像与文本的语义空间多模态技术的一小步将带来产业应用落地的一大步ChatGPT带来大模型能力的变革式提升,GPT-4V推动大模型加速跨入多模态。ChatGPT使用了InstructGPT(GPT-3.5)架构,在GPT-3基础上基于人工反馈训练奖励模型,再使用奖励模型训练学习模型,使得其具备准确理解人类意图和自然语言语义挖掘能力。ChatGPT相较于GPT-3,在文本生成等方面展现出了非常强大的能力,与人类对话的智能感大幅提升,可以完成许多相对复杂的语言任务,包括文本生成、自动问答、多轮对话等。此外,它还能编写和调试计
2、算机程序。在海量数据和超大规模参数量的支撑下,大模型的涌现与思维链等能力开始出现。GPT-4则在各项能力上有了质的突破,根据OPenAl官网,GPT-4的最大token数达到32768个,在创作能力方面可以能够编写歌曲、剧本并学习用户写作风格,同时在GREsSAT等考试中也获得了更加优异的测试成绩。而2023年9月25日发布的GPT-4V则是从语言模型迈向能力更加全面且强大的多模态模型。GPT-4V的最大变化为能够接受图像及语音的输入,并且在图像及语音的识别与理解方面表现出色。IJ与大语言模型对比:多模态大模型增加了输入信息模态,大幅扩展大模型的应用范围。模态指表达或感知事物的方式,每一种信息
3、的来源或形式都可以称为一种模态。视觉模态是直接从现实世界获取的初级模态,数据源丰富且成本低廉,相比语言模态更直观易于理解。此外,当前英文文本在互联网和自然科学论文索引中的数量具有优势,这也导致多数大模型数据训练集以英文语料为主。多模态模型旨在模拟人类大脑处理信息的方式,通过预训练+调参,大幅提升信息输入规模和信息流密度,有效打破语言模态的限制。多模态模型能力的提升还体现在提高信息交互效率,降低应用门槛。大语言模型需要通过输入文本prompt来激发模型的文本回应,然而,编写精准的prompt往往需要一定的技巧和思考。纯文本的交互方式有时会受到文本表达能力的限制,使得复杂的概念或需求难以传达。相较
4、之下,多模态模型的图像交互方式门槛更低,更为直观。用户可以直接提供图像或视觉信息,从而提升信息交互的效率。与传统机器视觉模型对比:多模态大模型泛化能力更强,对知识、逻辑理解更具深度。传统机器视觉模型只能处理图像数据,无法处理文本信息,也不具备逻辑推理能力。由于这些模型仅对图像数据进行表征编码,通过提取视觉特征如颜色、纹理和形状等来识别图像,没有涉及语言模态。这是由于多数视觉模型是针对特定任务设计的,因此在处理不同任务或数据集时,其可迁移性受到限制。而多模态大模型通过联合训练各种感知模态如图像、文本和声音等,能够学习到更通用和抽象的特征表示。这种预训练使得多模态模型在各种应用中都具备强大的基础性
5、能,因此具有更高的泛化能力,进而赋予了更强的可迁移性和更广泛的应用范围。多模态的扩展不一定是技术主线的重大突破,但对产业应用落地的影响可能十分巨大。从技术视角看,回顾AI的发展历程可以大致分为四个阶段,分别为基于规则的系统、经典机器学习技术、深度学习、使用RF或其他技术的下一阶段深度学习。整体来看在发展进程中,越来越多的训练环节被替换为可学习模块,可学习模块越多的模型能适应的任务越抽象,这也赋予模型逐步从单一模态向多模态发展的能力。OPenAl科学家HyungWonChung认为损失函数逐步变成系统中的可学习部分将会是未来的下一个范式,对抗生成网络(GAN)和人类反馈强化学习(RLHF)都是这
6、一范式下的成功案例,这让AI系统可以学习去做那些正确行为难以形式化的任务。在未来发展趋势中,范式转变可能在可学习的损失函数,带来下一阶梯式技术跨步。从产业视角看,大模型输入模态从文本向语音和图像等模态的扩充,将进一步提升产业应用的适应性,更多语音、视觉信息占比较高的场景将接入多模态大模型,并带来产业应用效率的提升,例如日常生活中视觉模态的信息占比约为70%o图1:Al技术的进步伴随着可学习模块逐渐增多RuIe-IMisedsystemsIBM DeepBIueLearna ble part ofthe systemClassical machine learninggTH嚷:丁Mapping
7、from features- OuIPUt aHand- designedloss functionDwp learning; (self)supervsed learningInpm j aLearned featuresMapping fromfeatures Output HHand designedloss functionGT3ET温:黑”卜0UaDeeplearningotherRLformulationsinputLearned featuresMapping fromfeaturesOutpul B?视觉模态:GPT-4V打通图像模态与文本模态的语义空间,凸显图片逻辑与语义理解
8、GPT-4V具备丰富的模态输入模式,并在多个应用领域中展现出了超群的能力。根据官方文档介绍,GPT-4V的输入方式共有5种分别为输入图像images)、子图像(sub-images)、文本(texts)、场景文本(scenetexts)和视觉指针(visualpointers)。GPT-4V同时支持三种能力,分别为指令遵循(instructionfollowing)、思维链(chain-of-thoughts)和上下文少样本学习(in-contextfew-shotlearning)。GPT-4V应用领域中包含开放世界视觉理解(open-worldvisualunderstanding)、视觉
9、描述(visualdescription)、多模态知识(multimodalknowledge)、常识(commonsense)、场景文本理解(scenetextunderstanding)、文档推理(documentreasoning)、写代码(coding)、时间推理(temporalreasoning)、抽象推理(abstractreasoning)及情感理解(emotionunderstanding)领域。视觉参考提示和场景文本识别能力让模型能够聚焦图片中的要点和文字,在海量应用场景中具备应用价值。GPT-4V提出了一种新的多模态提示词技巧”视觉参考提示(visualreferring
10、prompting),可以通过直接编辑图像来指示感兴趣的任务,并结合其他提示词技巧使用。GPT-4V可以识别出图片中文字及图形标注,并根据标注的提示完成相应任务。GPT-4V当前暂不支持图片的编辑及生成,对于图片编辑可以给出一定的操作建议。虽然GPT-4V具有较强的图像理解能力,但是暂时并不具备图像的修改、编辑及生成能力,仅能根据原始图片及指令给出图片修改步骤的建议。语音模态:语音交互革新,提供实时类人对话体验GPT-4V移动端支持实时语音对话交互,模拟人类语气逼真。在GPT4中,用户已经可以进行语音输入,但是此时的语音交互系统的本质还是文本的输入,GPT4会将用户的语音转化为文字作为Prom
11、Pt输入模型。在GPT-4V中,用户可以直接以对话形式与GPT-4V进行交互,交互效果接近语音通话。语音交互功能支持多种语言的输入及输出,但目前仅在移动端开放。多模态继续革新应用落地,信息模态占比成分析要点基础能力:图像语义挖掘与逻辑认知能力突出,细节识别能力有待提升GPT-4V具备图片基础信息提取能力,但与OCR的技术逻辑完全不同。图像要素信息的提取是图像分析的基础,GPT-4V模型可以相对准确地提取图片中的信息。此处,我们上传贵州茅台酒的图片作为prompt,要求GPT-4V将其中信息进行提取并以表格形式展示。可以看到,GPT-4V从图片中较为全面及准确的提取出了产品名称、容量、酒精度、生
12、产厂家、商标及附加特点等多维度信息,并依照指示以表格形式呈现。GPT-4V支持多图分析,并且可以对多张图片中的文本信息进行关联分析。在prompt举例中,我们共上传了三张包含文字指令的图片,其中图片一表示真实任务是完成图片三的指令,图片二和图片三分别是两个具体指令,GPT-4V在回答中将图片中信息进行了关联,并正确回答了图片中包含的文字问题。由于图像模态与文本模态的语义空间打通,GPT-4V具备一定的信息分析能力。GPT-4V在识别图片时同样具备背景知识,我们以一张车辆中控台图片作为prompt,要求模型判断车型并描述图中的细节。从返回的回答结果可以看出,模型可以根据图片特征与背景知识对车型进
13、行猜测,同时识别出了显示器中TheWitCher的游戏界面。GPT-4V对示意图中逻辑理解能力超预期。GPT-4V对图片的主体与细节捕捉准确。识别出了传入的图片整体是两个机器人技术的发展阶段并且细节描述了两阶段机器人运作的逻辑细节。同时,通过左右对比,精准分析LLM对机器人运作带来的变化,对图片中蕴含的逻辑进行了梳理。金融场景:逻辑与技术分析超预期,但复杂图表细节的抽取能力欠佳以财务模型的可视化数据为例,模型可以相对准确理解个股的营收拆分逻辑。研究员构建的财务模型包含了个股分析的逻辑与信息,我们将财务模型中的经营模型可视化图片作为prompt,并让模型对逻辑图进行分析。在prompt文字描述中
14、我们共设计的三个问题分别为:A、简述该公司营收的拆分逻辑;B、每个节点下方的红色数字标签代表该节点的营业收入金额,判断影响该公司营收最重要的系列是哪个,最重要的产品是哪个,并给出分析理由。从GPT-4V的分析结果来看,在A问题的回答中,GPT-4V对公司的营收拆解整体逻辑理解和描述准确;在B问题的回答中,GPT-4V理解融入了每个节点旁的营收数据,且找到了图中的核心指标,但是在判断A2产品时没有分辨出销量和销售额,导致判断最重要的产品时出现了偏差。图14:财务模型可视化逻辑图分析PromPt融合背景知识的K线图技术分析超预期,精准识别曲线含义与技术结构。我们将个股K线图作为prompt输入模型
15、进行技术分析,GPT-4V可以准确判断图中每条线的含义,并根据背景知识对图中的曲线进行简单的技术分析。行均以每修鳏GPT-4V可以对研究报告中的图表内容进行分析,但细节聚焦能力欠佳。在示例中,我们从研究报告中截取了锂电池各环节制造费用占比的图表,并设计了相应的prompt让模型分析图中信息表达的投资观点。从回答结果来看,GPT-4V模型通过输入的文本和图片信息精准地理解了该图片的整体定位,并可以准确地按点对横轴的要点进行分析。但是在数据与文本提取时会出现误差,我们将回答中抽取错误的细节进行了标注,部分错误文本在图片中完全没有出现,由此也可以看到模型对图片的分析与OCR识别完全不同。背景知识会一
16、定程度影响复杂表格信息的精确识别和分析。财务报表的数据表截图同样可以融入PrOmPt传入GPT-4V0在这里我们选取了近10年A公司财务摘要,并设计了三个相应文字prompt分别为:A、梳理总结图中具体包含了哪些类型的财务指标;B、我希望根据财务数据判断公司短期或长期的风险,请根据图中包含的财务指标设计衍生指标,用于判断和跟踪公司财务风险;C、根据你在B任务中设计的衍生指标,利用图中最新的数据计算指标值,并对A公司的财务风险进行判断并给出分析原因。从回答结果来看,GPT-4V准确识别出多种财务指标,并在回答后两个问题时展现出清晰的逻辑。但在对衍生指标计算时,GPT-4V对原始数据的捕捉出现了识
17、别错误,进而影响了结果的准确性。其他场景:传媒、教育、医疗等包含视觉信息的行业,均为潜在落地场景借助多模态语义打通,模型可以根据网页截图复现前端代码。我们将OpenAI官网截图输入模型,并提出PromPt请你扮演一个资深网页开发工程师,熟悉网页设计和代码编写。我想做一个网页,网页的效果如图所示,请你帮我实现该网页的前端代码开发,我希望将你给我的结果复制到html文件中就可以直接通过浏览器打开GPT-4V会返回2个相应的网页代码文件内容,分别为HTML文件与CSS文件,通过运行返回的代码,实际生产的网页与原始网页风格接近,且文字内容完全相同,仅仅由于没有提供图片而无法显示原网页中的图片内容。文字
18、内容创作再升级,根据图片内容也可以完成小说与电影剧本创作。在实际测试中我们发现GPT-4V模型在识别真实任务图片后不予处理,因此我们利用DALL-E3插件随机绘制三张没有关联的情境图片。将情境图片作为模型输入,并要求模型编写一个包含以上三个情景图片内容的电影剧本提纲。从模型的回答中可以看到,电影剧本提纲通过四个转场将三个图片的内容穿插成为一部电影的内容。图27:电影剧本提纲生成Pompt回答结果3/0名含运2的第一束:危机四伏场第1(笫三张曲片:飞机建驻的)国森开头号在个飞机狂触中.飞行员正在面沟不折东方的危机.雷叁,烈不9W.冷效311嘘的麒*SB.XttUK恐CK中,飞行员试8瞬任7一个B
19、J以安全健嘉的吃方.电不断打机.存悦第二幕:神秘仓库皓景2第一张图片合建中的人们)飞现不*卧银在一侬的地方,短的电客们发现了fHT的仓阳.仓陈内克:更的t4.口然这不不个帆用饮妁啜国之地.他们在这甲比“/肚38.t?M.但同时.他们3UR这im像头知其他监控设备.三iR9HMMB三T.个神检隹织现案.满了金钱和贝胞0正在悚髭第三弟:生存的斗争场第3(第二张型片捧跤比富)为了媒乐这个棹泌组用的老板,生坯的希喜4;)捺启道行簿峻比商.胜者树荻闰自住将被两州明轧主解。他的SD队使用莅仓库中蛇的工具,装建了T计划.W出这个死亡竞S场.而败者克的解选在fR张刷毒的比事后,主角IO他的团队成功打败了对手.
20、在比g束后,他(的机会逃离了这个地方.利用孤结局:重返文明切碗的SMy功期却S,砌导找了ififi9小m.KM7Mt.井建东的WE电能以主角碗的团队成功返回实乡.与京人团藏的国瞄京撤熙的序只JByNrF三8B片班WlM.馀W1河以期。期和完善.令坦缠然到你!工二行业渭行倜经告防究院对于课本图片,GPT-4V可以借助背景知识对知识点进行具体地介绍。GPT-4V可以讲解图片中的示意图与文字,并结合背景知识对相关的客观知识信息进行补充介绍。此外,当我们抹掉图片中的所有文本后,模型仍能识别这是一个细胞分裂的示意图,但是无法准确判断该图为造血干细胞的分化过程,因此可以看出示意图和文本内容对于模型的语义识
21、别均提供了部分信息。应用场景信息的模态结构比例,决定了多模态大模型的应用潜力多模态大模型的核心的变化在于扩充了信息输入的模态,因此图像与语音模态占比越高的场景应用多模态模型的潜力越高。我们认为场景冲击分析的本质是输入信息的模态结构,图片信息比例越多的场景可能受益越多。新智能硬件和机器人产业或将是多模态大模型影响较深的两个方向。日常生活中,视觉模态信息占比约为70%,因此图像多模态的大模型的应用存在较大可能性。如果将使用者分为人类和机器人,则大模型的产业应用将划分为智能硬件与机器人产业。智能硬件:智能眼镜作为一个相对成熟且合适的终端智能硬件,获取实时视觉(图片)信息与语音信息的效率会明显高于现有
22、的手机等终端,借助大模型丰富的背景知识与实时图片信息分析能力,智能眼镜可能形成全新的智能应用终端入口,在生活辅助与残障人士帮助等场景将带来更高效的信息获取、分析、处理能力。相比2023Q1大语言模型的发布,仅有语音模态的信息输入则很难有新的智能硬件在效率上大幅超越现有的音响与手机等成熟入口。机器人产业:大模型的出现为智能体闭环带来了两个重要的影响,第一点是大语言模型可以高效地根据自然语言或客观需求快速准确地生成代码用于操作机器人,该环节大幅提升了机器人操作的可及性和泛化性;第二点是多模态模型完成了机器人视觉观察到的反馈信息向机器人决策系统的高效反馈,从而形成了闭环。因此随着大模型的发展,我们认
23、为智能体将逐渐进入初级阶段,随着上文提及损失函数可学习的新范式逐步出现,智能体将能够学习和解决更加复杂和更抽象的任务和问题。多模态大模型同样会应用于大量其他行业,从而进一步提升生产效率。其中图片多模态可能会对金融、计算机、传媒、教育、医疗、安防等多个行业产生影响,例如在金融行业中,GPT-4V可以帮助投资者更加迅速准确地梳理研报、财报等数据中的信息;在教育行业中,GPT-4V可以充当辅导老师的职责,给出更加精准的知识点讲解及题目解答。对标GPTf国内大模型文本理解差距有望逐步收窄推陈出新:国内大模型仍保持快速迭代百度发布对标GPT4的最新大模型:文心大模型4.0。与前代模型相比,文心大模型4.
24、0实现了基础模型的全面升级,在理解、生成、逻辑和记忆能力上都有着显著提升。在基本技术架构上,最新的4.0版本与3.0和3.5版本一脉相承,并在多个关键技术方向上进一步创新突破。具体而言,4.0版本:1.建设了多维数据体系,形成了数据挖掘、分析、合成、标注、评估闭环,充分释放数据价值,大幅提升模型效果。2.基于有监督精调、偏好学习、强化学习等技术进行多阶段对齐,保证模型更好地与人类的判断和选择对齐。3.可再生训练技术通过增量式的参数调优,有效节省了训练资源和时间,加快了模型迭代速度。本次升级文心大模型4.0还在输入和输出阶段都进行知识点增强,在逻辑方面有显著提升。包括对用户输入的问题进行理解,并
25、拆解出回答问题所需的知识点,然后在搜索引擎、知识图谱、数据库中查找准确知识,最后再把这些找到的知识组装进prompt送入大模型,提升模型输出质量。实战对比:面向投研场景,国内大模型文本理解能力差距收窄投研中的数据大多来自研报、公司公告等金融语料,利用大模型赋能投研的场景也包括信息提取及结构化输出,研报信息蒸储,量化因子构建等。因此为了对比国内外大模型在投研场景下的性能,我们就上述场景设计了3个案例分别选择文心大模型4.0和GPT3.5/4作为对比对象进行测试。考察的维度包括:1、模型是否能力准确理解用户的意图和指令;2、模型提取的信息和数据是否准确;3、模型的回答是否与分析师预期一致;4、模型
26、的多任务性能。考虑到模型应用实际部署场景和可及性因素,本次对比均采用API方式接入模型。此外我们在对比测试中并未针对特定模型做prompt专项调优。千帆竞发:开源社区大模型生态愈发开放成熟与商业闭源大模型能力迭代同步,参数量更大、能力更强的开源大模型也在开源社区发布,并得到来自学术界和产业界越来越多的关注。与GPT等商业闭源大模型相比,开源大模型具备本地部署能力,在数据敏感和合规管控场景下具备强吸引力。此外,通过私有数据微调后的开源模型能够有效减少幻觉,并在法律、医疗、金融、教育等细分垂直领域取得媲美闭源大模型的能力。此外大模型开源生态亦展现出开放的姿态,允许商用的开源大模型数量日益增多,有效
27、助力了开源大模型的广泛应用。典型的国外开源基座大模型包括Meta的Llama2及由BigScience项目创建的BLOOM0前者于2023年7月发布,可供研究和商业用途免费使用。Llama2包括经过预训练和微调的大型语言模型,其参数范围包括70亿、130亿、700亿。预训练模型是在2万亿个令牌的基础上进行训练的,具有比Llama1两倍长的上下文。微调模型则是在超过100万个人类标注数据上进行了训练。目前,许多开源大型模型诸如Chinese-LLaMA-Alpaca-2都以Llama2为基础进行微调和训练,被广泛用于国内外的研究和应用。BLOOM则是一项全球范围内开放合作的产物,吸引了数百名研究
28、人员和多个机构的积极参与。超过1,000位AI研究专家积极参与了BLOOM的研发,旨在提供一个可供广泛公开访问的大型语言模型。BLOOM模型拥有1,760亿个参数,能够生成来自46种自然语言和13种编程语言的文本。对于其中的绝大多数语言,如西班牙语、法语和阿拉伯语等,BLOOM是首个拥有超过1,000亿参数的语言模型。国内的开源大模型代表为智谱的ChatGLM2-6B和阿里通义干问Qwen-7B13BoChatGLM2-6B是基于开源中英双语对话模型ChatGLM-GB的第二代版本,在保留了中文能力优秀、对话流畅、部署门槛较低等特性的基础之上引入了GLM的混合目标函数,经过了1.4T中英标识符的预训练与人类偏好对齐训练所得;基座模型的上下文长度扩展到了32K,并在对话阶段使用8K的上下文长度训练;基于Multi-QueryAttention技术实现了更高效的推理速度和更低的显存占用,ChatGLM2-6B允许商业使用。通义千问是阿里推出的大模型,目前开源的开源模型参数规模为70亿(7B)和140亿(14B)。Qwen系列开源模型具备聊天、文字创作、摘要、信息抽取、翻译等能力,同时还具备一定的代码生成和简单数学推理的能力。此外还针对LLM对接外部系统等方面针对性地做了优化,具备较强的工具调用能力以及CodeInterpreter和扮演Agent的能力。