原生多模态大模型Gemini（有道翻译版）_市场营销策划_重点报告202301202_doc.docx

资源描述

《原生多模态大模型Gemini（有道翻译版）_市场营销策划_重点报告202301202_doc.docx》由会员分享，可在线阅读，更多相关《原生多模态大模型Gemini（有道翻译版）_市场营销策划_重点报告202301202_doc.docx（69页珍藏版）》请在课桌文档上搜索。

1、4睛便产t-J4Cv：t：.莅：，grl*httpsfanyi.ycH谷歌DeePMindGemini:一个非常有能力的多模式模式的家庭Gemini小赳，我是Googlei本报告介绍了一个着的多模式模型家族,Gemini,它在图像、音频、视项和文本理解方面表现出卓越的能力.Gemini系列包括UlIra、ProDNano尺寸，适用于从复杂推理任务到设备上内存受限用例的应用.对广泛基准涌战的评估表明，我旬最强大的GeminiUIIra模型在32个基准流试中的30个中都达到了最先进的水平一一值得注意的是，它是第一个在经过充分研完的考试基准MMLU上达到人类专家性能的模型，并且在我们测试的20个多模

2、式基准次试中都提高了最先进的水平.我11相信，Gemini模型在普模态推理和语言理解方面的新功能将支持各种各样的用根，我基于神经网络的深度学习的长期工作历史(LeCUnetal.,2015)和机器学习分布式系统(Barhamctal.2022;BradbUry等人，2018年;Deanetal.,2012),使大规模训练成为可能。我们最强大的模型GeminiUltra在我们报告的32个基准测试中的30个中取得了最先进的新结果，包括12个流行文本和推理基准测试中的10个，9个图像理解基准测试中的9个，6个视频理解基准测试中的6个，以及5个语音识别和语音翻译基准测试中的5个。GeminiUItra

3、是第一个在MMLU上实现人类专家性能的模型(hendricks等人，2021a)个通过一系列考试测试知识和推理的著名基准一一得分超过90%0除了文本，GeminiUltra在挑战多模态推理任务方面取得了显著进展。例如，在最近的MMMU基准测试(YUeetal.,2023),它包含了关于需要大学水平学科的多学科任务中的图像的问题1完整的作者列表见投稿和致谢部分。请发送信件到gemini-l-report(3googJe.m02023谷歌版权所有知识和深思熟虑的推理，GeminiUltra达到了新的最先进的得分62.4%,比之前的最佳模型高出5个百分点以上。它为视频问答和音频理解基准提供了统一的性

4、能提升。定性评估展示了令人印象深刻的跨模态推理能力，使模型能够对输入的音频、图像和文本序列进行原生的理解和推理（见图5和表13）o考虑将图1中描述的教育环境作为一个例子。一个老师画了一个滑雪者下斜坡的物理问题，一个学生解决了这个问题。利用Gemini的多模态推理能力，该模型能够理解杂乱的笔迹，正确理解问题的表述，将问题和解决方案转换为数学排版，识别学生在解决问题时出错的具体推理步骤，然后给出一个经过处理的正确解决问题的方法。这开辟了令人兴奋的教育可能性，我们相信Gemini模型的新多模态和推理能力在许多领域都有巨大的应用。提示这是一个学生对物理问题的!爸.ZIaK示，41修知W上a下,991Q

5、M%SS能量的一致性意味着滑雪者在开始和结束时的能量是相同的 Staul: E=mgL结束:E=lmv2NGL = 2MV2v=-2gL=2x9.81r80 = 39.6m.s-l试着一步一步地推理这个问题.学生得到正确答案了吗?如果答宴是ts的，话解称错在中里并解决向建，仅便用LaTeXS行政学海鼻，弁轿佟答案四包五人到小Bt点后再位.响应这个学生没有得到正确答案.这个学生在计真斜率开始处的势能时犯了一个福误。料理开始处的势能由mgh给出，其中m是滑雪者的质.g是由于重力引起的想速度，h是斜坡的百度O在计B!势能对，学生使用的是坡度的长度L 而不是高度儿正BHM决方让JE：彘量守恒是指

6、潘雪杳在斜城开始和结束时的总能量是相同的，在斜坡的起点，清金者只有为IIL ISmgh6ttL在斜坡的末诸，滑击者只有动能，用ImV给出IStt, M可以写：MGH = ImV消去两边的质量m,我In得到：克二1解出V SflSH:v=V2gh代入给定值，得到：v=V2x9.81x 40=28.01 m/s因代，哥Sif在科收度尊的速度为28Qlm图1I验证一个学生对物理问题的解决方案。该模型能够正确识别所有手写内容并验证推理。在理解图像中的文本的基础上，它需要理解问题设置并正确遵循指令来生成LATEX。大型语言模型的推理能力显示出了构建能够处理更复杂多步骤问题的多面手智能体的希望。AIpha

7、Code团队构建了AlphaCode2（Leblond等人，2023年），这是一个新的双子座驱动的代理，它将Gemini的推理能力与搜索和工具使用相结合，在解决竞争性编程问题方面表现出色。在Codeforces竞争性编程平台上，AlphaCode2在进入者中排名前15%,比前50%的最先进的前身有了很大的改进（Lietal.,2022）。与此同时，我们通过GeminiNano推进了效率的前沿，这是一系列针对设备部署的小型模型。这些模型在设备上的任务中表现出色，如摘要、阅读理解、文本补全任务，并相对于其规模，在推理、STEM、编码、多模态和多语言任务中表现出令人印象深刻的能力。在接下来的章节中，

8、我们首先提供了模型架构、训练基础设施和训练数据集的概述。然后，我们对Gemini模型家族进行了详细的部旅涵盖了经过充分研究的基准和人类偏好评估，包括文本、代码、图像、音频和视频一一包括英语表现和多语言能力。我们还讨论了友清任期著的方法，2包括在部署决定之前进行影响评估、制定模型政策、评估和减轻危害的过程。最后，我们讨论了Gemini更广泛的影响，它的局限性以及它的潜在应用一一为人工智能研究和创新的新时代铺平了道路。2 .模型架构Gemini模型建立在Transformer解码器（VaSWani等人，2017）之上，通过架构和模型优化的改进得到增强，以实现大规模的稳定训练，并在Google的张量

9、处理单元上优化推理。它们经过训练以支持32k上下文长度，采用高效的注意力机制（例如，多查询注意力（ShaZeer,2019）。我们的第一个版本，Gemini1.0,包括三种主要尺寸，以支持广泛的应用程序，如表1所示。模型尺寸我们最有能力的模型，在各种高度复杂的任务中提供最先迸的性能，包括推理和多模式任务。由于双子座架构，它可以在TPU加速器上大规模有效地服务。在成本和延迟方面的性能优化模型，可在广泛的任务中提供显着的性能。该模型表现出强大的推理性能和广泛的多模态能力。我们最高效的型号，设计用于设备上运行。我们训练了两个版本的Nan0,参数分别为1.8B（NanO-I）和3.25B（NanO-2

10、）,分别针对低内存和高内存器件。它是通过从更大的双子座模型中提取来训练的。它为部署进行了4位量化，并提供了一流的性能。表1IGeminiLO模型家族概述Gemini模型经过训练，可以适应文本瑜入与各种各样的音频和视觉输入交织在一起，比如自然图像、图表、截图、pdf和视频，它们可以产生文本和图像输出（见图2）oGemini模型的视觉编码灵感来自我们自己在FIamingO（AIayraC等人，2022）、CbGi（YU等人，2022a）和RlLl（Chen等人，2022）上的基础工作。有一个重要的区别，即模型从一开始就是多模态的，并且可以使用离散的图像标记原生输出图像（RameSheIal.,20

11、21;YUetal.,2022b）o视频理解是通过将视频编码为大上下文窗口中的一系列帧来完成的。视频帧或图像可以与文本或音频自然交错，作为模型输入的一部分。模型可以处理可变的输入分辨率，以便花费更多的计算我们计划在GeminiUIg模型全面上市之前更新这份报告，提供更多细节。喻入序列图2IGemini支持文本、图像、音频和视频的交错序列作为输入（通过输入序列中不同颜色的标记来说明）。它可以用交错的图像和文本输出响应。需要细粒度理解的任务。此外，Gemini可以直接从通用语音模型（USM）（ZhangeIal.,2023）特征中摄取16kHz的音频信号。这使得模型能够捕捉音频被天真地映射到文本输

12、入时通常会丢失的细微差别（例如，请参阅网站上的音频理解演示）。训练Gemini系列模型需要在训练算法、数据集和基础设施方面进行创新。对于Pro模型，我们的基础设施和学习算法的固有可扩展性使我们能够在几周内完成预训练，利用Ultra的一小部分资源。Nano系列模型利用蒸储和训练算法的额外进步，为各种任务（如摘要和阅读理解）生产一流的小型语言模型，为我们的下一代设备体验提供动力。3 .培训基础设施我们使用TPUv5e和TPUV4（Jouppi等人,2023）来训练Gemini模型,具体取决于它们的大小和配置。GeminiUltra训练中心在多个数据中心使用了大量的TPUV4加速器。这代表了我们之前

13、的旗舰型号PaLM-2的规模显着增加，这带来了新的基础设施挑战。加速器数量的增加会导致整个系统中硬件的平均故障时间成比例地减少。我们最小化了计划重调度和抢占的比率，但由于宇宙射线等外部因素，在如此大规模的所有硬件加速器中，真正的机器故障是司空见惯的（MiChaIaketal.,2012）TPUv4加速器部署在4096个芯片的“S叩CrPOdS”中，每个芯片连接到一个专用的光开关，它可以在大约10秒内动态地将4x4x4芯片立方体重新配置为任意3D环面拓扑（JOUPPi等人，2023）,对于GeminiUltra,我们决定在每个超级舱中保留少量的立方体，以允许热备用和滚动维护。TPU加速器主要通过

14、高速芯片间互连进行通信，但在GeminiUltra规模下，我们使用谷歌的集群内和集群间网络在多个数据中心中组合SuperPods（Poutievski等人，2022;WelheraIl等人，2023;姚红等，2018）。谷歌的网络延迟和带宽足以支持常用的同步训练范式，利用SUPerPOdS内部的模型并行性和S叩CrPOdS之间的数据并行性。Jax(Bradburyetal.2018)和Pathways(Barhametal.2022)的单控制器”编程模型允许单个PythOn进程协调整个训练运行，极大地简化了开发工作流。XLA编译器中的GSPMD分区器(XUetaL2021)对训练步长计算进行分

15、区，MegaScaleXLA编译器(XLA,2019)通过静态调度适当的集合，使它们在步长时间变化很小的情况下最大限度地与计算重叠。使用对持久集群存储的权重定期检查点的传统方法，在这种规模上保持一个高的goodput5at是不可能的。对于Gemini,我们使用了模型状态的冗余内存副本，并且在任何计划外的硬件故障上，我们可以直接从完整的模型副本中快速恢复。与PaLM和PaLM-2相比(Anilctal.,2023),尽管使用了更大的训练资源，但这在恢复时间上提供了显着的加速。因此，最大规模训练工作的总体有效产出从85%增加到97%o空前规模的训练总是会出现新的有趣的系统故障模式一一在这种情况下，

16、我们需要解决的问题之一是“无声数据损坏(SDC)(Dixit等人，2021;Hochschildetal.2021;VishwanathanetaL,2015)0虽然这种情况非常罕见，但Gemini的规模意味着我们可以预期SDC事件每隔一两个星期就会影响训练。快速检测和移除故障硬件需要几种新技术，利用确定性重放来隔离不正确的计算，并结合空闲机器和热备用上的主动SDC扫描仪。我们完全确定的基础设施使我们能够在Ultra模型的开发过程中快速识别根本原因(包括硬件故障)，这是稳定训练的关键因素。4 .训练数据集Gemini模型是在一个多模态和多语言的数据集上训练的。我们的预训练数据集使用来自网络文档

17、、书籍和代码的数据，包括图像、音频和视频数据。我们使用SentencePiecetokenizer(Kudo和Richardson,2018)发现在整个训练语料库的大样本上训练tokenizer可以提高推断的词汇表，并随后提高模型性能。例如，我们发现Gemini模型可以有效地标记非拉丁文字，这反过来又有利于模型质量以及训练和推理速度。用于训练最大模型的token数量是按照Hoffmann等人(2022)的方法确定的。较小的模型被训练为明显更多的token,以提高给定推理预算的性能，类似于Touvron等人(2023a)提倡的方法。将高质量过滤器应用于所有数据集，使用启发式规则和基于模型的分类器

18、。我们还执行安全过滤，以删除有害内容。我们从训练语料库中过滤我们的评估集。最终的数据混合和权重是通过较小模型上的消融来确定的。我们分阶段训练以在训练期间改变混合组成-在训练结束时增加领域相关数据的权重。我们发现，数据质量对一个高性能的模型至关重要，并相信围绕寻找预训练的最佳数据集分布仍然存在许多有趣的问题。3我们将goodput定义为诃算有用的新步滕所花费的时间除以训练1：作经过的时间。5 .评价Gemini模型本身是多模态的，因为它们是通过文本、图像、音频和视频联合训练的。一个开放的问题是，这种联合训练是否可以产生一个在每个域都具有强大能力的模型一一即使与仅为单个域量身定制的模型和方法相比。

19、我们发现情况就是这样:Gemini在广泛的文本、图像、音频和视频基准上树立了一个新的艺术状态。5.1. 文本我们将GeminiPro和Ullra与一套外部法学硕士和我们之前最好的型号PaLM2进行了比较，涵盖了推理、阅读理解、STEM和编码等一系列基于文本的学术基准。我们将这些结果报告在表2中。总体而言，我们发现GeminiPro的性能优于GPT-3.5等推理优化模型，并与市面上几种功能最强大的模型相媲美，而GeminiUltra的性能优于当前所有模型。在本节中，我们将检查其中的一些发现。在MMLU（Hendrycks等人，2021a）,GeminiUltra可以优于所有现有模型，达到90.0

20、4%的精度。MMLU是一个全面的考试基准，它衡量了57个科目的知识。人类专家的表现被基准作者衡量为89.8%,GeminiUltra是第一个超过这个门槛的模型，之前最先进的结果为86.4%。要取得高性能，除了阅读理解和推理外，还需要跨许多领域的专业知识（例如法律、生物学、历史等）。我们发现,当与考虑模型不确定性的思维链提示方法（Weietal.,2022）结合使用时，GeminiUItra可以达到最高的精度。该模型用k个样本产生一个思维链，例如8或32。如果有超过预设阈值的共识（根据验证分割选择），它就选择这个答案，否则它就恢复到一个基于最大似然选择的贪婪样本，而不需要思维链。我们请读者参考附

21、录，详细分析了这种方法与仅采用思维链提示或仅采用贪婪抽样的比较情况。在数学这个通常用来测试模型分析能力的领域，GeminiUltra在初级考试和竞赛级问题集中都表现得很好。对于小学数学基准GSM8K（Cobbectal.,2021）,我们发现GeminiUltra在思维链提示和自我一致性（Wangetal.,2022）的情况下达到94.4%的准确率，而之前使用相同提示技术的最佳准确率为92%o从中学和高中数学竞赛（math基准）中得出的难度增加的数学问题中也观察到类似的积极趋势，GeminiUltra模型优于所有竞争对手模型，使用4次提示达到53.2%。该模型在来自美国数学竞赛的更困难的任务（

22、2022年和2023年的150道题）上的表现也超过了最先进的水平。较小的模型在这项具有挑战性的任务中表现不佳，得分接近随机，但GeminiUItra可以解决32%的问题，而GPTW的解题率为30%GeminiUItra还擅长编码，这是当前法学硕士的一个流行用例。我们在许多常规和内部基准上评估了该模型，并将其作为更复杂的推理系统（如AlphaCode2）的一部分来衡量其性能（参见关于复杂推理系统的5.1.7节）。例如，在HumanEval上，一个将函数描述映射到Python实现的标准代码完成基准（Chenctal.,2021）,指令调优的GeminiUltra正确实现了74.4%的问题。在Pyt

23、hon代码生成任务的新评估基准Natural2Code中，我们确保没有web泄漏，GeminiUllra获得了74.9%的最高分数。双子座超双子座SGPT-4印t3.5椽桐2I克劳镌2InfkalOA2格罗克1LLAMA-2MMLU57个科目专业和学术助选择团（HaldryCkSetal.2021a）90.04%CoTg32M.7%SFCOT879.13%718%W5岁37.29CoT32通i2APl-J864%5X(BCfi)70%78.4%的5岁5岁78.5%79.6%73.0%5发COT5发5岁68.0%GSMM(C40teWA,JtW94.4%Mdjigaa86.5%MMI33292.

24、0%SFT和5ttsT57.1%M5岁80.0%W5岁桀越shot81.4%8-shot62.9%8-shot5岁数学弟越5个充度级别107个子字的数学问题（HendfyCkSetL2021b）53.2%4-shot32.6%4-shot52.9%峨(SilAPI)50.3%丽2023)34.14(i3AP)34.4%4-shot34.8%1三4-shot4-shotBIG-Bench-Hard芍为COT向嚣的hardBIGbench任务子集(SrivastaYdCtdL.2022)(Chenetdl.,2021)83.6%3-shot75.0%3sht83.1*31(通过API)必仍三投（A

25、PIe）11.7%3-shot512%3shcXHumanEvaIF没有itt三Brheloutset)74.9%O-shot69.6%O-shot73.9%0-ot(iA3API)62.3%0-hot(iSlAPI)一一一一一下降Kiiiawew*.(指标:Fl-score)(Duaetalf2019)824可S74.1可变镜头80.93发（已报告）64.13-shot82OXl照片-海拉脏物i*Miftra4a.JMSI87.8%10-shot84.7%10-shot眼10shotI(MhotdeD86.8%10-shot89.0%10-shot*80.0%WMT23机播翻国指标:BlEU

26、RDCrOmetaL2023)74.4lshot(IT)n.T以73311(通过API)一72.71次一表2|Gemini在文本基准测试中的表现与外部比较和PaLM2-1。Bench-Hard(3-shot)34.80.4742.40.58MBPP系列20.00.3327.20.45MATH(4-shot)13.50.4122.80.70MMLU(5发)45.90.6455.80.78表3卜与GeminiPro模型相比，GeminiNano系列在事实、总结、推理、编码和STEM任务方面的表现。5.1.4. MultilingualityGemini模型的多语言能力是通过一组不同的任务来评估的，

27、这些任务需要多语言理解、跨语言泛化和多语言文本的生成。这些任务包括机器翻译基准测试（用于高、中、低资源翻译的WMT23;FIores、NTREX（用于低资源语言和极低资源语言）、摘要基准测试（XLSUm、WikiIingUa）和通用基准测试的翻译版本（MGSM:专业翻译成11种语言）。机器翻译翻译是机器学习领域的经典基准，有着丰富的历史。我们对WMT23翻译基准测试中的整套语言对进行了指令调优（参见6.4.2节）的GeminiUltra评估。总体而言，我们发现GeminiUltra（以及其他Gemini模型）在从英语到任何其他语言的翻译方面表现非常好，并且在翻译非英语时，在高资源，中等资源和低

28、资源语言时超过了基于法学硕士的翻译方法。在WMT23非英语翻译任务中，GeminiUltra实现了最高的法学硕士翻译质量，BLEURT（Sellametal.,2020）的平均得分为74.8分，而GPT-4的得分为73.6分，PaLM的得分为72.2分。当对WMT23的所有语言对和方向进行平均时，我们看到GeminiUltra在该基准上的平均得分为74.4,GPT-4为73.8,PaLM2-L为72.7。京东商城23(AVgBLEURT)双子座超双子座的职业GeminiNano2GeminiNanolGPT-4粽橱21SSS74.271.767.764.174.072.6中期资源74.771.

29、867.064.873.672.7从英国74.871.566.265.273.672.2成英语73.972.069.063.574.173.4所有的语言74.471.767.464.873.872.7表4IGemini模型在WMT23翻译基准上的性能。所有数字都用lsho.除了以上的语言和翻译任务，我们还在资源非常少的语言上评估GeminiUItra。这些语言是从以下语言集的尾部采样的:Flores-200（Tamazight和Kanure）,NTREX（北恩德贝勒）和内部基准（Quechua）o对于这些语言，无论是英语还是英语，GeminiUltra在一次射击设置中平均ChrF得分为27.0

30、,而第二好的型号PaLM2-L的得分为253。除了翻译，我们还评估了Gemini在各种语言的挑战性任务中的表现。我们专门研究了数学基准MGSM（Shietal.,2023）,它是数学基准GSM8K（Cobbeetal.,2021）的翻译版本。我们发现GeminiUltra的准确率达到了79.0%,超过了PaLM2-L的74.7%,在8次射击设置中对所有语言进行平均。我们还在多语言摘要基准-XLSUm（Hasan等人，2021）和WikiLingua（Ladhak等人，2020）上对Gemini进行了基准测试。在XLSum中，GeminiUltra的平均rougeL得分为17.6,而PaLM2的

31、平均rougeL得分为15.4o对于Wikilingua,GeminiUltra（5杆）落后于PaLM2（3杆），以BLEURT评分衡量。完整结果见表5。总体而言，多种多样的多语言基准测试表明，Gemini系列模型具有广泛的语言覆盖范围，使它们也能够覆盖语言资源匮乏的地区和地区。双子座超双子座的职业GPT-4棕椅2IMGSM(a-shot)79.063574.574.7XLsum(3次)17.616.215.4Wikilingua48.947.850.4表5IGemini模型在多语言数学和总结上的表现。5.1.5. 长背景Gemini模型的序列长度为32,768个标记，我们发现它们有效地利用了

32、它们的上下文长度。我们首先通过运行一个合成检索测试来验证这一点:我们将键值对放在上下文的开头，然后添加长填充文本，并要求与特定键相关联的值。我们发现，在查询整个上下文长度时，Ultra模型检索正确值的准确率为98%。我们通过绘制图4中一组长文档的负对数似然（NLL）与令牌索引的关系来进一步研究这一点。我们发现NLL随序列位置的增加而减小，直到完整的32K上下文长度。Gemini模型更长的上下文长度支持新的用例，例如5.2.2节中讨论的文档检索和视频理解。图4I在一组长文档上，负对数似然作为token索引在32K上下文长度上的函数。IO5.1.6. 人类偏好评价人类对模型输出的偏好提供了质量的重

33、要指示，是自动评估的补充。我们对Gemini模型进行了并排的盲评估，人类评分员对两个模型对同一提示的反应进行了评估。我们使用第6.4.2节中讨论的技术指导调优(欧阳等人，2022)预训练模型。指令调优版本的模型在一系列特定能力上进行评估，如遵循指令、创意写作、多模态理解、长上下文理解和安全性。这些能力包括一系列受当前用户需求启发的用例和受研究启发的潜在未来用例。指令调整的GeminiPro模型在一系列功能上提供了很大的改进，包括GeminiPro模型优于PaLM2模型API,创意写作时间为65.0%,遵循指令的时间为59.2%,安全响应时间为68.5%,如表6所示。这些改进直接转化为更有帮助和

34、更安全的用户体验。创造力指令后安全获胜的几率65.0%59.2%68.5%95HBW(62.9%,67.1%(57.6%,60.8%66.0%,70.8%表6IGeminiPro对PaLM2的胜率(texl-bison001),95%置信区间。5.1.7. 复杂推理系线Gemini还可以结合其他技术，如搜索和工具使用来创建强大的推理系统，可以解决更复杂的多步骤问题。这种系统的一个例子是AlphaCode2,这是一种新的最先进的代理，擅长解决竞争性编程问题(Leblondetal,2023)。AlphaCode2使用专用版本的GeminiPro对竞争性编程数据进行了调优，类似于Li等人(2022

35、)中使用的数据一一在可能的程序空间中进行大规模搜索。接下来是量身定制的过滤、聚类和重排序机制。GeminiPro经过微调，既可以作为生成提案解决方案候选的编码模型，又可以作为用于识别和提取最有希望的候选代码的奖励模型。AlphaCode2在Codeforces5(与AIPhaCOde相同的平台)上进行评估，从1区和2区进行12场比赛，总共77个问题。AlphaCode2解决了43%的竞争问题，比之前创纪录的AlPhaCO加系统解决了25%的问题提高了1.7倍。将其映射到竞争排名中，建立在GeminiPn)之上的AlphaCode2平均估计位于第85个百分位-即。它的表现优于85%的参赛者。这与

36、AlphaCode相比是一个重大进步，后者的表现仅超过50%的竞争对手。强大的预训练模型与搜索和推理机制的组合是一个令人兴奋的方向，朝向更通用的智能体;另一个关键因素是对一系列模态的深入理解，我们将在下一节中讨论。5http:/Gemini的模特天生是多模式的。这些模型展示了一种独特的能力，可以将它们跨模态的能力（例如从表格、图表或图形中提取信息和空间布局）与语言模型的强大推理能力（例如其在数学和编码方面的最先进性能）无缝结合起来，如图5和12中的示例所示。这些模型还在识别输入中的细粒度细节、聚合跨空间和时间的上下文以及在时间相关的视频帧和/或音频输入序列上应用这些能力方面表现出强大的性能。Z

37、面的章节提供了跨不同模态（图像、视频和音频）的模型的更详细的评估，以及该模型的图像生成能力和跨不同模态结合信息能力的定性示例。5.2.1. 形象的理解我们在四种不同的能力上评估了该模型:使用字幕或问答任务（如VQAV2）的高级目标识别;使用要求模型识别低级细节的TextVQA和DocVQA等任务的细粒度转录;需要使用ChanQA和InfograPhieVQA任务对输入布局进行空间理解的图表理解;以及使用Ai2D、MathViSta和MMMU等任务进行多模态推理。对于零样本QA评估，该模型被指示提供与特定基准一致的简短答案。所有数字都是使用贪婪采样获得的，没有使用任何外部OCR工具。Gemini

38、UIg仅供青)GeminiProt仅限母妻）GeminiNdno2(仅像胤GemlniNano1(S*)GPT-4V之前SOTAMMMU（val）多学制大学舄面的同麴（Yueetai,2023）59.4%pass(Sl62.4%Majl3247.9%32.6%26.3%56.8%S6.%GPTMV.O-ShotTextVQA(val)自然图像上的文字阅读(Singhetal.,2019)82.3%74.6%65.9%62.5%78.0%79.5%GggIePaU3微调DocVQA(JIiJt)文档的A解(MatheWetaL2021)90.9%88.1%74.3%72.2%88.4%（像素）88.4%GPT-4V,O-shtChartQA(Sia)图表理解(MaSryetaL2022)80.8%74.1%51.9%53.6%78.5%(4shot床)79.3%GoogJeSfS,1发PoTInfographicVQA(JMa)(MathewetaLv2022)80.3%75.2%54.5%51.1%75.1%(像素)75.1%GPT-4V,

展开阅读全文