技术精华:生成式AI(2023).docx

上传人:夺命阿水 文档编号:1410465 上传时间:2024-06-15 格式:DOCX 页数:40 大小:981.81KB
返回 下载 相关 举报
技术精华:生成式AI(2023).docx_第1页
第1页 / 共40页
技术精华:生成式AI(2023).docx_第2页
第2页 / 共40页
技术精华:生成式AI(2023).docx_第3页
第3页 / 共40页
技术精华:生成式AI(2023).docx_第4页
第4页 / 共40页
技术精华:生成式AI(2023).docx_第5页
第5页 / 共40页
点击查看更多>>
资源描述

《技术精华:生成式AI(2023).docx》由会员分享,可在线阅读,更多相关《技术精华:生成式AI(2023).docx(40页珍藏版)》请在课桌文档上搜索。

1、r/生成式Al,/I;StateofGenerativeAl/2023启明御投未尽研究Q.概要如果说2022年被称为生成式人工智能之年,扩散模型应用取得突破,ChatGPT出世,一系列开创性的研究论文发表,2023年则把大模型推向了一个高峰,GPT-4的发布,标志着生成式人工智能,进入了面朝通用人工智能创新应用的阶段。研究、应用、监管,合力开辟着生成式人工智能的发展之路。创新应用生成式人工智能的生态包括了基础设施层、模型层与应用层,创新在每一个层面发起,竞争也在科技巨头、行业龙头和初创公司之间展开。在整个生态中,受益于以参数规模为代表的大模型不断扩张,算力目前是最稀缺的资源,也处于最容易获利的

2、要津。算力是大模型成本结构中最大的一块,GPU的性能,决定了这个新兴行业的步调。但是,GPU性能提升的速度,已经落后于大模型训练和推理需求的增长。面对这一革命性的技术,不论是主动还是被动,企业都被卷入其中。不管是技术的守成者、创新者还是采纳者,业务模式都将发生变化,进而影响企业的发展。当前,生成式Al尚处于技术发展的早期阶段,基础架构和核心技术并不成熟;科技巨头忙于研发大模型,尚未顾及深度切入具体的应用场景。但巨头何时添加相似的功能(feature)始终是悬在初创企业头上的达摩克利斯之剑,而大模型能力边界的扩张也可能在未来挤占初创企业的发展空间,可以说,这是初创企业的蓝海,但也有航道下的暗礁。

3、在中国,目前从模型出发的公司受到看好,通用大模型和垂直大模型的创业如火如荼,而自建模型的应用也在努力构建着自己的壁垒;同样,科技巨头正在利用自身算力优势来构建大模型。我们有理由相信,在众多模型层和科技大厂的合力下,模型层的整体能力将进一步完善,在未来为应用层企业提供可靠的支撑。前沿研究生成式人工智能领域的一个突出特征,是研究与创新过程的密切结合,许多在企业内部实现,迅速推出用例和产品。这种研究与创业的一体化,初创企业和风险资本起到了重要的作用,而美国科技巨头和主要人工智能企业的研究投入、人才密集度、包括一些底层技术的研究,这些年来已经超过了大学等研究机构。GPT-4迸发出通用人工智能的“火花”

4、,需要研究和解决的问题反而更多了,如信心校准、长期记忆、持续学习、个性化、规划和概念跨越、透明度、认知谬误和非理性,等等。而过去半年最重要的研究方向,是破解和理解大模型神秘而又令人兴奋的智能“涌现”。大模型既需要超越对下一个词的预测能力,也需要一个更丰富、更复杂的“慢思考”深层机制,来监督“快思考”预测下一个词的机制。大模型不仅用来生成文章和图片,而且可以当成智能代理,帮助管理和执行更竟杂的任务。开源模型实现了低成本、小型化、专业化的训练,与闭源的基础模型竞争互补,共同推动了生成式人工智能技术的应用,也加快了模型向边缘侧和移动端部署。生成式人工智能大模型日益向多模态发展,具身智能也成为一个重要

5、研究方向,帮助生成式人工智能更好地理解和处理现实世界的复杂性和多样性。大模型更安全、让智能更可信,成为新兴的研究热点。生成式人工智能对于就业和经济的广泛影响,正在吸引经济学、社会学、心理学等不同领域的研究兴趣。但仍然需求实证性的研究。监管、安全与人才生成式人工智能加快了中国、欧盟和美国的监管和立法的进程。欧盟努力在今年底让人工智能法案生效,为全球人工智能立法定下基调。中国也预计将于明年提出综合性的人工智能立法。而美国重点在于建立风险控制技术标准。中国对通用人工智能表现出很大热情与期待。地方政府中北京、上海、深圳是第一梯队,均提出了较具雄心的人工智能科研、创新与产业目标。中国研窕人员发布的论文在

6、数量上已经超过了美国,但在金字塔顶端,无论是研究还是创业,美国仍然占据明显的优势。科技部要求人工智能企业应该接受科技伦理审查;审查主体应该设立科技伦理(审查)委员会。美国人工智能企业较早开始设立负责任与可信人工智能部门,从去年到今年以来经过一些调整,反映出在生成式人工智能发生变革之际,企业正在寻求用更好的技术和方案,来安全和负贲地部署新技术。十大前H基于上述研究,报告对未来一至三年的大语言模型、多模态模型和商业竞争态势,做出了十点前瞻。第一章行业变革第二章前沿研究04生态架构20致敬202205生态位与新物种22大模型的“慢思考”06定价模型:基础设施层23开源07定价模型:模型层24智能代理

7、09定价模型:应用层25多模态10企业运营发生改变26具身智能11市场格局27安全与可信12GPT-3之后的新公司14大模型公司第三章监管、安全与人16应用层公司29中美欧监管17语言类30地方的Al雄心18多模态31安全与伦理32中美塔尖人才第四章而森赢35十大展望36关于报告行业变革第一章行业变革生成式人工智能的生态包括了基础设施层、模型层与应用层。创新在每一个层面发起,竞争也在科技巨头、行业龙头与初创公司之间展开。:行变草生态架构生态架构四代底层技术的进步,催动了四波人工智能的发展。第一波小规模专家知识,用了40年走完;第二波浅层机器学习,用了20年走完;第三波深度学习,用了810年走完

8、,并取得一定的成就。最近这一波Al新浪潮,以2017年基于Transformer的预训练模型为起点,并在2020年GPT-3大模型发布后突破技术奇点。Al1.0时代,需要针对特定任务,利用相关的数据研发特定模型,任务和模型箱合。Al2.0时代,经过大规模数据预训练得到的大模型,带来了极好的效果和泛化能力,可以直接用于下游的各种任务。Al2.0的公司将分为三层:础设更层:解决大模型训练/推理/部署的工具链厂商和提供GPU资源的智算中心。智算中心再往下是新一代Al芯片或者下一代通用GPU0三fl三:研发大模型,并对外提供Al模型服务或者APl服务,包括训I练(training)和推理(infere

9、nce)时需要的GPU资源。除了这类输出“水电”的底座大模型,也包括提供针对特定行业或场景的垂直模型的公司。应用层:专注于解决某个特定领域的应用公司,包括自研大模型的应用公司和利用第三方大模型的应用公司。图中标红的企业为启明创投已布局企业。-:行”革生态位与新物种生态位与新物种在生态系统中,每一个物种都拥有自己的角色和地位,即生态位。处于不同的生态位,则指示了不同物种之间的合作和竞争关系。Al2.0的生态同样如此。新的“模型即服务(MaaS)”企业,以及自建模型、微调模型或调用APl服务市场具体应用场景的企业,蔚为这个生态中的“新物种“,寻找着属于自己的新市场,同时为竞争做着准备。以下是些对于

10、这些新物种的观察:OpenAI是“新物种”的代表,率先打造出具备涌现能力的大模型,激活了整个生态系第滓让在Al1.0时代有所成就的企业紧张,但又F更多的创业者R投资者兴奋。生成式Al的原生企业,它们追布基础设施层、模型层和应用层。从提高研发和k用模型效率的具然企业,到致力于打造下一代模型的大模型公司,再到众多通用或着面向行业的应用公司,这些企业的创新日新月异,为生成式Al带来了无限活力。 云巨头研发通用大模型,服务于自身业务,也对外开放AP1.微软旗下操作系统、生产力工具、企业管理系统、代码平台、安全套件都拥有了副驾驶(COPiIOt);百度要把每个产品重做遍。同时,这些巨头还在开发自己的芯片

11、,谷歌已有了TPU,微软则是在研发雅典娜(Athena)。 芯片厂商也在拓展自己的边界,英伟达针锋相对地推出了DGXCloud,它还在强化赋能元宇宙(OmniVerSe)与大模型工厂(AlFoundations)的云平台。 SaaS巨头原本就是基于云的应用,正在从大模型汲取新的动能。未来,绝大多数SaaS企业都会是包含生成式Al功能的SaaS企业。 彭博等行业龙头开始防御性地采纳自有大模型技术,也盯着基础模型的机会。此外,还有闭源与开源的路线,由于1.icense的限制,开源模型并不一定可以商用,并且开源模型无法确保在未来一直迭代来匹敌闭源模型的效果。而基于闭源模型,很多企业又会担心未来的迭代

12、可能受制于人。DGXCloud自建模型利用第三方的应用横型的应用科技巨头(微软等):行文革定价模型:基础设施层定价模型:基础设施层新的应用要有新的基础设施。Al2.0的基础设施是以提供智能算力为中心的智算中心。无论是模型还是应用,它都离不开硬件厂商或云服务商。GPU是训练模型与加速推理的关键算力硬件。大模型还拔高了对数据中心带宽、数据存储的门槛。云服务商会采购各类硬件,辅以冷却系统与运维服务,构建灵活、可扩展的IaaS平台,按需为客户提供算力。传统云巨头获利颇丰。设备定价:假定亚马逊直接采购英伟达组装好的DGXA100平台。它集成了8片A100GPU,配置了内存、CPU、网络等软硬件组件,初始

13、售价20万美元。实际上,亚马逊选择了采购A100芯片,自己搭建数据中心,这虽然能够压低一些成本,但仍然使英伟达获利颇丰。 年均成本:亚马逊AWS数据中心按五年线性折旧,年均4万美元。 服务定价:假定亚马逊Al算力出租的收入,全部来自p4d.24xlarge,它向客户提供8片A100算力性能的加速服务。(亚马逊目前还规模化提供基于英伟达Vlo0、自研Trainium等硬件的算力服务,此处选取当前最主流的A100为测算基准。)如果承诺一年内稳定的用量(ComputeSavingsPlans),且不提前预付费用,目前它的每小时价格为24.21美元(美东俄亥俄的价格)。 年均收入:如果客户一年365天

14、一天24小时不停的租用算力,年均21万美元。 该项服务的毛利率:那么,亚马逊该服务对应的毛利率将是1-4/21=80.9%即如果生成式Al的生态持续扩展,市场繁荣,客户全年无休地渴求算力,那么亚马逊该项服务的毛利率最高可达80.9%=如果客户只有50%的时间用到了它,那么8片A100加速服务的年均收入就降到了不足11万美元,该项服务的毛利率就只有1-4/11=63.6%,相当于外界预估的亚马逊云服务的总体毛利率。如果用户只有20%的时间用到了它,那么收入只有4万美元,该项服务的毛利率为Oc事实上,Al算力目前是稀缺资源,AWS正在极大受益。亚马逊Al算力服务的毛利率,随客户需求提升而提升客户A

15、l算力需求情况说明:基于硬件DGXA100采购折旧价格亚马逊p4d24xlarge服务预购年价格,未涉及运维与能耗等各种成本,未考虑不同地区不同时间的市场价格波动。未考虑承诺外用量的额外费用等。死马逊云服务毛利率估算数据来白BearStearns.假设所有机器都投入生成.仅根据用户的需求导致运转时间有差别.并未考虑有部分机器完全闲置的情况.例如所有机器都50%的时间运转,而非50%的机器完全闲置.定价模型:模型层算力需求是模型层企业成本结构中,占比最显著的一部分。其他还包括数据收集与预处理、M1.Ops工具、能源消耗等。算力需求可分为训练与推理两大阶段。一些机构提出了各自的估算方式,它们可以用

16、一个公式来简单概括:每参数每token的算力需求是常数,在训练阶段般为6F1.OPS,推理阶段则为2F1.OPS:,其他几项共同导致了不同模型的不同成本,是降低成本的重要方向。IlIl平均算力成本主要由GPU性能等决定,每F1.oP的价格平均每2.5年下降40%-50%o算力使用效率取决于软硬件优化水平等。据谷歌Pa1.M的论文,在训练阶段,缺乏优化经验或堆叠过多芯片,效率可能低至20%,目前谷歌与OPenAl都能达到50%左右。前述机构推测目前推理阶段的效率在25%左右。训练次类似GPT-3的大模型,即1750亿参数规模,3000亿tokens,需要6*1750*108*3000*108=3

17、.15*1023F1.OPs的算力需求。如果只用1片VIO0,在FP16精度的28TF1.OPS的理论算力下,需要训练3.15*102328(1*1012)/(365*24*60*60)=357年;要缩短训练时间,就要增加硬件投入,但算力使用效率就会下降。租用云服务,亚马逊刚推出8片VlOo算力的p3dn.24xlarge时,预购年(SaVingSPlanS)每小时18.3美元。按50%算力使用效率估算,在2020年时,训练GPT-3的成本约为357,(18.3/8)*365*24/50%=1430万美元。现实会复杂一点。不同云服务商的可用算力资源不同,价格也不同;大模型训练时长与并行多个模型

18、同时训练的行为,也影响着算力使用需求。事实上,OPenAl采购了GPU,还得到微软支持,实际单次训练成本会比估算更低:但反过来,实际上训练一次是几乎不可能训练成功的,在大模型构建的过程中,存在着大量的失败和反夏,此外为保证模型迭代的更快,需要进行大量的并行训练。即便打造出第一版大模型,后续模型的持续迭代的成本也无法避免。参考论文Scaling1.awsforNeural1.anguageModels,ljSemianalysis等:行变草定价模型:模型层尽管如此,理论上,随着硬件性能提升,软件优化程度提高等,大模型的训练成本会随着时间的推移而下降。如果只用1片FP16精度下理论算力312TF1

19、.OPS的A100,来重新训练一次GPT-3,则需3.15*1O23312(10,2)/(365*24*60*60)=32年。亚马逊刚推出8片A100算力的p4d.24xlarge时,预购一年(SavingsPlans)每小时19.22美元,按50%效率估算,目前,GPT-3的训练成本已降至32*(19.228)*365*2450%=135万美元。去年,英伟达H100发布,性能进一步提升,也将带来成本的进一步下降。SXM版本HloO的FP16精度(FP16TensorCore),算力达到了1979TF1.OPS,是SXM版本A100的624TF1.OPS的320%。但据1.ambda测算,H1

20、00的训练吞吐量(TrainingThroughput)为A100的160%.当然,如果大模型参数持续膨胀,训练成本将令市场难以接受。在当前GPU以类似摩尔定律的进步速度提升的情况下,大模型参数规模的增长可能会遭遇瓶颈。一方面是算力硬件迭代速度跟不上,另一方面则是因为现实世界生产高质量的训练数据的速度也不够快。这也是为什么OPenAl的CEO奥特曼认为,“现在已经接近巨型模型时代的尾声”,要寻找其他诸如分布式训练、任务调度优化等方式进一步提高训练效率。随着A100逐步替换为H100,推理成本也在下降。去年,OpenAI的gpt-3.5-trbo(4Kcontext)的调用价格为0.02美元/千

21、tokens0假定GPT-3.5的参数规模为1750亿,用户调用时,输入500tokens长度的提示词,获得500tokens的内容输出,且这一推理过程完全基于A100实现,算力使用效率为25%,那么单次推理算力需求为2*1750*108*(500+500)=3.5*1(4F1.OPs,单次推理成本为1922Z8(312T1012)(60*60)*3.5*10M25%=0.003美元/千tokens,毛利率约为IaoO3002=85%COpenAI具有先发优势,为在竞争中赢得更多市场,它的定价策略更为激进。目前,同样的AP1.服务价格已较去年下降了90%,低于0.002美元/千tokens。推

22、出更多样的相对高价的API服务,以及在算力硬件中提升更高性价比的HlOo的占比,都有助于稳住毛利率。但这取决于英伟达的产能。目前,亚马逊尚未成规模地对外提供H100算力资源,因此无法参考亚马逊上H100的定价。即使忽略现实资源有限的情况,采用当前1.ambda平台上1.99美元/小时的IXNVIDIAH100PCIe(该款芯片单片FP16理论精度1513TF1.OPS)服务,OPenAl该服务的单次推理成本变为1.99/(1513*1*10,2)(60*60)*3.5*10,725%=0.00051美元/千tokens,毛利率约为1-(0.00051/0.002)=74.5%,已低于去年。Se

23、p26z2010Jul31,2014Apr26,2017Jan21z2020(do-HBd)M1不发布时间大模型参数规模增长速度超过摩尔定律图像驾驶游戏语言多模态其他语音视觉来源:Sevillaetal.(2023)定价模型:应用层应用层企业的成本结构中,除了软件本身的成本外,就是调用大模型APl时产生的费用,这部分的成本与活跃用户规模、单个用户日均推理次数,单次推理输入提示词与预置文本的长度,单次推理输出的内容的长度等相关。这些变量又与应用层企业所在的应用场景相关。有些场景用户量较少,或问答频次较低,但霜要更长的提示词或预置文本让大模型更懂自己。有些场景问答则相对简短,但用户与大模型间可能会

24、聊得停不下来。假设现有三家应用企业,调用OPenAl的gpt-3.5-turbo(4Kcontext)服务,该模型的计费规则为输入$0.0015/1Ktokens,输出$0.002/IKtokens,它们对应如下应用场景:查询工具:企业内部知识查询,偶尔遇到问题,就查询一下。特点是低频(假设日均3次),短输入(假设单次50tokens),中等输出(假设单次300tokens).当百万DAU时,单日成本为0.2万美元,千万DAU则达到2.03万美元。研究助手:日常工作和研究使用。特点是中频(假设日均10次),长输入(假设3000tokens),长输出(假设单次100OtOkens).当百万DAU

25、时,单Fl成本为6.5万美元,千万DAU则达到65万美元。事实上,这类应用达到千万DAU非常不易。娱乐Chatbot:吃掉了用户大量空闲时间。特点是高频(假设日均100次),短输入(假设单次50tokens),短输出(假设单次50tokens),当百万DAU时,单日成本为1.75万美元,千万DAU则达到17.5万美元。事实上,娱乐Chatbot往往需要依赖上下文的记忆,如果计入记忆的token,则单Fl成本还需增加数倍。应用企业通过预估每次输入输出需要用到的token数量,以及自己想达到的DAU,即可预估出每天在大模型APl上的开销。当然,这就是充满混乱与诱惑的早期市场。想要达到百万和千万量级

26、的DAU需要企业跑得越快。但由于竞争,应用层企业的利润空间很快就可能收窄,例如Copy.ai的定价策略就与JaSPer针锋相对,用更低的价格夺取市场。即便现在是生成式Al的早期市场,在拥有多家创业企业的特定市场中,单纯调用API的应用企业更可能无法做到差异化,那么行业整体毛利率的下降将很快到来。不同应用场景下的推理成本变化同深啻科技fcrDeep1.anaAl/STT/TTSSMANNONAl8体CreotiveFittOng说明:不克全列举。加分企业尚未进行公开支仪,或无1.OgO等宣传资料,暂不予展示。部分企业横跨多个领域,此处仅列入相对典型的图像-:行0文革GPT-3之后的新公司GPT-

27、3之后的新公司截止到2023年Q1,根据启明创投投资团队与超过100家在GPT-3发布后成立的大模型和生成式Al相关的中国创业企业的交流,其中,将近30%做语言类应用;企业数量最多是多模态应用方向,占比57%:大模型企业,以及为更好地训练和应用大模型提供支持的工具链企业共占比14%o在100余家公司的具体方向中,ChatBOt占11%,而生产力工具占得最多,高达65%,包括文案写作、图像生成、视频脚本生成、3D资产生成等。以下是截至2023年Q1的生成式Al市场情况:生成式Al创业领域(截至2023年林于启明创投团队交流过的100余家企业的统计,3J限务*咨询助r未用Utor忖穰助F娱Chat

28、(X游戌ChaiBofC三tChatBot牛成3D货产生成谓讦生成iX11.11:行政交革GPT-3之后的新公司然而,市场发展是快速的,2023年的Q2又涌现出大量的生成式AI创业企业,在2023年HI结束后,启明创投基于近200家生成式Al企业的交流,观察到的生成式Al市场情况如下图:生成式Al创业领域(截至2023年Hl)Om3%27%1AA!A8刖44%Aiae%-nt2%2%XAiA10%火娥量14%AutonoaMusAgeMs3%H人IX攀4余1%螟乐ChatB”ChatBw引擎游戏ChatBOtGflJChaiBot 咨询助不 索。助彳 MK1.At !r 企业川洋助手 法律做务

29、 心理小如E务 教拗门或假务 产业教制服务 写作Itff 济K 介H审栈 企业授章初领生成30,产生城 代码生成 衣格士成 4生或 。乐生或 娱珏内存干。 软件时作Web) 软件动作(ApP) TQttJK而* M1.明火镒熨 决策大粮熨l三Mt-AutonomousAgems通用机M人平台*基丁启明创投团队交流过的近200家企业的统计,根据与这些公司的交流,启明创投发现市场上的创业公司呈现出以下趋势:与2022年受到StableDiffusion和ChatGPT刺激后快速涌现出的生产力工具方向的创业公司不同,2023年有更多比例的新公司聚焦在底层技术的创新上,更多大模型公司和infra基础设

30、施工具链公司在以技术大拿为主的创始人主导下成立。反映在数据上,具体表现为聚焦在底层技术的创业公司占比从14%提升到了29%,而生产力工具型的应用公司占比则从65%下降到46%o此外,在生产力工具的方向上,不同于此前仅微调StableDiffusion等开源模型的创业公司,最新涌现的创业公司往往由更高级别的Al人才领导。大模型创业公司开始分化,在通用大模型创业公司方兴未艾的同时,许多面向特定行业的垂直大模型公司开始出现,主要聚焦在医疗、电商、科研、工业、自动驾驶和机游人等方向。具备行业属性的智能助手方向的创业企业开始增加,如求职、招聘、求学、法律、健康、购物、企业知识问答等方向的个人助手和员工助

31、手方向的创业公司持续涌现,这代表着在经过一段时间对ChatGPT.StableDiffusion的熟悉后,具备更强行业知识和资源的行业老炮型创始人逐渐进入生成式Al领域。:行*变草大模型公司大模型公司通用大模型OPenAl是模型层公司的代表,2020年发布的1750亿参数的GPT-3曾度是Al历史上最大的机器学习模型,相比于15亿参数量的GPT-2,GPT-3参数量提高约117倍,预训练的数据量也从50GB提高到570GBu2023年3月,OpenAI发布的GPT-4则再次扩展了深度学习的边界,结合多模态能力达到了里程碑式的效果,并在各种专业和学术基准上表现出可以与人类媲美的水平。可以说,GP

32、T-3打响了大模型竞争的第枪,而ChatGPT和GPT-4的出现进一步加速了大模型主导权的竞争,是否拥有一个大语言模型底座对于大模型企业后续进一步优化出更好的模型至关重要。ChatGPT是OPenAlGPT-3.5优化后的模型和产品化体现,其背后的技术从2018年的GPT-I2018)开始,经过GPT-2(2019),GPT-3(2020)逐渐达到里程碑式的突破,此后2年内GPT-3又经过两次重要迭代,引入基于人类的反馈强化学习系统(R1.HF)后形成ChatGPTo从ChatGPT的发展可以看出,对于模型层公司来说,技术的演进极为重要,公司需要极强的技术掌舵人和融资能力来保障研发投入的稳定性

33、。此外,通过对海外市场的观察,我们发现当前大模型竞赛中,由高级别Al人才主导的创业公司更加领先,例如OpenAI,AnthrOPiC和COhere等公司皆是如此。同样,类似AdePt,Inflection和Charactenai等公司以极快速度实现了极高的估值,也表明顶级的Al人才正在通过研发大模型来构建有壁垒的应用,以此参与到生成式Al领域的竞赛中,而市场也更青睐这些顶级Al人才创立的公司。(CodeX/Copilot)code-cushman-001ChatGPT(InstructGPTInitial)text-davinci-002(InstructGPT)生翻隔建横对话历史的能力R1.

34、HF(面向对话)R1.HFtext-davinci-003更聋的上下文学习能力2020.062021.072022.032022.042022.052022.11-:行经革大模型公司Adept.ai融资历史&核心团队lnflection.aiCharactenai融资历史&核心团队2023年3月BS350MGeneralCataJyst,SparkCapital,etc.2022年4月A$65MGreytoctAddition.etc.2023年6月BS1.3BMroson,Nvidia,etc.2022年5月A$225MGeneralCatalyst融资历史&核心团队CEO,David1.u

35、an1OPenAlr程副总裁CTO1NikiParmar.GoogleBrain科学冢首席科学家,AshishVaswani,GoogteBrain科学家CEO,MustafaSuteyman1DeepMind联合创始人联合创始人,ReidHoffman.1.inkedln联合创始人首席科学察,Simonyan,DeepMindJW(Principal)科学家同样,目前中国市场普遍看好从模型出发的公司,当前大模型公司具备以下三个特点: 投入大:底层模型的构建需要超重资源投入,包括大量算力、数据和人才: 工程强:由于大模型具备更强的泛化能力和提供方的商业追求,大模型发布时就提供各类用法的样例;

36、营储强:受到OPenAl高调营销(如高管频繁接受各种访谈)的带动,国内大模型公司召开发布会已经成为常态。在通用大模型百舸争流的今天,国内绝大多数的大模型团队在2023年之后成立,在同时起步并角逐大模型皇冠的路上,团队至关重要。正如GPT-4报告中披露的,研发出GPT-4至少需要六个方向的研究团队(PretrainingJongcontext,Vision,Reinforcement1.earning&Alignment,Evaluation&Analysis,andDeployment),国内大模型创业团队需要有极强的算法、工程和数据能力: 将市面上存在的算法用艺术的形式组合起来,成为最终模型

37、的某个环节; GPT-4未公开算法,企业需要创造性地提出自研算法才能研发出达到或超过GPT-4效果的通用大模型;基础模型的研发需要极强的分布式训练等工程能力的支持,团队需要确保对计算资源的高效利用,并建设高质量数据集以保证模型的效果。当然,巨头不会懈怠,如何与科技巨头竞争和合作,始终是贯穿初创企业成长的难题。国内科技巨头几乎每周都会宣布大模型的研发进展与行业合作动态,它们横跨了云基础设施与大模型,而且在它们那里模型层与应用层的界限相对模糊。百度宣称要把所有的产品都重做一遍,而坐拥最多用户的腾讯决定先聚焦产业。但竞争的关键,还是提供效果最优的模型,辅之以足够可靠的产品与服务。垂直大模型垂直大模型

38、企业往往不会充当模型提供商,较多采用“自建大模型的垂直应用”的模式。除了创业公司以外,有兴趣研发垂直大模型的组织主要还有互联网公司、Al1.0企业和行业龙头等。对于自研垂直模型的企业,行业数据尤为重要,拥有高质量的行业数据和私有数据,是针对特定行业优化大模型表现的关键。以彭博自研的B100mBergGPT为代表,金融行业数据超过了公开数据,占比达到51%o因此,最终模型效果在很多金融任务上有出色的表现。目前构建面向垂直行业的模型有以下三种方式: 在已经完成训练的通用大模型基础上,结合大量自有的行业数据进行微调(fine-tuning),在此之前是否对通用大模型进行蒸饱、后续是否外挂知识库则视情况而定。 通过改变数据的分布,结合更多特定行业的数据进行预训练,直接打造行业大模型。 通过自定义一种专属语言,并用(文本,专属语言)这样的pair对大模型进行fine-tuning,并将生成的专属语言输入到自研的Al模型中,完成【用户输入-大模型-专属语言输出-自有AI模型-业务结果输出】的全过程。:行变革应用层公司应用层公司模型层公司的分量虽重,应用层

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 在线阅读 > 生活休闲


备案号:宁ICP备20000045号-1

经营许可证:宁B2-20210002

宁公网安备 64010402000986号