2024先进人工智能安全国际科学报告.docx

资源描述

《2024先进人工智能安全国际科学报告.docx》由会员分享，可在线阅读，更多相关《2024先进人工智能安全国际科学报告.docx（80页珍藏版）》请在课桌文档上搜索。

1、前言7执行摘要91 导言152 的能力1821 通用AI如何获得其能力？1822 当前的通用Al系统能够实现19221能力按方式20222能力和限制技能2123 最近的趋势能力及其驱动因素2223.1 最近的趋势在计算，数据和算法22232最近的趋势能力2524 能力进步在未来292A1,如果资源继续快速扩展，这是否会导致快速发展？30242将迅速扩大资源规模？30243算法的进步会带来快速的进步？323方法评估和理解通用人工智能系统34il通用Al评估用于评估模型功能和影响。3432 模型性能分析方法35321案例研究35322基准35323红色团队和对抗性攻击36324审计3733 模型透

2、明度、解释和解释383.4挑战与研究通用Al系统394风险414.1 恶意使用风险414.1.1 伤害个人通过虚假内容414.1.2 虚假信息和操纵舆论424.13 网络犯罪444.14 4双重用途科学风险454.2故障风险474.2.1 风险来自产品功能问题474.2.2 偏见和代表性不足的风险494.2.3 失控5143系统性风险544.3.1 劳动力市场风险544.3.2 全球Al鸿沟574.3.3 市场集中风险和单点故障58InternationalScientificReportontheSafetyofAdvancedAI:InterimReport4.3.4 危害环境594.3.

3、5 隐私风险604.3.6 版权侵权614.4交叉风险因素634.4.1 交叉技术风险因素634.4.2 跨领域的社会风险因素665的技术方法来减轻风险685.1 风险管理与安全工程685.1.1 风险评估695.1.2 风险管理705.2 培训更多值得信赖的模型725.2.1 使通用Al系统与开发人员的意图保持致725.2.2 减少幻觉的谎言745.2.3 提高对故障的鲁棒性745.2.4 消除危险能力755.2.5 分析和编辑内部工作的模型755.3 监测和干预765.3.1 检测通用Al生成的内容765.3.2 检测异常和攻击7753.3 解释模型动作7753.4 4将保障措施纳入Al系

4、统775.4 技术方法公平和表示在通用人工智能系统785.4.1 减轻偏见和歧视的工作贯穿于通用人工智能的开发和部署阶段795.4.2 通用人工智能系统的公平性是实现的？805.4.3 挑战实现公平的通用Al系统815.5 隐私方法的通用Al系统816结论83主席关于中期报告的说明84不同观点86词汇表87参考文献91这份报告是人工智能安全之旅的开始,我很荣幸主持发布首届高级人工智能安全国际科学报告。我很自发地发布这份中期报告，这是自2023年【1月布莱奇利公园人工智能安全峰会委托这项工作以来的六个月里，许多专家付出了巨大努力的结果。我们知道先进的人工智能正在迅速发展，而且这些先进的人工智能系

5、统如何影响我们未来的生活和工作方式存在很大的不确定性。人工智能有巨大的潜力让我们的生活变得更好，但它也带来了伤害的风险。这就是为什么要进行彻底的分析家意见至关重要。我们知道的越多，我们就越有能力塑造我们的集体命运。我们的使命很明确:推动对高级人工智能安全性的共享、基于科学的、最新的理解，并随着时间的推移继续发展这种理解。该报告正确地强调了专家之间存在共识的领域，以及对高级人工智能的能力和风险的分歧，特别是那些预计在未来开发的。为了有效地履行我们的使命，我们的目标是解决知识分子诚实的专家社区之间的分歧。通过剖析这些差异，我们为明智的决策铺平了道路，并刺激了有助于消除迷雾和减轻风险所需的研究。我感

6、谢我们的国际专家咨询小组的宝贵意见，这些意见最初确定了报告的范围，后来又对整个草案提供了反馈。他们的不同观点和认真审查扩大并加强了这份临时报告。同样值得认可的是我敬业的作家和高级顾问团队。他们在过去几个月的承诺创造了一个超出我预期的临时产品。我还要感谢英国政府启动这一进程并提供出色的运营支持。对我来说，同样重要的是，英国政府同意撰写这份报告的科学家应该拥有完全的独立性。这份中期报告只是旅程的开始。亳无疑问，这份报告在第一次尝试中未能捕捉到的观点和证据。在这样的科学过程中，反馈是宝贵的。我们将纳入更多的证据和科学的观点，因为我们对最终版本的工作。YoshuaBCngio教授蒙特利尔大学/Mila

7、-魁北克人工智能研究所和主席Al安全是一个共同的全球问题我很高兴向您介绍有关高级Al安全性的第份国际科学报告的临时更新，这是2023年11月在布莱奇利公园举行的开创性Al安全峰会的重要成果。这份具有里程碑意义的报告代表了全球前所未有的努力，以建立对人工智能快速发展所带来的机遇和风险的共同的，基于科学的理解，并证明了“布莱奇利效应”-召集才华横溢的头脑来应对人类最大的挑战之一。I工智能造福人类的巨大潜力，需要积极努力，以确保安全、负责任地开发和部署这些强大的技术。没有一个国家能够独自应对这一挑战。这就是为什么我如此热衷于将一群世界领先的专家聚集在一起，贡献他们的知识和观点。我要特别感谢YOShU

8、aBengio教授作为主席在巧妙地指导这一更杂的国际努力方面发挥的领导作用。至关重要的是，该报告还揭示了我们当前知识中的重大差距以及迫切需要进一步研究和讨论的关键不确定性和辩论。我真诚地希望，这份报告及其背后的合作进程能够成为缩小关键知识差距所需的研究和政策努力的傕化剂，并为未来具有挑战性的政策选择提供宝贵的投入。我们还有很多东西要学，但这份报告标志着一个重要的开始。英国期待继续与国际伙伴合作，促进负责任的、以人为本的人工智能发展方法-利用这些强大的工具来改善生活和生计，同时警惕地防范下行风险和伤害。我们可以共同努力，建设一个全人类都能从人工智能的奇迹中受益的未来。,RtHonMiChelie

9、Donelan议员，科学，创新和技术部国务卿向前迈出的关键一步，呼吁Al安全采取行动人工智能的快速发展将以深刻和不可预见的方式重塑我们的世界。从革命性的医疗保健和运输到自动化复杂任务和解锁科学突破，人工智能的积极影响潜力是不可否认的。然而，除了这些显著的可能性之外，还存在着重大的挑战，需要采取前瞻性的方法。关注的范围从嵌入算法中的意外偏见到自治系统超过靠风险凸显了迫切褥要进行全球对话，以确保人工智能的安全和负责任的发展。在这种情况下，国际人工智能安全报告将为全球合作提供重要的基础。该报告汇集了来自30个国家、欧盟和联合国的专家的知识，提供了对人工智能安全性的全面分析。通过关注对通用人工智能能力

10、和风险的早期科学理解，并评估评估和缓解这些风险的技术方法，该报告将引发多方利益相关者之间的持续对话和合作。我希望基于这份报告，来自30个国家、欧盟和联合国的专家继续进行平衡的讨论，实现可接受的、适合发达国家和发展中国家具体情况的人工智能风险缓解，从而创造一个创新和负责任的人工智能和谐共存的未来。1.eejong-ho大韩民国MSIT部长执行摘要关于本报告.这是第一份“关于高级ai安全性的国际科学报告”的临时出版物。由75位人工智能（Al）专家组成的多元化小组为本报告做出了贡献，其中包括由30个国家，欧盟（EU）和联合国（UN）提名的国际专家咨询小组。.在本报告主席的领导下，撰写本报告的独立专家

11、集体对其内容拥有完全的酌处权。.在人工智能发展取得前所未有的进展之际，这份第一份出版物将其重点限制在近年来发展特别迅速的一种人工智能上:通用人工智能，即可以执行各种任务的人工智能。在快速发展的过程中，通用人工智能的研究目前正处于科学发现的时代，尚未成为科学定论。.世界各地的人们只有在风险得到适当管理的情况下，才能安全地享受通用人工智能的许多潜在好处。本报告着重于识别这些风险，并评估评估和减轻这些风险的技术方法。它的目的不是全面评估通用人工智能的所有可能的社会影响，包括其许多潜在的好处。.这份中期报告有史以来第一次汇集了30个国家、欧盟和联合国提名的专家以及其他世界领先的专家，为通用人工智能安全

12、的讨论和决策提供了一个共享的科学、循证基础。我们仍然在围绕通用人工智能能力、风险和风险缓解的几个问题上存在分歧，无论是次要的还是主要的。但我们认为这个项目对于提高我们对这项技术及其潜在风险的集体理解，以及更接近达成共识和有效的风险缓解至关重要，以确保人们能够安全地体验通用人工智能的潜在好处。赌注很高。我们期待着继续这一努力。执行摘要的要点.如果管理得当，通用人工智能可以用于促进公共利益，可能会带来更好的福祉，更多的繁荣和新的科学发现。然而，通用人工智能出现故障或被恶意使用也可能造成伤害，例如，在高风险环境中做出有偏见的决定，或者通过诈骗、虚假媒体或侵犯隐私。.随着通用人工智能能力的不断发展，可

13、能会出现诸如大规模劳动力市场影响，人工智能黑客攻击或生物攻击以及社会失去对通用人工智能的控制等风险，尽管研究人员对这些情况的可能性存在争议。对这些风险的不同看法往往源于对社会将采取的限制措施、这些措施的有效性以及通用人工智能能力的推进速度的不同期望。.通用人工智能能力的未来进展速度存在相当大的不确定性。一些专家认为，到目前为止，进展最有可能放缓，而另一些专家则认为，极快的进展是可能的或可能的。.开发人员可以采用各种技术方法来评估和降低通用人工智能的风险，监管机构也可以要求，但它们都有局限性。例如，用于解释为什么通用Al模型产生任何给定输出的当前技术受到严重限制。.通用人工智能技术的未来是不确定

14、的，即使在不久的将来，也可能出现各种各样的轨迹，包括非常积极和非常消极的结果。但关于Al的未来，没有什么是不可避免的。社会和政府的决定将决定人工智能的未来。这份临时报告旨在促进对这些决定的建设性讨论。这份报告综合了对通用人工智能的科学理解-人工智能可以执行各种各样的任务-重点是理解和管理其风险。使用人工智能的系统的能力一直在迅速发展。这凸显了人工智能为商业、研究、政府和私人生活创造的许多机会。它还提高了人们对与先进人工智能相关的当前危害和未来潜在风险的认识。关于高级人工智能安全的国际科学报告的目的是朝着对人工智能风险以及如何减轻风险的国际共识迈出一步。该报告的第一份临时出版物将其重点限制在一种

15、能力发展特别迅速的人工智能上:通用人工智能，即可以执行各种任务的人工智能。在快速发展的过程中，通用人工智能的研究目前正处于科学发现的时代，尚未成为科学定论。该报告概述了当前对通用人工智能及其风险的科学理解。这包括确定科学共识的领域以及存在不同观点或开放研究问题的领域。世界各地的人们只有在风险得到适当管理的情况下，才能安全地享受通用人工智能的潜在好处。本报告的重点是识别通用人工智能的风险，并评估评估和缓解这些风险的技术方法，包括使用通用人工智能来缓解风险。它的目的不是全面评估通用人工智能的所有可能的社会影响，包括它可能提供的好处。根据许多指标，通用AI能力近年来增长迅速，并且在如何预测未来进展方

16、面没有达成共识，使得各种场景出现可能根据许多指标，通用Al能力正在迅速发展。五年前，领先的通用人工智能语言模型很少能产生连贯的文本段落。今天，一些通用的人工智能模型可以在广泛的主题上进行多轮对话，编写简短的计算机程序，或者从描述中生成视频。然而，通用人工智能的能力很难可能地估计和精确定义。通用人工智能的发展速度取决于技术进步的速度和监管环境。本报告侧重于技术方面，不讨论监管工作如何影响通用人工智能的开发和部署速度。近年来，人工智能开发人员迅速提高了通用人工智能功能，主要是通过不断增加用于训练新模型（一种称为“扩展”的趋势）和改进现有算法的资源。例如，最先进的人工智能模型用于训练的计算资源（“计

17、算）每年增加约4倍，训练数据集大小增加2.5倍，算法效率（相对于计算的性能）增加1.5倍。缩放”是否导致了诸如因果推理等基本挑战的进展，研究人员之间存在争议。通用人工智能能力的未来进展速度对管理新兴风险具有重大影响，但专家们对即使在不久的将来也会发生什么持不同意见。专家们以各种方式支持通用人工智能能力缓慢、快速或极快发展的可能性。这种分歧涉及一个关键问题:继续扩展资源和改进现有技术是否足以产生快速进展并解决可靠性和事实准确性等问题，还是需要新的研究突破来大幅提高通用AI能力？几家开发通用人工智能的领先公司正在押注扩展以继续带来性能改进。如果最近的趋势继续下去，到2026年年底，一些通用人工智能

18、模型将使用比2023年发布的最计算密集型模型多40倍至100倍的计算进行训练，并结合使用这种计算效率提高3倍至20倍的训练方法。然而，进一步增加数据和计算存在潜在的瓶颈，包括数据的可用性、人工智能芯片、资本支出和本地能源容量。开发通用人工智能的公司正在努力解决这些潜在的瓶颈。一些研究工作旨在更可靠地理解和评估通用AI,但我们对通用AI模型和系统如何工作的总体理解是有限的管理通用人工智能风险的方法通常基于这样的假设，即人工智能开发人员和政策制定者可以评估通用人工智能模型和系统的能力和潜在影响。但是，虽然技术方法可以帮助评估，但所有现有方法都有局限性，无法提供强有力的保证，以防止与通用人工智能相关

19、的大多数危害。总体而言，对通用人工智能的内部运作、能力和社会影响的科学理解非常有限，专家普遍认为，提高我们对通用人工智能的理解应该是当务之急。一些关键挑战包括：.开发人员仍然对他们的通用Al模型如何运行知之甚少。这是因为通用Al模型不是传统意义上的编程。相反，他们是经过训练的:人工智能开发人员建立了一个涉及大量数据的训练过程，这个训练过程的结果就是通用人工智能模型。这些模型可以由数万亿个称为参数的组件组成，并且它们的大部分内部工作都是难以理解的，包括对模型开发人员来说。模型解释和可解释性技术可以提高研究人员和开发人员对通用Al模型如何运行的理解，但这项研究还处于起步阶段。.通用Al主要通过在各

20、种输入上测试模型或系统来评估。这些抽皆有助于评估优势和劣势，包括漏洞和潜在的有害能力，但不提供定量的安全保证。测试通常会忽略危险，高估或低估功能，因为通用Al系统在不同情况下，不同用户或对其组件进行其他调整时可能会表现不同。.原则上，独立参与者可以审核公司开发的通用Al模型或系统。但是，公司通常不向独立审计师提供必要的直接访问模型或有关严格评估所需的数据和方法的信息。一些政府正在开始建设进行技术评估和审计的能力。.很难评估通用人工智能系统的下游社会影响，因为对风险评估的研究还不足以产生严格和全面的评估方法.此外，通用人工智能具有广泛的用例，这些用例通常不是预定义的，只是受到轻微的限制，使风险评

21、估进一步复杂化。了解通用人工智能模型和系统的潜在下游社会影响需要细致入微的多学科分析。增加多样化的代表性通用人工智能开发和评估过程中的观点是一项持续的技术和制度挑战。通用人工智能可能对个人和公共安全和福祉构成严重风险该报告将通用Al风险分为三类:恶意使用风险，故障风险和系统性风险。它还讨论了导致许多风险的几个交叉因素。恶意使用。与所有强大的技术一样，通用Al系统也可能被恶意使用以造成伤害。可能的恶意使用类型包括相对证据充分的类型，例如通用Al实现的诈骗，以及一些专家认为未来几年可能发生的类型，例如恶意使用通用Al的科学功能。.通过通用Al生成的虚假内容对个人造成的伤害是一种相对有据可查的通用A

22、l恶意使用。通用Al可用于增加诈骗和欺诈的规模和梵杂性，例如通过通用Al增强的“网络钓鱼”攻击。通用人工智能也可以用来生成虚假的妥协内容，包括未经个人同意的个人，例如未经同意的deepfake色情内容。.另一个令人担忧的领域是恶意使用通用人工智能来提供信息和操纵公众舆论。通用人工智能和其他现代技术使生成和传播错误信息变得更加容易，包括影响政治进程。像水印内容这样的技术对策虽然有用，但通常可以被适度复杂的参与者规避。.通用人工智能也可能被恶意用于网络犯罪，提升个人的网络专业知识，并使恶意用户更容易进行有效的网络攻击。通用Al系统可用于扩展和部分自动化某些类型的网络操作，例如社交工程攻击。但是，通

23、用Al也可以用于网络防御。总体而言，尚无任何实质性证据表明通用AI可以自动执行复杂的网络安全任务。.一些专家还对通用人工智能可能被用来支持生物武器等武器的开发和恶意使用表示担忧。没有强有力的证据表明目前的通用人工智能系统会带来这种风险。例如，尽管目前的通用人工智能系统显示出与生物学相关的不断增长的能力，但有限的研究并没有提供明确的证据表明，目前的系统可以比使用互联网更容易地提升恶意行为者来获取生物病原体。然而，未来的大规模威胁几乎没有得到评估，也很难排除。故障风险。即使用户无意造成伤害，由于通用AI的故障，也可能会产生严重的风险。这种故障可能有几种可能的原因和后果：.基于通用人工智能模型和系统

24、的产品的功能可能会被用户理解得很少，例如由于误解或误导性广告。如果用户随后以不合适的方式或出于不合适的目的部署系统，这可能会造成损害。.人工智能系统中的偏见通常是一个很明显的问题，对于通用人工智能来说也没有解决。通用人工智能输出可能会在种族、性别、文化、年龄和残疾等受保护特征方面存在偏见。这可能会产生风险，包括在高风险领域，如医疗保健，工作招聘和金融贷款。此外，许多广泛使用的通用人工智能模型主要是在不成比例地代表西方文化的数据上训练的，这可能会增加对这些数据不能很好地代表的个人造成伤害的可能性。.“失控”情景是潜在的未来情景，在这种情景中，社会不再能够有意义地限制通用人工智能系统，即使它们显然

25、正在造成伤害。人们普遍认为，目前的通用人工智能缺乏构成这种风险的能力。一些专家认为，目前开发通用自主人工智能（可以行动、计划和追求目标的系统）的努力，如果成功，可能会导致失控。专家们对失控情况的合理性，何时可能发生以及减轻这种情况的难度持不同意见。系统性风险。通用人工智能技术的广泛发展和采用带来了些系统性风险，从潜在的劳动力市场影响到隐私风险和环境影响：.通用人工智能，特别是如果它进一步迅速发展，有可能自动化非常广泛的任务，这可能会对劳动力市场产生重大影响。这可能意味着许多人可能会失去目前的工作。然而，许多经济学家预计，潜在的失业可能会被创造新的就业机会和非自动化部门需求的增加所抵消，扶至可能

26、完全抵消。.通用人工智能的研发目前主要集中在少数西方国家和中国。这种AI划分”是多原因的，但部分原因是开发通用Al所需的计算访问级别不同。由于低收入国家和学术机构获得计算机的机会比高收入国家和技术公司少，因此它们处于不利地位。.通用人工智能发展的市场集中度使社会更容易受到几种系统性风险的影响。例如，少量的广泛使用金融或医疗保健等关键部门的通用人工智能系统可能会在这些相互依赖的部门中同时造成广泛的故障和中断，例如由于错误或漏洞。.在通用Al开发和部署中不断增长的计算使用量迅速增加了与通用Al相关的能源使用量。这种趋势没有显示出放缓的迹象，2可能导致进一步增加的Co排放和水消耗。.通用Al模型或系

27、统可能会对隐私构成风险。例如，研究表明，通过使用对抗性输入，用户可以从模型中提取包含有关个人信息的训练数据。对于未来针对敏感个人数据（如健康或财务数据）进行训练的模型，这可能会导致特别严重的隐私泄露。.通用人工智能开发中潜在的版权侵权对传统的知识产权法以及同意、补偿和数据控制系统构成了挑战。不明确的版权制度阻碍了通用Al开发人员宣布他们使用的数据，并且不清楚在未经许可的情况下使用其作品来训练通用Al模型的创作者会受到哪些保护。交叉双舲因索支撑通用人工智能相关风险的是几个交叉风险因素-通用人工智能的特征增加了不是个而是几个风险的概率或严重性：.跨领域的技术风险因素包括难以确保通用Al系统可嵬地按

28、预期运行，我们对其内部工作原理缺乏了解，以及正在开发的通用AI“代理”可以在减少监督的情况下自主行动。.社会交叉风险因素包括技术进步的速度和监管反应的速度之间的潜在差距，以及人工智能开发人员快速发布产品的竞争激励，这可能是以彻底的风险管理为代价的。有几种技术方法可以帮助降低风险，但目前没有一种已知的方法能够提供强有力的保证或保证，防止与通用人工智能相关的伤害。虽然本报告没有讨论减轻通用人工智能风险的政策干预措施，但它确实讨论了研究人员正在取得进展的技术风险缓解方法。尽管取得了这进展，但目前的方法并没有可能地防止在现实世界环境中甚至公开有害的通用AI输出。使用了几种技术方法来评估和减轻风险：.在

29、训练通用Al模型以更安全地运行方面取得了一些进展。开发人员还训练模型，使其对旨在使其失败的输入更加健壮（“对抗性训练尽管如此，对手通常可以找到替代投入，以低至中等的努力降低保障措施的有效性。将通用人工智能系统的功能限制在特定的用例中，有助于降低不可预见的故障或恶意使用带来的风险。.有几种技术可用于识别风险，检查系统操作以及在部署通用Al系统后评估性能。这些做法通常被称为监控。.减轻通用Al系统中的偏见可以在系统的整个生命周期中解决，包括设计，培训，部署和使用。然而，完全防止通用人工智能系统中的偏见是具有挑战性的，因为它需要系统的训练数据收集、持续的评估和有效的偏见识别。它还可能蠹要权衡公平性与

30、其他目标，如准确性和隐私，并决定什么是有用的知识，什么是不应该反映在输出中的不良偏见。.隐私保护是研究和开发的活跃领域。简单地在培训中尽量减少敏感个人数据的使用是一种可以大大降低隐私风险的方法。然而，当有意或无意地使用敏感数据时，用于降低隐私风险的现有技术工具难以扩展到大型通用Al模型，并且可能无法为用户提供有意义的控制。结论:广泛的通用人工智能轨迹是可能的，这在很大程度上取决于社会和政府的行为通用人工智能的未来是不确定的，即使在不久的将来，也可能出现各种各样的轨迹，包括非常积极和非常消极的结果。但通用人工智能的未来并不是不可避免的。通用人工智能是如何开发的，由谁开发，它旨在解决哪些问题，社会

31、是否能够获得通用人工智能的全部经济潜力，谁从中受益，我们面临的风险类型，我们投入多少研究以降低风险-这些和许多其他问题取决于社会和政府今天和未来做出的选择，以塑造通用人工智能的发展。为了帮助促进关于这些决策的建设性讨论，本报告概述了科学研究的现状以及关于管理通用人工智能风险的讨论。赌注很高。我们期待着继续这一努力。1介绍我们正处于一场技术革命之中，这场革命将从根本上改变我们的生活、工作和相互联系的方式。人工智能(AI)有望改变我们社会和经济的许多方面。科学界普遍认为，人工智能系统的能力在过去五年中在许多任务上取得了快速进展。大型语言模型(Hm)是一个特别突出的例子。在2019中，GPT-2,当

32、时最先进的1.1.M,无法可靠地产生连贯的文本段落不能总是数到十。在撰写本文时，像克劳德3,GPT-4和双子座UIIra这样最强大的IlmnJ以始终如一地进行多轮对话，编写简短的计算机程序，在多种语言之间进行翻译，在大学入学考试中获得高分，并总结长文档。这种能力的逐步变化以及持续进步的潜力，可以在许多方面帮助提高公众利益。其中最有希望的前景是人工智能在教育、医疗应用、广泛领域的研究进展以及导致繁荣的创新增加方面的潜力。这快速进展也提高了人们对与最有能力的人工智能类型相关的当前危害和未来潜在风险的认识。本报告旨在促进对先进人工智能安全的国际共享科学理解。为了开始就先进人工智能的风险达成国际共识，

33、政府代表和学术界、商界和民间社会的领导人于2023年11月在英国布莱奇利公园召开了首届国际人工智能安全峰会。在峰会上，出席会议的国家以及欧盟和联合国同意支持制定关于先进人工智能安全的国际科学报告。本报告旨在促进对先进人工智能安全的国际共享科学理解。这是该报告的第一份临时出版物：第一份报告的最终版本将在法国4峰会之前发布。一个由75位人工智能专家组成的国际小组，他们的观点广泛，相关的背景也多种多样，为这份中期报告做出了贡献。报告所考虑的证据包括相关的科学，技术和社会经济证据。由于人工智能领域正在飞速发展，因此并非本报告使用的所有来源都经过同行评审。但是，该报告致力于仅引用高质量的来源。高质量源的

34、标准包括：.该作品构成了推动该领域发展的原始贡献。.该作品全面地与现有的科学文献相结合，在适当的情况下引用其他人的工作，并对其进行准确的解释。.该作品真诚地讨论了对其主张的可能异议。.这篇文章清楚地描述了其分析所采用的方法。它批判性地讨论了方法的选择。.这篇文章清楚地强调了它在方法上的局限性。.这篇文章在科学界很有影响力。由于对先进人工智能风险的科学共识仍在形成中，因此在许多情况下，该报告并未提出自信的观点。相反，它提供了科学理解和共识的当前状态的快照，或者缺乏科学理解和共识。在文献中存在空白的地方，报告指出了这些空白，希望这将促进进一步的研究。此外，本报告没有评论哪些政策选择是对其讨论的风险

35、的适当回应。最终，政策制定者必须选择如何平衡先进人工智能带来的机遇和风险。政策制定者还必须判断适当的审慎和谨慎程度，以应对仍然模棱两可的风险。该报告的第一次迭代侧重于通用AI,即可以执行广泛任务的Al人工智能(AI)是指使用广泛适用的方法开发的先进的基于机器的系统，以实现给定的目标或回答给定的问题。人工智能是一个广泛且快速发展的研究领域，有许多不同种类的人工智能。本中期报告并未涉及所有类型的高级Al的所有潜在风险。该报告的第一次迭代侧重于通用AI,即可以执行各种任务的AI。通用人工智能系统，现在通过ChatGPT等应用程序为许多人所知，在过去的18个月里，公众和政策制定者对人工智能产生了前所未

36、有的兴趣。它的能力一直在迅速提高。通用Al不同于所谓的窄AI”,这是一种专门执行一项特定任务或一些非常相似的任务的A1.为了更好地理解我们如何在本报告中定义通用AI,区分AI模型和AI系统很有用。人工智能模型可以被认为是原始的数学本质，通常是人工智能应用的引擎Al系统是多个组件的集合，包括一个或多个Al模型，旨在以某种方式对人类特别有用。例如，ChaIGPT应用程序是一个Al系统。它的核心引擎GpT-4是一个人工智能模型。本报告涵盖了Al模型和Al系统的风险，如果它们是“通用AI模型或系统。我们认为Al模型是通用的，如果它可以执行或可以适应执行各种各样的任务。我们认为Al系统是通用的，如果它是

37、基于通用模型，但如果它是基于从通用模型派生的专用模型。在通用Al领域，本报告重点关注通用AI,它至少与当今最先进的通用Al(如GpT-4Turbo、ClaUde3和GeminiUltra)一样强大。在我们的定义中，模型或系统不需要具有多种模态，如语音，文本和图像，就可以被认为是通用的。相反，可以在特定领域内执行各种任务的人工智能，如结构生物学，在我们的定义中也被视为通用。重要的是，不饕将通用AI与人工通用智能(AGI)混淆，AGl有时用于指代潜在的未来Al系统，该系统在所有或几乎所有认知任务上的表现均等于或超过人类。通用Al是一个较弱的概念。本报告没有解决狭窄ai”带来的风险，狭窄ai”经过培

38、训可以执行非常有限的任务，并且捕获了相应的非常有限的知识体系。编写这份中期报告的时间有限，导致人们把重点放在先进的通用人工智能上，因为这方面的进展最为迅速，相关风险的研究和理解也较少。然而，从风险和安全的角度来看，狭义人工智能也可能具有高度相关性，报告中使用了与这些系统风险相关的证据。狭义的人工智能模型和系统被广泛用于医药、广告或银行等领域的产品和服务，并且可能在其中许多领域带来重大风险。这些风险可能导致诸如有偏见的招聘决定，车祸或有害的医疗建议等危害。窄Al也被用于各种军事应用。一个应用，虽然是人工智能在军队中的应用的一个非常小的子集，(1)涉及，例如，致命的自主武器系统(Iaw)。这些主题

39、在其他论坛中都有涉及，不在本中期报告的范围之内。一个庞大而多样的领先国际专家小组为本报告做出了贡献，其中包括来自所有联合国区域集团以及欧盟和联合国的30个国家提名的代表。虽然我们的个人观点有时会有所不同，但我们坚信，关于人工智能的建设性科学和公共讨论对于世界各地的人们安全地获得这项技术的好处是必要的。我们希望这份临时报告能够有助于这一论述，并成为未来的报告将逐步改善我们对高级人工智能的能力和风险的共同理解。该报告分为六个主要部分。在此介绍之后，2。CaPabiIitieS提供有关通用Al当前功能、基本原理和潜在未来趋势的信息。3.评估和理解通用Al系统的方法解释了研方人员如何尝试了解通用Al可

40、以做什么以及它可能带来的风险。4.风险部讨论特定风险和交叉风险因和。5.减轻风险的技术方法介绍了减轻通用人工智能风险的技术，并评估了它们的优势和局限性。6.结论:总结和总结。2能力2.1 通用AI如何获得其能力？关键信息.通用Al模型和系统可以生成文本，图像，视频，未标记数据的标签，并启动操作。.通用人工智能模型和系统的生命周期通常涉及计算密集型的“预培训”、劳动密集型的“微调”以及持续的部署后监控和更新。有各种类型的通用AI。通用Al模型的示例包括：聊天机器人风格的语的模型,如GPT4(2*),Gemini-1.5(3*),Claude-3(4),Qwenl.5(5*),1.lama-3(6

41、*),和米斯特拉尔大(7*)。.诸如DA1.1.E-3(9*)、Midjourney-5(10*)和稳定扩散-3(11*)的图像生成器(8)。.视频发生器，如SoRAl2.机器人和导航系统，如Pa1.M-E(13)。.分子生物学中各种结构的预测因子，如AlPhaFold3(14)通用Al模型依赖于深度学习(15)或人工神经网络的训练，这是由多层互连节点组成的Al模型，松散地受到生物神经网络大脑结构的启发。大多数最先进的通用人工智能模型都基于“变压器”神经网络架构(16),该架构已被证明在将越来越多的训练数据和计算能力转换为更好的模型性能方面特别有效。从广义上讲，通用Al模型的开发和部署遵循相同

42、的一系列不同阶段:预训练，微调，系统集成，部署和部署后更新。每个都需要不同的方法和资源。预训练和微调都是“训练”通用AI模型的方法。在训练过程中，通用Al模型会获得一些数据，并对其进行处理以预测其他数据。例如，该模型可以被给定维基百科文章的前500个单词，然后预测第501个单词。最初，它是随机预测的，但随着它看到更多的数据，它会自动适应从错误中学习，它的预测也会提高。每个预测都需要定量的计算资源(计算机”)，因此训练需要数据和计算。由开发人员设计的模型架构决定了模型进行预测时发生的广泛类型的计算，并且在训练期间调整了这些计算中使用的确切数字。预培训：预培训的目标是将一般背景知识构建成通用的AI

43、模型。在预训练期间，通用Al模型通常从大量数据(通常来自互联网)的模式中学习。收集和准备训练前数据是大规模的操作，在大多数情况下，训练前是计算最密集的发展阶段。如今，通用Al模型的预训练需要数周或数月，并使用数千个图形处理单元(gpu).专门的计算机芯片，旨在快速处理复杂的并行计算。例如，FalCon-180B模型使用4,096jgpu多个月，Pa1.M(54OB)使用6,144芯片50天(13)。如今，与2010中的最先进模型训练(”)相比，此过程使用的计算量大约是其100亿倍。一些开发人员使用自己的计算进行预培训，而其他开发人员则使用专业云计算提供商提供的资源。微调:经过预训练后，大多数通

44、用AI模型都会经历一个或多个额外的微调阶段，以完善其完成int结束任务的能力。微调可以包括各种技术，包括从期望示例(18)、成对的期望和不期望示例(19)或奖励和惩罚(20、21*)中学习。微调通常需要大量的人工参与，并且往往是培训中最劳动密集型的部分，微调现代模型需要数百万个人工反馈实例(22*)。通常，这种反馈是由成千上万的签约知识工作者提供的。系统集成:模型经过训练后，可以通过将其与旨在增强功能和安全性的其他系统组件集成来构建通用Al系统。在实践中，通用Al模型通常与用户界面、输入预处理器、输出后处理器和内容过滤器集成。部署:经过训练后，可以部署模型以供使用。部署可以是内部的，其中系统仅

45、由开发人员使用，也可以是外部的，允许公共或其他非开发人员实体使用它。外部部署可以是“封闭源”或开放源”。闭源意味着公众只能通过有限的界面使用该系统。开源意味着整个系统，包括所有的模型参数，都是可用的。一些最先进的通用人工智能系统，如GPT-4(2*),是闭源的，而其他像1.lama-3(6*)是开源的。从减轻风险的角度来看，开源模型有其优缺点，这是科学界正在进行的讨论的主题。这份中期报告没有详细讨论开源模型的优缺点。部署后监控和更新：部署后许多通用Al系统会不断更新。这使开发人员可以更新功能并尝试在发现缺陷和漏洞时解决它们。这些变化通常相当于一种“猫和老鼠”的游戏，开发人员不断更新高调的系统，

46、以应对新发现的漏洞(22*)02.2 当前通用AI系统的能力关键信息.通用人工智能能力很难可辐地估计，但大多数专家认为，目前的通用人工智能能力包括：O协助程序员和编写简短的计算机程序O在几个回合内进行流利的交谈O解决教科书上的数学和科学问题.大多数专家认为，通用人工智能目前无法完成以下任务：O执行有用的机器人任务，如家庭任务O可靠地避免虚假陈述O开发全新的复杂想法.评估通用人工智能系统能力的一个关键挑战是性能是高度特定于上下文的。有时仅在部署模型之后才会发现引发改进模型功能的方法，因此可能会低估初始功能。可替代地，通用AI模型和系统能力可能被高估，因为在不同的上下文中缺乏鲁棒性并且使用不同的方

47、法来引出能力。本节重点介绍按模态（如视频和语言）和技能（如推理和知识）分类的通用AI模型和系统的功能。功能也可以根据特定基准的性能进行分类（请参见30评估和了解通用Al系统）.虽然本节涵盖了一般功能，但441.交叉削减技术风险因素的重点是高风险”能力。难以定义能力通用人工智能系统通常是根据其能力来描述的，但在人工智能领域，能力”一词并没有被广泛接受的定义。定义能力的部分困难在于它不能被直接观察到一人工智能研窕人员只能观察人工智能系统的次为系统实际产生的一组输出或动作以及它这样做的背景（例如，导致观察到的行为的提示）（23）o人工智能研究人员只能总结在许多情况下观察到的系统行为，从而得出系统的能

48、力-能力的印象。即使在模型建立之后，也很难定义和衡量新的通用Al模型的全部功能；研窕人员和用户通常会在模型部署后发现新的方法来获取功能，例如，通过提示模型“逐步思考（2524,）。定义通用人工智能系统功能的另一个复杂之处在于，它们是由其环境中的是力一它可以访问的工具和资源-塑造的。例如，当一个通用人工智能系统连接到互联网并配备网络浏览器时，它会获得新的affor信息检索和与现实世界互动，有效地扩展其功能（26）。2.2.1 按方式的能力通用Al模型可以根据它们处理的模式（例如文本，图像，视频）作为输入并生成输出进行分类。通用人工智能模型存在10+模态（27）,如时间序列（28*）和音乐（2”），但文本处理模型是目前对通用人工智能模型的大部分关注的来源。先进的通用人工智能模型越来越能够处理和生成文本、图像、视频、音频、机器人动作以及蛋白质和大分子：.

展开阅读全文