《通过NPU和异构计算开启终端侧生成式AI.docx》由会员分享,可在线阅读,更多相关《通过NPU和异构计算开启终端侧生成式AI.docx(19页珍藏版)》请在课桌文档上搜索。
1、 Qulco 2024年3月 通过NPU和异构计算开启终端侧生成式Al 不二设宴通口/产入艮麻人搭水工三床H字公助的产.目录 总结1 2 3 4 5 6 7 8 9 10 1 摘要 KMAl变W1.RUBflMAIAHMR求在有多样化要求和计算求的垂我fWfll要专为AI*M酬的全新计H架构.这先需要一个!向 CAI全新设计的神经网络处*NPU),喇用异构处理卷施合,比如中央处IUKCPU 月Dlg形处MGPU)o 通过结合 NPU 使用合透的处理国,异构计费能第实现佳应用性能、能效和电池续航,Il 能全新增密的生成式 Al 体验。NPU 专为实现低功耗加速 Al 推理而全新打造,并随器新 A
2、l 用例、模型和需求的发展不断演进。优秀的 NPU设计能够提供正确的设计选择,与 Al 行业方向保持高度一致。高通正在助力让智能计算无处不在。业界领先的高通 HeXagon-NPU 面向以低功耗实现持续和定的高性能Al 推理而设计。高通 NPU 的差异化优势在于系统圾解决方案、定制设计和快速创新。通过定制设计 NPU以及控制指令集架构(ISA),高通能第快速进行设计演进和扩联,以解决瓶颈问题并优化性福 HexoNpU是高通业界领先的异构计时架构一一高通 Al 引擎中的关域处理器,高通 AI 引擎还包括高通 AdrenoGPU高通 KrycT 或高通 OryOn.CPU、高通传感器中枢和内存子系
3、统。这些处理器为实现协同工作而设计,能够在终端侧快速且高效地运行 Al 应用。我们在 Al 基准消试和实际生成式 Al 应用方面的行业领先性能就是例通 我们还专注于在全球搭载高通和骁龙平台的数十亿终 J*设备上实现便断发和部署,斌能开发者 Q 利用 3 通Al 软件栈(QuolcomEAJSSck),开发者可在高通硬件上创建、优化和部署 Al 应用,一次编写即可实现在不同产品和细分领域采用高通芯片组解决方案迸行部工高通技术公旬正在蛾能终端催生成式 Al 的规模化犷展。2 处理器集成于SoC中的诸多优势 在不 Bfi 增长的用户需求、全新应用和终类以及技术进步的驱动下,计算架构正在不断演进。最初
4、,中央处理裁(CPU)就能够完成大部分处理,但随着计算需求增长,对全新处理器和加速器的需求出现O例如,早期智靛手机系统由 CPU 和环线 CPU 分布的分立芯片组成,用于 2D 图形、音籁、图像信号处理、螺寓调制解调器和 GPS 等处理。隔着时间推移,这些芯片的功能已经集 QW 为系统级芯片(SOC)的弟个芯片体(DlD 中。例如,现代智能手机、PC 和汽车 SOC 已集成多种处理器,如中央处理器(CPU)X 图形处理器(GPU)和神鲤网络处理 H(NPU)。m的这冷集成具有诏多优劣,包括改CHt 值住能、能效、单位面积住能、芯片尺寸和成本。例如,在智能手机或笔记本电脑内安装分立的 GpU 或
5、 NPU 会占用更多电路板空间,需要使用更多能源,从而影响工业设计和电池尺寸。此外,输入闻出引脚间的数据传输也将增多,将导致性能降低、能耗增加,以及采用更大电路板带来的额外成本和更低僦享内存效率。对于智能手机、笔记本电脑和其他 H 要轻巧工业设计,具有产格功率和畋榭 K 和好 J 便携式终端,集成更为必 ffo 01:三 feSCfffDCti FtKaIHMHf”螺单位再91性能、工*计和林 3 生成式Al需要多样化的处理器 谈到 A1.集成专用处理器并不新鲜。智能手机 SoC 自多年前就开始利用 NPU 改善日常用户体验,时 Il 晶色影像和音频,以及增强的连接和安全。不同之处在于,生成式
6、 Al 用例需求在有着多样化要求和计需求的垂直领域不断增加。这丝用例可分为三类:1.按 IB 型用例由用户触发,需要立即响应,包括照片/视频拍握、图像生成/编辑、代码生成、录音转录涌要和文本(电子邮件、文档等)创作/摘要 G 这包括用户用手机输入文字创作自定义图像、在 PC 上生成会议摘要,或在开车时用语的询最近的加油站。2.持续型用例运行时间较长,包括语音识别、游戏和视舞的幽分册率、视频通话的音频/视频处理以及实时 tn 译。这包括用户在海外出差时使用手机作为实时对曲译器,以及在 PC 上玩游戏时逐帧运行超级分辨率。3.泛在型用例在后台持续运行,包括始终开启的预测性 Al 助手、基于情境感知
7、的 Al 个性化和高级文本自动填电例好机可以根据用户的对话内容自动建议与同事的会议、PC 端的学习 Mi 导助手则靛够根据用户的答题情况实时调整学习资凤 这些 Al 用例面临两大共同的关键挑 At 第一,在功耗和散热受限的终端上使用通用 CPU 和 GPU 版务平台的不同箫求,璀以满足这些 Al 用例产苛且多样化的计算需求。第二,这些 Al 用例在不断演进,在功能完全固定的硬件上部詈这些用例不切实际。因此,支持处理多样性的异构计将架构能够发挥每个处理器的优势,例如以 Al 为中心定制设计的 NPU,以及 CpU 和 GPU)短个处理器 IB 长不同的任务:CPUIfi 长顺序控制和即时性,GP
8、U 适合并行数据流处理,NPUIS 长标、向和张数学运算,可用于核心 Al 工作负 S1.CPU 和 GpU 是通用处理器。它们为艮活性而设计,非常易于编程,“本职工作”是负责运行操作系统、游戏和其他应用等。而这些“本职工作”同时也会髓时限 JWteil 运行 Al 工作负就的可用容 NPU 专为 Al 打造,AI 就是它的本职工作”。NPU 降低部分易编程性以实现更高的峰值性能、能效和面积效率,从而运行机器学习所需的大窠法、加法和其他运算。通过使用合适的处理器,异构计算能第实现最佳应用性能.能效和电池续航,能全新增强的生成式Al体%4 NPU入门 NPU专为实现以低功耗加速AI推理而全新打造
9、,并随着新Al用例、模型和需求的发展不断演逐对整体 SOC 系统设计、内存访问模式和其他处理繇构运行 Al 工作负费时的瓶颈迸行的分析会深刻影响 NPU 设计。这些 Al 工作负栽主瞿包括由标、向量和张数学组成的神经网络层计算,以及 Hl 后的非线性激活函数。在 2015 年,早期的 NPU 面向音频和语音 Al 用惭设计,这些用例基于简单卷积神经网络(CNN)并且主要需要标 3 和向数学运算。从 2016 年开始,拍照和视频 Al 用例大受欢迎,出现了基于 Transformer循环神经网络(RNN)、长短期记忆网络(1.STMM 更高维度的卷积神经网络(CNN)等更复杂的全新横型。这些工作
10、负裁需要大张数学运分,因此 NpU 增加了张星加速鬻和卷积加速,让处理效率大幅提升。有了面向张星乘法的大共享内存配置和专用硬件,不仅能够显著提高性能,而且可以降低内存带宽占用和能耗O例如,一个 NXN 矩阵和另一个 NXN 矩阵相乘,需要读取 ZN2 个值并进行 22 次运食(单个柒法和加法)a 在张加速器中,每次内存访问的计算操作比率为 N:1,而对于标和向量加速器,这一比率要小得多。在 2023 年,大语言模型(1.1.M比如 1.lamQ27B,和大视觉模型(1.VM)一比如 StabieDiffUSionlS能的生成式 Al 使得典型模里的大,J 嘤升超过了一个数级。除计 Il 需求之
11、外,还需要重点考虑内存和系统设计,通过Jt少内存数据传Ia以提高性能和能效。未期计将会出现对更大规模模型和多模态模型的需求。02WW.不得JWa I 随Al持城快速演进,必很在住能、功耗、效率、可想程性和面积之间进行权懦取 含。一个专用的定制化设计NPU能够做出正确的选择,与AI行业方向保持高度一致。5 高通.NPU:以低功耗实现持久稳定的高性能Al 经过多年研发,高通 HeXaQonNPU 不断演进,能够满足快速变化的 Al 需求。2007 年,首款 HeXgOnDSP在骁龙平台上正式亮相一一 DSP 控制和标量架构是高通未来多代 NPU 的用叱。2015 年,骁加 820 处理器正式推出,
12、集成苜个高通 AI 引军,支持成像、音频和传感器运费,2018 年,高通在骁龙 B55 中为 HeXogOrlNPU 增加了 HeXQgOn 张量加速线。2019 年,高通在骁龙 865 上扩国了终端例 Al 用例,包括 AI 成像、Al 视频、Al 语音和始终在线的感知功能。as*2015年发布的登龙8203次WiiA/引I1.2020 年,高通凭借 HeXOgonNPU 变 35 性的架构更新,实现了重要里程碑。我们融合标、向量和张加速器,带来了更佳性能和能效,同时还为加速器打造了专用大共享内存,让共享和迁移数据更加高效O合AliMtM构为育出凄的NPU架构定了整实tto 2022 年,第
13、二代骁龙 8 中的 HeXOgonNPU 引入了众多重要技术提升。专用电源传输轨施够根据工作负基动态适配电源供应。格切片推理利用 HeXaQOnNPU 的标加速能力,将神经网络分割成多个能够独立执行的微切片,消除了高达 K)余层的内存占用,能够最大化利用 HeXOQ8NPU 中的标、向和张加速器并降低功耗 O 本地 4 位整数(INT3 运算支持旋塔提升能效和内存带宽效率,同时将 INT4 层和神经网络的张星加速吞吐提高一倍。TrQnSfOrnWf 网络加速大幅加快了应用于生成式 Al 的多头注意力机制的推理速度,在使用 MobiIeBERT 模型的特定用例中能芾来高达 4.35 倍的惊人 A
14、l 性能提升。其他特殊硬件包括改进的分组卷积、激活函数加速和张加速器住能。但矍曲_中的 HeXgonNPU是高通面向生成式 Al最新、也是目前最好的设计,为持续 Al 推理带来98%性能提升和 4%籍效提升、它包括了跨整个 NPU 的 1架构升级 O 微切片推理迸一步升级,以支持更高效的生成式 Al 处理,并降低内存带宽占用。此外,HeXaaOn 张星加速甥增加了独立的电源传输轨道,让需要不同标、向和张星处理规模的 Al 横里能婚实现最高性能和效率。大共享内存的带宽也堵加了一他基于以上提升和INT4件如速,H 更浮渣碎 NPUJ成为面向终储催生成式Al大模型推理的领先处理器。,与前代平台相比,
15、加速JS专用电源 高通 HexagonNPU 更大带宽进入 2倍带克 张加速88 更高主算 图4.奈二二尸彳8的HemgOnNPU开缭以幽IEjbMt先触 高通NPU的差异化优势在于系统级解决方案、定制设计和快速创新。高通的系统级解决方案考个处“m构、SoCKttKWlDttfHMHftlli以打造隹Al助Xo要在增加或修改硬件方面做出恰当的权衡和决策,需要发现当前和潸在的瓶颈。通过跨应用、神经网络模型、鼻法、软件和硬件的全栈 Al 研究与优化,高通能尊做到这一点 O 由于靛够定制设计 NPU 并控制旨令集架构(ISA),高通架构师能筋快速进行设计演进和扩展以解决瓶颈问融。这一迭代改迸和反馈循
16、环,使我们能够基于 Ia 新神经网络架构持续快速增强高通 NPU 和高通 Al 软件栈。基于高通的自主 Al 研究以及与广大 Al 社区的合作,我们与 AI 横型的友展保持同步。高通具有开展基础性Al 研究以支持全栈终端 mAl 开发的独特豌力,可 Kl 能产品快速上市,并困绕终端偶生成式 Al 等关獴应用优化 NPU 部署。相应地,高通 NPU 历经多代演进,利用大技术成袋百除瓶酸。例如,第三代骚龙 8 的诸多 NPU 架构升级施够帮助加速生成式 Al 大模型。内存带宽是大语言模型 Sken 生成的瓶颈,这意味居其性能去现更受限于内存带宽而非处理能力。因此,我们专注于提高内存带宽效率。第三代
17、骁企 8 还支持业界最快的内存配置之一:4.8GHZ1.PDDR5x,支持 77GBs 带宽,能够满足生成式 Al 用例日益增长的内存需求。从 DSP 架构入手打造 NPU 是正确的选择,可以改善可编程性,并能够紧密控制用于 Al 处理的标呈、向量和张运算 Q 高通优化标、向星和张加速的设计方案结合本地共享大内存、专用供电系统和其他硬件加速,让我们的解决方案独嗣一帜。KilNpU 能第模仿最主流筮鱼的神经网络层和运算,比如卷积、全连接层、TtaMIlMMl 以及主流激活的数,以低功耗实现持续稳定的高性能表现。6 异构计算:利用全部处理器支持生成式Al 适合终端假执行的生成式 Al 横型日益复杂
18、,参数规模也在不断提升,从 K)亿参数到 100 亿,其至 700 亿升级的傩切片推理 88架构升级 峰值性掂内椁 参数。其多模态趋势日益增强,这意味着模型能够接受多种输入形式-比如文本、语音或图像,并生成多种输出结果O 此外,许多用例需要同时运行多个模型。例如,个人助手应用采用语音输入输出,这需要运行一个支持语音生成文本的自动语音识别(ASR)横型、一个支持文本生成文本的大语亳模型、和一个作为语音输出的文本生成语音(TTS)横型。生 MAI 工作负的短余性、并覆性和多样 1!MlMsec 中所存处事的能力 佳的解决方案鬟求:1.若处理器和处理器内核扩展生成式 Al 处理 2 将生成式 Al
19、模型和用例映射至一个或多个处理器及内核 选择合适的处理器取决于众多因素,包括用例、终端类型、终端片级、开发时间、关 Sr 性能指标(KPD 和开发者的技术专长。制定决策需要在众多因素之间进行权衡,针对不同用例的 KPl 目 标可能是功耗、性能、时延或可获取性。例如,原始设苗制造商(OEM)在面向跨品类和层级的多种终端开发应用时,需要根据 SOC 规格、JB 终产品功能、开发流易度、成本和应用跨终层级的适度降级等因素,选择运行 Al 模型的 Sl 佳处理器 C 正如前述,大多数生成式 Al 用例可分类为按需型、持续型或泛在型用例。按需型应用的关域性能指标是时延,因为用户不想等待。这些应用使用“醴
20、型时,CpU 通常是正确的选摄。当模型变大(比如数十亿参数)时,GPU和NPU往往更会运电电Kran能效对于持续和支出S用例至关重要,因此NpU是佳选择。另一个关键区别在于 Al 横型为内存限不理(即性能表现受限于内存带宽),还是计算限制型(BP 住能去现受限于处理器性能)。当前的大语言模型在生成文本时受内存限制,因此篇要关注 CPUGPU 或 NpU 的内存效率。对于可能受计算或内存限制的大视觉模型,可使用 GPU 或 NPU,但 NPU 可提蝙佳的能效 C 提供自然语音用户界面(UI)以提高生产力并增强用户体弱的个人助手 HH 十将成为一类流行的生成式 Al应用。语音识别、大语言模型和语音
21、模型必将以某种并行方式运行,因此理想的情况是在 NPU.GPUCPU和传感处理器之间分布处理模型。对于 PC 来说,个人助手预计将始终开启且无处不在地运行,考虑到性能和能效,应当尽可能在 NPU 上运行。7高通Al引擎:面向生成式Al的业界领先异构计算 高通 Al 引聚包含多个硬件和软件组件,以加速骁龙和高通平台上的终端 AlAI0在集限件方面,高通 AI 引拿具有业界 18 领先的异构计算架构,包括 HeXOQOnNPU、AdrenoGPU高通 Krvo 或高通 OryonCPU 高通传星器中枢和内存子系统,所 Ii件都经过精心设计以实 UM 工作,在终端所快速高效地运行 Al 应用。eRS
22、.MH-WB 以保功国*it隔罐段定的高*!度 取决于:用的 幔美暨慢怎HMWH美性亚除柝HXtt*圉5:正如在工具第中选择合适的工具一松选择合适的处理器取决于诏多因索。S6:离if削引要包括%小0UAdrrnoGPU高通或看通OmeR离通传感驾中枢和内寻子系祗 7.1 高通Al引辇中的处理器 高通 Si 新的 HeXQQOnNPU 面向生成式 Al 带来了显若提升,性超 1 升 98 外能效提升 40%,包括微架构升级、增强的微切片推理、更低的内存带宽占用,以及专用电源传输轨道,以实现 Ia 优性能和能效D这些增强特性结合 INT4 硬件加速,使 HQXOgonNpU 成为面向终端偏 Al
23、推理的领先处理器。AaenoGPU 不仅是能够以低功崛行高性能图形处理、赋浒富用户体能的强大引擎,还可用于以高精度格式迸行 Al 并行处理,支持 32 位浮点(FP32)、16 位浮点(FP16)和 8 位整数(INT8)运泉第三代骁龙 8 中全新升级的 AdrenOGPU 实现了 25%的能效提升,增强了 Ak 游戏和涮(体能力。耳于 AdrenOGPU,1.tamQ27B 每秒可生成超过 13 个 Skeg 正如上一,节所述,CPU 擅长时延敏感型的低计肾员 Al 工作负更。在骁龙/Elite 计芥平台中,高通 OryonCPU作为 PC 领域的全新 CPU 领军者,可提供高达竞品两倍的
24、CpU 性能,达到竞品峰值性能时功耗仅为竞品的三分之一。始终在线的处理甥对于处理面向泛在型生成式 Al 应用的情境化信息至关垂要。高通 Al 引擎集成的;S 通传感器中枢是一款极其高效、始终在线的 Al 处理器,适用于需要全天候运行的小型神经网络和泛在型应用,比如情境感知和传感器处理,所需电流通常不超过 I安(mA)0第三代验龙 8 中全新升级的高通传感器中枢横匕前代性能提升 3.5 倍,内存增加 30%,并配备两个下一代惋型 NPU,能够实现增强的 Al 性能。离通传感器中枢具备专用电源传输轨道,可在 SOC 其余部分关闭时运行,从而大幅节省电 高通AI引簟中的所有处理器相辅相成,能等实现A
25、l处理效率的大幅度提升.72 高通Al异构计算的系统级解决方案 异构计题函盖整个 SoC,包括多样化处理器、系统架构和软件三个层级,因此在异构计算解决方案中应用系统级方法至关里要。全局视角让高通架构师可以评估每个层级之间的关 St 约束条件、鬻求和依赖关系,从而针对 SOC 和品终产品用途做出恰当的选择,比如如何设计共享内存子系统或决定不同处理器应支持的数揖类型。高通定制设计了整个系统,因此我们能够做出恰当的设计权衡,并利用这些洞初造更具协同性的第决方案。定制设计方法为高通解决方案带来了差异化优势,我们可以为每类处理器插入全新的 Al 指令或硬件加速器。高蹦力于推动面向异构计真特性的架构演进,
26、同时保持处理器多样住这一优势。如果所有处理器都采用相近的架构,那么 SOC 将变成同构系统。相比之下,许多芯片组厂商通常选择授权多个第三方处理器,然后拼装在一起。这些处理器不一定能够紧密配合,也不一定是计对相同均束条件或细分市场而设计的。高通 Al 引掌是我们终端侧 Al 优势的核心,它在骁龙平台和众多高造te品中发挥了重要作用。X通Al引擎作为我In多年全栈Al优化的结晶,能塔以极低功耗提供业界领先的终端Al住能,支持当前和未来的用例。搭或高通 AI 引拿的产品出货已超过 20 亿,赋能了极为广泛的终端品类,包括智能手机、XRx 平板电、PC 安防提像头、机器人和汽车等。2 7.3案例研究:
27、使用异构计时的虚拟化身Al个人助手 在 2023 骁龙峰会上,高通在搭拉第三代骁龙 8 移动平台的智靛手机上演示了语音控制的 Al 个人助手,支持手机屏幕上的吉橄化身实现实时动画效果。该应用需要同时基于不同计算需求,运行众多复杂工作负S1.实现优秀用户体*的关凌在于充分利用SOC内的处多样性,在BlE配的处理器上运行合适的工作负卷?htp:WWWqUalCornm.cofprodjcfsfobeSnOPfc 图7,那化身Al助手包括众多m朵工ft.让我们看看该如何分管一用例的工作负钱:1.当用户与 Al 助手交谈时,语音通过 OPenAl 的自动语音识别(ASR)生成式 Al 横型 WhiSP
28、Qr 转化为文本。该模型在高通传感器中枢上运行。2 AI 助手再使用大语言模型 UamO27B 生成文本回复。该模型在 NpU 上运行。3.然后利用在 CPU 上运行的开源 TTS 模型将文本转化为语音。4.与此同时,虚拟化身厦染必须与语音输出同步,才能实现足够真实的用户交互界前借助 3,员创建融台变形动画(blendshape)能够给 Ie 形和面部表情带来合适的动画效果 O 这一传统 Al 工作负载在 NPU 上运行。5.品终的虚拟化身演染在 GPU 上迸行。以上步 H 需要在整个内存子系统中高效传输数推,尽可能在芯片上保存数据 O 这一个人助手演示利用了高通 Al 引鬃上的所有多样化处理
29、器,以高效处理生成式和传统 Al 工作负检 S8:支痔虚拟化”的个人助手充分利用高通削引率,多样化处理器。8 骁龙平台领先的AI性能 实现领先性能需要卓越的硬件和软件。尽管每秒万亿次运算(TopS)数值能够反映硬件性能潜力,但决定硬件可访问性和总体利用率的是软件。Al 基准测试可以更好的展示性能,但晶终的评估方式还是在实际应用中,测试峰值性能、持续稳定性能和能效。由于生成式 Al 基灌测试和应用仍处于起步阶段,以下对当前领先 Al 指标的分析展示了骁虎平台的领先性能。1.1 第三代骁龙8的领先智能手机上Al性能 在 mJCmn*M1.frf 推理,Mfl出 R 试中,与其他曾能手机竞品相比,*
30、三 NM*8AW*三 ttfto 例如,在生成式 AI 语言理解模型 MObaeBERT 上,第三代籁龙 8 的我现比竞品 A 高 17%比竞品 B 高 321%3。在普大师 AlMorkW.3 基准测试中,第三代晓龙 8 的总分分别为竞品 B 的 5.7 倍和竞品 C 的 7.9 倍。在安兔兔AJTUTU 基准测试中,第三代骁龙 8 的总分是竞品 B 的 6.3 倍。1高通技术公司在宿觑骁龙和竞品B平台的手机上运行和收集散至。克品A散提为其自身披31.智能手机Al基准测试 在2023年骁企峰会上,昌通演示过两个生成式AJ应用,展示了面向大语言模型和大视觉模型通用架构的真蛔用性能O在第三代骁龙
31、8上,个人助手演示能第以高达每秒20个toker 三三的度运行1.lamaa7&在不损失太多H的情况下,FaStStabIeDifUkmM诙0.6陟内生JtTMMBe分 X*。育通Im德手机Il先的Uama和StableDiffusion模型指标O 1.2 骁龙XElite的领先PC上Al性能 骁龙XEIit上集成的HexagonNPU算力达到 45TOPS,大幅领先于友商展新X86架构芯片NPU的身力数值:二/Ti-FmiJ ftv*XElftell1I先的性能 O 例如,段龙 XEIit 的基准涌试总分分别为 X86 架构竞品 A 的 3.4 倍和竞品 B 的8.6 倍。、基于对比恒遇宫图
32、像预训嫁(C1.l巧模整分数,用于评估准慢,接近线模暨 图9H二;在AM”皿加和M1./3中具IyM先m手川力住,曲大帅l到 AlMarkV4-3ATTuTu M1.CommonM1.PcH推理:MobileV3.1 st*HC向MMd(M的U1.P oCyeSAml攫;测试 ffo;襄龙3存户OcmimwiiatMgMiiMg 在骁龙 XEUte 上,1.lama2-7B 模型能第在高通 OrvonCPU 上以高达每杪 30 个 tokm 的速度运行。在不损失太多精度的情况下,FaStStQbIeDiffUSiOn 能第在 0.9 秒内生成一张 512x512 分辨率的图像。高通有着笔记本电
33、脑领域领先的 Uamo 和 StabkDi 仟 Usion 模型指标。9 通过高通软件栈访问Al处理器 仅,优秀的 AI件还不,让开量能 mf 的 Altt 对于终 IMAl 的规模化 Ir 展至关厘要。高通 Al 软件栈将我们的互补性 Al 软件产品整合在统一的解决方案中。OEM 厂商和开发者可在高通的产品上创建、优化和部 MAI 应用,充分利用高通 Al 引颦的性能,让开发者创建一次 Al 横型,即可聘不同产品随时随地进行部胃 C sn:高if期就件抵宫在期勉开爰者一次帽写,即可实现随时懒顺行和理横他T品 高 通Al软 件 找 全 面 支 持 主 流Al框 架(0TensorFloWxPV
34、TOCCKONNX和KerQS)和runtime(JcTenSOrROW1.jteXTensorFlow1.iteMicrEXeCUTOrch 和 ONNXnJntjme),面向以上 runtime 的代理对象可通过高通 Al 引*Direct 软件开发包(SDK)直接进行 Sl 合,加快开发进程。比外,高通 Al 软件栈集成用于推理的曰通神经网络处理 SDK,包括面向 AndrodIJnUX 和 WindOWS 的不同版本。高通开发者库和服务支特展新媚程语 X、虚拟平台和编译器.在软件栈更底层,我们的系统软件集成了基础的实时操作系统(RTOS)、系统接口和夔动程序。我们出不同产品线支持广泛的
35、操作系统(包括 AndrOid、Windows.1.inUX 和 QNX),以及用于部者和监控的基础设施(比如 PrOmetheUWKUbefneteS 和 DOCke0。对于 GPU 的直接跨平台访问,我们支持 OPenC1.和 DirOctM1.由于易于编程且应用于所有平台,CPU通常是 Al 编程的首选,我们的 1.1.VM 编法器基此设施优化可实现加速的高效 Al 推理。FQualcomm AlStock 0PyTorch *通内引MDir ct CPU GPU 内核 内核 BB12:高讨却软件修支M关IfM架和5iEQ 高通专注于 Al横型优化以实现能效和性靛提升。快速的小型 Al
36、模型如果只能提供低质或不准确的结果,那么将失去实际用处 O 因此,我们采用全面而有甘对性的策略,包 f 醛化、压缩、条件计算、神经网络架构搜索(NAS)和 N 译,在不牺牲太多准确度的前提下缩城 Al 横型,使珊效运行。即使是那些巳经面向移动终端优化过的模型我们也会迸行这一工作。例如,化有益于提升住能、能效、内存带宽和存储空间,HeXogonNPU 原生支持 INT4,高通 Al 模型增效工具包(AlMET)噬供基于高通 Al 研究技术成果开发的化工且,能够在降低位数精度的同时限制准确度的损失。对于生成式 Al 来说,由于用于 TronMomef 的大语言模型(I 匕如 GPTxBlOom 和
37、 1.kmO)受到内存的附制,在化到 8 位或,位权重后往往茂第获得大幅提升的效率优势。借助化感知训练和感更加深入的化研究,许多生成式 AIlS 型可以化至 INT4横型。事实上,INT4已成为大语亳模型的趋势,并逐渐成为范式,尤其是面向开源社区和希望在边缘终就!上运行大型等数理横模型的情况下。INT4支持将在不影响准性性能表现的情况下节省更多功疑,与INT8相比实现达90%的性能梃升利60%的能效提升,物运行更效的神足网络。使用低位粤她精度对育能效推理至关9h 通Al模型增效工具包(AIMCT)g昌通21新中心公司ggC6MInmY6RCJngy,ln)的产品e 10 总结 利用多种处理器进
38、行异构计算,对于实现生成式 AlES 用 JB 佳性能和能效至关重要。QS1.vz,工二注,就1.直汇月尔干苫 枳蚊率OSnRAisiVIMHManiMUlArw4M1.*9KryoM0OryCPU、惠通传,器中枢和内存子察统,能够支持按需型用例、特姆用例和泛在型用例,*MA提供业界领先的异构计算解决方案。通过定制设计整个系统,高通能够做出恰当的设计权衡,并利用这些洞察打造更具协同性的解决方案。我们的迭代改进和反馈循环,使高通能够基于最新神经网络架构,持续快速增强高通 NPU 和高通 Al 软件 aO我们在面向智能手机和 PC 的 Al 基准涌试与生成式 Al 应用中领先的性能我现,是高通差异化解决方案和全栈 Al 优化的结晶。高通 Al 软件栈琐能开发者跨不同产品创建、优化和部署 Al 应用,使得高通 Al 引擎上的 Al 加速具备可获取性和可 Irg 通过黑胶术 M 导力、定制芯片设计、全程 AI 优化和生态 MkR 能充分结合,离通技术公司在推动终生成式 AI 开发和应用方面独树 T1.欲了做更多相关内容 欢迎订谢未来 Al 和计笠技术简讯