《分布式异构智能算力的管理和调度技术研究报告2023.docx》由会员分享,可在线阅读,更多相关《分布式异构智能算力的管理和调度技术研究报告2023.docx(23页珍藏版)》请在课桌文档上搜索。
1、一、研究背景3二、异构算力的发展和应用场景需求4(一)异构算力的发展情况4(二)异构算力的主要应用场景7三、分布式异构算力管理和调度的关键技术能力9(一)异构算力的虚拟化和池化10(二)分布式异构算力的调度能力13(三)分布式异构算力的度量和标识16四、当前业界技术实现情况17(一)中国移动智算体系实现异构资源池化18(二)浪潮AlStation平台实现异构资源管理调度19(三)新华三傲飞平台实现异构资源管理调度22五、总结与展望24参考文档26一、研究背景随着我国数字经济规模总量的不断攀升,实体经济、数字经济和信息服务的深度融合正加速产业数字化和数字产业化变革。算力作为承载信息数据的重要基础
2、设施,已成为全社会数字化转型的重要基石。根据中国信息通信研究院最新发布的中国算力发展指数白皮书(2023年)显示,至2023年我国智能算力规模达到178.5EFk)Ps,增速为72%,在我国算力占比达59%,成为算力快速增长的驱动力;据IDC等机构预测,至2025年,新增数据量180ZB,其中80%的增长来自于文本、图片、语音、视频等非结构化的数据。随着人工智能、元宇宙、高性能计算等领域的发展,激发了更多智能数据处理的需求和场景,对新型智能算力的需求激增。*lWiAjt/AWm. IDC,Grtner.Wl(O本研究围绕典型智能计算应用对异构算力的协同及调度需求,研究泛在异构算力参与训练或推理
3、过程的协同需求、调度需求,研究泛在异构算力参与训练或推理过程的协同需求,包括异构算力类型、规模要求、性能要求、网络要求、数据传输要求等,分析异构算力协同的应用场景等特点,考虑同数据中心、跨数据中心、跨云边端多级、池化和非池化异构算力并存等各种场景下,算力协同的需求及可行性。研究分析异构算力资源分类整合、池化重构和智能分配等技术方案。研究分布式异构算力资源管理技术方案,包括管理跨数据中心、边缘及端侧的GPU、FPGA等异构算力设备,已虚拟化或池化的异构硬件,研究对异构算力资源进行标识和监控的方案,对算力进行细力度切分供给的技术方案,研究对计算任务进行异构算力匹配和调度的技术方案。包括如何匹配差异
4、化的计算任务到相应的异构算力节点,如何支持异构算力资源高效和细粒度分配,基于应用场景的负载差异性,建立面向多样化异构算力资源和上层多场景需求的多元异构算力统一调度架构,统一资源实时感知,抽象资源响应和应用调度。研究分布式AI框架支持分布式异构算力的管理和调度技术方案。二、异构算力的发展和应用场景需求(一)异构算力的发展情况异构算力通常是指CPU、GPU、FPGA、ASIC等多种不同的算力处理体系,能够满足不同场景中的应用需求,实现计算效力最大化。异构算力通常以Al芯片的形态被集成在计算机中,Al芯片是AI算力的核心基础设施之一。近年来,面向特定领域体系结构的定制化芯片也不断涌现,已成为AI算力
5、发展的主流趋势。目前异构算力主要有以下类型:GPU:英伟达GPU的发展可以追溯到1999年,当时英伟达发布了第一代GPU架构GeFOrCe256,标志着GPU时代的开始。随后,英伟达的GPU架构不断升级,从TNT、Rage到GefOrCe256,再到TeSIa、FermiKeplerMaXWen等。随着GPU技术的不断发展,英伟达的GPU架构也不断升级,以适应日益增长的计算需求,GPU架构也不断推动着图形渲染、人工智能和高性能计算等领域的发展。近年来,英伟达还发布了多款强大的GPU芯片,如TUring、AmPere等,这些芯片都具有高性能的计算能力,为各种应用提供了强大的计算支持。2022年3
6、月,英伟达推出了HGXHIo0,拥有最高可达18432个FP32(单精度)和9216个FP64(双精度)的CUDA核心,辅以576个第四代TenSor核心。2023年11月,英伟达再次升级其GPU产品线,发布了HGXH200。这款新的AI计算平台在原有HlOO的基础上进行了全面升级,主要升级包括提供141GB的下一代HBM3e内存,这使得H200成为了英伟达目前最强的人工智能芯片。APU:APU(AcceleratedProcessingUnit)中文名字叫加速处理器,AMD将中央处理器和独显核心做在一个晶片上,它同时具有高性能处理器和最新独立显卡的处理性能,支持DXIl游戏和最新应用的“加速
7、运算”,大幅提升了电脑运行效率。从2010年以来,AMD相继推出GCN架构、RDNA架构、RDNA2架构、RDNA3架构、CDNA架构和CDNA2架构。最新一代面向高性能计算和人工智能CDNA2架构于架构采用增强型MatrixCore技术,支持更广泛的数据类型和应用,针对高性能计算工作负载带来全速率双精度和全新FP64矩阵运算。基于CDNA2架构的AMDInstinctMI250XGPUFP64双精度运算算力最高可达95.7TFLOPso TPU:TPU是由Google推出的人工智能芯片TenSOrProcessingUnito之后又陆续推出了TPUv4等若干代TPU和TPUEdge。TPU是
8、计算神经网络专用芯片,是google为了为优化自身的TensorFlow机器学习框架而打造。 FPGA:FPGA作为一种灵活可编程的硬件平台,具备较高的计算性能和可定制性,能够提供对Al算法的加速和优化;在Al应用中,可以用于实现神经网络加速器、高性能计算单元等,为计算密集型的AI任务提供高性能和低延迟的计算能力。例如,英特尔Stratix10NXFPGA就是专门为AI设计的,具有Al张量块,包含密集的低精度乘法器阵列,针对矩阵和向量乘法进行了调整,可执行INT4、INT8、BIoCkFP12或BIoCkFP16操作。此外,这些张量块可以级联在一起,支持大型矩阵。 ASIC:与更通用的芯片(如
9、CPU和GPU)相比,ASIC芯片的定制化提供了更高的效率。ASIC的兴起引起了NVIDIA、AMD和英特尔等科技巨头的关注。行业可能会采用混合技术来推动创新和进步。例如,NVIDIA一直在开发自己的Al专用芯片,称为TenSOreOres。随着亚马逊、微软和百度等科技巨头探索定制ASIC,这项新技术显然将在Al处理中发挥重要作用。ASIC领域还持续在可扩展性、可负担性和实施方面开展攻关。DPU:DPU服务于云计算,主要作用是提升数据中心等算力基础设施的效率,减少能耗浪费,进而降低成本。随着数据中心建设、网络带宽和数据量急剧增长,由于CPU性能增长速度放缓,为了寻求效率更高的计算芯片,DPU由
10、此产生。例如,英伟达将MeIkmOX的ConneCtX系列高速网卡技术与自己的已有技术相结合,于2020年正式推出了两款DPU产品BkIeFiekI-2DPU和BlueField-2XDPU。(二)异构算力的主要应用场景异构计算利用不同类型处理器的独特优势,例如GPU的并行计算能力和FPGA的定制化硬件设计能力,从而提高计算性能和功率效率。它在许多领域都有广泛的应用,如人工智能领域的深度神经网络训练,科学计算领域的模拟和数据处理,物理仿真和计算机视觉等。此外,异构计算还可应用于移动设备和嵌入式系统等领域,在这些领域中,功率和性能都是非常重要的因素。异构计算可以让这些设备更加智能化,同时提高它们
11、的性能和功率效率。总结来看,异构算力的主要应用场景包括:机器学习和深度学习:异构计算可以利用Al算力的并行处理能力,加速机器学习和深度学习的训练和推理过程。例如,使用GPU进行大规模的矩阵运算,可以大幅提高训练速度和模型准确率。高性能计算(HPC)等科学计算场景:在科学研究、工程仿真等领域,需要处理的数据量巨大,传统的CPU计算已经无法满足需求。异构计算可以利用CPU和GPU联合的方式,实现更高的计算性能和效率。图形处理渲染和游戏开发:异构计算可以利用Al算力的并行处理能力,实现图像的实时渲染和处理。例如,在游戏开发中,利用GPU卡加速可以实现更加真实的光影效果和更高的帧率。物联网(IoT):
12、物联网设备数量庞大,需要进行大量的数据处理和管理。通过异构计算,可以实现物联网设备的智能化管理和数据处理,提高物联网应用的效率和可靠性。异构计算可以利用CPU+GPU或者CPU+FPGA+GPU等异构算力联合的方式,实现更高的计算性能和效率。区块链:区块链技术需要保证交易的安全性和可靠性,同时需要处理大量的交易数据。异构计算可以利用FPGA进行加密计算,提高区块链的运算速度和安全性。除了上述典型的应用场景外,不同行业对异构智能算力的整体需求也呈现差异化分布的特点。来源:中国信息通信研究院、IDC据信通院与IDC的最新统计,由于互联网行业对数据处理和模型训练的需求不断提升,是智能算力需求最大的行
13、业,占智能算力53%的份额;服务行业由于快速从传统模式向新兴模式发展,算力份额占比位列第二;政府、电信、制造、金融、教育等行业分列第三到八位。三、分布式异构算力管理和调度的关键技术能力异构算力多元泛在,对算力的管理平台提出了新的挑战。异构算力管理平台实现多种异构算力的管理和调度,并为智算应用提供应用层的推理和训练技术栈的支持,主要实现以下主要核心能力: 动态资源管理:管理CPU、GPU、FPGA等异构算力的注册和接入,算力拓扑信息,算力实时状态信息,实现对算力资源的虚拟化和池化的资源重构,提供细粒度的资管管理和隔离; 资源调度编排:实现异构算力节点的灵活调度,实现任务与节点资源的灵活编排,多以
14、容器技术基于KUberneteS定制化研发实现对任务和资源的灵活编排调度,为上层功能模块提供资源能力;异构算力适配:提供适配异构算力的从底层驱动到应用层框架整体技术栈的适配支持,以保证应用在不同算力节点上能弹性迁移调度,例如支持不同异构硬件的算子库、编译器、开发工具等;支撑智算的平台能力:基于底层异构算力提供智算应用的数据处理、Al训练推理框架、模型服务等功能支持。分布式异构算力的管理和调度是分布式异构算力平台的核心功能,其包括的关键技术主要包括:(一)异构算力的虚拟化和池化异构算力虚拟化和池化是指在计算环境中利用不同类型的计算资源(例如CPU、GPU、FPGA等)进行虚拟化和资源的池化管理。
15、对于异构资源的虚拟化、池化等资源重构技术方案,将整合硬件资源,形成同类资源池,提高计算资源的利用率和灵活性,从而更好地满足不同应用的需求。异构算力虚拟化指的是将不同类型的计算资源进行虚拟化,使其能够被多个应用程序或用户共享和管理。这种虚拟化技术可以提高计算资源的利用率和灵活性,比如将GPU资源虚拟化供应用程序使用,以满足不同应用对算力的需求。而池化则指的是将异构计算资源汇聚到一个统一的资源池中,通过统一的管理和调度,按需分配给不同的应用程序或用户。这种池化的方式能够提高整体的资源利用率,降低资源浪费,同时也能够更灵活地满足不同应用对算力的需求。目前典型的GPU虚拟化的技术实现方案包括MIG和v
16、GPUoMIG(Multi-InstanceGPU)作为AmPere以及之后的HoPPer架构推出的新特性,解决了像AmPere、HoPPer这种大GPU在集群服务应用时一类需求GPU切分与虚拟化。MIG分割的每个GPU实例都有完整的独立的内存系统L2缓存、内存控制器、DRAM地址总线等,这样的切分方式也同时以利于容错和吞吐率以及延迟的预测。MIG的基本方法就是能完成资源的分块+组合,即对物理卡上能用的物理资源进行切分,包括系统通道、控制总线、算力单元(TPC)全局显存、L2缓存、数据总线等;然后将分块后的资源重新组合,让每个切分后的子GPU能够做到数据保护、故障隔离独立、服务稳定。MlG可以
17、动态创建和销毁,但是对于没有被分配的GPU是无法被使用的。MlG的资源创建存在两次划分过程,先划分Gl资源,再划分Cl资源,这样通过排列组合,增加了配置的多样性。但是这些组合并不是随意的,必须遵循一定的规则,按照MIG设定的(ProfIIe)进行配置。基于vGPU的虚拟化方案最初由Nvdia推出,vGPU技术允许用户按照规范对GPU的计算资源进行切分,就是将一块GPU卡的计算能力进行切片,分成多个逻辑上虚拟的GPU,以vGPU为单位分配GPU的计算能力,并将单块GPU卡分配给多台虚拟机使用,其本质上是通过硬件支持和驱动软件配置的方案,将部分GPU暴露给用户。同时为了丰富GPU虚拟化的能力,vG
18、PU也可以支持多种不同的调度机制,使不同的容器可以安全的共享一张物理GPU,提高GPU的利用,例如支持Round-Robin调度算法,EqualShareScheduling算法,FixedShareScheduling机制等。智能算力池化的目标是利用软件定义技术,对通过高速无损网络互连互通的CPU、GPU、Al芯片等算力资源进行池化整合,实现资源的集中调度、按需分配,使能资源可被充分利用,降低碎片概率,提高总体有效算力。池化技术下,资源分配方式发生了根本性的变革,软件介入了资源的算力供给,为开启更敏捷的资源管理模式,比如动态伸缩、资源超分等奠定了技术基础,为持续优化智算资源利用率创造了无限可
19、能。池化技术主要通过以下两种实现了软件定义的资源分配:一是APl劫持技术:APl劫持技术是目前比较普遍的、针对智能算力的池化技术,它通过劫持对RUntimeAPl(如CUDAAPD调用实现资源调度。当Al应用访问池化运行时的APl时,则被池化运行时转递至池化服务代理执行,池化服务代理则具备敏捷化的资源管理功能,比如按现算力、IMB缓存的精度细粒度分配资源,实现跨节点远程调用资源等。API劫持技术的关键在于池化运行时仿真GPU/AI芯片的原生运行时,由于GPU/AI芯片种类、型号繁多,其原生运行时又相对活跃、升级频繁,仿真工作较为复杂,开发量、维护难度较大。二是应用程序监视器技术:这是一种完全与
20、GPU/AI芯片无关的设备虚拟化和远程处理方法,允许在没有显式软件支持的情况下启用新的硬件体系结构。该项技术通过应用程序监视器工作,该监视器与Hypervisor管理虚拟机的方式类似,分为前端、后端,前端监视指定应用程序的活动,拦截至后端处理,后端可以按应用程序申请的数量分配资源,或将应用程序拆分到多台机器上运行,在保持代码、数据和执行环境一致性的前提下使用这些机器上的智算资源,从而实现资源的细粒度管理、远程调用等资源敏捷化管理功能。(二)分布式异构算力的调度能力分布式异构算力的调度将实现底层算力资源与上层应用的匹配,通过节点的动态调度,异构算力节点间的协同,实现分布式异构算力资源使能上层智算
21、应用。对于跨异构计算节点支撑统一智算应用的调度,依然面临很多技术上的挑战。对于非同质节点的调度,还存在技术上的壁垒问题。由于不同GPU等异构硬件在支撑智算应用时,依赖不同的技术栈,包括底层的CUDA、编译器、前端Al框架等,例如运行在英伟达的GPU上的应用并不能调度到国产化的GPU上无缝运行,也更无法将一个运行在GPU上的程序不经过适配改动直接运行在FPGA上,技术栈的竖井问题导致一个智算应用目前仍然很难在不同的异构算力节点上无缝迁移,或者同步运行,往往需要对应用本身进行适配和改造才能具备在不同异构算力节点上进行任务调度的前提。产业界也在一致开展跨架构迁移的探索,中国移动提出的算力原生相关技术
22、,能够支撑模型推理在跨异构节点的统一编译,实现不同异构节点的技术栈的拉通,为应用在跨异构节点之间的调度提供了一定的技术基础。异构算力资源的调度不仅需要考虑异构算力本身的特性,还需要考虑算力资源实时的状态、与算力任务的匹配等。由于当前智算算力集群和资源管理绝大多数以容器和K8s的管理体系为主,在异构算力的背景下,K8s通过对设备插件的拓展支持实现对不同异构算力的识别和管理,算力设备厂商按照devicePlUgin的接口规范实现自己的deviceplugin,以daemonset形式部署到节点,通过和kubelet交互,从而实现设备资源的发现、健康检测、分配等操作。当K8s集群具备对异构算力的管理
23、能力时,则可以基于K8s的系统调度能力,对异构算力按照一定的机制进行管理。例如在KUbefloW平台中,GPU资源的管理和调度是通过GPU插件实现的,当用户提交一个GPU任务时,Kubernetes的GPU插件会首先检测系统中可用的GPU资源,并根据用户的要求为该任务分配一定数量的GPU资源。GPU插件会根据任务的需求和系统中GPU资源的可用情况,选择合适的GPU设备挂载给对应的Pod。在集群初始化阶段,K8s将通过设备管理将特定类型的硬件资源注册到Kubernetes集群中,并提供API接口实现对资源的管理。当KUbernetes调度器需要为任务分配GPIJ资源时,会通过DeViCePIUg
24、in接口来获取可用的GPU资源,并根据任务的需求选择最适合的GPU设备为任务分配,如图所示:Kubeflow的API可以查询GPU资源的可用性和使用情况。用户也可以使用JupyterNOtebOok来创建、编辑和运行深度学习任务,在创建用于训练的JyPyterNOtebOok时,系统会将整数块的GPU分配给对应的Pod,如果要实现任务的细粒度管理,可以使用GPU-Share的方式实现多个Pod之间的GPU共享。目前分布式异构算力管理平台所支持的主流调度机制包括:- 基于GangSChedUling的批量调度策略:支持在并发系统中将多个相关联的进程调度到不同异构算力上同时运行的策略;- 网络拓扑
25、调度:对集群网络进行标识和描述,根据异构算力所在的网络状态,以支撑策略对不同的集群网络进行调度和决策;- 基于实时资源状态调度:根据异构节点实时资源状态,包括CPU、GPU等实时可用资源情况进行调度;- 基于任务优先级等状态调度:结合应用任务的状态和需求,以及与底层异构算力的状态和属性进行匹配调度;指定异构算力节点或集群调度:明确资源需求的定向调度,根据异构算力的标识,进行定向的调度决策;-基于负载均衡策略进行节点间调度:在异构算力节点间通过应用轮询法、随机法、源地址哈希法、加权轮询法等负载均衡的算法,有效地提高计算资源的利用率,减少系统等待时间和响应时间,提高系统的整体性能和效率。在具体的应
26、用场景中,根据应用的特定需求和优化目标以及当前算力基本情况,选择一种或多种不同的调度机制。另一方面,产业界当前的另一研究热点方向是节点内混合异构计算系统内异构算力的协同。目前GPU为应用最广泛的Al芯片,除此之外FPGA、NPU、ASlC等形态的算力也被广泛应用于不同的使用场景。在混合异构系统的调度中,由于CPU负责对计算机的硬件资源进行控制调配,也要负责操作系统的运行,计算系统中仍是不可或缺的,GPU、FPGA等芯片都是作为CPU的加速器而存在。主流的混合异构系统包括面向CPU+GPU架构的混合异构系统,程序的串行部分在CPU上运行,而并行部分则在GPU上运行,是该种混合架构调度技术的核心思
27、想。CPU和GPU的结合刚好可以解决深度学习模型训练在CPU上耗时长的问题,提升深度学习模型的训练效率,同时共享内存空间,消除冗余内存副本来改善问题,处理器不再需要将数据复制到自己的专用内存池来访问/更改该数据;面向CPU+GPU+DPU架构的混合异构系统,DPU参与的混合架构的调度,其核心是将任务从CPU“卸载”,释放了宝贵的CPU资源,使得更多CPU核心可用于处理应用程序,从而大大提高数据中心的效率,减少了能源浪费,降低成本,除此之外,还有面向CPU+TPU架构的混合异构系统等。当前混合异构系统所涉及的异构算力资源间的调度多是在节点内或者是片间完成的,对于在跨节点间甚至广域分布式的范围实现
28、这样的调度还有很多技术难点需要攻克。(三)分布式异构算力的度量和标识不同应用对算力的需求不同,异构算力支撑同一应用也具有较大的性能表现差异性,因此对分布式异构算力的度量和标识,也将进一步提高算力的细粒度管理能力,提升整体算力使用效率。在算力的度量方面,业界目前已经开始了对异构算力度量的研究和标准化工作。在CCSATC1中立项了算力网络异构算力资源度量指标、算力网络算力节点能力度量及评估方法的标准,从设备静态参数、动态度量指标和综合性能指标对算力指标进行不同维度的评估。设备静态参数反映了从设备硬件自身设计和生产的标称能力,动态度量指标反映了异构算力在动态情况下瞬时的处理能力,而综合性能指标则是从
29、浮点运算能力等角度出发对算力进行综合评估。也有相关研究从逻辑运算能力、并行运算能力和神经网络计算能力的评估三方面对异构算力进行评估和度量。其中,逻辑运算能力是一种通用的基础运算能力,以CPU为代表。由于CPU芯片需要大量的空间去放置存储单元和控制单元,相比之下计算单元只占据了很小的一部分,所以它在大规模并行计算能力上极受限制,而更擅长于逻辑控制。度量单位一般的可以用TOPS来衡量其运算能力;并行计算能力是指专门为了处理如图形图像等数据类型统一的一种高效计算能力,典型的硬件芯片代表如GPU,从架构来看,GPU有数量众多的计算单元和超长的流水线,常用浮点运算能力来衡量;神经网络计算能力主要针对近年
30、来AI神经网络、机器学习类密集计算型业务进行加速的能力,例如TPU、NPU等。在算力的标识方面,异构算力标识为算力调度、算力溯源、算力交易的基础,产业界也已经开始对算力标识的整体架构开展相关研究,对异构算力形成统一的能力抽象,并提供相应的接口服务,供算力调度或者算力交易等模块或平台调用。四、当前业界技术实现情况异构AI算力的管理和调度平台,能够兼容适配多种形态智能AI硬件,实现硬件与计算要求有效对接、异构算力在节点间灵活调度、同时协同提供智算相关处理流程,将各类异构算力协同处理来发挥最大的计算效力,为多样化Al应用场景提供高性能、高可靠的算力支撑。当前产业界的各种智算平台已经对异构算力的管理和
31、调度开展了不同技术方向的探索。(一)中国移动智算体系实现异构资源池化中国移动智算中心基于移动云底座的IaaS能力,管理算力基础设施层的各类硬件资源,向上提供智算类业务所需任务式服务,构建一体化的Al新型智算体系。J智能 系统 算力8 基础! 设施MPaaS服务AI 视频I自动驾驶I智慧医疗I元宇宙I多媒体渣染I大模型训练CA*Hyprviwr 咨买丽异构池化劝分析EU智算运维在整体方案上,智算中心划分为大模型训练池、小模型训练池及推理池。中国移动将在小模型训练池中,采用自研的容器基础设施EKI叠加相关池化模块,通过基于APl劫持的池化技术,实现CPU、GPU/AI芯片、块存储/文件存储资源等基
32、于高速无损网络的统一管理与调度,实现对智能算力的几大关键能力。包括算力的精细化分配,根据Al任务的资源需求进行按需供给,契合多样化业务的差异需求,基于高速无损网络,跨节点调取GPU、Al芯片等智能算力资源,使能CPU传统算力及GPU、Al芯片智能算力高度解耦,进一步降低碎片化比例,同时支持资源根据负载变化的动态分配、回收,支持全局资源可以适度超分,促进资源效率提升。该技术方案持实现资源跨节点远程调用、零散资源整合等,从而达到算力资源充分利用、碎片最小化效果,可有效提升资源效率,降低智算中心整体建设成本。(二)浪潮AIStation平台实现异构资源管理调度浪潮人工智能平台提供统一的主流深度学习框
33、架(Tensorflow、PytorchCaffeMxnetPaddlePaddle)开发训练平台以及计算资源(CPU、GPU、内存、存储)管理的平台,简称AIStation。通过AIStation,可以实现物理计算资源(CPU、GPU、内存、存储)的统一管理与监控,实现基础资源服务管理,快速开展人工智能相关业务的开发和部署。关于异构算力的接入和管理,AIStatiOn人工智能开发平台实现对基础设施的统一管控、形成资源池,由KUbemeteS系统统一调度。AIStatiOn人工智能开发平台可为用户分配使用配额。AlStation提供了插件化设计,能够实现包括GPU、寒武纪、异腾Ascend天垓
34、等异构加速卡的配置化接入。平台默认接入GPU资源,接入其他加速卡资源时,平台Ul会自动适配展示。AlStation接入加速卡后,能够通过平台发起训练任务、开发环境、模型测试等计算任务,并能够对加速卡进行监控报警、也对加速卡的使用情况自动进行适配统计展示。关于异构算力的调度,AIStatiOn人工智能开发平台调度系统提供资源分配能力,在提高集群资源利用率的同时,尽可能的提高任务的性能,目前支持的可调度资源包括CPU、内存、GPU、IB卡。架构图如下所示:目前AIStatiOn调度器支持的主要策略包括:Gangscheduling:提交Job后,只有当满足Job中全部TaSk的需求时,才会调度成功
35、,否则全部TaSk会处于Pending状态,等到资源充足时,全部TaSk才会完成调度。网络拓扑调度:支持集群管理两种网络类型:IB网络和以太网网络,同时支持按照接入交换机进行调度,尽量将任务调度在一个交换机内,避免跨交换机的通信损耗。 GPU共享调度:提供GPU细粒度调度,允许多个任务指定GPU显存,调度到同一张GPU卡,从而实现GPU卡的复用,提高GPU卡的使用率。提交任务时指定需要几个GPU卡,每个GPU卡需要占用多少显存量。 指定主机调度:创建任务时,允许指定一组主机,任务只能允许被调度到这组主机内。 紧急任务调度:内置紧急任务队列,用户提交的训练任务带有紧急任务队列属性时,会将该紧急任
36、务放到该紧急队列,在紧急任务队列的任务有最高的调度优先级,调度器在处理完全部的紧急任务后,才会处理其他任务。 用户组公平调度:提供基于用户组公平的调度机制,业务层创建不同的用户组,调度器会为每个用户组创建对应的调度队列,相同用户组的用户提交的训练任务会进入同一队列,调度器循环选择每一个用户组的任务进行调度。 GPU细粒度调度:GPU卡整块显存按预置显存粒度大小分割为多个粒度切片,即对GPU卡显存进行切片隔离。提交任务时指定需要切片的显存粒度大小(如:4G或8G等),和显存粒度分片数量。作业就会调度到合适显存粒度切片的GPU卡上。 GPU负载调度:调度器采集并统计集群节点的GPU卡负载数据,数据
37、包括GPU利用率和GPU显存利用率。调度器根据节点GPU卡负载信息执行作业调度,为作业计算性能考虑,优先选择GPU负载较低的节点和GPU卡。数据集亲和性调度:调度器处理更新集群节点已缓存的数据集信息,根据节点缓存数据集和作业所需数据集信息执行作业调度,优先选择作业所需数据集匹配命中缓存数据集的节点。超时任务优先调度:若一个任务因资源不足而继续等待调度,就开始对同一资源组中“比它优先级低并调度成功的任务”计数。如果计数达到阈值后该等待任务仍然未得到足够资源,则在同一资源组中,优先调度这个等待任务。该特性保证在资源紧张的情况下请求资源较多的任务也能及时调度成功。(三)新华三傲飞平台实现异构资源管理
38、调度H3C傲飞高性能计算管理平台(AdVanCedManagementPlatformforHPCandAI简称AMPHA)基于Kubemetes和Slurm自主开发的AI和HPC资源一体化管理的集群管理平台,支持在不改变Al和HPC用户习惯的前提下,实现Al和HPC资源的灵活调配管理。实现了Al和HPC两个业务模块的统一调度、统一用户用户组管理、统一文件文件夹管理、统一计费、统一监控告警,实现了Al和HPC业务的融合。表示层 引侬模块管理交互也轼POsT请求GETia求棚务层开发环境推理&务版本管理AIiIMInSe志记录中间件层APlBl关KiaK埸存l黑T消息队列SlURM应用部善计费管
39、理调度管理文件服务平台层三三监控告警市场管理用皈i报农系烧资源配毓镜像仓库.Kubemetes操作系统(Ubuntu)+文件系统(GPFSeustefFSNFSOneStor)傲飞平台支持精细化的GPU管理,支持GPUMIG切分,支持vGPU和显存分割。支持多种调度策略,包括FIFO、Gang、抢占、回填、QoS优先级、BestFit、SPread等,充分挖掘集群的算力。傲飞平台基于兼容Kubernetes的基础自研容器服务平台为底座,向下封装对各类异构资源的统一管理,向上提供标准Kubernetes集群环境和API,以运行各核心组件,实现资源运维管理、AI任务调度和弹性伸缩、工作流编排、AI
40、作业生命周期管理、各种AI制品管理、统一运维等服务。再向上针对AI生产流程(MLOPS)中的主要环节,支持AI数据集管理,AI模型开发、训练、评测,以及模型推理服务。而且通过同样的组件和工具,也可以支持云上AI服务、开源AI框架和第三方AI能力的集成。Al模块支持异构计算资源(CPU、GPU、AISC卡)管理、容器管理。支持对于不同形态的算力资源进行约束限制,对用户使用的CPU、GPU、内存、显存以及存储空间支持配额约束,防止个别用户长期过度占用系统资源,平台也实现了对各异构算力节点资源的状态监控、统计分析和告警。五、总结与展望随着以算力和网络为核心的新型基础设施体系的加快构建,算力多样化、泛
41、在化已成为必然的趋势,实现分布式异构算力的管理和高效灵活调度,将进一步释放硬件资源优势,增强算力的整体利用率。在异构算力的管理调度方面,依然有待持续攻关,例如对异构算力的度量和评测,跨异构算力的应用适配等问题,逐步构成异构算力从硬件到软件的开放生态,增强行业应用能力,持续、有效的赋能智算产业的发展。术语与缩略词表英文缩写英文全称中文全称GPUgraphicsprocessingunit图形处理器FPGAFieldProgrammableGateArray现场可编辑门阵列ASICpp1icationSpecificIntegratedCircuit用于供专门应用的集成电路芯片技术CUDAComputeUnifiedDeviceArchitecture由NVlDIA推出的通用并行计算架构AIArtificialIntelligence人工智能MLOpsModelLearningOperations用于创建机器学习和人工智能解决方案并提高其质量的有用方法FIFOFirstInFirstOut先入先出