《面向电子设计的新一代高性能计算系统可研报告.docx》由会员分享,可在线阅读,更多相关《面向电子设计的新一代高性能计算系统可研报告.docx(23页珍藏版)》请在课桌文档上搜索。
1、面向电子设计的高性能计算系统可研报告目录1 需求分析21.1 产品研制要求21.2 现状和不足713利用高性能计算系统提升用户数字化设计能力102 建设内容122.1 主要功能及技术指标122.2 软件组成171需求分析1.1产品研制要求在进行研究过程中,涉及到大量的CAD模型设计;CAE网格前后处理;流体、结构、电磁等仿真计算等工作。所涉及到的应用主要有:CAD模型设计应用软件列表如下:软件名可运行平台说明Pro/EWindowsCAD设计UGNXWindOWs,LinuxCAD设计CatiaWindowsCAD设计网格前后处理应用软件列表如下:软件名可运行平台说明FEKO前后处理Windo
2、ws电磁模型网格前后处理HFSS前后处理Windows电磁模型网格前后处理CST前后处理Windows电磁模型网格前后处理TecplotWindows,Linux有限元模型网格前后处理EnsightWindows,Linux有限元模型网格前后处理CFX-Pre/PostWindows,Linux流体模型网格前后处理PantranWindows,Linux有限元模型网格前后处理AnsysWindows,Linux有限元模型网格前后处理HyperworksWindows,Linux有限元模型网格前后处理仿真计算类应用软件列表如F:软件名可运行平台说明FluentWindows,Linux流体力学计
3、算CFXWindows,Linux流体力学计算FastranWindows,Linux流体力学计算AnsysWindows,Linux结构、强度有限元分析NastranWindows,Linux结构、强度有限元分析MarcWindows.Linux结构、强度非线性有限元总结起来,可以将数字化设计的需求分为如下五类:1. CAD设计应用主要是需要机器的三维显示能力,同时目前的CAD应用大多数功能不支持并行,为提高用户的体验,对CPU的计算能力特别是单核的计算能力也有较高要求。综合考虑空间占用,管理维护便利性,及性能,本方案建议使用刀片图形工作站,并配置高端的显卡和单核性能强的CPU。2. 网格前
4、后处理应用主要是需要机器的三维显示能力,同时多数网格前后处理应用不支持并行,或者支持的并行度不高(最多8核),因此为了保证前后处理速度,提高用户的体验,前后处理对CPU的计算能力特别是单核的计算能力也有很高要求。综合考虑空间占用,管理维护便利性,及性能,本方案建议使用刀片图形工作站,并配置高端的显卡和单核性能强的CPU。3. CFD流体类仿真应用程序,大多数能很好地支持MPI并行计算,能够跨机器分配计算节点。由于可以跨机器分配CPU和内存,因此CFD类的仿真应用程序对单机的CPU速度和内存大小要求不高,但对机器间通信速度和延迟要求较高,以保证多节点MPI计算的效率。从性价比出发,本方案采用刀片
5、服务器,并配置InfinibandFDR计算网络,支持计算节点之间56Gb高速、低延迟的互联。4. CAE结构类仿真应用程序,大多只支持单机并行,对多机并行的支持还仅限于对其中一部分算法上。另外,从并行度的支持上,大多数应用对大于16核的并行计算,其加速比己经很低,不能发挥并行计算的效果了。因此,目前典型的刀片服务器配置双路16核或24核CPU,已经可以满足此类应用的要求。同时,由于此类应用大多只能在单机上运行,因此对刀片服务器单机的CPU和内存要求比较高。综合考虑,本方案建议配置内存较大(128GB以上),主频较高的CPU。5. 电磁类仿真,最大特点是对内存要求比较高。特别是Fek0,按照目
6、前设计人员的网格大小(50万)估算,每个核计算需要大概8GB的内存。而就FekO并行效率最好的32核计算(实测表明,超过32核的FekO并行计算,其加速比提高很小,因此不建议使用超过32核进行FekO计算)来说,因此一个典型的32个核的计算任务,需要256GB内存。考虑到因为内存限制,设计人员的网格精度普遍不高,在与设计人员的实际交流中发现,如果内存得到保证,设计人员普遍需要将网格精度提升到100-200万,此时一个典型200万网格32核的并行计算需要大概1TB的内存。但电磁类应用都支持跨节点MPl并行计算,因此可以通过跨节点并行计算的方式,减少对单节点内存大小的需求。例如,一个200万网格3
7、2核的并行计算,如果用两个机器每个机器16核跨节点并行计算,则每个机器只需要512GB内存。综合考虑,本方案建议采用大内存SMP架构的胖节点服务器满足电磁计算的需求。另外,目前很多应用已经支持GPU加速,例如CST通过配置GPU加速可以获得很好的计算加速效果,因此本方案设计过程中,需要考虑GPU加速的可能性。综上所述,我们对以上五类应用对计算资源的要求汇总如下:CPU内存跨节点并行显卡性能IO网络带宽和延迟可扩展性GPU加速建议硬件配置CAD设计高64GB不支持高低-刀片工作站前后处理高128GB不支持高高-部分应用刀片工作站,显卡也可用于GPU加速结构仿真高128GB弱一高低16核部分应用片
8、服务器,可部分配置GPU加速流体仿真中32GB强一中高好部分应用刀片服务器+IB网络电磁仿真高5OO-1TB强-中高(跨节点计算情况下)CAE前后处理过程的数据传递是割裂开的。常见的行为是,设计人员将设计文件进行转化后拷贝到高性能计算系统节点上进行仿真计算,根据计算结果对设计进行修改后再次进行仿真计算。数据传递过程不连续导致了设计效率不高,时间大量耗费在人工干预过程中,设计人员也不甚其烦。据统计,CAE的前后处理占用整个过程的80%以上的时间,因此,如果将高性能计算系统和协同平台结合高效融合,使得数据利用协同平台无缝流转,将极大的提高工作效率,减轻设计人员负担和降低管理成本。4 .没有有效利用
9、专业CAE软件的新功能和新性能不论是专业设计人员还是高性能计算系统的管理人员都对应用软件和计算系统的缺少了解,使得对于应用软件和高性能计算系统的使用还停留在较早期的阶段。应用软件和高性能计算系统的发展,使得多方面提高设计效率变为可行,例如,CAE软件HFSS最新版本将会支持网格剖分过程多核并行,解决传统意义上的只能单核进行网格剖分的模式,有数据证明,一个大型的仿真计算过程,花在网格剖分上的时间是非常多,缩短网格剖分时间将会大大的提升计算效率。从硬件发展的角度来看,以前常见用于图形图像显示处理的GPU现在越来越多的用于软件加速,其提供的计算能力远远高于CPU所能提供的计算能力。目前,各大CAE软
10、件如ANSYS、CST、HFSS等都已经支持GPU加速,其加速达到非常突出的结果,以CST为例,CST某模型在使网格处理和仿真计算一体化高性能计算系统,以图形工作站、刀片服务器和胖节点服务器为中心,为设计人员提供统一、高效、安全、可靠的大型三维网格前后处理平台、高性能仿真计算平台。1.3利用高性能计算系统提升用户数字化设计能力从上面分析来看,用户需要建设一个满足上述五类应用(CAD、前后处理、流体仿真、结构仿真、电磁仿真)要求的高性能计算系统,该系统必须是一个平衡的系统,在CPU速度、内存容量与带宽、存储容量与带宽及网络连接、三维显示能力、GPU加速能力等各个方面都不应该存在性能瓶颈。而传统意
11、义上的高性能计算系统,只解决了计算相关的问题,且与工程师的业务衔接不够紧密。因此,本方案将采用云计算技术建设新一代的高性能计算系统,覆盖用户所有数字化设计任务,该平台主要特点有:1 .将高性能计算系统云端化云计算能力是当前IT架构发展的重点。云端化意味着将企业或单位中的计算资源和存储资源集中部署和集中管理,设计开发人员对于计算资源和存储资源的要求按需申请,按需分配,按需调度,整个计算系统统一管理,使得系统管理人员从日常繁重的管理维护工作中脱离出来,更多的关注IT系统的发展方向。云端化的高性能系统能够满足弹性的扩容要求,当计算能力不能满足当前业务需要的时候能够无缝扩容而不会影响当前的业务开展。高
12、性能计算系统的云端化能够将设计过程中的计算和展示分配在不同的设备资源上。计算部分运行在能够提供较高的计算能力,但是在显示效果和人机界面较为简单的设备或操作系统中,而对于展示部分,则通过内部数据流转,显示在开发设计人员熟悉易用的设备或操作系统中。云资源的按需分配能力,降低了开发设计人员的设计曲线,设计人员不需要根据应用的特点去熟悉了解不同系统的特点,只需要专注于开发设计结果。云端化的高性能计算系统能够大幅度降低软硬件的运维成本。传统的高性能计算系统只能专注于计算资源的分配。而云端化的高性能计算系统将计算资源和设计资源统一管理,统一分配。通常的应用软件安装在开发设计人员的桌面机上,在更新软件版本或
13、增加软件资源时,需要更新每一台桌面机。在桌面机性能不能满足开发设计需要时,只能替换全部的桌面机系统。由此可见,软硬件的运维成本巨大。而云端化的高性能计算系统,将软硬件资源集中在云端的高性能主机中,开发设计人员通过普通的桌面机系统访问云端的软硬件资源,进行软硬件更新时,只需将云端的高性能主机进行升级即可,运维简单有效,节约大量的时间和成本。2 .打造设计仿真一体化的高性能云平台三维设计(CAD、前后处理)与仿真计算是紧密结合,不可分离的两个重要步骤。利用下一代的高性能计算系统,将设计数据和文件与仿真计算所需的输入输出数据和文件进行无缝关联,使得数据流转自动进行,摆脱人工干预的局限性。设计仿真一体
14、化一方面提高了数据流转的效率,另一方面面降低了人工拷贝所带来的安全性隐患。仿真设计一体化平台,将设计和仿真两个过程结合到一个流程中,使得设计开发人员能够参与到开发设计的各个阶段而不用额外的手工介入,降低了开发设计人员的工作复杂度,提高了开发设计人员的专注度和工作效率。3 .构建与CAE软件新技术深度集成的高性能计算平台CAE软件的发展所带来的新技术路线使得高性能计算能力的构建已经不再局限于CPU的数量。计算能力的提高更多的面向多计算资源的普适计算方向发展。目前,先进的电子设计行业的CAE软件,如ANSYS、FLENTHFSS、CST、CFX等,逐步采用了GPU加速,新型算法等新技术改进,成倍的
15、提高了计算能力和计算效率。如果一味的跟随国外高性能计算系统的构建路径,大量的采用高性能计算服务器构建高性能计算平台,将会面临硬件设备投入巨大,但是计算能力提升缓慢的现象。结合CAE软件新技术的发展方向,平衡传统计算服务器和GPU图形服务器的投入,将会优化企业投入产出比,使得企业或单位通过构建规模适中的高性能计算平台却能获得突出的计算能力。2建设内容1 .1主要功能及技术指标2 .硬件设备主要功能和技术指标本次升级扩容的高性能计算集群系统的总体规划如下:采用当前最新的X86刀片服务器建设HPC通用计算节点;采用X86架构胖节点,满足FEKo等软件对单个节点大内存容量的需求;采用图形工作站,满足远
16、程集中图形化设计,对图形设计、建模、网格划分等前处理实现更加方便、安全的集中化处理;由于并行集群计算系统对网络间的数据交换要求极高,因此在此集群系统中新增配置了高带宽低延迟的56GbFDRInfiniBand和IOGb万兆网络用来提高并行计算中的消息传递和集群系统管理。刀片服务器通过Infiniband互联;远程图形工作站,采用高性价比的万兆以太网连接。采用高性能存储系统,支持用户各类数据的集中存储工高性能仿真设计平台一起,本方案建议配置如下:通用计算节点:32台刀片服务器,双路CPUXeonE5二代12核处理器2.7GHz,128GB内存;远程图形工作站:8台图形工作站,配置NVidia新一
17、代K6000图卡,双路CPUXeonE5二代12核处理器2.7GHZ,256GB内存。胖节点:1台8路10核CPUXeonE7二代处理器,共80核,2TB内存,配置两块NVidiaK20GPU加速处理器。存储节点:配置50TB存储容量;现有2个X9300存储节点:增加旧接口,提供Infiniband网络接入;计算网络:FDR56GbpsInfiniband交换机,架构高性能、低时延的计算网络;万兆网络:1台IOGb以太网交换机;监控网络:利用现有千兆交换机,与高性能计算系统中的刀片服务器、胖节点、刀片图形工作站、管理调度服务器以及存储节点的带外管理端口连接,更加快速、高效的监控管理高性能计算系
18、统平台;管理节点:结合现有环境、配置IU机架式服务器提供集群管理,配合作业调度软件,实现作业调度和监控等(配置3台)KVM:用以实现集控制管理机架式服务器,减少用户线缆连接、方便大规模服务器统一监管。系统性能指标:系统峰值计算性能;高性能计算集群系统由32台2路通用计算服务器,1套高性能胖节点服务器,8台刀片工作站组成,力口上GPU卡、显卡,本方案规划的峰值计算性能目标峰值计算性能为20万亿次。存储IO性能计算;本方案使用高性能存储系统,规划的IO性能不低于2GB/秒。3 .管理软件主要功能和技术指标自主可控;保证核心的资源管理和作业调度系统实现自主可控。基于策略的高性能计算调度管理;提供公平
19、共享(FairShare)、抢占(Preemption)独占(Exclusive)等多种调度策略,支持所有用户高性能计算相关的应用。支持基于数据库的调度框架;所有调度相关的信息直接放到数据库中,这样懂数据库管理员就可以编写自己的调度插件。只需要通过写SQL语言就可以定制需要的调度策略。实现高性能计算系统调度管理的灵活性和可扩展性。统一调度管理;支持对各种硬件资源:CPU、内存、GPU三维显示能力、GPU计算能力,存储等进行统一调度管理,支持对物理机、虚拟机进行统一调度管理。通过统一调度功能,本次项目可以试探性地研究实现图形工作站/服务器的多用途使用如:令Sr一机多用;机器既可以用于三维设计,又
20、可以用于仿真计算令呢一卡多用;显卡既可以用于三维显示,又可以用于GPU加速为未来用户的高性能计算架构探索方向,并前瞻性地研究GPU计算的可行性、可靠性。二维、三维图形交互;支持用户通过浏览器远程使用服务器端的图形工作站进行二维和三维的图形交互网格前后处理。这样用户可以在低端桌面机甚至瘦客户机上,通过使用远程服务器上的CPU,内存和图形卡,完成大型三维网格前后处理。前后处理和仿真计算一体化;支持用户通过一个统一的门户访问网格前后处理和仿真计算功能,支持用户在仿真计算完成后直接选择结果数据打开前后处理功能;从而保证用户体验的连贯性和流畅性。统一数据管理;应用软件的输入输出数据统一存放和备份在数据中
21、心的文件服务器上,而不是分散存放在用户的客户端机器上,并根据用户的权限和密级对数据文件进行数据存取安全管理,从而保证数据管理的安全性;另外,用户在LinUX系统下完成仿真计算后,其结果数据可以直接被运行在刀片工作站上的用户WindoWS三维桌面访问和使用,实现单一数据源,避免因为频繁上传下载导致数据版本混乱。统计分析和计费;将系统软、硬件资源的使用情况和用户/部门/项目对资源的使用量通过数据库记录,并定期生成报表供系统管理员和企业领导层参考,通过数据库中存储的资源使用信息以及不同资源的成本,综合进行费用统计,便于按照用户、项目、部门和厂所等不同级别进行成本核算。增强的系统安全;支持安全管理员、
22、系统管理员、审计管理员三种权限的分离;并提供安全审计系统。还支持与用户统一身份认证系统的集成,实现单点登录。网格和云计算的支持;提供多集群互联和共享的能力,并具备作业的跨集群远程投送和返回机制。统一的门户;用户可以通过浏览器,访问高性能计算系统所有的软、硬件资源。在桌面机上没有安装任何应用程序的情况下,完成大型网格处理和仿真计算。2.2软件组成建设内容组成框图:性能 统仿真和多学科、多云计算扩J许可证资源管理和涮度FUai ANMSSMwut Vpj_图形服务器调度和管J?a Aiaaai网格、云计算支持,多集 群共享计算和许可证资源用户门户增强的安全管理和控制,存储和计算资源网度管I?、 e
23、a统计分析和计费安全审计目标优化计算从上图可以看出本方案将遵循如下系统设计原则:提供统一的体系架构和实施方案,将用户新采购高性能集群整合起来进行统一的调度管理,而同时让当前使用的用户也能够平滑过渡。以服务器为中心,将所有的CAE三维网格前后处理、仿真应用集中到服务器端。并通过浏览器,用一个统一的Web门户实现:CAE前后处理应用软件使用和调度管理;流体仿真类应用软件的使用和调度管理;结构仿真类应用软件的使用和调度管理;电磁仿真类应用软件的使用和调度管理;从而保证用户在低端桌面机上不用安装任何应用软件的情况下,运行大型的CAE网格处理、仿真计算任务。高性价比原则,通过胖节点、刀片服务器、图形工作
24、站统一调度管理,实现整个系统利用率的最大化,提高投资回报;通过虚拟化改造,实现一台工作站可以被多个用户远程共享使用,提升方案的性价比。另外,高性价比原则也不能仅理解成硬件系统的性价比,而应该将所需应用软件费用、管理成本一并纳入考虑内容,实现应用软件利用率最大化,降低用户在多个系统间登录、切换和交互造成的时间损失和效率损失等。,安全性原则;提供增强的安全性管理和控制措施,如: “三员管理”方式的系统分级保护 统一身份认证系统集成 安全审计 密级管理 防火墙封装 单点登录 建立基于数据库的统计分析系统,实现系统的运行状态分析。 提供开放式接口,支持与PDM系统和协同平台等集成。 为用户高性能计算平
25、台的管理建设一个良好的、可扩展的体系架构。为更大规模的扩展,以及与未来可能扩展的高性能计算系统、工作站集群的互联和共享提供接口。功能逻辑框图:UGNXPrBI提交作业IAnsys作业提交页面Feko带S的选项不能为空 rn提供帮助信息,提交作业I己。凉体力学El_Fluent!.Fluentfflff_Fluent三flj:?QCFXEFastran三u.结杓府距元r(3ABAQUS-ANSYSOMSCNastranEhyperworks己ffiWFeko-EHFSSFeko作业提交页面用户可以通过一个统一界面中在“仿真计算”和“三维设计”两大功能中自由切换。实现一个Portal整合“仿真计算
26、及优化和“三维设计工如下图所示:/仿真计算和三维设计自由、7 弧作业加8孽行税创费源劳平台基本懦况BMhFUi3A:617*:6392nlrM件他右:144TB利用穿:8篇己仅兜:13.1TB未使用:1.2TBttnww泅行temaie : S12 市镇WaHR:3Q5JSlTO平均CPV利用率:57j47%当对平均内存利用军:202rx正在运行的也制R :127用户在仿真优化计算完成后,可以直接选择数据进行三维设计,如下如所示:应用程序作让管理效据管理CPUSiB囹账窗口修改密灯统计分析系统管理删除副新fluent,Data口O臼团OB文件名大小CieanUD-Huent-rhel62-2-
27、12783600bytesICIeanU。-fluent-rhel62-2-13093600bytesHuent-test.cas1.88MBfluent-test.dat2.18mb阐HllentJt).bct97KBBQiournal4297179bytesB西outout.2362.txt3KBcpumanW蛆计分*wW特*三0设计nuent6.3.26_NG_2d_t2_(luent-test用户可以选住需要的应用程序完成后处理用户可以指定三维京面的操作系琉类里DaU上传 Tft SHtS点用将声:CQ用户可以启动一个全新的三堆桌面运行指定的后处理程再Location:文件名fkjet
28、test.cas flentst.dXfluent.loo.txt,rueL7122OUtpuL3341.txt逸持猊有二PrOyEWlndo*sDeWindow 0 Dery WIndo“Oe ICefnCFDTecpioc Ensight AutoCAD FlsFUGS Hrtermesh揖作系统类R : Windows 启动WindoWS新金面用户也可以重用现有的三堆束面运行指定的后处理程建bt Rurvvng Runmng RUnninqNotshare Notshare NotshareBtW目Dec 12 08:46Dec 12 08:52Dec 12 06:53*W5 WaroC
29、P64b WmXP64 wrxp64a关闭拓扑结构图:(像搭积木一样建设跨集群高性能计算系统)千兆以太同 tFi 并行文件系统其窜网络I NFS共享网络 S1RiS图影I作站集群先外级取攻万先以入河级网:;5:QQ高性能计算系统光奸交犊机 存他网络NIS Cbtnt并行文件系领SAN存W服务21并行文件年线 NFS千兆以太网柔福及期酒拈前营家施工作站集群说明如下:整个高性能计算系统可以通过防火墙进行封装,只在防火墙上开放特定服务端口供用户访问,以提高系统的安全性。使用本方案推荐的架构,可以实现二维、三维图形服务器、高性能计算服务器的无缝整合,用户通过统一的Enginframe门户透明访问。本方
30、案提供二维、三维应用共享图形工作站功能,在LinUX上,通过VNC不同的SeSSiOn实现共享。对于WindOWs,通过虚拟机的方式实现共享,即:在LinUX的物理机上,安装运行多个WindOWS虚拟机实现共享。因为,WindoWS虚拟机实现远程三维可视化效率相比较WindOWS物理机会有所降低,因此本方案依然推荐保留一部分Windows物理机,用于对图形要求极高的应用。整个系统内部使用NlS进行用户认证,一台单独的认证服务器作为NISMaster(也可以使用LDAP或WindOWSAD)o其他管理节点作为NlSSlave,提高可靠性。针对WindoWS和LinUX的跨平台统一身份认证,推荐使
31、用NIS+Samba的模式,实现用户账户映射和口令同步。在WebPortal端,可以实现用户统一身份认证系统的集成,实现单点登录;用户在打开浏览器时,自动检测是否已经获得统一身份认证的证书,如果获得证书,并且该用户是服务平台的合法用户(具有对应的账户),则自动登录到应用服务平台。高性能计算系统对外将向用户提供浏览器访问方式,即用户可以通过浏览器,访问应用服务平台,运行相应的应用程序,操作相关数据。用户需要运行仿真或优化计算任务时,使用浏览器将任务提交到计算服务器上运行;用户需要运行二维、三维设计任务时,通过浏览器在图形服务器上运行相应任务,并将图形界面显示到用户桌面机上,进行相关交互设计,三维
32、模式下,用户需要在本地安装客户端用于远程传回的三维图像解码。整个系统部署分为如下步骤:令安装部署管理服务器;配置现有高性能计算系统和新的高性能计算系统共享互联和整合;配置配置SambaWindows域,用于Windows和Linux系统的用户统一身份认证(或者与用户现有WindOWSAD域集成)。安装部署二维的图形服务器,用于图形化的监控高性能计算任务计算过程和相关输出曲线,如:Fluent,CFX,FaStran等。令安装部署三维图形服务器,根据实际需要安装LinUX,或者在Redhat6.4操作系统上通过KVM安装Windows虚拟机,然后在不同类型物理机和虚拟机的操作系统上安装作业调度软件。