关键字:RADIOSS, 高性能计算(HPC), “魔方”, Hybrid-MPP
1 引言
计算机软硬件和有限元仿真理论的不断发展使得人们对产品的虚拟开发要求越来越高,系统级多体耦合仿真和多物理场耦合仿真已成为虚拟产品开发的发展方向,用户不再追求单一个体在单一物理场(如结构力学,流体力学)的仿真结果,而是将研究对象的完整系统(如整机、整车)或影响系统性能的所有物理因素一次性纳入计算范畴,重点考察各物理因素综合起来对分析对象或者整个系统的影响。这类问题的求解往往需要在硬件上有更强的计算能力和更多内存,而现有单台计算机的处理能力和内存都不可能无限制的增加,硬件环境已经成为制约高水平科研与产品创新的瓶颈。随着集群技术和并行计算理论的发展,高性能计算(HPC)在越来越多的领域中得到应用,很多科研单位,公司和机构都拥有自己的HPC系统。由于HPC系统能调用网络环境中的多个处理器资源进行并行计算,从而能更快的获得计算结果,显著缩短计算时间,许多商业软件都致力于基于HPC网络环境下的并行化开发,并取得良好的应用效果,为大规模复杂问题的求解提供了契机。
RADIOSS是Altair公司HyperWorks平台中一个重要的隐式和显式有限元求解模块,其丰富的求解算法和数值处理技术能最大限度的提高产品设计的耐久性,碰撞安全性和可制造性,改善产品NVH性能,也可以用来求解流固耦合等多物理场问题。RADIOSS可以使用HyperMesh或HyperCrash作为前处理器,HyperView作为后处理器,对于大规模问题的仿真,用户可以一个操作界面友好,统一集成的环境中完成从建模到仿真结果分析的整个过程。本文结合RADIOSS在上海超算中心的应用实际和硬件资源,分析了整车碰撞安全性分析在不同处理器数目下的计算效率以及RADIOSS并行求解方式对计算效率的影响,为该类问题的大规模计算以及更好地发挥RADIOSS的并行计算优势提供参考。
2 RADIOSS并行计算
计算机硬件架构的升级以及并行化理论的发展,促使大规模求解程序朝着并行化的方向发展,并行化程序必须充分利用现有硬件资源来提高自身并行计算性能,并行处理能力将进一步提高程序内在价值,也有助于大规模问题的求解。RADIOSS融合最新的数值计算方法和并行算法,在提高求解效率方面有取得了富有成效的进展,例如求解器中集成的高级质量缩放,多域求解,Hybrid-MPP等技术,在实际中都取得了较为理想的应用效果,特别是RADIOSS的非线性显式并行求解技术,通过将单个任务划分成多个子任务,并把这些子任务分配到不同的处理器上进行并行求解,从而能更快的获得计算结果,缩短产品研发周期,为大规模碰撞安全性优化以及可靠性分析,复杂多物理场耦合计算,精细化多体耦合等问题的求解提供了可能。
RADIOSS强大的并行计算功能支持 Shared Memory Parallelism(SMP)和Single Program Multiple Data(SPMD)两种并行模式。Shared Memory Parallelism是共享内存式并行, 指多核共享内存并行计算;Single Program Multiple Data是分布式内存并行计算,每个参与计算的核心有独立的内存,指多机多CPU的并行计算。随着多核处理器的出现和集群技术的发展, RADIOSS的最新版本中加入了Hybrid-MPP并行模式,其并行模式的架构如图1所示,每个计算节点由多个CPU组成(Socket1,Socket2),而每个CPU又有多个核(C1,C2),节点内部共享内存(M1,M2),节点间通过快速交换设备进行互联。该模式融合了OpenMP和MPI的技术特点, OpenMP适用于计算节点内部共享内存并行,MPI适用于节点和节点之间分布式内存的并行,这两种并行方式的结合有助于在大规模并行计算中发挥集群硬件架构的整体性能,为多处理器集群提供了一种有效的并行策略。
图1 Hybrid-MPP并行模式
“魔方”系统目前是上海超级计算中心运营的主力资源之一,该机在2009年全球高性能计算机TOP500排行榜中排名第十,这也是当年除美国外世界上最快的高性能计算机系统,图2为 “魔方”超级计算机实景图。全机拥有1450个刀片节点和82个胖节点组成的计算节点以及40个功能节点,高效的Infiniband网络互连实现全线速集群内部无阻塞的网络交换。工程计算区主要由胖节点(AMD opteron 8347HE,单节点8CPU4核处理器,1.9GHz, 128G内存)组成,本次对RADIOSS的测试计算主要在胖节点上完成。
图2 “魔方”系统实景图
4 典型应用
本文测试模型为整车正面刚性壁碰撞,定义初始撞击速度为13.75m/s,计算正面碰撞30ms,每2ms间隔输出一个ANIM文件。整个模型共有单元数135万,节点数128万。为对并行程序计算效果进行比较和评价,除了对比计算模型总耗时外,还可以采用加速比Sp和并行效率Ep这两个指标来衡量程序的并行性能。Sp用来度量并行处理效果,而Ep用来度量并行计算中整个系统的资源利用率,即: 式中,T1elap表示使用单个处理器所耗费的时间,Tpelap表示使用p个处理器所耗费的时间。当Sp=p时,表明并行程序有完全的线性加速比,此时Ep=1。一般情况下,由于受程序算法并行度,负载平衡度或网络通信等影响,理想的加速比是达不到的。
图3 魔方上不同核数RADIOSS计算时间和加速比
图4 RADIOSS Hybrid-MPP并行计算对比
图5 “蜂鸟”集群上不同核数RADIOSS计算时间和加速倍率
5 结论
(1)随着参与计算的核数增加,RADIOSS求解时间有较大幅度的降低,但并行效率随着核数的增加有下降的趋势。尽管如此, RADIOSS显式计算仍然显示了良好的加速性能和并行效率,对于求解大规模复杂问题,缩短产品研发周期具有现实意义。在实际应用中,还应针对所研究问题的具体规模和硬件环境选择合适的并行方式,以便更好地发挥并行计算的优势,提高计算资源的利用率。
(2)当参与计算的核心数不多的情况下,RADIOSS Hybrid-MPP实际并行效率比单纯的MPP并行并没有太大的优势,但是Hybrid-MPP并行增加了并行求解的扩展能力,在发挥硬件的整体性能的同时,灵活的并行方式给用户更多选择。当进程数较多,求解规模更复杂等情况下,进程间通信将对计算产生额外开销,而此时基于OpenMP的并行并不受此影响,在这种情况下,Hybrid-MPP并行或许将更有优势。
(3)针对整车碰撞典型应用, RADIOSS并行计算在“蜂鸟”集群上的计算速度比“魔方”超级计算机系统快了3倍多,硬件环境的升级将大幅提高RADIOSS的并行处理能力。通过在“蜂鸟”机群和“魔方”系统上各类应用软件的加速情况对比分析,“蜂鸟”机群总体加速性能比“魔方”系统有较大幅度的提升。随着上海超算中心“蜂鸟”机群的运营,使得上海超算中心在CAE/CFD计算仿真领域计算性能有了大幅度飞跃,这也将大大增强上海超算中心对外服务的能力,上海超算中心热忱欢迎业界各位同仁前来上机试用。
6参考文献
[1] RADIOSS 11.0 Reference Guide, Altair Engineering INC.,2011.
[2] RADIOSS 11.0 User Guide, Altair Engineering INC.,2011.
[3] Eric Lequiniou, RADIOSS Parallel Performance Enhancements in Hybrid-MPP, Forum TERATET 2011.
[4] Francis Arnaudeau, Fast Realistic Crash Simulation Radioss V11,4th EHTC,Versailles ,2010.
[5] 曾神昌,欧贺国,洪清泉.RADIOSS 显式并行计算性能最新进展,第六届中国CAE工程分析技术年会,2010.
[6] 何平,王钰栋.利用超级计算集群的RADIOSS碰撞分析,第六届中国CAE工程分析技术年会,2010.
[7] 上海超级计算中心应用技术部.魔方超级计算机应用环境,2010.