RADIOSS并行计算及其在上海超算中心的应用

   2015-11-23 8460
核心提示:摘要:计算机硬件架构的升级以及并行化理论的成熟,促使大规模求解程序朝着并行化的方向发展。RADIOSS软件是Altair公司HyperWorks平台中一个重要的隐式和显式有限元求解模块,本文结合RADIOSS软件在上海超算中心的应用实际和硬
摘要:计算机硬件架构的升级以及并行化理论的成熟,促使大规模求解程序朝着并行化的方向发展。RADIOSS软件是Altair公司HyperWorks平台中一个重要的隐式和显式有限元求解模块,本文结合RADIOSS软件在上海超算中心的应用实际和硬件资源,探讨了RADIOSS显式并行计算的原理和方法,分析了整车碰撞安全性分析在不同处理器数目下的计算效率以及RADIOSS并行求解方式对计算效率的影响,为该类问题的大规模计算以及更好地发挥RADIOSS的并行计算优势提供参考。
关键字:RADIOSS, 高性能计算(HPC), “魔方”, Hybrid-MPP

1 引言

计算机软硬件和有限元仿真理论的不断发展使得人们对产品的虚拟开发要求越来越高,系统级多体耦合仿真和多物理场耦合仿真已成为虚拟产品开发的发展方向,用户不再追求单一个体在单一物理场(如结构力学,流体力学)的仿真结果,而是将研究对象的完整系统(如整机、整车)或影响系统性能的所有物理因素一次性纳入计算范畴,重点考察各物理因素综合起来对分析对象或者整个系统的影响。这类问题的求解往往需要在硬件上有更强的计算能力和更多内存,而现有单台计算机的处理能力和内存都不可能无限制的增加,硬件环境已经成为制约高水平科研与产品创新的瓶颈。随着集群技术和并行计算理论的发展,高性能计算(HPC)在越来越多的领域中得到应用,很多科研单位,公司和机构都拥有自己的HPC系统。由于HPC系统能调用网络环境中的多个处理器资源进行并行计算,从而能更快的获得计算结果,显著缩短计算时间,许多商业软件都致力于基于HPC网络环境下的并行化开发,并取得良好的应用效果,为大规模复杂问题的求解提供了契机。

RADIOSS是Altair公司HyperWorks平台中一个重要的隐式和显式有限元求解模块,其丰富的求解算法和数值处理技术能最大限度的提高产品设计的耐久性,碰撞安全性和可制造性,改善产品NVH性能,也可以用来求解流固耦合等多物理场问题。RADIOSS可以使用HyperMesh或HyperCrash作为前处理器,HyperView作为后处理器,对于大规模问题的仿真,用户可以一个操作界面友好,统一集成的环境中完成从建模到仿真结果分析的整个过程。本文结合RADIOSS在上海超算中心的应用实际和硬件资源,分析了整车碰撞安全性分析在不同处理器数目下的计算效率以及RADIOSS并行求解方式对计算效率的影响,为该类问题的大规模计算以及更好地发挥RADIOSS的并行计算优势提供参考。

2 RADIOSS并行计算

计算机硬件架构的升级以及并行化理论的发展,促使大规模求解程序朝着并行化的方向发展,并行化程序必须充分利用现有硬件资源来提高自身并行计算性能,并行处理能力将进一步提高程序内在价值,也有助于大规模问题的求解。RADIOSS融合最新的数值计算方法和并行算法,在提高求解效率方面有取得了富有成效的进展,例如求解器中集成的高级质量缩放,多域求解,Hybrid-MPP等技术,在实际中都取得了较为理想的应用效果,特别是RADIOSS的非线性显式并行求解技术,通过将单个任务划分成多个子任务,并把这些子任务分配到不同的处理器上进行并行求解,从而能更快的获得计算结果,缩短产品研发周期,为大规模碰撞安全性优化以及可靠性分析,复杂多物理场耦合计算,精细化多体耦合等问题的求解提供了可能。

RADIOSS强大的并行计算功能支持 Shared Memory Parallelism(SMP)和Single Program Multiple Data(SPMD)两种并行模式。Shared Memory Parallelism是共享内存式并行, 指多核共享内存并行计算;Single Program Multiple Data是分布式内存并行计算,每个参与计算的核心有独立的内存,指多机多CPU的并行计算。随着多核处理器的出现和集群技术的发展, RADIOSS的最新版本中加入了Hybrid-MPP并行模式,其并行模式的架构如图1所示,每个计算节点由多个CPU组成(Socket1,Socket2),而每个CPU又有多个核(C1,C2),节点内部共享内存(M1,M2),节点间通过快速交换设备进行互联。该模式融合了OpenMP和MPI的技术特点, OpenMP适用于计算节点内部共享内存并行,MPI适用于节点和节点之间分布式内存的并行,这两种并行方式的结合有助于在大规模并行计算中发挥集群硬件架构的整体性能,为多处理器集群提供了一种有效的并行策略。

ecmould.com
图1 Hybrid-MPP并行模式

3计算资源环境

“魔方”系统目前是上海超级计算中心运营的主力资源之一,该机在2009年全球高性能计算机TOP500排行榜中排名第十,这也是当年除美国外世界上最快的高性能计算机系统,图2为 “魔方”超级计算机实景图。全机拥有1450个刀片节点和82个胖节点组成的计算节点以及40个功能节点,高效的Infiniband网络互连实现全线速集群内部无阻塞的网络交换。工程计算区主要由胖节点(AMD opteron 8347HE,单节点8CPU4核处理器,1.9GHz, 128G内存)组成,本次对RADIOSS的测试计算主要在胖节点上完成。

ecmould.com
图2 “魔方”系统实景图

同时上海超算中心为了增强向工业企业提供CAE/CFD仿真计算服务的能力,于2012年6月部署了一台运算速度为21万次每秒的IBM集群计算机,通过用户集体投票命名为“蜂鸟”集群。该集群包括65台HS23刀片计算节点(intel E5-2670,单节点2CPU8核处理器,2.6GHz, 64G内存),并分别配置了6台与4台x3650M3机架服务器作为管理节点和存储节点,同时配置了2台dx360M3作为图形服务器,所有节点通过Infiniband网络高速互连。硬件环境的升级将有助于提高并行计算处理能力,本文通过对RADIOSS并行计算测试进一步了解“蜂鸟”机群的加速性能。

4 典型应用

本文测试模型为整车正面刚性壁碰撞,定义初始撞击速度为13.75m/s,计算正面碰撞30ms,每2ms间隔输出一个ANIM文件。整个模型共有单元数135万,节点数128万。为对并行程序计算效果进行比较和评价,除了对比计算模型总耗时外,还可以采用加速比Sp和并行效率Ep这两个指标来衡量程序的并行性能。Sp用来度量并行处理效果,而Ep用来度量并行计算中整个系统的资源利用率,即:

ecmould.com

式中,T1elap表示使用单个处理器所耗费的时间,Tpelap表示使用p个处理器所耗费的时间。当Sp=p时,表明并行程序有完全的线性加速比,此时Ep=1。一般情况下,由于受程序算法并行度,负载平衡度或网络通信等影响,理想的加速比是达不到的。

ecmould.com
图3 魔方上不同核数RADIOSS计算时间和加速比

本文对RADIOSS并行能力评估主要是针对engine求解过程。Engine求解过程中,输出ANM文件的时间间隔基本一致,对输出ANIM文件的时间间隔求平均更能体现并行程序的求解时间。为了排除其他因素影响,这组计算是在同一个计算节点上完成。图3显示了不同核数下输出ANIM文件的平均时间间隔以及计算得到的加速比值,多核计算采用的是SPMD并行模式。从图上可以看出,随着处理器核数的增加,模型求解时间有较大幅度的降低,在2至4核时体现了近似线性的加速比,使用8核以上资源时,加速比提升趋势逐渐放缓,当采用8,16,32核计算时,并行效率依次为97.6%,79.1%,69.6%,随着并行核数的增加,由于额外开销时间的增多,并行效率呈逐级下降趋势。

ecmould.com
图4 RADIOSS Hybrid-MPP并行计算对比

对RADIOSS Hybrid-MPP并行计算来说,在求解engine过程中参与计算的核心数等于MPI进程数(SPMD求解域数)与OpenMP并行thread数的乘积。图4显示了在保证总计算核数为16个情况下,Hybrid-MPP使用不同的MPI进程数和OpenMP thread数对计算速度的影响。从图4中可以看出,对于整车碰撞这一类问题,采用SMP并行模式计算时间最长,随着MPI进程数的增加,计算时间依次递减,也就意味着并行效率依次提高。当16个核全部采用SMP并行方式时,并行效率只有32.3%,而全部采用MPP并行方式时并行效率达到79.1%。相同求解核数下,采用Hybrid-MPP并行并不一定比单纯的MPP并行计算速度更快,但Hybrid-MPP能在相同的进程数下扩展线程数,增加了并行求解的扩展能力和性能,灵活的并行方式满足计算需要和硬件资源的升级,当MPI进程数较多或求解模型更复杂等情况下,进程间通信量的增加将对计算产生额外开销,而采用Hybrid-MPP并行将更具有优势。

ecmould.com
图5 “蜂鸟”集群上不同核数RADIOSS计算时间和加速倍率

为了进一步了解RADIOSS并行处理能力在“蜂鸟”机群的加速性能,在“蜂鸟”机群上计算相同的算例,在不同核心数下的计算时间和对比“魔方”机群加速情况如图5所示。从图中可以看出,随着处理器核数的增加,求解时间有较大幅度的降低,特别是在2至4核时,程序体现了很高的并行计算效率,计算时间成线性降低。当采用8,16,32核计算时,并行效率依次为88.1%,80.1%,73.4%,并行计算效率呈逐级下降趋势。从这几组工况来看,RADISS并行计算在“蜂鸟”机群上计算时间平均比“魔方”快3.15倍。

5 结论

(1)随着参与计算的核数增加,RADIOSS求解时间有较大幅度的降低,但并行效率随着核数的增加有下降的趋势。尽管如此, RADIOSS显式计算仍然显示了良好的加速性能和并行效率,对于求解大规模复杂问题,缩短产品研发周期具有现实意义。在实际应用中,还应针对所研究问题的具体规模和硬件环境选择合适的并行方式,以便更好地发挥并行计算的优势,提高计算资源的利用率。

(2)当参与计算的核心数不多的情况下,RADIOSS Hybrid-MPP实际并行效率比单纯的MPP并行并没有太大的优势,但是Hybrid-MPP并行增加了并行求解的扩展能力,在发挥硬件的整体性能的同时,灵活的并行方式给用户更多选择。当进程数较多,求解规模更复杂等情况下,进程间通信将对计算产生额外开销,而此时基于OpenMP的并行并不受此影响,在这种情况下,Hybrid-MPP并行或许将更有优势。

(3)针对整车碰撞典型应用, RADIOSS并行计算在“蜂鸟”集群上的计算速度比“魔方”超级计算机系统快了3倍多,硬件环境的升级将大幅提高RADIOSS的并行处理能力。通过在“蜂鸟”机群和“魔方”系统上各类应用软件的加速情况对比分析,“蜂鸟”机群总体加速性能比“魔方”系统有较大幅度的提升。随着上海超算中心“蜂鸟”机群的运营,使得上海超算中心在CAE/CFD计算仿真领域计算性能有了大幅度飞跃,这也将大大增强上海超算中心对外服务的能力,上海超算中心热忱欢迎业界各位同仁前来上机试用。

6参考文献
[1] RADIOSS 11.0 Reference Guide, Altair Engineering INC.,2011.
[2] RADIOSS 11.0 User Guide, Altair Engineering INC.,2011.
[3] Eric Lequiniou, RADIOSS Parallel Performance Enhancements in Hybrid-MPP, Forum TERATET 2011.
[4] Francis Arnaudeau, Fast Realistic Crash Simulation Radioss V11,4th EHTC,Versailles ,2010.
[5] 曾神昌,欧贺国,洪清泉.RADIOSS 显式并行计算性能最新进展,第六届中国CAE工程分析技术年会,2010.
[6] 何平,王钰栋.利用超级计算集群的RADIOSS碰撞分析,第六届中国CAE工程分析技术年会,2010.
[7] 上海超级计算中心应用技术部.魔方超级计算机应用环境,2010.
 
举报收藏 0打赏 0评论 0
点击排行