找回密码
 注册
查看: 3247|回复: 0

曙光CAE高性能计算解决方案

[复制链接]
发表于 2008-5-25 10:52:13 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册

x
   摘要:计算机辅助工程(CAE,Computer Aided Engineering)已成为工程和产品结构分析中(如航空、航天、机械、土木结构等领域)必不可少的数值计算工具。本文对CAE软件的应用特点进行了分析,并针对隐式和显式应用对硬件资源的不同需求,提出了相应的解决方案。大量的测试结果和成功案例表明,所提出的方案能充分满足CAE用户对高性能计算服务器的需求。本解决方案对于CAE用户选择高性能计算平台具有较高的参考价值。

关键字:CAE,FEA,HPC,SMP,CLUSTER

一、CAE高性能计算简介
        计算机辅助工程(CAE,Computer Aided Engineering)是用计算机辅助求解复杂工程和产品结构强度、刚度、屈曲稳定性、动力响应、热传导、三维多体接触、弹塑性等力学性能的分析计算以及结构性能的优化设计等问题的一种近似数值分析方法。CAE从60年代初在工程上开始应用到今天,现已成为工程和产品结构分析中(如航空、航天、机械、土木结构等领域)必不可少的数值计算工具,同时也是分析连续介质力学各类问题的一种重要手段。
        近年来,高性能计算作为大规模CAE应用的基石,在工业和制造业领域的应用越来越普遍和广泛。从TOP500的统计信息来看,工业领域所占的比例在不断增加。2005年6月,工业用户使用的高性能计算机占到52.8%。而其中的半导体和制造业用户所占的比例相当可观。其中美国半导体公司大约有70台,美国Boeing有4台,Lockheed Martin有2台,德国BMW有7台,德国VW有2台,德国Siemens有2台。许多国际著名的制造业大公司已实现了产品的虚拟化设计和制造,并实现了全球资源共享,利用全新的理念设计产品。美国GM、美国GE、日本Nissan等公司都拥有总计算能力超过10万亿次的高性能计算机用于新产品的研发。Boeing公司在上世纪90年代就实现了无纸化设计。Boeing公司已宣布利用高性能计算机对航空发动机进行全物理过程的模拟仿真。主导世界制造业方向的大集团公司目前都拥有大量的超级计算机用于产品设计和数据处理,制造业信息化是知识经济时代企业核心竞争的必要组成环节。
         中国在世界上有“世界制造中心”的称号,但是实际上我们的制造还大多数属于很简单的浅层面。更多的时候,通常的做法是产品在国外设计研发,在国内生产。不过,在如今,国内的制造业一方面有了自己的进步,另一方面,国外的知名企业也纷纷将自己的研发中心设置在了国内。在开始阶段,在国内作的研发可能还更多的出于本地化需求,不过,相信在不久的以后,会有更多的分析和研发需求会在中国出现。从设计产品的设计到研发到制造,整个环节都会在国内实现。目前,在汽车领域,国内的CAE进展的比较早。比如汽车的冲撞试验。

二、CAE应用软件的特点
        一般说来,CAE分析主要包括前处理、计算分析和后处理这3个过程。前处理主要是建立问题的几何模型、进行网格划分、建立用于计算分析的数值模型、确定模型的边界条件和初始条件等;计算分析是对所建立的数值模型进行求解,经常需要求解大型的线性方程组,这个过程是CAE分析中计算量最大、对硬件性能要求最高的部分;后处理则是以图形化的方式对所得的计算结果进行检查和处理。
         CAE分析的一个重要特点是,主要采用国际上公认的大型商业软件进行分析和计算。目前,大部分国际工业界认可的计算机辅助工程软件几乎被美国垄断。比如ABAQUS、ANSYS、LS-DYNA、MSC.NASTRAN、PAM-CRASH等。大型商业软件通常都有自己的前后处理模块。此外也有一些通用的前、后处理软件,提供了对以上软件的接口,让用户只需要熟悉一个统一的操作界面,比如Hypermesh、MSC.PATRAN等。
          根据求解算法的不同,CAE分析软件总体上可以分为隐式和显式两类。采用隐式算法的软件主要有ABAQUS/Standard、ANSYS、MSC.NASTRAN等,适合求解静力、模态、屈曲等问题;采用显式算法的软件主要有ABAQUS/Explicit、LS-DYNA、PAM-CRASH等,适合求解接触、碰撞、冲击等问题。
           从对计算资源的需求来说,隐式解法的基本特点是内存占用多、磁盘IO大、进程通信量大,因此,隐式解法要求系统的内存容量大、访存带宽高、磁盘IO速度快、通信延迟低;相对而言,显式解法对内存、磁盘IO和通信延迟的要求要低一些。
从软件的扩展性上来说,隐式算法和显式算法有明显的区别。采用隐式算法的软件,扩展性比较差,计算性能在8-16 CPU以上就很难获得进一步的提升;而采用显式算法的软件,扩展性就要好得多,在64-128 CPU以内都能获得较好的并行性能。
           从并行技术的角度来说,隐式算法通常采用OpenMP或者Pthreads等共享内存的方式实现,而显式算法通常采用MPI或者PVM等消息传递方式实现。采用共享内存方式的优点是实现容易,性能较高,但只能运行在SMP结构的服务器上;而消息传递方式则可适用于SMP或者DMP结构的服务器上。不过,随着集群计算的发展,SMP平台上的大多数算法也已移植到了DMP平台上,虽然并不完全。比如ABAQUS/Standard的Direct求解器和Lanczos特征值求解器就只支持Threads模式,因此必须采用SMP平台才能实现并行计算。
显式算法和隐式算法的比较
  隐式算法 显式算法
典型的软件 ABAQUS/Standard、ANSYS、MSC.NASTRAN ABAQUS/Explicit、LS-DYNA、PAM-CRASH
求解的问题 静力、模态、屈曲等 接触、碰撞、冲击等
算法的特点 内存占用多、磁盘IO大、进程通信量大 相对而言,内存、IO和通信量要少一些
对硬件的要求 内存容量大、访存带宽高、磁盘IO速度快、通信延迟低 相对而言,系统硬件配置可低一些
算法的扩展性 8-16 CPU 64-128 CPU


--------------------------------------------------------------------------------

三、CAE硬件平台的选择
        CAE硬件平台的选择对CAE项目的成功实施至关重要,它直接影响到CAE项目的运行、管理和维护。对于用户来讲,往往是在软件选型已经完成之后,才开始考虑硬件选型。因此在硬件平台的选择上,必须综合考虑不同应用软件的特点,才能确定最佳配置方案。

3.1并行体系结构的选择
         目前市场上的高性能服务器主要有共享内存的SMP和分布式内存的Cluster两种体系结构。在共享内存的系统中,所有的处理器通过公用的总线可以使用一个共同的物理内存空间,因此,每个CPU和其他CPU共享所有内存。常见的产品有SGI的Altix和Origin系列、HP的SuperDome系列等。在分布式内存的系统中,每个计算节点拥有属于自己的内存,不能由其他计算节点使用。节点之间由专用的高速通信网络连接,通过消息传递接口MPI进行通信。常见的产品有曙光天潮系列、联想深腾系列等。
采用共享内存的SMP架构的服务器,既可以支持OpenMP和Pthreads并行,也可以支持MPI和PVM并行,能够利用软件的所有并行功能。但SMP系统的价格相对而言较高,而且对于主要采用隐式算法的软件而言,最多只能利用8-16颗CPU,因此配置CPU数更多的SMP服务器并没有太大的意义,反而会造成投资的浪费。
        分布式内存的Cluster系统是近年来迅速普及的一种高性能服务器体系。集群是一组独立的计算机(节点)的集合体,节点间通过高性能的互连网络连接,可以协同工作并表现为一个单一的、集中的计算资源(单一系统映象)供并行计算任务使用。构建这类服务器的成本比较低,具有良好的性价比和可扩放性。集群作为当前高性能计算机的主流架构,在Top 500中占据了75%以上的份额。因此,当前主流的CAE软件都提供了对集群架构和MPI的支持。当前市场上的集群系统大多是采用4-8路的SMP服务器作为计算节点,因此也支持OpenMP。

3.2处理器类型的选择
        处理器是CAE计算服务器的核心。当前用于高性能计算的处理器大体上可分为RISC架构和CISC架构两种类型。基于RISC架构的处理器主要有Power、MIPS、PA-RISC、SPARC等,基于CISC架构的处理器则有我们熟悉的Intel和AMD。CISC处理器以其性价比优势成为高性能计算机中的主流CPU,在Top 500中有75%以上的系统采用了CISC处理器。
       作为CAE计算服务器,对浮点运算性能要求较高,因此大多数服务器均采用了最新的双核处理器技术,包括Intel的Woodcrest 5100系列和AMD的Opteron 200/2000系列。它们的对应关系如下:
Woodcrest和Opteron的对应关系
型号 主频 型号 主频 型号 主频
Woodcrest 5160 3.0 GHz Opteron 290 2.8 GHz Opteron 2220 2.8 GHz
Woodcrest 5150 2.66 GHz Opteron 285 2.6 GHz Opteron 2218 2.6 GHz
Woodcrest 5140 2.33 GHz Opteron 280 2.4 GHz Opteron 2216 2.4 GHz
Woodcrest 5130 2.0 GHz Opteron 275 2.2 GHz Opteron 2214 2.2 GHz

          应该说,Woodcrest的双总线架构和Opteron的直连架构,各有特色。那么在CAE高性能计算中,那种架构性能更好呢?我们来看一下Intel官方网站上对LS-Dyna和Fluent的测试数据。(网址:http://www.intel.com/performance/server/xeon/hpcapp.htm)


         Intel只提供了Woodcrest 5160和Opteron275的测试数据,由于两者并不是同档次的CPU,不能直接比较。考虑到主频的因素,可以推算出与Opteron 275同档次的Woodcrest 5130的性能。
Intel官方测试数据比较
CPU Woodcrest 5160 Woodcrest 5130 Opteron 275
LS-Dyna 2.52 1.68 1.98
Fluent 2.46 1.64 1.94
        上述测试数据表明,Opteron 275的性能比Woodcrest 5130要高17%以上。

--------------------------------------------------------------------------------

  进行CAE高性能计算时,通常会采用4颗以上的处理器,因此CPU的扩展性也十分重要。我们再来比较一下Woodcrest和Opteron的扩展性。以下测试数据来自AMD。

       上述测试数据表明,4进程时,Woodcrest 5160的浮点运算性能比Opteron 2220要慢14%,Opteron 2220浮点运算的并行效率也比Woodcrest 5160高出20%。

        综上所述,对于CAE/CFD应用,由于Woodcrest处理器持续沿用已有20多年历史的前端总线架构,其实测性能和扩展性均不如同档次的Opteron处理器。

四、曙光CAE高性能计算解决方案
        当设计CAE高性能计算整体解决方案时,要充分考虑用户需求,比如资金预算、问题类型、分析规模、用户数量、软件License个数等,以此来确定最终的硬件选型。

4.1 以隐式分析为主的解决方案
        常用的隐式有限元软件有ABAQUS/Standard、ANSYS、MSC.NASTRAN等。根据隐式有限元分析要求内存容量大、磁盘IO快、通信延迟低的特点,推荐采用基于SMP架构的4路的曙光天阔A820r-F或A830r-F,对于预算充足的用户,可以采用8路的曙光天阔A950r-F。
      上述几款机型用于隐式有限元分析有以下优点:
1)采用了最新的AMD Opteron™ 8000系列处理器,支持双核技术。
隐式有限元分析对系统的浮点运算性能和内存带宽要求非常高。在共享内存架构中,各处理器之间通过访问内存中的公共变量进行通信,内存存取延迟越小,则性能越高。Opteron 处理器内部则整合了内存控制器,CPU与内存之间的数据交换过程简化为“CPU--内存--CPU”三个步骤,与传统的基于北桥芯片的方案相比显然具有更低的数据延迟,这有助于提高计算机系统的整体性能。
2)采用了先进的 Registered ECC DDRII内存,最大支持64GB~128GB内存。
隐式解法内存占用较大。以40万自由度为例,如果采用ANSYS的SPARSE求解器,大概需要6GB内存。当物理内存不足的时候,ANSYS采用磁盘文件作为虚拟内存,但这样会大大降低性能。配置较多的物理内存,则可将所有数据都放在内存中,ANSYS不需要进行磁盘文件交换就能完成整个求解过程,从而节约求解时间。因此内存配置推荐至少1GB/Core,最好是2GB/Core。
3)最多可以安装8块热插拔SCSI硬盘,可以通过RAID提高磁盘性能。
进行隐式有限元分析,尤其是模态分析,会产生大量的临时文件,而且要反复读写磁盘,因此磁盘IO速度对于软件的计算性能也非常关键。据统计,1个40万自由度的算例,计算过程中的磁盘IO量可达16.2GB。通过多块磁盘的RAID,磁盘的IO速度可以成倍提高。
4)进程之间的通信在节点内部完成,通信延迟在1μs以内。
基于SMP架构的4/8路双核服务器,可以同时运行8-16个计算进程,正好是隐式有限元算法加速比最好的范围。而且由于进程之间的通信在节点内部进行,通信带宽和延迟比采用外置交换机的集群要高出一个量级,因此能获得更好的运算性能。

4.2 以显式分析为主的解决方案
        常用的显式有限元软件有ABAQUS/Explicit、LS-DYNA、PAM-CRASH等。相比而言,显式有限元软件对系统硬件的要求略低一些,从性价比以及软件的扩展性出发,推荐采用由2路的曙光天阔A610r-F或A620r-F作为计算节点的曙光天潮4000A集群系统。
采用集群系统进行显式有限元分析具有以下优点:
1)采用集群系统,节点硬件配置可以略低一些,节省投资。
集群节点采用Opteron 2000系列处理器,系统内存的配置推荐1GB/Core,只需配置1块硬盘即可。
2)采用集群系统,可以为用户提供更多的CPU资源。
在同等价格的情况下,集群系统可以为用户提供更多的CPU资源。可以同时满足多个用户、多个计算任务的需求。同时集群的各个节点也可独立进行运算。
3)采用集群系统,各个节点可以协同工作。
集群系统的特点在于虽然各个节点的计算性能有限,但是多个节点可以通过高性能网络进行协同工作,共同完成大规模问题的求解。目前主流的计算软件也都支持集群并行计算。
4)采用集群系统,进行扩展非常方便。
当需求增加时,通过增加节点数量,可以立即提升系统的整体运算能力,用户以前的投资不会浪费。
在集群系统中,网络的性能直接影响整个系统的实际运算能力。目前市场上主要有三种高性能计算网络:千兆以太网、Myrinet和Infiniband。应该根据用户的预算和系统规模进行选择。24节点以下,一般推荐采用千兆以太网,性价比较好,而且所有计算软件都支持;如果节点数在32节点以上,可以考虑带宽和延迟都更低的Myrinet和Infiniband,但同时必须考虑到用户是否购买了支持这两种网络的软件版本。

4.3 兼顾隐式和显式分析的解决方案
        用户常常需要同时进行显式和隐式有限元分析,比如高校计算中心,因此在方案中需要兼顾两种不同应用模式。我们需要在方案中综合SMP和DMP两种系统架构,因此推荐采用2路节点和4/8路节点共同组成的集群系统。
该方案具有以下优势:
1)兼顾隐式和显式两方面的应用需求。
集群系统中的2路节点,主要用于显式分析,4/8路节点,主要用于隐式分析,这样两种节点搭配的方案可以充分满足不同应用软件的需求,达到较好的性价比。
2)所有节点都是基于x86_64架构。
集群系统中的所有节点,无论是2路的A610r-F,还是8路的A950 r-F,都是基于x86_64架构,并且可以安装完全相同的操作系统和应用软件,避免了RISC架构带来的硬件平台、操作系统和应用软件不同带来的不一致性。
3)所有节点可以协同工作。
集群系统中的所有节点具有同样的软硬件结构,因此必要的时候,同样可以通过交换机实现协同工作,对大规模问题进行并行求解。
北京太阳电脑连锁   www.xasun.com
联系人:李彪    15811284832    QQ:443973724      979312388
您需要登录后才可以回帖 登录 | 注册

本版积分规则

快速回复 返回顶部 返回列表