第43卷 第10期 西 安 交 通 大 学 学 报 Vol.43 №102009年10月 JOURNAL OF XI′ANJIAOTONGUNIVERSITY Oct. 2009
曙光5000A天体大规模数值模拟软件性能测试
王婷1 ,孙相征1 ,2,3 ,张云泉1 ,2 ,杨超1 ,李力刚4 ,刘芳芳1 ,管文华1 ,唐雨新1 ,2,3 ,姚继峰5
(1 中国科学院软件研究所并行计算实验室, 100190,北京; 2中国科学院软件研究所计算机科学
国家重点实验室, 100190,北京; 3中国科学院研究生院, 100190,北京; 4中国科学院
上海天文台,200030,上海; 5上海超级计算中心,201203 ,上海)
摘要:在国产百万亿次超级计算机曙光5000A上进行了天体大规模数值模拟软件的性能和可扩展测试实验,详细介绍了软件中的测试程序以及测试环境和过程,并对测试结果进行了分析.对于80×80×50的网格规模,采用每节点4进程测试了16128个处理器核,每节点8进程、16进程分别测试了16512个处理器核,相对加速比最终分别达到5133 、10148和121 57,并行效率分别达到66166%、32158%和32129%.对于160×160×100的网格规模,测试了每节点16进程的648 192个核的性能,最大相对加速比为12146,并行效率为9173%.测试结果表明,曙光5000A具有良好的性能,测试结果对软件下一步的优化研究具有重要的指导意义.
关键词:曙光5000A;数值模拟;性能测试;可扩展
中图分类号: TP393 文献标志码:A 文章编号: 02532987X(2009) 1020071205
Performance Evaluation of the Simulation Software on Da wning
5000A for Large Scale Celestial Bodies
WANG Ting1 , SUN Xiangzheng1 ,2,3 , ZHANG Yunquan1 ,2 , YANG Chao1 , LI Ligang4
LIU Fangfang1 , GUAN Wenhua1 , TANG Yuxin1 ,2,3 , YAO Jifeng5
(1 Laboratory of Parallel Computing, ISCAS,Beijing 100190,China; 2 State Key Laboratory of Computer Science , ISCAS,Beijing
100190 ,China; 3 Graduate University of Chinese Academy of Sciences ,Beijing 100190,China; 4 Shanghai Astronomical
Observatory,CAS, Shanghai 200030,China; 5 Shanghai Supercomputer Center ,CAS, Shanghai 201203 ,China)Abstract: The performance and scalability evaluation of the large scale simulation software onplanetary fluid dynamics are investigated by the experiments on the domestic 100 TFlops super2computer ,Dawning 5000A. The details of the software testing procedures , the environment andthe process of the testing are introduced. For the mesh size of 80×80×50, the performance tes2ting on 16 to 128 processor cores with mapping 4processeson each node andtheperformance tes2ting on 16 to 512 processor cores with mapping 16 or 8 processes on each node are performed, re2spectively. The relative speedup s reach 5.33 , 10.48 and 12.57, respectively,and the correspond2ing parallel efficiencies of these 3 testing cases are 66.66%, 32.58%and 32.29%, respectively.For the me sh size of 160×160×100, the performance testing on 64 to 8 192 processor cores withmapping 16 processes on each node gives the results that the relative speedup is 12.46, and itsparallel efficiency is 9.73%. The experimental results reveal the good performance of Dawning5000A and show important clues of the software optimization.
Keywords:Dawning 5000A; numerical simulation;performance evaluation; scalability
收稿日期: 2009203210 作者简介:王婷(1982- ) ,女,博士,助理研究员 基金项目:国家自然科学基金重点资助项目
(60533020) ;国家重点基础研究发展规划资助项目(2005CB321702) ;国家自然科学基金资助项目(60303020 ,10801 125) ;国家高技术研究发展计划资助项目(2006AA01A102 ,2006AA01A125)
+
曙光5000A高性能计算机是国家“863计划”高 式中: r、θ、<分别为球坐标中的半径、余纬度和经性能计算机及其核心软件重大专项支持的研究项 度; r为位置矢量,可以写为(r,θ,<) ;u(r, t) 、Θ(r,目 ,是面向网格的高性能计算机,可以为网格提供计 t) 、p(r, t)分别为待求的速度矢量、温度和压强,其算服务,同时也是面向信息服务的超级服务器,可以 中u的3个分量为(ur , uθ, u<) ; t为时间;k为行星提供多目标的系统服务.曙光5000A系统峰值运行 自转轴方向单位矢量;ri 、ro分别为球壳的内、外半速度达到21 33×1014次/ s浮点操作,L i np ack运行 径;Ek、R a 、Pr分别为Ekman数、Rayleigh数和速度超过118×1014次/ s浮点操作,是目前国内速 Prandtl数
度最快的商用高性能计算机系统.2008年1 1月,曙 被测程序在半径方向是采用非均匀网格划分光5000A在国际超级计算机排名TOP500中列第 的,采用有限差分方法对Boussinesq近似下不可压10位,在中国高性能计算机性能排名TOP100中名 缩流体的归一化方程式(1)式(3)进行离散,时间列第1位[ 122] . 差分格式采用具有二阶精度的Crank2Nicol so n格
在天文学的行星研究中,行星流体和磁流体动 式,并结合近似因式分解方法[3,8]分离压强p力学数值模拟是近年来国际关注的重点之一.行星 被测程序模拟了旋转行星内部球壳中流体的热
参数下旋转球壳的温度等值面图如图1所示[425] . 度方程矩阵和求解压强的泊松方程矩阵;②开始时
间循环迭代,先计算速度、温度方程的右边项,用迭
(c)
用Infi niBand高速网络进行互联,使用Su Se Linux1 天体大规模数值模拟软件简介 操作系统.采用的编译器版本为GCC241 112和
天体大规模数值模拟软件包中的测试程序是基 Gfortran241 112,MPI通信库为mvapich211 110.于有限差分法求解如下的球壳内行星流体动力学方 实验调用Azt ec库[9]生成了程序的可执行文程组[627] 件.对于80×80×50的网格规模,采用每节点16进
程、8进程和4进程分别测试了16、32、64、128、512 别给出了每节点16、8或4进程的运行时间和相对个核的情形,以下简称测试A.对于160×160×100 加速比随处理器核数的变化情况,其中的相对加速的网格规模,测试了每节点16进程的64、128、256、 比均是以16个核的运行时间记为1做的比较.
512、1 024、2048 、4 096、8 192个核的情形,以下简 312 测试B的实验结果
称测试B.采用Mvapich软件包作为M P I通信库, 图6为网格规模为160 ×160 ×100时曙光gcc作为编译器,并对M vap i c h软件包进行了In2 5000 A天体数值模拟中运行时间或相对加速比随处fi niBan d高速互联网络特殊优化. 理器核数的变化情况,其中的相对加速比是取以64做的比较.
311 测试A的实验结果 4 实验结果分析
当网格规模为80×80×50时,图2中给出了曙 从图2中可以看出,测试A中对于16到512光5000A天体数值模拟中每节点16、8和4进程的 个处理器核的并行模拟中,运行时间随核数的增加运行时间随处理器核数的变化情况.图3图5分 呈下降趋势.在处理器核数较少时,相同处理器核数
图2 测试A中曙光5000A天体数值模拟运行时间随处理器核数的变化情况
(a)运行时间 (b)相对加速比
图3 测试A中每节点16进程时运行时间和相对加速比随处理器核数的变化情况
(a)运行时间 (b)相对加速比
图4 测试A中每节点8进程时运行时间和相对加速比随处理器核数的变化情况
(a)运行时间 (b)相对加速比
图5 测试A中每节点4进程时运行时间和相对加速比随处理器核数的变化情况
(a)运行时间 (b)相对加速比
图6 测试B中运行时间和相对加速比随处理器核数的变化情况
下每节点不同进程时的运行时间变化较大,如在16 中,随着处理器核数的增加,程序的运行时间逐渐下个核时,每节点8进程和4进程的运行时间比16进 降,这显示出曙光5000A提供了天体大规模数值模程的减少了232 s和2701 87 s ,且运行时间分别是 拟程序所需的良好网络通信环境. 8 192个核的运每节点16进程的56123%和481 89%.随着处理器 行时间是64个核运行时间的10122%.在64到512核数的增加,运行时间逐渐减少,使得这种差距变得 个处理器核的测试过程中,程序随着处理器核规模不再那么显著,如在512个核时,每节点8进程的运 的上升,所需要的运行时间随之减少,512核的相对行时间比16进程减少了13158 s. 加速比为64核的4144倍,并行效率为55155%.在
在每节点16进程和8进程的16512个处理 512到4096个处理器核的测试过程中,相对加速比器核的运行过程中,相对加速比随处理器核数的增 的增长速度进一步加大,4 096核的相对加速比增加而增长,在512个处理器核时的相对加速比分别 长为64核的1 11 88倍,并行效率为181 56%.最后达到了16个核时的12157倍和10143倍,并行效率 到8 192核时,程序的计算时间仍然在减少,比64分别达到32129%和32158%.每节点4进程的相对 核时减少了2 208189 s ,相对加速比最终达到了64加速比最终达到5133倍,并行效率则高达 核的12146倍,由此可以看出曙光5000A上可以较66166%.这是因为此情况只测试了16128个核, 顺利地运行此天体大规模模拟应用软件,但是此时考虑到每节点16进程和8进程时128个处理器核 的并行效率降为9173%,也观察到相对加速比有放的相对加速比分别为61 59和51 16,也可以和前面 缓增长的趋势.这是由于在本次大规模并行性能测的51 33倍相对应.对于128个核采用每节点4进程 试中,保持测试的问题规模固定不变,从而导致随着比256个核采用每节点16进程的运行时间还要少 网格的划分不断细化,每核分配到的计算时间快速
大规模数值模拟软件的研发具有重要的指导意义. 101 1 103/PhysRevE 78 056303
尽管此次测试时间仓促,我们还是在曙光 [J/OL] Physical Review: E, 2008 , 77(2) :4[20092
功地在曙光5000A上测试了16 384个核的运行时 DU KO WICZ J K,DVIN S KY A S App roximate fac2间少
如何更进一步地提高天体数值模拟程序在更大 TUMINARO R S,HEROUXM, HUTCHINSON S
是我们下一步的工作重点. [ 10]张云泉,孙家昶,唐志敏,等数值计算程序的存储复杂致谢衷心地感谢中国科学院计算技术研究所张佩 性分析[J]计算机学报,2000,23(4) :3632373珩研究员级高级工程师提供宝贵的实验机会以及霍 Z HAN G Yunqua n, SUN J iacha ng, TAN G Zhimin, et
[ 1 ] 张云泉,孙家昶,袁国兴,等 2008年中国高性能计算 1670
机TOP100排行榜分析与展望[J] 科研信息化技术 ZHAN G Yunquan DRAM(h) : a parallel computation与]ZHAN G Yunquan, SUN Jiachang, YUAN Guoxing, Chinese Journal of Computers , 2003 , 26(12) : 16602et al Analysis of 2008 China HPC TOP100 rank list 1670and per sp ective s [J] e2Science Technolo gy and Appli2 [ 12] C HEN Jing, ZHAN G Yunquan, ZHAN G Linbo, etcation, 2008 ,1 (3) : 71278 al Performance evaluation of allgather algorithms on
2473512102846 [ 13]薛正华,董小社,伍卫国,等自适应大规模服务器集群
[3]difference methods [J ] Phys Earth Planet Interiors , XU E Zhen2006, 157(2) : 12
[4]Benard convection[J/OL] Physical Review: E,2008 ,
78(5) : 12[2009202220] http:∥link aps org/doi/
(编辑 刘杨 赵大良)
瓜云互联一直主打超高性价比的海外vps产品,主要以美国cn2、香港cn2线路为主,100M以内高宽带,非常适合个人使用、企业等等!安全防护体系 弹性灵活,能为提供简单、 高效、智能、快速、低成本的云防护,帮助个人、企业从实现网络攻击防御,同时也承诺产品24H支持退换,不喜欢可以找客服退现,诚信自由交易!官方网站:点击访问瓜云互联官网活动方案:打折优惠策略:新老用户购买服务器统统9折优惠预存返款活动...
傲游主机怎么样?傲游主机是一家成立于2010年的老牌国外VPS服务商,在澳大利亚及美国均注册公司,是由在澳洲留学的害羞哥、主机论坛知名版主组长等大佬创建,拥有多家海外直连线路机房资源,提供基于VPS主机和独立服务器租用等,其中VPS基于KVM或者XEN架构,可选机房包括中国香港、美国洛杉矶、韩国、日本、德国、荷兰等,均为CN2或者国内直连优秀线路。傲游主机提供8折优惠码:haixiuge,适用于全...
数脉科技六月优惠促销发布了!数脉科技对香港自营机房的香港服务器进行超低价促销,可选择30M、50M、100Mbps的优质bgp网络。更大带宽可在选购时选择同样享受优惠,目前仅提供HKBGP、阿里云产品,香港CN2、产品优惠码续费有效,仅限新购,每个客户可使用于一个订单。新客户可以立减400元,或者选择对应的机器用相应的优惠码,有需要的朋友可以尝试一下。点击进入:数脉科技官方网站地址数脉科技是一家成...