速比曙光5000A天体大规模数值模拟软件性能测试

曙光5000a  时间:2021-03-13  阅读:()

第43卷 第10期 西 安 交 通 大 学 学 报 Vol.43 №102009年10月 JOURNAL OF XI′ANJIAOTONGUNIVERSITY Oct. 2009

曙光5000A天体大规模数值模拟软件性能测试

王婷1 ,孙相征1 ,2,3 ,张云泉1 ,2 ,杨超1 ,李力刚4 ,刘芳芳1 ,管文华1 ,唐雨新1 ,2,3 ,姚继峰5

(1 中国科学院软件研究所并行计算实验室, 100190,北京; 2中国科学院软件研究所计算机科学

国家重点实验室, 100190,北京; 3中国科学院研究生院, 100190,北京; 4中国科学院

上海天文台,200030,上海; 5上海超级计算中心,201203 ,上海)

摘要:在国产百万亿次超级计算机曙光5000A上进行了天体大规模数值模拟软件的性能和可扩展测试实验,详细介绍了软件中的测试程序以及测试环境和过程,并对测试结果进行了分析.对于80×80×50的网格规模,采用每节点4进程测试了16128个处理器核,每节点8进程、16进程分别测试了16512个处理器核,相对加速比最终分别达到5133 、10148和121 57,并行效率分别达到66166%、32158%和32129%.对于160×160×100的网格规模,测试了每节点16进程的648 192个核的性能,最大相对加速比为12146,并行效率为9173%.测试结果表明,曙光5000A具有良好的性能,测试结果对软件下一步的优化研究具有重要的指导意义.

关键词:曙光5000A;数值模拟;性能测试;可扩展

中图分类号: TP393 文献标志码:A 文章编号: 02532987X(2009) 1020071205

Performance Evaluation of the Simulation Software on Da wning

5000A for Large Scale Celestial Bodies

WANG Ting1 , SUN Xiangzheng1 ,2,3 , ZHANG Yunquan1 ,2 , YANG Chao1 , LI Ligang4

LIU Fangfang1 , GUAN Wenhua1 , TANG Yuxin1 ,2,3 , YAO Jifeng5

(1 Laboratory of Parallel Computing, ISCAS,Beijing 100190,China; 2 State Key Laboratory of Computer Science , ISCAS,Beijing

100190 ,China; 3 Graduate University of Chinese Academy of Sciences ,Beijing 100190,China; 4 Shanghai Astronomical

Observatory,CAS, Shanghai 200030,China; 5 Shanghai Supercomputer Center ,CAS, Shanghai 201203 ,China)Abstract: The performance and scalability evaluation of the large scale simulation software onplanetary fluid dynamics are investigated by the experiments on the domestic 100 TFlops super2computer ,Dawning 5000A. The details of the software testing procedures , the environment andthe process of the testing are introduced. For the mesh size of 80×80×50, the performance tes2ting on 16 to 128 processor cores with mapping 4processeson each node andtheperformance tes2ting on 16 to 512 processor cores with mapping 16 or 8 processes on each node are performed, re2spectively. The relative speedup s reach 5.33 , 10.48 and 12.57, respectively,and the correspond2ing parallel efficiencies of these 3 testing cases are 66.66%, 32.58%and 32.29%, respectively.For the me sh size of 160×160×100, the performance testing on 64 to 8 192 processor cores withmapping 16 processes on each node gives the results that the relative speedup is 12.46, and itsparallel efficiency is 9.73%. The experimental results reveal the good performance of Dawning5000A and show important clues of the software optimization.

Keywords:Dawning 5000A; numerical simulation;performance evaluation; scalability

收稿日期: 2009203210 作者简介:王婷(1982- ) ,女,博士,助理研究员 基金项目:国家自然科学基金重点资助项目

(60533020) ;国家重点基础研究发展规划资助项目(2005CB321702) ;国家自然科学基金资助项目(60303020 ,10801 125) ;国家高技术研究发展计划资助项目(2006AA01A102 ,2006AA01A125)

+

曙光5000A高性能计算机是国家“863计划”高 式中: r、θ、<分别为球坐标中的半径、余纬度和经性能计算机及其核心软件重大专项支持的研究项 度; r为位置矢量,可以写为(r,θ,<) ;u(r, t) 、Θ(r,目 ,是面向网格的高性能计算机,可以为网格提供计 t) 、p(r, t)分别为待求的速度矢量、温度和压强,其算服务,同时也是面向信息服务的超级服务器,可以 中u的3个分量为(ur , uθ, u<) ; t为时间;k为行星提供多目标的系统服务.曙光5000A系统峰值运行 自转轴方向单位矢量;ri 、ro分别为球壳的内、外半速度达到21 33×1014次/ s浮点操作,L i np ack运行 径;Ek、R a 、Pr分别为Ekman数、Rayleigh数和速度超过118×1014次/ s浮点操作,是目前国内速 Prandtl数

度最快的商用高性能计算机系统.2008年1 1月,曙 被测程序在半径方向是采用非均匀网格划分光5000A在国际超级计算机排名TOP500中列第 的,采用有限差分方法对Boussinesq近似下不可压10位,在中国高性能计算机性能排名TOP100中名 缩流体的归一化方程式(1)式(3)进行离散,时间列第1位[ 122] . 差分格式采用具有二阶精度的Crank2Nicol so n格

在天文学的行星研究中,行星流体和磁流体动 式,并结合近似因式分解方法[3,8]分离压强p力学数值模拟是近年来国际关注的重点之一.行星 被测程序模拟了旋转行星内部球壳中流体的热

参数下旋转球壳的温度等值面图如图1所示[425] . 度方程矩阵和求解压强的泊松方程矩阵;②开始时

间循环迭代,先计算速度、温度方程的右边项,用迭

(c)

用Infi niBand高速网络进行互联,使用Su Se Linux1 天体大规模数值模拟软件简介 操作系统.采用的编译器版本为GCC241 112和

天体大规模数值模拟软件包中的测试程序是基 Gfortran241 112,MPI通信库为mvapich211 110.于有限差分法求解如下的球壳内行星流体动力学方 实验调用Azt ec库[9]生成了程序的可执行文程组[627] 件.对于80×80×50的网格规模,采用每节点16进

程、8进程和4进程分别测试了16、32、64、128、512 别给出了每节点16、8或4进程的运行时间和相对个核的情形,以下简称测试A.对于160×160×100 加速比随处理器核数的变化情况,其中的相对加速的网格规模,测试了每节点16进程的64、128、256、 比均是以16个核的运行时间记为1做的比较.

512、1 024、2048 、4 096、8 192个核的情形,以下简 312 测试B的实验结果

称测试B.采用Mvapich软件包作为M P I通信库, 图6为网格规模为160 ×160 ×100时曙光gcc作为编译器,并对M vap i c h软件包进行了In2 5000 A天体数值模拟中运行时间或相对加速比随处fi niBan d高速互联网络特殊优化. 理器核数的变化情况,其中的相对加速比是取以64做的比较.

311 测试A的实验结果 4 实验结果分析

当网格规模为80×80×50时,图2中给出了曙 从图2中可以看出,测试A中对于16到512光5000A天体数值模拟中每节点16、8和4进程的 个处理器核的并行模拟中,运行时间随核数的增加运行时间随处理器核数的变化情况.图3图5分 呈下降趋势.在处理器核数较少时,相同处理器核数

图2 测试A中曙光5000A天体数值模拟运行时间随处理器核数的变化情况

(a)运行时间 (b)相对加速比

图3 测试A中每节点16进程时运行时间和相对加速比随处理器核数的变化情况

(a)运行时间 (b)相对加速比

图4 测试A中每节点8进程时运行时间和相对加速比随处理器核数的变化情况

(a)运行时间 (b)相对加速比

图5 测试A中每节点4进程时运行时间和相对加速比随处理器核数的变化情况

(a)运行时间 (b)相对加速比

图6 测试B中运行时间和相对加速比随处理器核数的变化情况

下每节点不同进程时的运行时间变化较大,如在16 中,随着处理器核数的增加,程序的运行时间逐渐下个核时,每节点8进程和4进程的运行时间比16进 降,这显示出曙光5000A提供了天体大规模数值模程的减少了232 s和2701 87 s ,且运行时间分别是 拟程序所需的良好网络通信环境. 8 192个核的运每节点16进程的56123%和481 89%.随着处理器 行时间是64个核运行时间的10122%.在64到512核数的增加,运行时间逐渐减少,使得这种差距变得 个处理器核的测试过程中,程序随着处理器核规模不再那么显著,如在512个核时,每节点8进程的运 的上升,所需要的运行时间随之减少,512核的相对行时间比16进程减少了13158 s. 加速比为64核的4144倍,并行效率为55155%.在

在每节点16进程和8进程的16512个处理 512到4096个处理器核的测试过程中,相对加速比器核的运行过程中,相对加速比随处理器核数的增 的增长速度进一步加大,4 096核的相对加速比增加而增长,在512个处理器核时的相对加速比分别 长为64核的1 11 88倍,并行效率为181 56%.最后达到了16个核时的12157倍和10143倍,并行效率 到8 192核时,程序的计算时间仍然在减少,比64分别达到32129%和32158%.每节点4进程的相对 核时减少了2 208189 s ,相对加速比最终达到了64加速比最终达到5133倍,并行效率则高达 核的12146倍,由此可以看出曙光5000A上可以较66166%.这是因为此情况只测试了16128个核, 顺利地运行此天体大规模模拟应用软件,但是此时考虑到每节点16进程和8进程时128个处理器核 的并行效率降为9173%,也观察到相对加速比有放的相对加速比分别为61 59和51 16,也可以和前面 缓增长的趋势.这是由于在本次大规模并行性能测的51 33倍相对应.对于128个核采用每节点4进程 试中,保持测试的问题规模固定不变,从而导致随着比256个核采用每节点16进程的运行时间还要少 网格的划分不断细化,每核分配到的计算时间快速

大规模数值模拟软件的研发具有重要的指导意义. 101 1 103/PhysRevE 78 056303

尽管此次测试时间仓促,我们还是在曙光 [J/OL] Physical Review: E, 2008 , 77(2) :4[20092

功地在曙光5000A上测试了16 384个核的运行时 DU KO WICZ J K,DVIN S KY A S App roximate fac2间少

如何更进一步地提高天体数值模拟程序在更大 TUMINARO R S,HEROUXM, HUTCHINSON S

是我们下一步的工作重点. [ 10]张云泉,孙家昶,唐志敏,等数值计算程序的存储复杂致谢衷心地感谢中国科学院计算技术研究所张佩 性分析[J]计算机学报,2000,23(4) :3632373珩研究员级高级工程师提供宝贵的实验机会以及霍 Z HAN G Yunqua n, SUN J iacha ng, TAN G Zhimin, et

[ 1 ] 张云泉,孙家昶,袁国兴,等 2008年中国高性能计算 1670

机TOP100排行榜分析与展望[J] 科研信息化技术 ZHAN G Yunquan DRAM(h) : a parallel computation与]ZHAN G Yunquan, SUN Jiachang, YUAN Guoxing, Chinese Journal of Computers , 2003 , 26(12) : 16602et al Analysis of 2008 China HPC TOP100 rank list 1670and per sp ective s [J] e2Science Technolo gy and Appli2 [ 12] C HEN Jing, ZHAN G Yunquan, ZHAN G Linbo, etcation, 2008 ,1 (3) : 71278 al Performance evaluation of allgather algorithms on

2473512102846 [ 13]薛正华,董小社,伍卫国,等自适应大规模服务器集群

[3]difference methods [J ] Phys Earth Planet Interiors , XU E Zhen2006, 157(2) : 12

[4]Benard convection[J/OL] Physical Review: E,2008 ,

78(5) : 12[2009202220] http:∥link aps org/doi/

(编辑 刘杨 赵大良)

香港九龙湾(27元) 2核2G 20元 香港沙田

弘速云是创建于2021年的品牌,运营该品牌的公司HOSU LIMITED(中文名称弘速科技有限公司)公司成立于2021年国内公司注册于2019年。HOSU LIMITED主要从事出售香港VPS、美国VPS、香港独立服务器、香港站群服务器等,目前在售VPS线路有CN2+BGP、CN2 GIA,该公司旗下产品均采用KVM虚拟化架构。可联系商家代安装iso系统。国庆活动 优惠码:hosu10-1产品介绍...

Pia云服务商春节6.66折 美国洛杉矶/中国香港/俄罗斯和深圳机房

Pia云这个商家的云服务器在前面也有介绍过几次,从价格上确实比较便宜。我们可以看到最低云服务器低至月付20元,服务器均采用KVM虚拟架构技术,数据中心包括美国洛杉矶、中国香港、俄罗斯和深圳地区,这次春节活动商家的活动力度比较大推出出全场6.66折,如果我们有需要可以体验。初次体验的记得月付方案,如果合适再续约。pia云春节活动优惠券:piayun-2022 Pia云服务商官方网站我们一起看看这次活...

SunthyCloud阿里云国际版分销商注册教程,即可PayPal信用卡分销商服务器

阿里云国际版注册认证教程-免绑卡-免实名买服务器安全、便宜、可靠、良心,支持人民币充值,提供代理折扣简介SunthyCloud成立于2015年,是阿里云国际版正规战略级渠道商,也是阿里云国际版最大的分销商,专业为全球企业客户提供阿里云国际版开户注册、认证、充值等服务,通过SunthyCloud开通阿里云国际版只需要一个邮箱,不需要PayPal信用卡就可以帮你开通、充值、新购、续费阿里云国际版,服务...

曙光5000a为你推荐
johncusack有喜欢演员JOHN CUSACK的吗?从哪部片子开始喜欢他的?至今为止他主要参与的电影作品有哪些?今日油条油条是怎样由来www.20ren.com有什么好看的电影吗?来几个…关键字什么叫关键词陈嘉垣反黑阿欣是谁演的 扮演者介绍www.522av.com跪求 我的三个母亲高清在线观看地址 我的三个母亲高清QVOD下载播放地址 我的三个母亲高清迅雷高速下载地址同一服务器网站服务器建设:一个服务器有多个网站该如何设置?avtt4.comwww.51kao4.com为什么进不去啊?www.bbb551.com广州欢乐在线551要收费吗?广告法请问违反了广告法,罚款的标准是什么
动态ip的vps sugarhosts 最好看的qq空间 免费ftp空间申请 免费全能主机 阿里云手机官网 腾讯数据库 zcloud 湖南铁通 windowsserver2008r2 cloudflare byebyelove 回程 电脑主机配置 qq空间打开慢 suspended翻译 qq空间登入 万网空间价格 正在登陆游戏服务器 宏讯网 更多