计算曙光5000A高效能计算节点的设计与实现

曙光5000a  时间:2021-03-13  阅读:()

·博士论文· 文章编号 1000—3428(2009)06—0017—03 文献标识码 A 中图分类号 TP303

曙光5000A高效能计算节点的设计与实现

曾 宇1,2王 洁1,2孙凝晖1

(1 中国科学院计算技术研究所计算机系统结构重点实验室北京100080 2 中国科学院研究生院北京100039)摘 要 由于求解问题和系统规模的不断扩大基于c lu st er架构的高性能计算机面临扩展性、可靠性、功耗、 占地面积、均衡性等诸多挑战。该文针对计算模块、交换管理模块、 自适应功率管理、专用FPGA硬件加速部件、高速PCI-E全交换扩展等方面设计并实现高效能计算节点。基于该节点构建的曙光5000A百万亿次计算机能有效解决计算密度、 I/O扩展及带宽瓶颈和能耗等方面的瓶颈。

关键词高效能节能硬件加速

Design and Realization of Dawning 5000A

High-productivity Computing Node

ZENG Yu1,2,WANG Jie1,2,SUN Ning-hui1

(1 Key Laboratory of Computer System and Architecture, Institute of Computing Technology,Chinese Academy of Sciences,Beijing 100080;

2 Graduate University of Chinese Academy of Sciences,Beijing 100039)

【Abstract】As for the scale of the problem and the system continues to expand, the cluster-based high-performance computer is facing scalability,reliability,power consumption, footprint,balance, and many other challenges This paper introduces the design and realization of high-productivitycomputing node such as computing module, switch module,management module, adaptive power management,FPGA-based hardware acceleratorboard,high-speed PCI-E switch extend module and other aspects It resolves the computing density, I/O expansion and bandwidth bottleneck as wellas energy consumption and other bottlenecks in Dawning 5000A 100 Teraflops supercomputer based on the high-productivity computing node

【Key words】 high-productivity;energy saving;hardware accelerate

1 概述 考虑密度、散热、扩展和管理要求。Cray XD1节点采用CPU

随着社会的发展机群逐渐成为市场主流但其简单的 卡+底板结构 Cray XT3节点采用CPU板+通信背板结构体系结构在耗电、空间、散热、效率、可靠性和可管理性方 IBM BlueGene/L节点采用计算卡+中板结构。

面的问题使其性能无法延续到千万亿次(Petaflops)[1]。美国国 2 计算节点的总体结构设计

防部于2002年制定的高效能计算系统(High Productivity 曙光5000A全系统采用90个计算节点每个计算节点Computing Systems,HPCS)研究计划首先提出以高效能作为 包含10个计算模块、 1个20G Infiniband交换模块、2个Gigabit新一代高性能计算机研制的目标 IBM PERCS,CrayCascade, Ethernet交换模块和冗余管理模块。每个计算模块采用4个SUN Hero成为首批入选计划。高效能包含了高性能、可编程 AMD 64位20 GHz Barcelona 4Core CPU 系统实现了

性、可移植性、稳定性等多个方面的要求[2]。其他千万亿次 1152 Teraflops的理论峰值计算能力计算节点总体结构如研发计划 如 IBM Roadrunner, Cray Baker, SUN 图1所示。

过共享总线连接2个Itannium2 CPU通过网络接口连接 基金项目 国家“863”计划基金资助重大项目(2006AA01A102)NUMA Link交换芯片。 Cluster系统采用CPU+芯片组+NIC+ 作者简介曾宇(1973)男高级工程师、博士研究生主研方交换机的结构芯片组提供标准的I/O接口(如PCI-E)高速 向高性能计算机体系结构王 洁博士研究生孙凝晖网络接口采用独立芯片实现一端通过标准I/O接口与芯片 研究员

组连接一端连接互联网络交换芯片。节点的结构设计主 收稿日期 2008-08-19 E-mail zengyu@ncic ac cn

—17—

2.1 计算模块 管理和监控 (5)100 Mb/s管理网络(交换机以及管理模块

计算模块采用4路SMP架构基于AMD 4 core 64位 心跳)。

块相连的IIC接口以及其他控制信号和电源接口。交换模块 图3 管理模块架构

分别为KVM部分PS2键盘鼠标接口和VGA接口用于连接 高效能计算节点具备自动功率管理功能主要体现在外置的键盘鼠标和显示器 Share Media部分的USB接口 3个层面

用于连接外置移动存储介质。另外还存在一个系统网络 (1)根据实时功耗确定工作电源个数使电源工作在最佳接口 用于刀片系统网络管理接口 以及KVM的远程管 效率曲线上。系统电源功率设计分成静态功率设计及动态功理。 率设计。控制方式如下上电前电源功率预分配计算模块

系统存在5种管理和监控网络分别实现不同的功能如 把Flash中存储的最大满配功率需求发送给管理模块进行审下 (1)KVM网络进行刀片KVM系统管理 (2)US B网络 批等计算模块完成了B IO S 自检之后还要提交电源实际分进行刀片Share Media和Virtual Media管理 (3)RS485监控 配功率给管理模块 由管理模块进行最佳电源效率判断并

—18—

确定是否需要关闭或打开电源。控制算法如下 许值。计算节点提供基于ACPI的工作状态调整模式分别率需

FORi=1 TOnDO 功耗为0。在S1状态下系统功耗将比空载状态再降低30%

{ IFGSUM_SET<=G 唤醒时间小于3 s在S4状态下功耗相比空载状态降低70%

THEN{ IF i∉SET 以上唤醒时间小于1 min。

} } } 处理和低功耗方面有突出的优势 因此与主处理器配合可/*实时调整电源功率*/ 实现提高特定应用性能和降低系统功耗的双重目标应用前REPEAT{ 景广阔是实现高效能计算的有效途径之一。

Computing G_BEST 高效能计算节点专用硬件加速器体系结构如图5所示IFGSUM_SET isnotbest THEN 支持标准PCI-X、 PCI-E总线协议、 1 GB片上DDR2内存、

}UNTIL Computing is finished 图5 高效能计算节点专用硬件加速器

(2)优化计算刀片操作系统内核。通过优化程序执行队列 应用程序对数学运算库中函数的调用会根据计算任务或根据负载情况动态调整CPU频率。主要原理是对CPU的 的特征 自动分配到主机CPU或加速器上运行。如果一个计

的散发并提高运行效率。同时当发现CPU任务队列对功耗 (a)系统结构 (b)工作流程需求较低则通过BIOS接口进行CPU功率的动态调整。 图6 专用硬件加速器结构与工作流程

议的可信度值。 目标自组网中的可信度为C=W(i)/W=4067 8/5 124 0≈

根据综合评估值W与灰色评估等级的最接近程度可以 079=79%。 因为综合评估值E为40678与“良”级最靠近判断该路由协议属于哪个等级。例如若E值与5最接近 所以该路由协议在当前网络的应用中属于较高级别可信度则可以得出该协议属于“优”级。在实际应用中可以根 为79%能应用于当前网络。

据可信度和综合评估等级对目标网络路由协议的可适应 仿真实验结果表明在目标网络中 DSR具有较高可用程度进行排序。 性和快速性但扩展性和效率不高(不支持组播且控制开销5 实验结果 较大)其安全性较差相关指标的实验结论与文献[2-3]

假设目标网络规模中等节点数目在50~100之间要求 基本相

路由协议在满足可用的前提下具有快速、高效和可扩展的 似 即基于可信度的综合评估结果与仿真实验结果较吻合。特点。本文选择动态源路由协议DSR利用建立的基于可信 6 结束语

度的综合评判算法进行评估。随机选取8名从事路由协议研 本文给出路由协议可信度定义并建立层次结构的可信究的学术专家对路由协议进行分析评判并在NS2仿真平台 度评估指标模型。根据路由协议可信度评估算法可以求得上验证DSR各评判指标的有效性。 目标网络中路由协议的量化综合评估值和客观协议可信度。

按图1的指标体系和专家评分情况求得目标网络中的 本文方法为路由协议的开发与改进提供了一种参考。为权重向量、灰色评估矩阵和综合评估值如下 了选取或设计更合适、更可信的路由协议此方法在评估指

B1 =A1 ⋅R1 =(0530 5, 0399 5, 0052 5, 0012 0, 0005 5) Niagara Falls,Canada: IEEE Computer Society,2007:679-684

同理可以计算B2,B3,B4和B5得到路由协议的灰评估 [4] Saaty T L The Analytic Hierarchy Process[M] New York,USA:矩阵总指标U的灰色评估矩阵R。经量化和归一化处理后 McGraw-Hill, 1980

得到综合评估矩阵B=(0495 1, 0246 2, 0 170 5, 0007 8, [5]邓聚龙 灰色系统基本方法[M]武汉:华中理工大学出版社,

00804)。进一步可计算综合评估值E=B• VT=40678。当每 1988

个指标值都是满分时对应的E值为5 1240即该协议在当 编辑 陈 晖~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

(上接第19页)

达到3 796倍的加速比运行局部序列联配算法时最高可 故障检测、故障隔离、故障恢复等功能采用高效率节能基以达到300倍的加速比用ICT_ClustalW运行多序列联配时 础架构设计支持任务/系统级节能基于高效能计算节点构

速冗余交换管理模块

速部件、高速PCI-E全交换扩展模块可实现每瓦特大于 [4]Gustafson J L Suns HPCS Approach:Hero[Z] (2003-08-01) http://等于025 Gflops的浮点计算性能单向聚合扩展I/O带宽 www ncsc org/casc/meetings/CASC2 pdf

200 Gb/s以上采用硬件级以及系统级高可靠性设计支持 编辑 顾姣健

—22—

易探云服务器怎么过户/转让?云服务器PUSH实操步骤

易探云服务器怎么过户/转让?易探云支持云服务器PUSH功能,该功能可将云服务器过户给指定用户。可带价PUSH,收到PUSH请求的用户在接收云服务器的同时,系统会扣除接收方的款项,同时扣除相关手续费,然后将款项打到发送方的账户下。易探云“PUSH服务器”的这一功能,可以让用户将闲置云服务器转让给更多需要购买的用户!易探云服务器怎么过户/PUSH?1.PUSH双方必须为认证用户:2.买家未接收前,卖家...

80VPS:香港服务器月付420元;美国CN2 GIA独服月付650元;香港/日本/韩国/美国多IP站群服务器750元/月

80vps怎么样?80vps最近新上了香港服务器、美国cn2服务器,以及香港/日本/韩国/美国多ip站群服务器。80vps之前推荐的都是VPS主机内容,其实80VPS也有独立服务器业务,分布在中国香港、欧美、韩国、日本、美国等地区,可选CN2或直连优化线路。如80VPS香港独立服务器最低月付420元,美国CN2 GIA独服月付650元起,中国香港、日本、韩国、美国洛杉矶多IP站群服务器750元/月...

spinservers($89/月),圣何塞10Gbps带宽服务器,达拉斯10Gbps服务器

spinservers是Majestic Hosting Solutions LLC旗下站点,主要提供国外服务器租用和Hybrid Dedicated等产品的商家,数据中心包括美国达拉斯和圣何塞机房,机器一般10Gbps端口带宽,高配置硬件,支持使用PayPal、信用卡、支付宝或者微信等付款方式。目前,商家针对部分服务器提供优惠码,优惠后达拉斯机房服务器最低每月89美元起,圣何塞机房服务器最低每月...

曙光5000a为你推荐
12306崩溃iphone 12306网络错误安徽汽车网中国汽车十大品牌月神谭求男变女类的变身小说同ip域名不同域名解析到同一个IP是否有影响777k7.com怎么在这几个网站上下载图片啊www.777mu.com www.gangguan23.comwww.kk4kk.com猪猪影院www.mlzz.com 最新电影收费吗?ip查询器怎么样查看自己电脑上的IP地址www.45gtv.com登录农行网银首页www.abchina.com,机器蜘蛛尼尔机械纪元机械蜘蛛怎么过 机械蜘蛛打法攻略解析www.seowhy.com哪里有免费学习seo的
万网域名解析 腾讯云盘 vps.net 国外服务器 isatap 轻博客 12306抢票攻略 网站监控 长沙服务器 卡巴斯基永久免费版 php空间申请 个人域名 有奖调查 phpmyadmin配置 带宽租赁 免费的asp空间 新加坡空间 全能空间 申请免费空间 ssl加速 更多