10 《高性能计算发展与应用》 年第三期 总第二十八期曙光 超级计算机的 测试张文力 张攀勇霍志刚中国科学院计算技术研究所 北京 摘要 本文简要介绍了曙光 系统 测试的情况包括 算法概述、性能预测模型、性能优化方法以及测试结果分析。 曙光 简介存匹配的最大问题规模这意味着测试进程要占用曙光 在 ’ 上发布的内存总容量的 左右。分块大小对测试虽然 排行榜中让中国的身影再一次跻身前十重要其确定却长期依赖于经验性的尝试实验致行列。该系统采用代号巴塞罗那的 〔 〕 使 测试缺乏可靠的性能估计模型。为了确定 四核心处理器总计拥有 个计算核心、 分块大小和预估总体性能我们建立了性能预估 内存通过 技术互联峰仿真模型〔 〕 。 值性能 实测 峰值 。 图中的伪码展示了 的主体步骤。 以这使我国成为世界上第二个拥有开发超百万亿次列的一个 为研究对象给出并行操作中的处超级计算机实力的国家。在 年中国高性能计算理器开销设 为局部于 的列号。 排行榜〔 〕中曙光 还打破了国外高性能计算机已连续年占据的排行榜首位。 测试简介 是当前国际上流行的性能测试基准。 它通过对高性能计算机求解稠密线性代数方程组能力的测试评价高性能计算机系统的浮点性能。 根据问题规模与优化选择的不同 分为 × × × 三种测试
〔 〕 。 〔〕 是第一个标准的公开版本并行 测试软件包是×测试的 实现可适应多种体系结构。该软件包主要针对分布式存储大规模并行计算系统而设计用户可以设定任意大小的问题规模使用任意个数的使用基于高斯消去法的各种优化方法寻求最佳的测试结果。 由于 〔 〕 × 高斯消去分解法求解规模为 的线性代数方程问题 〔 〕 的浮点运算次数 是一定的因此只要 〔 〕找主元 〔 〕 〔 〕 给出问题规模根据线性方程组求解过程中消元和 〔 〕 〔 〕 回代部分的耗时就可以计算出机器的性能参数即 〔 〕 每秒执行的浮点运算次数 〔 〕
〔 〕 行向广播 及行交换信息一般而言要获得实测峰值需要使用与内 〔〕 注本文所述曙光 超级计算机为国家 计划支持研究内容和实际部署于上海超级计算中心的业务运行系统魔方曙光 在配置上不
完全一致。 魔方曙光 专辑11 〔 〕 〔 〕 即 之后的列 测试的软件配置 〔 〕 在 测试中所采用的软件配置见表 。 〔 〕 表 曙光 测试的软件基本配置图分块矩阵分解过程操作系统 内核版本 在消元过程中每次〔 〕找主元 同时编译器 完成〔 〕 内列的行交换将有 编译器 αβ × 的通信量将主元交换到矩阵对 编译器 角线位置后利用冗余存储各处理器同时〔 〕求 需 通信库 数学函数库 要 的计算量 〔 〕更新 内后续列需要 的计算量。像这样完成第个 消元 数学库的选择后按种通信方式 〔〕之一进行〔 〕行向通信这里主在单核的情况下我们对 及要涉及克服网络带宽限制及自身负载问题的考虑。 测试核心 在 和所带的库以 方式为例每次需要αβ 做的对比实验结果如下。 库优势明显而 × × 的通信量然后矩阵剩余部分根据获 两个版本性能几乎无异。得信息进行 〔〕行交换也就是列向广播 给同一列表 数学库性能对比其余的个处理器此处以 方式为例需要 α β ×的通信量。各 处理器再利用冗余存储通过〔 〕同时算得更新需要的 耗费 × 利用冗余计算屏蔽了 单个处理器计算再广播的通信开销做〔 〕完成矩阵剩余部分的更新需要 × 的计 参数确认算量。 以上是种行向通信之一的 模式的示意。针对该通信模式我们的性能预估模型流程逻辑示意如图 。 图 性能差别预估根据已有性能预估模型所获得的曙光 图 针对 通信模式的上核心运算在不同分块方案下的性能差别性能预估模型示意如图 。在同样的执行规模下实际测试验证该性能预估模型在本质上是将实际的计算、 结果为 、 、网络通信等操作分别抽象成相应的符合实际测试流 。从单次测试结果来看 和程逻辑的开销从而能在单机内以秒计的时间内完 占优这最终在实际的大规模测试中得到了印成大规模系统中以小时计的实际运算的开销估测。 证。经曙光 、曙光 系列的反复验证和调整该模型给出的总体性能预估误差在 以内。 操作系统优化首先为了减小系统噪声与测试无关的服务
测试准备程序全部被关闭仅留 服务进程。其次 在曙光 的 测试中来自曙光 增强的页面支持表 对于减少 测试的算法分析、预测模型和系统管理工具等 提高性能具有显著作用。在对通信系统也提供成果都可以继续发挥作用〔 〕 但随着软件的更新、 大页面支持之后我们得到左右的性能提升图体系结构的演变若干关键参数需要再次确认。 。第三曙光 刀片的路核的结构12 《高性能计算发展与应用》 年第三期 总第二十八期表 和 的对比页面大小 架构级别 图大页面性能对比
图 单步效率曲线使得在计算和通信过程中的内存分配的局部化到 的时候异常终止。我们已经观察到异常终止的优化极为重要这需要在 和通信库中分别实现测试的曲线会与其它曲线的形状截然不同这启发感知的进程绑定和内存分配机制。 我们将大规模应用的性能的稳定性也融入性能预测的研究中。 曙光 上的 测试结果基于性能预估模型曙光 的测试过程得 总结以大大压缩。为了优化性能预估模型我们在曙光事实证明理论模型预测和实践经验结合的方 上收集了单进程 的各种规模的 测法大大提高了曙光 系统 测试的工作效试过程的单步执行效率图 。一个意外收获是图率而针对特定应用 的系统级优化对于中红色粗线所示的 进程的结果该测试在执行取得理想的测试效率具有重要意义。 参考文献 〔 〕 〔 〕 〔 〕 颍澹睿悖 〔〕 〔 〕
〔 〕 张文力、陈明宇、樊建平 测试性能仿真与预测计算机研究与发展 年第 卷第期 。 〔 〕 曹振南、冯圣中、冯高峰曙光 测试技术报告 中科院计算所智能中心技术ǜ妫玻埃埃础?〔 〕 曹振南如何做 测试及性能优化 。 .
天上云怎么样?天上云隶属于成都天上云网络科技有限公司,是一家提供云服务器及物理服务器的国人商家,目前商家针对香港物理机在做优惠促销,香港沙田机房采用三网直连,其中电信走CN2,带宽为50Mbps,不限制流量,商家提供IPMI,可以自行管理,随意安装系统,目前E3-1225/16G的套餐低至572元每月,有做大规模业务的朋友可以看看。点击进入:天上云官方网站天上云香港物理机服务器套餐:香港沙田数据中...
今天获得消息,vdsina上了AMD EPYC系列的VDS,性价比比较高,站长弄了一个,盲猜CPU是AMD EPYC 7B12(经过咨询,详细CPU型号是“EPYC 7742”)。vdsina,俄罗斯公司,2014年开始运作至今,在售卖多类型VPS和独立服务器,可供选择的有俄罗斯莫斯科datapro和荷兰Serverius数据中心。付款比较麻烦:信用卡、webmoney、比特币,不支持PayPal...
数脉科技怎么样?昨天看到数脉科技发布了7月优惠,如果你想购买香港服务器,可以看看他家的产品,性价比还是非常高的。数脉科技对香港自营机房的香港服务器进行超低价促销,可选择10M、30M的优质bgp网络。目前商家有优质BGP、CN2、阿里云线路,国内用户用来做站非常不错,目前E3/16GB阿里云CN2线路的套餐有一个立减400元的优惠,有需要的朋友可以看看。点击进入:数脉科技商家官方网站香港特价阿里云...