2005.
29计算机工程与应用2005.
29计算机工程与应用2005.
29计算机工程与应用1引言商用处理器和网络的发展促进了更大规模机群系统的快速发展"1#.
然而,随着机群系统规模增大,部件增多,机群系统的整体故障概率也不断上升.
例如,一台有65536个处理器的Blue,-e.
e/0系统平均每隔几个小时就要遭遇一次节点失效"2#.
很多运行在机群系统上的科学计算任务一次要运行几天或者几个月,应用的运行时间比硬件的平均故障间隔时间(12B3)长,容错技术已经成为避免造成资源的巨大浪费的不可或缺的需求.
检查点切取4恢复技术通过将足够的进程信息记录到外存文件,避免了应用程序在每次节点失效后重头运行,使资源浪费的情况得以缓解,是一种有效的容错方法.
检查点主要包括两个基本过程"3#:状态检查(56e789:;.
eCE系统.
本文主要基于0CGHE操作系统,研究系统级检查点机制的性能优化策略.
检查点设置的时间开销(76e789:Ie:JeA6e@K)是检查点系统中进程地址空间的优化存储策略李艳红孟丹周应超武林平(中国科学院计算技术研究所,北京1000L0)MNI@;l:lO6P.
7;7.
@7.
7.
摘要机群系统的规模增大,部件增多,导致了机群的组合错误率也不断上升.
节点失效使运行于机群节点上的作业面临中途失败,从而造成巨大的资源浪费,甚至导致大量的作业无法完成.
检查点系统为节点提供了较好的容错性能,因此成为机群操作系统软件的重要组成部分.
进程的地址空间是检查点系统需要记录的一部分重要内容,对它的存储效率直接影响检查点操作的性能.
论文提出了两种检查点系统中进程地址空间的优化存储策略.
其中组合式检查点文件写策略解决了并发写机制在应用内存接近物理内存时的性能突降问题,DNQ(D77eNQAKeA)进程地址空间存储策略调整传统地址空间的存储顺序,使大内存应用的检查点操作性能得到了大幅度提升.
今天CloudCone发布了最新的消息,推送了几款特价独立服务器/杜甫产品,美国洛杉矶MC机房,分配100Mbps带宽不限流量,可以选择G口限制流量计划方案,存储分配的比较大,选择HDD硬盘的话2TB起,MC机房到大陆地区线路还不错,有需要美国特价独立服务器的朋友可以关注一下。CloudCone怎么样?CloudCone服务器好不好?CloudCone值不值得购买?CloudCone是一家成立于2...
青云互联怎么样?青云互联是一家成立于2020年6月份的主机服务商,致力于为用户提供高性价比稳定快速的主机托管服务,目前提供有美国免费主机、香港主机、香港服务器、美国云服务器,让您的网站高速、稳定运行。目前,美国洛杉矶cn2弹性云限时七折,美国cera机房三网CN2gia回程 13.3元/月起,可选Windows/可自定义配置。点击进入:青云互联官网青云互联优惠码:七折优惠码:dVRKp2tP (续...
进入6月,各大网络平台都开启了618促销,腾讯云目前也正在开展618云上Go活动,上海/北京/广州/成都/香港/新加坡/硅谷等多个地区云服务器及轻量服务器秒杀,最低年付95元起,参与活动的产品还包括短信包、CDN流量包、MySQL数据库、云存储(标准存储)、直播/点播流量包等等,本轮秒杀活动每天5场,一直持续到7月中旬,感兴趣的朋友可以关注本页。活动页面:https://cloud.tencent...