ContentsIntroductionPrerequisitesRequirementsComponentsUsed排除方法故障术语与缩略语内存安置内存错误可校正与无法修复的错误排除DIMM故障通过UCSM和CLI检查从GUI的错误检查从CLI的错误登记技术支持的日志文件DIMM列入黑名单清除DIMM的方法列入黑名单错误UCSMGUIUCSMCLIRelatedInformation值得注意的BugIntroduction本文描述如何排除在思科统一计算系统(UCS)解决方案的存储器模块相关问题故障.
UCSusesDual直插式存储器模块(DIMM)作为RAM模块.
PrerequisitesRequirementsCisco建议您有思科统一计算系统(CiscoUCS)知识.
ComponentsUsedThisdocumentisnotrestrictedtospecificsoftwareandhardwareversions.
然而,本文重点CiscoUCSB-系列刀片服务器qUCS管理器qTheinformationinthisdocumentwascreatedfromthedevicesinaspecificlabenvironment.
Allofthedevicesusedinthisdocumentstartedwithacleared(default)configuration.
Ifyournetworkislive,makesurethatyouunderstandthepotentialimpactofanycommand.
排除方法故障此部分包括UCS内存问题的主要部分.
内存安置q通过UCSM和CLI排除DIMM故障q登记技术支持的日志q术语与缩略语DIMM双列直插存储器模块ECC纠错码LVDIMM低压DIMMMCA机器检查的体系结构MEMBIST内存镶入自检MRC内存参考码POST加电自检SPD序列存在发现DDR双数据速率RAS可靠性、可用性和维护性内存安置内存安置很可能是其中一个UCS解决方案的最值得注意的物理方面.
典型地服务器附有内存事前填充与被请求的数量.
然而,不确定时请参见硬件安装指南,应该定期更新,当介绍新的硬件.
对于内存人口规则请参见特定平台的B系列技术规范.
B系列技术规范链路:http://www.
cisco.
com/c/en/us/products/servers-unified-computing/ucs-b-series-blade-servers/datasheet-listing.
html内存错误DIMM错误多位=不可能修正的柱子由BIOS映射,OS看不到DIMM运行时间通常导致OS重新启动一位=可校正OS继续发现DIMMqECC(纠错码)错误q奇偶校验错误qSPD(序列存在发现)错误q配置错误不支持的DIMM不支持的DIMM人口q无对手的DIMMq不匹配错误q身份unestablishable错误q检查并且更新目录q可校正与无法修复的错误一个特定的错误是否可校正或不可能修正的取决于依赖在存储系统内被使用的ECC代码.
当他们发生没有对程序执行时的影响专用硬件能改正可校正错误.
与可校正错误的DIMM不是失效的并且是可用为了OS能使用.
总内存和有效内存是相同的(使用反映的内存).
这些可校正错误在UCSM操作度状态报告了如降低,当整体操作度可行与可校正错误时.
无法修复的错误不通常是固定的,并且可能使不可能为应用程序或操作系统继续执行.
与无法修复的错误的DIMM是失效的,并且OS看不到该内存.
UCSM对""不能操作的""的operState更改在这种情况下.
排除DIMM故障通过UCSM和CLI检查从GUI的错误UCSM日志说明DIMM状态操作度SEL备注可行可行检查SEL日志DIMM相关错误DIMM是安装和工作.
可行降低检查SELECC错误在运行时间期间,一个可校正ECCDIMM错误被发去除不适用没有日志没有安装DIMM或损坏的SPD数据.
禁用可行检查SEL身份unestablishable错误检查并且更新功能目录禁用不适用检查SEL,如果在失败的另一个DIMM在同一条信道因为配置规则不可能由在同一条信道的失败的DIM护DIMM可能是健康,但是失效的.
禁用不适用没有日志没能遵从内存配置规则由于想念DIMM.
不能操作需要的不能操作/更换UE发现了ECC错误.
降低不能操作检查SELECC错误DIMM状态和操作度更改的由于,在主机重新启动前ECC错误发现了.
降低需要的不能操作/更换在POST/MRC期间,检查SELECC错误在运行时间期间,不可能修正的ECC错误被发现了DIMM保持可用对OS,OS失败并且恢复,但是能使用此DIMM.
错误能以后再出现.
应该替换在大多情况下DIMM.
为了得到统计数据请连接对设备>机箱>Server>Inventory>内存然后用鼠标右键单击在内存,并且精选请显示浏览器.
检查从CLI的错误当排除从CLI时的错误故障这些命令是有用的.
scopeserverx/y->showmemorydetailscopeserverx/y->showmemory-arraydetailscopeserverx/y->scopememory-arrayx->showstatshistorymemory-array-env-statsdetail从内存阵列范围您能也获得对DIMM的访问.
范围服务器X/Y>范围内存阵列Z>范围DIMMN从您能那里然后得到每DIMM统计数据或重置错误计数器.
UCS/chassis/server/memory-array/dimm#reset-errorsUCS/chassis/server/memory-array/dimm*#commit-bufferUCS/chassis/server/memory-array/dimm#showstatsmemory-error-state如果看到匹配以上的信息的一个可校正错误报告了,问题可以被重置BMC更正而不是重新安装或重置前端服务器.
请使用这些CiscoUCSManagerCLI命令:重置BMC不影响运行在前端的OS.
UCS/chassis/server/memory-array/dimm#reset-errorsUCS/chassis/server/memory-array/dimm*#commit-bufferUCS/chassis/server/memory-array/dimm#showstatsmemory-error-stateForcolusaservers:UCS#scopechassisUCS/chassis#scopeserverxUCS/chassis/server#reset-ecc使用UCS版本2.
27和3.
1以上,去除了内存被更正的错误的阈值.
所以,存储器模块(DIMM)不再将报告作为"不能操作"或"降低的"独自地由于被更正的内存错误.
根据whitepaperhttp://www.
cisco.
com/c/dam/en/us/products/collateral/servers-unified-computing/ucs-manager/whitepaper-c11-736116.
pdf行业为更加巨大的容量需求,更加巨大的带宽,并且降低工作电压导致增加的memoryerror费率.
传统上,行业以与无法修复的错误相似的方式对待可校正错误,要求模块被替换立即在戒备.
特定广泛的研究可校正错误没有关联与无法修复的错误,并且可校正错误不降低系统性能,CiscoUCS小组推荐模块的立即替换有可校正错误的.
体验可校正错误的一次降低的内存戒备的用户应该重置内存错误和恢复操作.
如果遵从此推荐,避免多余的服务器中断.
对错误管理的将来增进来,并且帮助在可校正错误中的多种类型区分并且识别适当行为,若有,需要.
LightNode是一家位于香港的VPS服务商.提供基于KVM虚拟化技术的VPS.在提供全球常见节点的同时,还具备东南亚地区、中国香港等边缘节点.满足开发者建站,游戏应用,外贸电商等应用场景的需求。新用户注册充值就送,最高可获得20美元的奖励金!成为LightNode的注册用户后,还可以获得属于自己的邀请链接。通过你的邀请链接带来的注册用户,你将直接获得该用户的消费的10%返佣,永久有效!平台目前...
易速互联怎么样?易速互联是国人老牌主机商家,至今已经成立9年,商家销售虚拟主机、VPS及独立服务器,目前商家针对美国加州萨克拉门托RH数据中心进行促销,线路采用BGP直连线路,自带10G防御,美国加州地区,100M带宽不限流量,月付299元起,有需要美国不限流量独立服务器的朋友可以看看。点击进入:易速互联官方网站美国独立服务器优惠套餐:RH数据中心位于美国加州、配置丰富性价比高、10G DDOS免...
sharktech怎么样?sharktech (鲨鱼机房)是一家成立于 2003 年的知名美国老牌主机商,又称鲨鱼机房或者SK 机房,一直主打高防系列产品,提供独立服务器租用业务和 VPS 主机,自营机房在美国洛杉矶、丹佛、芝加哥和荷兰阿姆斯特丹,所有产品均提供 DDoS 防护。此文只整理他们家10Gbps专用服务器,此外该系列所有服务器都受到高达 60Gbps(可升级到 100Gbps)的保护。...