FusionCloudV100R002C00SPC610应急维护文档版本01发布日期2018-02-09华为技术有限公司版权所有华为技术有限公司2018.
保留一切权利.
非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播.
商标声明和其他华为商标均为华为技术有限公司的商标.
本文档提及的其他所有商标或注册商标,由各自的所有人拥有.
注意您购买的产品、服务或特性等应受华为公司商业合同和条款的约束,本文档中描述的全部或部分产品、服务或特性可能不在您的购买或使用范围之内.
除非合同另有约定,华为公司对本文档内容不做任何明示或默示的声明或保证.
由于产品版本升级或其他原因,本文档内容会不定期进行更新.
除非另有约定,本文档仅作为使用指导,本文档中的所有陈述、信息和建议不构成任何明示或暗示的担保.
华为技术有限公司地址:深圳市龙岗区坂田华为总部办公楼邮编:518129网址:http://www.
huawei.
com客户服务邮箱:support@huawei.
com客户服务电话:4008302118文档版本01(2018-02-09)华为专有和保密信息版权所有华为技术有限公司i前言概述本文档提供了FusionCloud的应急维护总则及故障处理流程.
读者对象本文档主要适用于以下工程师:l技术支持工程师l维护工程师符号约定在本文中可能出现下列标志,它们所代表的含义如下.
符号说明用于警示紧急的危险情形,若不避免,将会导致人员死亡或严重的人身伤害.
用于警示潜在的危险情形,若不避免,可能会导致人员死亡或严重的人身伤害.
用于警示潜在的危险情形,若不避免,可能会导致中度或轻微的人身伤害.
用于传递设备或环境安全警示信息,若不避免,可能会导致设备损坏、数据丢失、设备性能降低或其它不可预知的结果.
"注意"不涉及人身伤害.
用于突出重要/关键信息、最佳实践和小窍门等.
"说明"不是安全警示信息,不涉及人身、设备及环境伤害.
FusionCloud应急维护前言文档版本01(2018-02-09)华为专有和保密信息版权所有华为技术有限公司ii修改记录修改记录累积了每次文档更新的说明.
最新版本的文档包含以前所有文档版本的更新内容.
文档版本发布日期修改说明012018-02-09第一次正式发布FusionCloud应急维护前言文档版本01(2018-02-09)华为专有和保密信息版权所有华为技术有限公司iii目录前言.
ii1总则.
11.
1应急预案制定目的.
11.
2启动条件.
11.
3紧急情况下处理原则.
11.
4操作原则.
21.
5SLA要求.
22应急准备.
32.
1准备情况CheckList.
32.
2历史重大维护信息.
53故障场景及恢复指导.
63.
1整体说明.
63.
2网络故障.
63.
2.
1汇聚交换机故障.
63.
2.
2防火墙故障.
83.
2.
3汇聚交换机和防火墙链接中断.
93.
2.
4OSPF邻居过多导致部分虚拟机网络中断.
133.
2.
5因OSPF导致防火墙转发平面CPU使用率过高,虚拟机丢包严重.
153.
2.
6因遭受攻击,病毒等导致网络流量拥塞,虚拟机无法通信.
173.
3存储故障.
193.
3.
1存储阵列磁盘故障,导致该故障盘所在的LUN响应缓慢,影响虚拟化平台业务.
193.
4主机故障.
203.
4.
1云主机IO性能问题.
203.
4.
2主机ARP病毒导致云网络中断.
213.
5局点特殊性问题.
234故障恢复验证.
244.
1故障恢复确认责任人及工作内容.
244.
2遗留问题及处理责任人.
245应急处理流程.
265.
1重大故障处理流程.
265.
1.
1公司重大事故处理和通报流程.
26FusionCloud应急维护目录文档版本01(2018-02-09)华为专有和保密信息版权所有华为技术有限公司iv5.
1.
2XX办事处重大事故通报及处理补充流程.
265.
2客户应急机制.
275.
2.
1客户响应机制.
275.
2.
2业务更改批准流程.
275.
2.
3进入机房办法.
275.
3应急小组名单、联系方式及相应职责.
285.
3.
1客户名单、联系方式和职责.
285.
3.
2华为名单、联系方式和职责.
286附录.
296.
1承载业务分析.
296.
2设备位置.
296.
3组网情况.
306.
4设备IP/用户名/口令.
306.
5远程维护信息.
306.
6软件版本及设备信息.
306.
7可以利用的冗余或临时设备.
316.
8备件.
316.
9外购件服务信息.
316.
10故障信息收集指导.
32FusionCloud应急维护目录文档版本01(2018-02-09)华为专有和保密信息版权所有华为技术有限公司v1总则1.
1应急预案制定目的1.
2启动条件1.
3紧急情况下处理原则1.
4操作原则1.
5SLA要求1.
1应急预案制定目的XXX局为XX运营商FusionCloud项目(公有云、私有云、桌面云),带有XX虚拟机用户,承载XX业务,或所带客户涉及政府、呼叫中心、重点大客户,地位重要(重点从网络地位、重点业务、容量等方面说明该局的重要性),由于紧急事故很容易导致大面积的虚拟机业务异常、虚拟机数据丢失、设备瘫痪等严重后果,具有很大的危害性.
为提高紧急事故的处理效率、最大的限度降低此类事故的损失,针对此局制定本应急处理预案.
1.
2启动条件(根据本局的业务特点阐述应急预案的启动条件)VDC创建不成功,虚拟机发放不成功,XXX、XXX无法使用等.
1.
3紧急情况下处理原则l以客户业务尽快恢复,对客户影响最低为原则,在此前提下,进行问题定位恢复和数据收集.
l充分利用技术服务、研发、市场、管理人员资源,并行工作,有序高效的解决问题.
l各工作环节要有明确的责任人.
FusionCloud应急维护1总则文档版本01(2018-02-09)华为专有和保密信息版权所有华为技术有限公司11.
4操作原则业务恢复应综合考虑相应操作对成功恢复业务的可能性和相应操作的时间代价.
推荐的操作排序如下:1.
耗时比较短、成功可能性比较大的操作.
2.
耗时比较短、成功可能性比较小的操作.
3.
耗时比较长、成功可能性比较大的操作.
注意事项有:l各工作环节要有明确的责任人.
l可能带来风险的关键操作需要用户许可.
l考虑网络级的快速恢复措施.
1.
5SLA要求局点如果无SLA合同承诺,建议按照公司的银牌服务SLA执行.
(这块按照实际局点的SLA要求描述,如果没有可以参考模板)表1-1局点SLA要求服务项目服务内容提供时间响应时间硬件支持服务远程硬件问题处理5*8严重故障:2小时重要问题:4小时一般问题:8小时技术咨询:NBD现场硬件更换5*8NBD备件物料提供5*8-软件支持服务远程软件问题处理5*8严重故障:2小时重要问题:4小时一般问题:8小时技术咨询:NBD现场软件问题处理5*8NBD软件SA软件补丁及升级许可技术支持信息共享技术支持信息共享7*24,Support网站FusionCloud应急维护1总则文档版本01(2018-02-09)华为专有和保密信息版权所有华为技术有限公司22应急准备2.
1准备情况CheckList2.
2历史重大维护信息2.
1准备情况CheckList此CheckList用于指导恢复期的准备工作,当紧急故障发生时请参照表2-1进行恢复前的准备工作检查.
表2-1准备情况CheckList分类序号准备事项说明准备情况设备信息1设备位置机房详细地址、设备在机房的行和列、机柜中的位置,要求能够根据描述迅速找到设备.
详细描述请参见6.
2设备位置.
完成2组网情况网络拓扑图、硬件连线图,需要细化到每台设备,详细描述请参见6.
3组网情况.
完成3设备IP/用户名/口令l列出设备IP/用户名/口令,以便在紧急情况下能够快速地登录到该设备.
l如果口令不方便列出,可以不写,但必须牢记.
l如果列出口令请妥善保管该文档,避免泄露口令产生无法预知的影响.
l详细描述请参见附录设备IP/用户名/口令.
完成FusionCloud应急维护2应急准备文档版本01(2018-02-09)华为专有和保密信息版权所有华为技术有限公司3分类序号准备事项说明准备情况维护信息4远程维护信息l包括但不限于远程连接方式(拨号、VPN)、拨号的号码、用户名、口令,如果口令不方便列出,可以不写,但必须牢记.
l如果列出口令请妥善保管该文档,避免泄露口令产生无法预知的影响.
l详细描述请参见6.
5远程维护信息.
完成软件和工具5软件版本和硬件工具准备现网版本的安装盘、序列号和硬件工具等,软件类要存放在方便获取的服务器上.
详细描述请参见附录软件版本.
完成联系方式6客户联系人机房电话、维护主管的手机、Email、传真等,目的是能够迅速联系到,详细描述请参见客户名单、联系方式和职责.
完成7内部人员联系方式地区部专家团队、公司专家团队,详细描述请参见华为名单、联系方式和职责.
完成网络级的快速恢复方法8备选方案和路由指利用话路迂回、直通、启用备份、冗余系统等网络级的恢复方案.
l备选方案的实施细节l联系方式l批准人员完成9可以利用的冗余或临时设备系统内部的冗余设备或临时设备,例如备用的文件服务器、数据库服务器等.
详细描述请参见附录可以利用的冗余或临时设备.
完成备件10备件列出用户的备件情况、获取方式和获取所需的时间,办事处可提供的备件和获取方式.
详细描述请参见附录备件.
完成外购件信息11外购件服务信息是否过保、厂家联系方式、序列号、厂家的维保承诺条款(7*24,5*8).
详细描述请参见附录外购件服务信息.
完成证件12进入机房时的必需证件例如,身份证、签证、工卡、机房出入许可证等.
完成FusionCloud应急维护2应急准备文档版本01(2018-02-09)华为专有和保密信息版权所有华为技术有限公司42.
2历史重大维护信息表2-2历史重大维护信息序号说明准备情况2013-10XX软件/XX设备从XXX版本升级到XXX版本XXX2013-12扩容XXXXXXXXXXXXXXXFusionCloud应急维护2应急准备文档版本01(2018-02-09)华为专有和保密信息版权所有华为技术有限公司53故障场景及恢复指导3.
1整体说明3.
2网络故障3.
3存储故障3.
4主机故障3.
5局点特殊性问题3.
1整体说明(以下内容按场景描述,对于应急处理章节中的内容,请根据实际情况选择或补充故障场景)本章中的故障场景适用于FusionCloud解决方案,请根据局点实际情况参考或补充故障场景.
3.
2网络故障3.
2.
1汇聚交换机故障故障现象用户登录设备,登录不能成功,整个虚拟机网络中断.
告警信息无.
可能原因l电源模块故障l风扇模块故障FusionCloud应急维护3故障场景及恢复指导文档版本01(2018-02-09)华为专有和保密信息版权所有华为技术有限公司6l光模块故障l单板故障l接口故障l其他原因恢复操作步骤1检查电源模块.
l确认电源模块的开关是打开到ON.
l确认电源线缆已插牢.
l确认电源模块指示灯亮.
l电源模块运行正常,排除电源模块的故障.
步骤2检查风扇模块.
l确认风扇模块指示灯正常.
l设备运行正常,且无风扇告警,风扇噪音小.
l执行命令displaydevice查看风扇工作状态正常.
l执行命令displaydevicealarmhardware查看风扇叶片正常.
l风扇模块运行正常,排除风扇模块的故障.
步骤3查看接口.
l执行命令displayinterface[interface-type[interface-number]]查看端口状态为UP,状态正常.
l执行命令displayinterface[interface-type[interface-number]]查看接口报文统计信息,无丢包故障.
l接口状态正常,排除接口故障.
步骤4通过displaydevice检查单板正常,排除单板故障.
步骤5检查光模块.
两个光接口通过光纤对接,端口处于Down状态,光模块对接不通.
处理如下:l查看该光模块是否经过华为认证的,华为全系列交换机要求使用经过华为认证的光模块,非认证光模块可靠性无法保证,可能导致业务不稳定.
l检查光模块和光纤匹配正常.
l执行命令displayinterfacetransceiver查看"Alarminformation"下光模块是否有告警信息.
displayinterface10ge1/0/1transceiver10GE1/0/1transceiverinformation:Commoninformation:TransceiverType:10GBASE_SRConnectorType:LCWavelength(nm):850TransferDistance(m):80(50um),30(62.
5um),300(OM3)DigitalDiagnosticMonitoring:YESVendorName:AVAGOVendorPartNumber:AFBR-703SDZOrderingName:Manufactureinformation:FusionCloud应急维护3故障场景及恢复指导文档版本01(2018-02-09)华为专有和保密信息版权所有华为技术有限公司7Manu.
SerialNumber:AD1148A07G7ManufacturingDate:2011-12-05VendorName:AVAGOAlarminformation:LOSAlarm出现LOSAlarm告警,则说明对端没有信号发送过来,在接口模式下执行命令displaythis查看两端端口是否为shutdown.
如果是,表面端口被人为关闭,执行undoshutdown操作.
----结束建议与总结l汇聚交换机硬件故障,可以从电源、风扇、光模块、接口和丢包几个方面去一一排查.
l此案例光模块的故障,可以从光模块是否经过华为认证、光模块是否和光纤不匹配、端口是否被人为关闭、发送/接受光功率过低或过高等几方面去查找问题.
3.
2.
2防火墙故障故障现象用户在使用虚拟机的过程中,虚拟机网络突然中断.
告警信息无.
可能原因原因分析如下:l防火墙硬件故障.
l设备接口出现故障.
lARP表出现问题.
l会话表满导致无法新建会话.
l会话表老化过快,导致部分业务中断.
l虚拟机IP被加入黑名单.
lDNS或网关被加入黑名单.
定位思路如下:l检查防火墙电源、风扇、主控板、单板等状态.
l检查接口状态,确认是否因为上下行接口出现故障,导致网络中断.
l查看ARP表是否异常,如表项满.
l查看会话表项数量是否异常,确认会话表的老化时间是否配置恰当.
会话表老化时间设的过长,会导致会话表老化缓慢,当会话表资源被大量消耗后,新的会话无法建立,从而导致新的网络连接无法建立.
如果配置的老化时间过短,则会正在使用的连接的会话被清除,导致业务中断.
l查看黑名单列表,确认是否包含了故障主机的IP地址或DNS服务器的IP地址.
FusionCloud应急维护3故障场景及恢复指导文档版本01(2018-02-09)华为专有和保密信息版权所有华为技术有限公司8恢复操作步骤1通过displaydevice/displayenvironment命令可以查看设备各部件(主控板、单板、风扇、电源等)的运行状态及内存CPU的使用率,通常在硬件发生故障时使用.
如果登录不上防火墙,可以人工检查设备是否掉电、风扇是否温度过高、单板是否故障等.
步骤2使用displayinterface命令查看设备接口状态正常,确认上下行的接口状态为UP.
步骤3使用displayarp命令查看ARP表项,确认数量正常,没有异常表项,如上下游设备的IP和MAC不对应.
使用reset命令清空表项,确认是否恢复正常.
如果仍然有故障则可能遭到了ARP攻击,在系统视图下执行命令firewalldefendarp-flood开启arp-flood攻击防范功能可以有效解决该问题.
步骤4使用displayfirewallsessiontable命令查看会话表数目,与网络正常时相比过多.
通常用户在完成配置后需要根据自己网络实际情况调整业务会话的时间,如果经常发现会话数量过多,可以使用firewallsessionaging-time命令将业务老化时间改短,以加快表项的老化.
注意通过resetfirewallsessiontable命令可以清除所有会话,但是清除会话会导致目前正在使用的所有业务中断,请谨慎使用.
建议通过后边使用protocol、source等参数精确清除一些会话.
步骤5使用displayfirewallblacklistitem命令查看黑名单列表,不包含了上网用户、DNS、网关等IP地址.
黑名单引起的故障,通常是因为用户误操作、攻击防范、病毒等导致,这些都会导致10分钟(缺省情况)无法访问网络.
查看命令中可以看到加入黑名单的原因,系统视图下执行undofirewallblacklistitem命令手工清除黑名单列表后即恢复正常.
----结束建议与总结会话表是设备转发的基础,会话表各表项配置的老化时间对业务影响较大.
通常情况下,缺省的配置即可满足一般用户需求.
l如果用户较多,可以适当降低会话表的老化时间,从而不会因为会话过多,导致新用户无法访问网络.
l如果用户有长时间无流量还需要保持连接的业务,可以在域间配置长连接功能.
3.
2.
3汇聚交换机和防火墙链接中断故障现象用户登录设备,登录不能成功,整个虚拟机网络中断.
告警信息无.
FusionCloud应急维护3故障场景及恢复指导文档版本01(2018-02-09)华为专有和保密信息版权所有华为技术有限公司9可能原因l设备没有上电、线缆没有连接好.
l两边设备接口出现故障.
l接口被人为关闭.
l双绞线、光纤过长或链路损耗太大.
l接口双工、速率协商模式不一致.
l交换机与防火墙之间的端口被生成协议阻塞.
恢复操作步骤1检查本端和对端设备是否上电,设备线缆、模块是否插好.
排除网线问题:l不存在接触不良或网线外部损坏的情况.
l不存在网线中4对线中有部分出现损坏.
排除接口问题:l不存在网线接口内部金属弹片凹陷或偏位.
l执行loopbackinternal,查看接口的环回检测功能正常.
步骤2在系统视图下执行interfaceinterface-typeinterface-number进入故障接口视图,查看设备接口状态,确认上下行的接口状态是UP,然后执行displaythis命令查看接口是否执行了shutdown操作,排除接口故障、被认为关闭.
步骤3检查设备两端接口双工、速率、协商模式是否一致.
分别在设备两端执行displayinterface命令查看接口的双工、速率、协商模式信息.
检查项显示信息解释说明后续操作Negotiation接口自协商状态.
l显示信息是"ENABLE"表示接口工作在自协商状态下.
l显示信息是"DISABLE"表示接口工作在非自协商状态下.
保持两边的协商模式一致,要么都工作在自协商模式下,要么都工作在非自协商模式下.
在接口视图下可以使用negotiationauto命令调整接口的自协商模式.
如果自协商模式下接口仍然频繁Down,可以尝试将接口改成非自协商模式,强制两边速率、双工一致.
Speed接口当前速度.
在非自协商模式下如果设备两端接口速率不一致,请在接口视图下执行speed命令调整接口速率一致.
Duplex接口双工状态.
在非自协商模式下如果设备两端接口双工不一致,请在接口视图下执行duplex命令调整接口双工一致.
FusionCloud应急维护3故障场景及恢复指导文档版本01(2018-02-09)华为专有和保密信息版权所有华为技术有限公司10检查项显示信息解释说明后续操作Mdi接口的网线适应方式.
lacross:表示接口的网线适应方式为交叉网线.
lauto:表示接口的网线适应方式为自动识别网线.
即与该接口实际连接的网线类型既可以使用直通网线也可以使用交叉网线.
lnormal:表示接口的网线适应方式为直通网线.
保证两端设备接口的网线适应方式和网线类型一致,缺省情况下网线适应方式为auto模式,如果接口网线适应方式为非auto模式建议使用mdi命令更改为auto模式.
步骤4检查设备两端链路、接口模块是否故障.
设备之间是通过双绞线连接,需要做如下检查.
检查项检查标准后续操作用测试仪测试双绞线是否故障.
测试仪显示双绞线正常.
如果检查出线缆故障,请更换线缆.
设备间双绞线长度是否满足要求.
设备间线缆长度displayospflsdbOSPFProcess1withRouterID1.
1.
1.
1LinkStateDatabaseArea:0.
0.
0.
0TypeLinkStateIDAdvRouterAgeLenSequenceMetricRouter4.
4.
4.
44.
4.
4.
4141048800000031562Router2.
2.
2.
22.
2.
2.
22488000001C1562Router1.
1.
1.
11.
1.
1.
1636800015D01562Network22.
22.
22.
12.
2.
2.
2732800000010Network11.
11.
11.
22.
2.
2.
22332800000020displayospflsdbOSPFProcess1withRouterID1.
1.
1.
1LinkStateDatabaseArea:0.
0.
0.
0TypeLinkStateIDAdvRouterAgeLenSequenceMetricRouter4.
4.
4.
44.
4.
4.
4141148800000031562Router2.
2.
2.
22.
2.
2.
23488000001C1562Router1.
1.
1.
11.
1.
1.
1036800015D31562Network22.
22.
22.
12.
2.
2.
2832800000010Network11.
11.
11.
22.
2.
2.
22432800000020FusionCloud应急维护3故障场景及恢复指导文档版本01(2018-02-09)华为专有和保密信息版权所有华为技术有限公司15步骤4每隔一秒在设备上输入displayospfrouting,查看是否有路由在振荡.
displayospfroutingOSPFProcess1withRouterID2.
2.
2.
2RoutingTablesRoutingforNetworkDestinationCostTypeNextHopAdvRouterArea33.
33.
33.
0/243124Transit22.
22.
22.
24.
4.
4.
40.
0.
0.
022.
22.
22.
0/241562Transit22.
22.
22.
12.
2.
2.
20.
0.
0.
011.
11.
11.
0/241562Transit11.
11.
11.
22.
2.
2.
20.
0.
0.
0TotalNets:3IntraArea:3InterArea:0ASE:0NSSA:0displayospfroutingOSPFProcess1withRouterID2.
2.
2.
2RoutingTablesRoutingforNetworkDestinationCostTypeNextHopAdvRouterArea22.
22.
22.
0/241562Transit22.
22.
22.
12.
2.
2.
20.
0.
0.
011.
11.
11.
0/241562Transit11.
11.
11.
22.
2.
2.
20.
0.
0.
0TotalNets:2IntraArea:2InterArea:0ASE:0NSSA:步骤5查看OSPF邻居是否震荡频繁.
如果邻居震荡频繁,通过查看日志信息可以查看到引起邻居震荡的原因.
主要是由于建立OSPF邻居关系的接口震荡或者Hello报文协商不正确.
如果接口问题,需要排查传输或中间链路,修改接口双工,速率;如果是两端Hello报文不正确,需要修改两端Hello报文的参数,保持一致.
步骤6如果路由频繁振荡,在没有邻居振荡的情况下,可以判断为RouterID冲突.
步骤7执行displayospflsdbrouter命令,查看LSA.
displayospfspf-statisticsverboseOSPFProcess163withRouterID113.
98.
9.
7Routingtablechangestatistics:Index:1ThisspfcalculationisIntrafullcalculationTime:2011-09-20,07:54:07Intra:0Added,0DeletedInter:0Added,0DeletedExternal:0Added,0DeletedThereasonofcalculationis:LSANO.
TypeLSIDAdvRouter1Router192.
168.
1.
1192.
168.
1.
1Index:2ThisspfcalculationisIntrafullcalculationTime:2011-09-20,07:54:02Intra:0Added,0DeletedInter:0Added,0DeletedExternal:0Added,0DeletedThereasonofcalculationis:LSANO.
TypeLSIDAdvRouter1Router192.
168.
1.
1192.
168.
1.
1l如果Type为Router,则可以判定是区域内RouterID冲突,则手动修改冲突的RouterID.
l如果Type为Network,则可以判定是区域间RouterID冲突,则手动修改冲突的RouterID.
l如果Type为Sum-Asbr或External,则需要进一步判断是否为区域间RouterID冲突,如果是RouterID冲突,则手动修改冲突的RouterID.
步骤8另一类特殊的情况是虚连接的场景,错误的OSPFVlink配置会导致设备路由频繁震荡CPU高.
Vlink必须成对配置.
步骤9抓包分析是否由于HELLO报文大量发送,形成广播风暴.
步骤10如果问题不能解决,请联系华为技术支持.
----结束FusionCloud应急维护3故障场景及恢复指导文档版本01(2018-02-09)华为专有和保密信息版权所有华为技术有限公司16建议与总结l合理规划网络的IP地址段与设备的router-id,尽量避免因为router-id冲突带来的问题.
l合理设计网络,避免网络中出现Vlink,减少广播流量.
3.
2.
6因遭受攻击,病毒等导致网络流量拥塞,虚拟机无法通信故障现象虚拟机无法通信.
告警信息无.
可能原因l网络中存在大量的广播报文,导致丢弃部分数据包.
l遭到DDOS攻击,导致转发普通报文速度变慢.
l病毒攻击.
l其他原因.
恢复操作步骤1查看端口流量统计.
[Quidway-GigabitEthernet12/0/12]displayinterfaceGigabitEthernet12/0/12GigabitEthernet12/0/12currentstate:UPDescription:HUAWEI,QuidwaySeries,GigabitEthernet12/0/12InterfaceSwitchPort,PVID:1,TheMaximumFrameLengthis9216IPSendingFrames'FormatisPKTFMT_ETHNT_2,Hardwareaddressis0025-9ef4-2153PortMode:COMMONFIBERSpeed:1000,Loopback:PHYDuplex:FULL,Negotiation:ENABLEMdi:NORMALLast300secondsinputrate16bits/sec,0packets/secLast300secondsoutputrate16bits/sec,0packets/sec---看出方向的报文计数是否已经接近达到端口带宽1G,这只是一个平均值,一般达到700M以上就有拥塞的可能,就需要看底层的Hold丢包计数Input:6packets,738bytesUnicast:0,Multicast:6Broadcast:0,Jumbo:0TotalError:0,Discard:0---如果discard存在计数,表明存在拥塞丢包CRC:0,Giants:0Jabbers:0,Throttles:0Runts:0,DropEvents:0Alignments:0,Symbols:0Ignoreds:0,Frames:0Output:6packets,738bytesUnicast:0,Multicast:6Broadcast:0,Jumbo:0---看广播报文计数和增加速度TotalError:0,Discard:0Collisions:0,LateCollisions:0ExcessiveCollisions:0,Deferreds:0BuffersPurged:0步骤2查看端口的队列统计.
使用displayqosqueuestatisticsinterfaceGigabitEthernet12/0/12查看队列统计值.
FusionCloud应急维护3故障场景及恢复指导文档版本01(2018-02-09)华为专有和保密信息版权所有华为技术有限公司17displayqosqueuestatisticsinterfaceGigabitEthernet12/0/12QueueCIR/PIR(kbps)Passed(Packet/Byte)Dropped(Packet/Byte)009,267,113126,104,5931000000593,095,2328,070,484,3521000100000000200010000000030001000000004000100000000500010000000060001000000007000100000000显示接口12/0/12的0号队列存在大量丢包,并且丢包在持续增长,表明当前存在拥塞.
步骤3确定被攻击端口和攻击源特征.
首先查看现网环境中是否存在环路,如果存在环路情况,需要破环处理.
其次查看端口的流量统计,确定端口流量增长较快的接口,通过端口镜像将该端口入向报文引至观察端口进行抓包分析,识别攻击报文的特征.
步骤4通过配置ACL策略过滤攻击源.
方法一:流策略如果攻击源IP为1.
1.
1.
1,使用流策略丢弃主机地址为1.
1.
1.
1的报文.
[Quidway-acl-adv-3011]disthis#aclnumber3011rule5permitipsource1.
1.
1.
10#return[quidway-classifier-1]dithis#trafficclassifier1operatororprecedence245if-matchacl3011#return[quidway-behavior-1]disthis#trafficbehavior1deny#return[quidway-trafficpolicy-1]disthis#trafficpolicy1classifier1behavior1#return[quidway-gigabitethernet3/0/3]traffic-policy1inboundFusionCloud应急维护3故障场景及恢复指导文档版本01(2018-02-09)华为专有和保密信息版权所有华为技术有限公司18如果无法识别攻击源,推荐另外两种抑制方法.
方法二:流量抑制如下配置,流量抑制后的广播、未知单播报文速率为最大100kbit/s,组播报文的速率为接口速率的30%.
[Quidway–GigabitEthernet12/0/12]displaythis#interfacegigabitethernet12/0/12unicast-suppressioncir100cbs18800multicast-suppression30broadcast-suppressioncir100cbs18800#return方法三:风暴抑制对接口GigabitEthernet12/0/12接收的广播报文进行风暴控制.
在风暴控制检测时间间隔内,当报文的平均速率大于8000pps时,进行风暴控制;当报文的平均速率小于5000pps时,则进入正常转发状态.
[Quidway-GigabitEthernet12/0/12]displaythis#interfacegigabitethernet12/0/12storm-controlbroadcastmin-rate5000max-rate8000#return步骤5配置常用防病毒策略,参考如下.
[Quidwaylnumber3001[Quidway-acl-adv-3001]rule10denyudpdestination-porteq1434[Quidway-acl-adv-3001]rule20denytcpdestination-porteq135[Quidway-acl-adv-3001]rule30denyudpdestination-porteq135[Quidway-acl-adv-3001]rule40denytcpdestination-porteq137[Quidway-acl-adv-3001]rule50denytcpdestination-porteq138[Quidway-acl-adv-3001]rule60denytcpdestination-porteq139[Quidway-acl-adv-3001]rule70denytcpdestination-porteq445[Quidway-acl-adv-3001]rule80denyudpdestination-porteqnetbios-dgm[Quidway-acl-adv-3001]rule90denytcpdestination-porteq4444[Quidway-acl-adv-3001]rule200permitip----结束建议与总结l建议客户合理划分VLAN,避免大量用户同处于一个广播域,建议每个VLAN中的用户如果超过1千个,即拆分使用新的VLAN.
l建议部署广播抑制,流量控制等功能防止攻击.
3.
3存储故障3.
3.
1存储阵列磁盘故障,导致该故障盘所在的LUN响应缓慢,影响虚拟化平台业务故障现象虚拟机无法正常使用,主要现象为无法登录或者登录后无法操作.
FusionCloud应急维护3故障场景及恢复指导文档版本01(2018-02-09)华为专有和保密信息版权所有华为技术有限公司19告警信息磁盘阵列有磁盘故障告警.
可能原因l磁盘故障,导致该磁盘所在的RAID组故障,RAID重构.
l磁盘故障,导致该磁盘所在的RAID组响应超时.
恢复操作步骤1登录ISM查看具体告警信息,如果为磁盘故障导致该磁盘所在的RAID组重构,则只需更换故障磁盘.
RAID重构过程会有业务性能下降,但不会中断业务.
步骤2如果有RAID组响应超时告警,且业务中断,则可能为:某些存储软件版本对"故障读写IO命令持续超时,但abort消息成功,该比较少见故障现象"类似故障盘容错机制不完善,导致持续进行IO重试尝试挽救该盘,但该盘IO始终响应超时,无法及时响应主机IO,最终导致业务异常.
此时需及时拔掉故障磁盘,使该磁盘所在的RAID组重构,以恢复业务.
上层部分虚拟机业务可能需要重新启动虚拟机来恢复.
----结束建议与总结l升级存储设备软件到最新版本.
l升级存储前,定期收集存储信息,特别是针对硬盘的深度巡检,提前发现可能有风险的硬盘并进行提前更换.
3.
4主机故障3.
4.
1云主机IO性能问题故障现象XX局点实施遇到了一些硬件性能问题.
在并发IO操作时,单台虚拟机达不到之前客户要求的IO标准.
从目前情况来看IO速度是正常标准的1/4,Hadoop计算过程受影响严重.
l单台测试IO速率:160MB/秒l并发测试单台速率:40-60MB/秒,平均值大概50MB/秒告警信息无.
可能原因l虚拟化软件问题FusionCloud应急维护3故障场景及恢复指导文档版本01(2018-02-09)华为专有和保密信息版权所有华为技术有限公司20lSAN网络带宽问题l存储机头问题定位操作步骤1检查虚拟化OS兼容性,发现存储IO转发正常.
步骤2检查存储网络带宽,存储网络带宽采用GE链路捆绑,资源利用率不到50%,不存在带宽瓶颈问题.
步骤3从局点返回的测试数据来看,单台虚拟机进行dd测试,带宽可以达到160MB/s,而IPSANS5600受机头控制器带宽的限制,再加上存储系统消耗部分带宽,实际单控极限在200MB/s以内,局点测试160MB/s基本已达到带宽极限,可优化空间很小.
而局点使用9台虚拟机同时进行dd测试,9台虚拟机分布在9个不同的RAID组和LUN上面,其中有3个虚拟机用户分布在SAN02的A控,3个虚拟机用户分布在SAN02的B控,另外2个虚拟机用户分布在SAN01的B控,另外一个分布在SAN01的A控,详细分布如下:如以上虚拟机用户的分布情况,分布在一边控制器的虚拟机用户是共享存储单控200MB/s的带宽资源的,因此对于这些有3个虚拟机用户共享存储一边控制器的情况,单台虚拟机用户测试带宽达到60MB/s属于正常现象.
----结束建议与总结根据以上虚拟机的分布情况,SAN02上相比SAN01上分布的虚拟机用户较多,可能会导致SAN02上分布的虚拟机用户性能较低的情况,建议将9个虚拟机用户的9个数据盘和系统盘平均分配在2台IPSAN的4个不同的控制器上,这样可以最有效的利用存储资源,避免部分虚拟机用户性能较差的情况,但最终受存储单边控制器带宽资源的限制,9台虚拟机用户总带宽改进不明显.
3.
4.
2主机ARP病毒导致云网络中断故障现象XX局点收到部分客户的反馈,无法登录虚拟机.
并且局点维护人员反馈说ISP防火墙管理IP无法PING通,串口也无法登录,导致大部分客户的虚拟机访问响应速度慢.
告警信息防火墙CPU使用率过高.
FusionCloud应急维护3故障场景及恢复指导文档版本01(2018-02-09)华为专有和保密信息版权所有华为技术有限公司21可能原因l防火墙问题l交换机问题l底层业务主机问题恢复操作步骤1检查其他设备都连接正常,并且没有告警产生,能够串口接入防火墙,远程接入后,进行相应检查,发现防火墙管理平面CPU使用率>80%,有时会超过90%,在logbuffer和trapbuffer里也发现了防火墙的主备切换日志.
检查发现,防火墙的G2/0/0口收到每秒百万级的广播报文,并且这个广播报文是由内部系统产生的.
步骤2经过排查,发送的大量ARP广播包的是SOPHOS软件防火墙这台虚拟机,在该软件防火墙上配置了接口地址、NAT地址转换等.
客户未按照专线接入方案的设计去配置,在软件防火墙的出口上直接配置了一个公网IP地址,另外在软件防火墙上的部分未知配置,也可能导致该软件防火墙不断的发出ARP广播攻击.
通过关闭该虚拟机,业务恢复.
通过抓包文件发现该虚拟机以微秒级的速度发送大量的ARP广播包.
步骤3防火墙管理IP不通以及防火墙主备切换的原因.
E1000E-X是一个多核设备,分为数据面(有28个VCPU)和管理面(1个VCPU),数据面用来转发数据,管理面用于协议处理,如OSPF、BGP、HRP、定时器、AAA认证、Web、Telnet、SSH登录、ARP处理等等.
当网络出现大量广播报文时,数据面会将广播报文上送到管理面处理.
由于只有一个VCPU,瞬间百万级的广播报文导致管理面CPU高,进而可能会影响其他协议得不到及时处理,因此会出现PING不通、HRP切换、ARP异常等问题.
步骤4VM响应速度慢以及无法登录的原因.
l由于大量的ARP广播包,造成内网网络拥塞.
l防火墙根墙和S6324交换机之间运行了OSPF动态路由协议.
过高的管理平面CPU将导致OSPF路由、ARP等出现异常.
----结束FusionCloud应急维护3故障场景及恢复指导文档版本01(2018-02-09)华为专有和保密信息版权所有华为技术有限公司22建议与总结数据中心网络安全加固:l需要在防火墙开启防止ARP广播防护功能.
l在数据中心接入交换机端口配置"广播抑制"功能,当大量异常ARP广播包产生超过抑制阀值,将会丢弃避免对网络产生影响.
3.
5局点特殊性问题根据局点调测和运维过程中发现的特殊问题进行补充和完善.
FusionCloud应急维护3故障场景及恢复指导文档版本01(2018-02-09)华为专有和保密信息版权所有华为技术有限公司234故障恢复验证4.
1故障恢复确认责任人及工作内容4.
2遗留问题及处理责任人4.
1故障恢复确认责任人及工作内容表4-1故障恢复确认责任人及工作内容序号任务责任人1业务是否正常现场工程师/局点责任人2系统日志是否有报错现场工程师/局点责任人3日志级别是否为正常状态现场工程师/局点责任人4调试工具是否关闭现场工程师/局点责任人5远程接入环境是否关闭/恢复客户6远程桌面、SSH是否正常可用客户7虚拟机磁盘访问是否正常客户说明故障恢复必须得到用户维护人员的确认.
4.
2遗留问题及处理责任人表4-2遗留问题及处理责任人序号遗留问题描述处理责任人计划解决时间1XXXXXXXXXXFusionCloud应急维护4故障恢复验证文档版本01(2018-02-09)华为专有和保密信息版权所有华为技术有限公司24序号遗留问题描述处理责任人计划解决时间2XXXXXXXXXXFusionCloud应急维护4故障恢复验证文档版本01(2018-02-09)华为专有和保密信息版权所有华为技术有限公司255应急处理流程5.
1重大故障处理流程5.
2客户应急机制5.
3应急小组名单、联系方式及相应职责5.
1重大故障处理流程5.
1.
1公司重大事故处理和通报流程参见公司重大事故处理和通报流程.
5.
1.
2XX办事处重大事故通报及处理补充流程XX办事处重大事故通报规定(根据本局的要求阐述重大事故通报规定)l对于重大事故,技术支持责任人或合作督导受理问题申告后,必须在5分钟内通报产品经理和服务经理.
l产品经理接到事故通报5分钟内通报技术服务部主任和产品行销部经理.
l服务经理接到事故通报5分钟内通报技术服务部主任和市场系统部主任.
l技术支持责任人在事故处理中必须按照《设备重大事故通报管理制度》向公司进行故障申报和解决求助.
l合作单位人员受理的,必须在5分钟内通报技术支持责任人或产品经理,由技术支持责任人或产品经理通报服务经理.
事故通报流程如下图所示(根据实际要求刷新附图).
FusionCloud应急维护5应急处理流程文档版本01(2018-02-09)华为专有和保密信息版权所有华为技术有限公司265.
2客户应急机制5.
2.
1客户响应机制(请根据实际情况补充、修改;详细描述与代表处重大事故完全匹配的通报流程.
通报包括管理层面的通报和技术层面的通报两方面,这两方面的接口人信息都需提供.
)客户事故通报与处理机制:(谁通报到谁,报到那个层面,怎样处理)机房值班人员-机房班长XXX-运维主任XXX-运维副总XXX.
由运维主任负责组织事故处理的指挥协调,机房班长为事故处理人员.
客户备件、维护工具(斜口钳、万用表、螺丝刀等)供应方法:备件由客户备件管理人员XXX负责提供;上述维护工具机房班长XXX提供,维护工具放置于XX位置.
搬瓦工vps(bandwagonhost)现在面向中国大陆有3条顶级线路:美国 cn2 gia,香港 cn2 gia,日本软银(softbank)。详细带宽是:美国cn2 gia、日本软银,都是2.5Gbps~10Gbps带宽,香港 cn2 gia为1Gbps带宽,搬瓦工是目前为止,全球所有提供这三种带宽的VPS(云服务器)商家里面带宽最大的,成本最高的,没有第二家了! 官方网站:https...
licloud怎么样?licloud目前提供香港cmi服务器及香港CN2+BGP服务器/E3-1230v2/16GB内存/240GB SSD硬盘/不限流量/30Mbps带宽,$39.99/月。licloud 成立於2021年,是香港LiCloud Limited(CR No.3013909)旗下的品牌,主要提供香港kvm vps,分为精简网络和高级网络A、高级网络B,现在精简网络和高级网络A。现在...
部落曾经在去年分享过一次Boomer.host的信息,商家自述始于2018年,提供基于OpenVZ架构的VPS主机,配置不高价格较低。最近,主机商又在LET发了几款特价年付主机促销,最低每年仅4.95美元起,有独立IPv4+IPv6,开设在德克萨斯州休斯顿机房。下面列出几款VPS主机配置信息。CPU:1core内存:512MB硬盘:5G SSD流量:500GB/500Mbps架构:KVMIP/面板...