设备蒲公英官网sdwan

蒲公英官网sdwan  时间:2021-04-03  阅读:()
H3CSeerEngine-SDWAN控制器故障处理手册资料版本:5W101-20200525Copyright2020新华三技术有限公司版权所有,保留一切权利.
非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播.
除新华三技术有限公司的商标外,本手册中出现的其它公司的商标、产品标识及商品名称,由各自权利人拥有.
本文档中的信息可能变动,恕不另行通知.
i目录1简介11.
1故障处理注意事项11.
2收集SeerEngine-SDWAN控制器运行信息11.
2.
1收集网络拓扑信息·11.
2.
2收集SeerEngine-SDWAN控制器日志信息31.
3故障处理求助方式52页面访问故障处理·62.
1页面显示不全或功能不可用·62.
1.
1故障描述62.
1.
2故障处理步骤·62.
2访问页面时响应时间过长62.
2.
1故障描述62.
2.
2故障处理步骤·62.
3页面无法访问·62.
3.
1故障描述62.
3.
2故障处理步骤·63拓扑收集不完整故障处理93.
1节点收集不完整·93.
1.
1故障描述93.
1.
2故障处理步骤·93.
2拓扑管理页面设备位置显示异常·93.
2.
1故障描述93.
2.
2故障处理步骤·93.
3物理链路收集不完整·103.
3.
1故障描述103.
3.
2故障处理步骤·104设备管理故障处理·114.
1设备列表及自动发现设备列表中均没有设备114.
1.
1故障描述114.
1.
2故障处理步骤·114.
2自动发现设备列表中设备自动上报后被删除114.
2.
1故障描述11ii4.
2.
2故障处理步骤·114.
3设备无法上线·114.
3.
1故障描述114.
3.
2故障处理步骤·114.
4获取设备信息异常144.
4.
1故障描述144.
4.
2故障处理步骤·144.
5设备/链路状态异常144.
5.
1故障描述144.
5.
2故障处理步骤·145拓扑管理故障处理·155.
1手动添加链路为灰色·155.
1.
1故障描述155.
1.
2故障处理步骤·155.
2自动上报链路为灰色·155.
2.
1故障描述155.
2.
2故障处理步骤·155.
3获取链路信息异常165.
3.
1故障描述165.
3.
2故障处理步骤·166链路标签分配故障处理·176.
1链路标签功能异常176.
1.
1故障描述176.
1.
2故障处理步骤·176.
2链路标签分配失败176.
2.
1故障描述176.
2.
2故障处理步骤·177节点标签分配故障处理·197.
1节点标签功能异常197.
1.
1故障描述197.
1.
2故障处理步骤·197.
2节点标签分配失败197.
2.
1故障描述197.
2.
2故障处理步骤·198应用组实例选路故障处理218.
1应用组实例无路径21iii8.
1.
1故障描述218.
1.
2故障处理步骤·218.
2应用组实例路径不符合预期·218.
2.
1故障描述218.
2.
2故障处理步骤·218.
3应用组实例不满足SLA策略时没有调整路径·228.
3.
1故障描述228.
3.
2故障处理步骤·228.
4添加应用组后,应用无法调度/可视·228.
4.
1故障描述228.
4.
2故障处理步骤·229业务流量转发故障处理·259.
1业务流量未按照指定路径转发259.
1.
1故障描述259.
1.
2故障处理步骤·259.
2一些基于TCP的业务无法访问259.
2.
1故障描述259.
2.
2故障处理步骤·2510分支场景异常故障处理·2610.
1分支场景设备零配置上线失败处理·2610.
1.
1故障描述2610.
1.
2故障处理步骤·2610.
2分支场景VXLAN隧道/Overlay网络下发失败2810.
2.
1故障描述2810.
2.
2故障处理步骤·2810.
3分支场景应用组调度不生效,流量转发异常3010.
3.
1故障描述3010.
3.
2故障处理步骤·3011VXLAN专线故障处理·3411.
1VXLAN专线创建失败·3411.
1.
1故障描述3411.
1.
2故障处理步骤·3411.
2VXLAN专线成员创建失败3411.
2.
1故障描述3411.
2.
2故障处理步骤·3411.
3VXLAN专线成员状态异常35iv11.
3.
1故障描述3511.
3.
2故障处理步骤·3511.
4专线创建后流量无法正常转发3511.
4.
1故障描述3511.
4.
2故障处理步骤·3511.
5专线链路颜色为灰色·3611.
5.
1故障描述3611.
5.
2故障处理步骤·3612运维管理故障处理3712.
1链路带宽统计异常3712.
1.
1故障描述3712.
1.
2故障处理步骤·3712.
2链路质量统计异常3712.
2.
1故障描述3712.
2.
2故障处理步骤·3812.
3质量探测数据有误3812.
3.
1故障描述3812.
3.
2故障处理步骤·3812.
4应用组带宽统计异常·3912.
4.
1故障描述3912.
4.
2故障处理步骤·3912.
5应用组带宽超出实际带宽4012.
5.
1故障描述4012.
5.
2故障处理步骤·4012.
6链路上应用统计异常·4012.
6.
1故障描述4012.
6.
2故障处理步骤·4012.
7应用限速不生效4112.
7.
1故障描述4112.
7.
2故障处理步骤·4112.
8历史信息页面无响应·4112.
8.
1故障描述4112.
8.
2故障处理步骤·4112.
9历史信息统计异常4312.
9.
1故障描述4312.
9.
2故障处理步骤·43v13产品授权故障处理4413.
1获取设备信息文件时出现错误4413.
1.
1故障描述4413.
1.
2故障处理步骤4413.
2在注册License文件时,提示"License文件非法"4413.
2.
1故障描述4413.
2.
2故障处理步骤4413.
3临时License信息到期失效·4413.
3.
1故障描述4413.
3.
2故障处理步骤4414MongoDB集群同步故障处理4614.
1首次建立集群失败4614.
1.
1故障描述4614.
1.
2故障处理步骤·4614.
2集群建立后,在备控制器上无法显示相关数据·4714.
2.
1故障描述4714.
2.
2故障处理步骤·4714.
3建立集群后,主和备控制器均无法显示相关数据4914.
3.
1故障描述4914.
3.
2故障处理步骤·4914.
4数据库集群大数据同步耗时较长·5014.
4.
1故障描述5014.
4.
2故障处理步骤·5215控制器运行异常故障处理5315.
1磁盘空间不足导致控制器异常退出·5315.
1.
1故障描述5315.
1.
2故障处理步骤·5315.
2端口文件不存在导致控制器无法正常退出·5415.
2.
1故障描述5415.
2.
2故障处理步骤·5415.
3控制器集群2个成员异常导致不可用5515.
3.
1故障描述5515.
3.
2故障处理步骤·5511简介本文档介绍H3CSeerEngine-SDWAN控制器常见故障的诊断及处理措施.
1.
1故障处理注意事项设备出现故障时,请尽可能全面、详细地记录现场信息(包括但不限于以下内容),收集信息越全面、越详细,越有利于故障的快速定位.
记录您所使用的H3CSeerEngine-SDWAN控制器版本、Linux操作系统版本.
记录具体的故障现象、故障时间、配置信息.
记录完整的网络拓扑,包括但不限于组网图、端口连接关系、故障位置.
收集网络拓扑信息和日志信息(收集方法见"1.
2收集SeerEngine-SDWAN控制器运行信息").
记录现场采取的故障处理措施(比如配置操作、插拔线缆、手工重启设备)及实施后的现象和结果.
记录故障处理过程中配置的所有命令行显示信息.
1.
2收集SeerEngine-SDWAN控制器运行信息1.
2.
1收集网络拓扑信息您可以通过如下步骤,查看网络拓扑信息.
(1)在浏览器(如Chrome)中输入控制器GUI的登录地址(格式为:http://Controller_IP_address:10080/portal/,例如http://192.
168.
116.
33:10080/portal/),回车后打开控制器GUI的登录界面.
输入用户名和密码后,单击按钮,然后单击[应用驱动广域网]菜单项,进入SeerEngine-SDWAN控制器GUI界面.
(2)在控制器GUI界面中,单击[保障/网络/拓扑管理]菜单项进入拓扑信息页面,在该页面可查看全网拓扑信息,包括所有的设备和链路.
2图1-1拓扑信息页面(3)单击[基础网络/资源/设备管理]菜单项,进入设备信息页面.
在该页面可查看所有设备的完整信息.
图1-2设备信息页面(4)单击[基础网络/资源/物理链路]菜单项,进入物理链路信息页面.
在该页面可查看所有链路的完整信息.
图1-3链路管理页面31.
2.
2收集SeerEngine-SDWAN控制器日志信息1.
收集诊断日志SeerEngine-SDWAN控制器运行过程中会产生诊断日志.
诊断日志储存在固定目录/var/log/h3c-diag/VCFCWAN/adwan/adwanlog路径下,可直接在GUI页面导出所有诊断日志或通过SecureFX、SSH等方式导出该目录下所有文件.
请尽可能收集所有文件,以方便定位问题.
您可以通过如下步骤,在GUI页面导出SeerEngine-SDWAN控制器的诊断日志.
(1)在浏览器(如Chrome)中输入控制器GUI的登录地址(格式为:http://Controller_IP_address:10080/portal/,例如http://192.
168.
116.
33:10080/portal/),回车后打开控制器GUI的登录界面.
输入用户名和密码后,单击按钮进入控制器GUI界面.
(2)进入[设置/日志/信息/诊断日志]菜单项,选择组件"SeerEngine-SDWAN",单击按钮可导出控制器内部所有诊断日志,包括netconf.
log和karaf.
log文件.
图1-4数据导出页面表1-1SeerEngine-SDWAN控制器诊断日志介绍分类文件名内容netconf文件夹netconf.
logNETCONF模块产生的记录信息karaf.
logkaraf.
log.
*ODL产生的记录信息4当karaf.
log日志文件写满产生新的日志文件时,SeerEngine-SDWAN控制器会将旧的日志文件名自动更新为karaf_{年份}-{星期}_{该年份该星期第几份}.
log.
zip,原有的文件名及其后的文件名序号按顺序递增.
当SeerEngine-SDWAN控制器异常退出时,只能通过SecureFX、SSH等方式导出日志目录下所有文件.
2.
收集操作日志/系统日志您可以通过如下步骤,在GUI页面导出SeerEngine-SDWAN控制器的操作日志.
(1)在浏览器(如Chrome)中输入控制器GUI的登录地址(格式为:http://Controller_IP_address:10080/portal/,例如http://192.
168.
116.
33:10080/portal/),回车后打开控制器GUI的登录界面.
输入用户名和密码后,单击按钮进入控制器GUI界面.
(2)进入[设置/日志/信息/操作日志]菜单项,选择组件"SeerEngine-SDWAN"和时间段,单击按钮,可导出控制器上指定时间段的操作日志.
图1-5数据导出页面(3)进入[系统日志]菜单项,选择组件"SeerEngine-SDWAN"和时间段,单击按钮,可导出控制器上指定时间段的系统日志.
5图1-6数据导出页面1.
3故障处理求助方式当故障无法自行解决时,请准备好设备运行信息、故障现象等材料,发送给H3C技术支持人员进行故障定位分析.
用户支持邮箱:service@h3c.
com技术支持热线电话:400-810-0504(手机、固话均可拨打)62页面访问故障处理2.
1页面显示不全或功能不可用2.
1.
1故障描述在浏览器中输入IP地址访问SeerEngine-SDWAN控制器时,页面显示不全或功能不可用.
2.
1.
2故障处理步骤造成故障的原因可能为:浏览器版本过低且不支持HTML5.
显示器分辨率过低.
故障处理步骤如下:(1)请使用控制器安装指导中推荐使用的浏览器版本.
(2)如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师.
2.
2访问页面时响应时间过长2.
2.
1故障描述通过浏览器访问页面时响应时间过长.
2.
2.
2故障处理步骤造成故障的原因可能为:网络异常或网络质量不佳.
客户端配置未达到要求.
故障处理步骤如下:(1)请检测网络质量,建议网络延迟不高于200ms.
(2)请保证客户端PC可用的内存不低于4G.
(3)如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师.
2.
3页面无法访问2.
3.
1故障描述在浏览器中输入IP地址访问SeerEngine-SDWAN控制器时,提示无法访问.
2.
3.
2故障处理步骤造成故障的原因可能为:7客户端和SeerEngine-SDWAN控制器所在的服务器之间网络异常,或服务器的80端口被禁用.
SeerEngine-SDWAN控制器所在的服务器中的界面服务器(node)异常退出.
故障处理步骤如下:(1)在集群稳定情况下,在任意一台matrix服务器执行以下命令确定adwan主控制器:kubectlgetall-nsdwan-owide如果是标红的sdwan1,说明sdwan-node1是主控制器;如果是sdwan2,说明sdwan-node2是主控制器.
如果是标红的sdwan3,说明sdwan-node3是主控制器.
(2)执行如下命令进入主控制器容器.
其中阴影部分的参数需要根据环境中实际的主控制器容器ID修改.
kubectlexec-it-nsdwansdwan-node1-7b468668fd-pzcp9/bin/bash(3)输入命令ps-ef|grepjx,查看是否出现node进程.
如没有该进程,则通过如下命令重新启动前端进程:8cd/opt/ADWAN-WEB/nohupjx_ub64v8/jxadwan-web.
jx&(4)退出容器.
exit(5)如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师.
93拓扑收集不完整故障处理在安装SeerEngine-SDWAN控制器之前,请提前配置好组网环境,避免拓扑信息异常.
3.
1节点收集不完整3.
1.
1故障描述在拓扑管理页面或设备管理页面中显示的设备数量与实际组网中的设备数量不一致,则说明节点收集不完整.
3.
1.
2故障处理步骤故障处理步骤如下:(1)找到未上报的设备,通过ping命令检查控制器与设备间通信是否正常.
若通信异常,则需解决网络问题;若通信正常,直接进行下一步.
(2)重建BGP-LS邻居.
单击[基础网络/网络/网络定义]菜单项,取消勾选"建立BGP-LS邻居"选项,等待五分钟后,重新勾选"建立BGP-LS邻居"选项.
(3)在设备控制台上使用displaybgppeerlink-state命令查询BGP收集的节点数量.
若不同,请检查组网配置;若BGP收集到的节点数量与实际组网相同且故障未解决,直接进行下一步.
(4)若拓扑节点仍不完整,请进行如下操作:重启控制器.
控制器重启后会重新与设备建立连接,但会导致业务中断,请谨慎操作.
若当前场景下不允许重启控制器,可选择手动添加设备方式或联系H3C技术支持工程师.
手动添加设备.
单击[基础网络/资源/设备管理]菜单项,单击按钮,在弹出的"增加设备"对话框中,手动添加设备信息,单击按钮,完成设备添加.
3.
2拓扑管理页面设备位置显示异常3.
2.
1故障描述拓扑管理页面设备位置信息显示异常或出现乱码.
3.
2.
2故障处理步骤当控制器从E2108及之前版本升级到E2109及之后版本时,可能会出现设备位置信息丢失情况,导致拓扑管理页面设备位置异常或显示乱码,此时需重新设置设备位置.
故障处理步骤如下:(1)单击[基础网络/资源/设备管理]菜单项,在设备管理页面的"操作"区段单击按钮,选择[修改设备位置]选项,在弹出的对话框中修改设备位置信息.
(2)修改完成后请在[拓扑管理]页面查看设备位置是否显示正常.
如故障仍无法排除,请联系H3C技术支持工程师.
103.
3物理链路收集不完整3.
3.
1故障描述在物理链路页面中显示的链路数量与实际组网中的链路数量不一致,则说明链路收集不完整.
3.
3.
2故障处理步骤故障处理步骤如下:(1)单击[基础网络/资源/设备管理]菜单项,单击[设备发现与认证]页签,查看"BGP-LS拓扑自动发现"选项是否勾选,若未勾选,则勾选该选项并单击按钮;若已勾选,则取消勾选该选项并单击按钮,然后重新勾选该选项并单击按钮.
(2)重建BGP-LS邻居.
单击[基础网络/网络/网络定义]菜单项,取消勾选"建立BGP-LS邻居"选项,等待五分钟后,重新勾选"建立BGP-LS邻居"选项.
(3)在设备控制台上使用displaybgplink-state命令查询BGP收集的链路条数.
若不同,请检查组网配置;若BGP收集到的链路总条数与实际组网相同且故障未解决,直接进行下一步.
(4)若物理链路仍不完整,请进行如下操作:重启控制器.
控制器重启后会重新与设备建立连接,但会导致业务中断,请谨慎操作.
若当前场景下不允许重启控制器,可选择手动添加链路方式或联系H3C技术支持工程师.
手动添加链路,单击[基础网络/网络/物理链路]菜单项,单击按钮,在弹出的"增加链路"对话框中,手动添加链路信息,单击按钮,完成链路添加.
114设备管理故障处理4.
1设备列表及自动发现设备列表中均没有设备4.
1.
1故障描述设备配置自动上报之后,设备列表及自动发现列表中均无法查询到设备.
4.
1.
2故障处理步骤故障处理步骤如下:(1)请参考"3拓扑收集不完整故障处理"排查及处理设备上报不完整.
(2)在SeerEngine-SDWAN控制器中重新配置设备上报.
单击[基础网络/资源/设备管理]菜单项,单击[设备发现与认证]页签,配置设备注册、设备发现和设备管理方式等参数,单击按钮.
(3)如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师.
4.
2自动发现设备列表中设备自动上报后被删除4.
2.
1故障描述设备配置自动上报之后,在自动发现设备列表中可以查询到设备,但设备很快被删除.
4.
2.
2故障处理步骤造成故障的原因可能为设备序列号或MAC地址冲突.
故障处理步骤为:(1)通过Telnet或SSH方式连接被删除的设备,通过命令displaylicensedevice-id查看设备SN(序列号).
(2)若设备序列号与设备列表中已有设备的序列号相同,请联系H3C技术支持工程师.
(3)若序列号为空,请查看该设备所有接口的MAC地址是否与其他设备冲突,若不同设备出现MAC地址相同的情况,请联系H3C技术支持工程师.
4.
3设备无法上线4.
3.
1故障描述设备新增后无法上线.
4.
3.
2故障处理步骤造成故障的原因可能为:12管理通道不可用.
没有可用的Licence节点.
没有匹配网络场景的Licence.
SN序列号与管理IP不匹配.
设备无版本号或设备厂商未知.
设备冲突.
MTU设置过大.
配置恢复中.
设备无法上线时,单击[基础网络/资源/设备管理]菜单项,单击无法上线的设备名称,查看设备的下线原因,根据下线原因处理故障.
(1)当故障原因为管理通道不可用时,表示控制器无法通过NETCONF连接设备.
需要检查NETCONF配置是否正确,并检查控制器与设备间的网络是否畅通.
请检查控制器与设备网络是否畅通,双向延时小于900ms.
请检查设备NETCONF配置是否正确.
若配置正确,进行后续排查;若不正确,进入该设备控制台,输入以下命令:system-view[H3C]netconfsoaphttpenable[H3C]netconfsoaphttpsenable[H3C]netconfsshserverenable[H3C]linevty04[H3C-line-vty0-4]authentication-modescheme[H3C-line-vty0-4]user-rolenetwork-operator(2)请检查控制器的NETCONF模板配置是否正确.
单击[基础网络/设置/模板管理]菜单项,单击[NETCONF管理]页签,查看设备NETCONF模板配置是否正确.
如配置有误,在"操作"区段单击,选择[修改]选项,在弹出的"修改NETCONF"对话框中,修改NETCONF模板配置,使得设备端与控制器端的NETCONF配置保持一致.
当故障原因为没有可用的License节点时,表示当前已有节点数已达License规定的使用上限,可通过以下两种方式排除故障.
购买License增加节点上限.
删除已经申请License但不需要被管理的设备.
单击[基础网络/资源/设备管理]菜单项,单击[设备管理]页签,在"操作"区段单击,单击[维护]将设备设置为维护状态,然后单击[删除]选项删除该设备.
(3)当故障原因为SN序列号与管理IP不匹配时,表示手动输入的序列号与管理IP地址对应的设备实际序列号不匹配或设备发生过更换,需要将设备序列号改为空或准确的序列号.
单击[基础网络/资源/设备管理]菜单项,单击[设备管理]页签,在"操作"区段单击,选择[修改]选项,在弹出的"修改设备"对话框中,修改设备序列号,单击按钮.
(4)当故障原因为设备无版本号或厂商未知,表示控制器无法通过SNMP与设备进行连接.
单击[基础网络/设置/模板管理]菜单项,单击[SNMP管理]页签,查看设备SNMP模板配与设备侧配置是否一致.
如配置有误,在"操作"区段单击,选择[修改]选项,在弹出的"修改SNMP"对话框中,修改SNMP模板配置.
(5)当故障原因为设备冲突时,表示该设备与另一台设备的关键属性相同或有部分重复,请按以下步骤排查:13{参考"4.
2自动发现设备列表中设备自动上报后被删除",检查SN是否冲突.
{单击[基础网络/资源/设备管理]菜单项,单击[设备接口管理]页签,检查不同设备上的接口MAC属性是否冲突.
{单击[基础网络/资源/设备管理]菜单项,单击[设备接口管理]页签,检查不同设备上的IP/掩码属性是否冲突.
(6)当故障原因为MTU值过大时,操作步骤如下:a.
请打开NETCONF日志的debug模式.
具体操作为:使用命令vi/opt/WAN_APP1000/etc/log4j2.
xml,将INFO修改为DEBUG.
b.
使用如下命令查看netconf的DEBUG日志,如果查看的userTime超过5000ms,说明netconf报文发送超时,请继续进行下一步.
tailf/opt/WAN_APP1000/data/log/netconf/netconf.
log|grep"keepalivetimeout,[useTime]"c.
使用如下命令查看控制器的TCP连接,查看Recv-Q(接收缓冲区)和Send-Q(发送缓冲区)是否存在缓冲区满的问题.
若超过MTU的值(默认是1500),则需要修改控制器的MTU的值为1300.
netstat–nat|grep830,(7)下面以CentOSLinuxrelease7.
5.
1804为例说明MTU的修改方法:a.
使用ifconfig命令修改MTU.
但是系统重启后配置将失效,建议通过修改配置文件的方式修改MTU.
ifconfigeth0mtu1300upb.
通过修改配置文件修改MTU.
通过如下命令打开网卡配置文件.
vi/etc/sysconfig/network-scripts/ifcfg-eth0在配置文件中增加如下内容,保存配置并退出.
MTU=1300:wq重启网卡使配置生效.
servicenetworkrestart(8)当故障原因为配置恢复中时,说明设备正在恢复配置.
查看告警信息,存在板卡异常的告警,查看菜单[基础网络/资源/设备管理]下的设备板卡管理,查看板卡运行状态为异常状态,则说明是因为板卡异常导致配置恢复失败使设备无法上线,此时请排除板卡运行故障.
(9)如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师.
144.
4获取设备信息异常4.
4.
1故障描述获取设备信息异常,设备数据获取不完整或不是最新数据.
4.
4.
2故障处理步骤(1)查看控制器到设备的网络是否畅通,双向延时小于900ms,丢包率小于10%.
(2)查看设备是否开启了SNMP及NETCONF,并查看用户是否拥有相关权限.
若配置正确,直接进行下一步;若不正确,进入该设备控制台,输入以下命令:system-view[H3C]linevty04[H3C-line-vty0-4]authentication-modescheme[H3C-line-vty0-4]user-rolenetwork-operator(3)查看控制器中设备绑定的SNMP模板及NETCONF模板是否与设备侧配置的一致.
单击[基础网络/设置/模板管理]菜单项,查看NETCONF模板或SNMP模板配置.
如配置有误,在"操作"区段单击,选择[修改]选项,在弹出的"修改"对话框中,修改模板配置.
(4)如以上配置均正确,单击[基础网络/资源/设备管理]菜单项,单击[设备管理]页签,在"操作"区段单击,选择[信息同步]选项,查看设备数据是否刷新.
(5)如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师.
4.
5设备/链路状态异常4.
5.
1故障描述设备颜色分为五种:绿色(代表在线),蓝色(代表未知),灰色(代表下线),黄色(代表严重告警),红色(代表紧急告警);链路颜色分为两种:绿色(代表在线),灰色(代表下线).
当设备状态为红色、黄色代表设备存在异常告警,需排查处理;当设备或链路为灰色代表下线状态,需根据场景排查解决.
4.
5.
2故障处理步骤(1)当设备颜色为蓝色,表示设备是未知状态.
(2)当设备颜色为灰色,请参见4.
3设备无法上线处理.
(3)当设备颜色为黄色,请查看告警管理,解决设备相关的严重告警.
(4)当设备颜色为红色,请查看告警管理,解决设备相关的紧急告警.
(5)当链路的颜色为灰色,链路是Down状态,请排查该链路两端的接口状态是否为Down状态.
155拓扑管理故障处理5.
1手动添加链路为灰色5.
1.
1故障描述手动添加的链路显示为灰色.
5.
1.
2故障处理步骤造成故障的原因可能为接口Down或控制器与设备数据不同步.
故障处理步骤如下:(1)单击[基础网络/资源/设备管理]菜单项,单击[设备接口管理]页签,检查链路两端的接口状态.
若接口状态为Down,进入该设备控制台,输入以下命令:system-view[H3C]interfaceGigabitEthernet1/1/0[H3C-GigabitEthernet1/1/0]undoshutdown若接口状态均为Up,单击[基础网络/资源/设备管理]菜单项,单击[设备管理]页签,在"操作"区段单击,选择[修改]选项,进入"修改设备"界面,单击按钮.
查看设备数据是否刷新.
(2)如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师.
5.
2自动上报链路为灰色5.
2.
1故障描述自动上报的链路显示为灰色.
5.
2.
2故障处理步骤故障处理步骤如下:(1)单击[基础网络/资源/设备管理]菜单项,单击[设备发现与认证]页签,查看"BGP-LS拓扑自动发现"选项是否勾选,若未勾选,则勾选该选项并单击按钮;若已勾选,则取消勾选该选项并单击按钮,然后重新勾选该选项并并单击按钮.
(2)请参考"5.
1手动添加链路为灰色"所示步骤进行故障排查.
根据拓扑上报所用的协议,分别使用以下两种方式排除故障.
若该链路为ISIS上报,进入链路两端设备的控制台,输入以下命令:system-view[H3C]interfaceGigabitEthernet1/1/0[H3C-GigabitEthernet1/1/0]isiscircuit-typep2p若该链路为OSPF上报,进入链路两端设备的控制台,输入以下命令:system-view16[H3C]interfaceGigabitEthernet1/1/0[H3C-GigabitEthernet1/1/0]ospfnetwork-typep2p(3)重建BGP-LS邻居.
单击[基础网络/网络/网络定义]菜单项,取消勾选"建立BGP-LS邻居"选项,等待五分钟后,重新勾选"建立BGP-LS邻居"选项.
(4)如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师.
5.
3获取链路信息异常5.
3.
1故障描述获取自动上报/手动添加的链路信息时发生异常.
5.
3.
2故障处理步骤可通过如下三种方案处理该故障:处理方案一:单击[基础网络/网络/物理链路]菜单项,选择对应的链路,在"操作"区段单击,选择[修改]选项进入"修改链路"界面,将异常参数修改为期望数值.
处理方案二:单击[基础网络/资源/设备管理]菜单项,在"操作"区段单击,选择[修改]选项进入"修改设备"界面,单击按钮.
查看链路数据是否刷新.
处理方案三:单击[基础网络/网络/物理链路]菜单项,选择对应的链路,在"操作"区段单击,选择[删除]选项,删除成功后,再点击左上角的按钮,重新添加该链路.
如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师.
176链路标签分配故障处理6.
1链路标签功能异常6.
1.
1故障描述SeerEngine-SDWAN控制器启动后,无法正常使用链路标签功能.
目前仅承载网支持分配链路标签.
6.
1.
2故障处理步骤造成故障的原因可能有如下几种:设备未上线.
链路未上线.
未设置设备的角色为P或PE.
未设置链路标签范围.
故障处理步骤为:(1)单击[基础网络/资源/设备管理]菜单项,查看是否有设备上线.
如果否,请参考"4设备管理故障处理"设置设备上线;如果是,请继续进行下一步.
(2)单击[基础网络/网络/物理链路]菜单项,查看是否有链路上线.
如果否,请参考"5拓扑管理故障处理"设置链路上线;如果是,请继续进行下一步.
(3)单击[基础网络/资源/设备管理]菜单项,查看目标设备角色属性是否为P或PE.
如果否,请在"操作"区段单击按钮,选择[修改]选项,进入"修改设备"界面,设置"角色"为P或PE;如果是,请继续进行下一步.
(4)单击[基础网络/资源/资源池管理]菜单项,单击[标签管理]页签,选择标签类型为链路标签,查看在控制器上是否设置了链路标签范围.
如果否,请设置标签范围;如果是,请继续进行下一步.
(5)如果上述操作完成后,故障仍无法排除,请联系H3C技术支持工程师.
6.
2链路标签分配失败6.
2.
1故障描述启动链路标签分配后,标签分配记录中存在链路标签分配失败的信息.
6.
2.
2故障处理步骤造成故障的原因可能为:控制器与目标设备建立NETCONF连接失败.
控制器向目标设备下发标签配置失败.
故障处理步骤为:18(1)单击[基础网络/资源/资源池管理]菜单项,单击[标签管理]页签,将鼠标悬停至标签状态列,查看提示信息.
如果提示信息为"BUILDCONNFAIL",请先检查设备NETCONF配置是否正确,并单击[基础网络/设置/模板管理]菜单项,单击[NETCONF管理]页签,查看设备NETCONF模板配置是否正确.
如配置有误,请在"操作"区段单击,选择[修改]选项,在弹出的对话框中,修改NETCONF模板配置,使得设备端与控制器端的NETCONF配置保持一致.
如果提示信息为"nolabelleft",说明链路标签资源已耗尽.
请在[基础网络/资源/资源池管理]页面,单击[标签管理]页签,修改标签范围以增加链路标签资源.
(2)如果上述操作完成后,故障仍无法排除,请联系H3C技术支持工程师.
197节点标签分配故障处理7.
1节点标签功能异常7.
1.
1故障描述SeerEngine-SDWAN控制器启动后,无法正常使用节点标签功能.
目前仅承载网支持分配节点标签.
7.
1.
2故障处理步骤造成故障的原因可能有如下几种:设备未上线.
未设置节点标签范围.
未设置节点标签分配方式.
故障处理步骤为:(1)单击[基础网络/资源/设备管理]菜单项,查看是否有设备上线.
如果否,请参考"4设备管理故障处理"设置设备上线;如果是,请继续进行下一步.
(2)单击[策略/设置/调度可视管理]菜单项,查看是否设置节点标签范围.
如果否,请设置节点标签范围;如果是,请继续进行下一步.
(3)单击[策略/设置/调度可视管理]菜单项,查看是否设置标签分配方式.
如果否,请设置标签分配方式;如果是,请继续进行下一步.
(4)如果上述操作完成后,故障仍无法排除,请联系H3C技术支持工程师.
7.
2节点标签分配失败7.
2.
1故障描述启动节点标签分配后,标签分配记录中存在节点标签分配失败的信息.
7.
2.
2故障处理步骤造成故障的原因可能为:控制器与目标设备建立NETCONF连接失败.
设备侧不存在待下发节点标签对应的LoopBack接口.
设备侧节点标签使用的LoopBack接口未配置IP地址.
设备侧不存在节点标签分配所必须的OSPF进程号.
设备不支持控制器下发的节点标签范围.
下发节点标签配置超时.
设备不支持配置节点标签.
20故障处理步骤为:(1)单击[基础网络/资源/资源池管理]菜单项,单击[标签管理]页签,选择标签类型为节点标签,将鼠标移至标签状态列,查看页面弹出的提示信息,根据提示信息进行相应处理.
如果提示信息为"FailedtoestablishaNETCONFconnectiontothedevice",请单击[基础网络/设置/模板管理]菜单项,单击[NETCONF管理]页签,查看设备NETCONF模板配置是否正确.
如配置有误,在"操作"区段单击,选择[修改]选项,在弹出的对话框中,修改NETCONF模板配置.
如果提示信息为"FailedtoestablishaNETCONFconnectiontothedevice",请检查设备侧的NETCONF配置是否正确,如果正确,请检查控制器与设备间的网络连接是否良好.
若节点标签仍未分配成功,请继续进行下一步.
如果提示信息为"Interfaceinterface-name(节点标签使用的LoopBack接口编号)doesnotexist",请查看设备侧是否存在对应的LoopBack接口,如果不存在,请在设备创建对应编号的Loopback接口,若节点标签仍未分配成功,请继续进行下一步.
如果提示信息为"Interfaceinterface-name(节点标签使用的LoopBack接口编号)doesnothaveanIPaddress",请查看设备侧的LoopBack接口是否设置IP地址,如果未设置IP地址,请在对应接口下设置IP地址,若节点标签仍未分配成功,请继续进行下一步.
如果提示信息为"ThespecifiedOSPFprocessIDdoesnotexistonthedevice",请查看设备侧是否存在与控制器[策略/设置/调度可视管理]页面配置的进程号对应的OSPF进程号,如果不存在,请在设备侧创建对应的OSPF进程号,若节点标签仍未分配成功,请继续进行下一步.
如果提示信息为"Thedevicedoesnotsupportthenodelabelrangedeployedbythecontroller",使用displayospfsegment-routingglobal-block命令查看设备侧是否在对应的OSPF进程下设置了节点标签范围,若设备配置的节点标签范围不支持控制器下发的节点标签范围,请使用segment-routingglobal-block命令修改设备本地节点标签范围或在[策略/设置/调度可视管理]页面修改控制器下发的节点标签分配范围,若节点标签仍未分配成功,请继续进行下一步.
如果提示信息为"Thedevicedoesnotsupportconfiguringthenodelabels",表示设备当前版本不支持节点标签.
请将设备升级至最新版本,设备版本更换完成后,若节点标签仍未分配成功,请继续进行下一步.
(2)如果上述操作完成后,故障仍无法排除,请联系H3C技术支持工程师.
218应用组实例选路故障处理通过Web页面添加应用组后,SeerEngine-SDWAN控制器会为应用组下的应用组实例计算路径.
8.
1应用组实例无路径8.
1.
1故障描述登录SeerEngine-SDWAN控制器页面,单击[策略/应用/应用调度]菜单项,在该页面查看应用组实例的路径信息.
如果应用实例对应的隧道名、路径详情等信息为空,则表示该应用组实例没有对应路径.
8.
1.
2故障处理步骤造成该问题的可能原因如下:设备间网络异常.
应用组配置错误.
基础参数配置不完整.
故障处理步骤如下:(1)请确认源及目的设备之间连通性是否正常.
如不正常,需要排查网络故障.
(2)查看并确认应用组基本信息配置是否完整.
单击[策略/应用/应用组管理]菜单项,在该页面查看应用组配置信息.
如果应用组中的"应用列表"、"应用策略"为空,则需单击"操作"区段的按钮,修改并添加相关信息.
(3)承载网络中标签未正常分配.
如果是承载网,则需要首先为网络分配标签.
详情请参考"6链路标签分配故障处理".
(4)如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师.
8.
2应用组实例路径不符合预期8.
2.
1故障描述应用组实例的预期路径与SeerEngine-SDWAN控制器为应用组实例规划的实际路径不一致.
8.
2.
2故障处理步骤造成故障的原因可能为:预期路径不满足SLA策略.
预期路径带宽不满足要求.
故障处理步骤如下:(1)查看预期路径的延时、抖动和丢包率是否满足应用组绑定的SLA策略中的延时、抖动、丢包率等约束.
如不满足,则实际路径与预期路径不符合为正常现象,可调整相应策略取值使其符22合预期值,并在[策略/应用/应用调度]页面,在相应应用组的"操作"区段单击按钮,选择[单流优化]选项使应用组重新选路;如满足,请继续进行下一步.
(2)请查看预期路径的可分配带宽值是否满足应用组绑定的策略中的最小带宽值.
如不满足,则表示系统选路正常,请手动调整策略的最小带宽值使其符合预期值,并在[策略/应用/应用调度]页面,在相应应用组的"操作"区段单击按钮,选择[单流优化]选项使应用组重新选路;如满足要求,但是实际未选择该路径,则选路原则与控制器选路策略有关,请联系H3C技术支持工程师.
(3)如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师.
8.
3应用组实例不满足SLA策略时没有调整路径8.
3.
1故障描述在应用组实例不满足SLA策略约束的情况下,SeerEngine-SDWAN控制器没有对该应用组实例对应的路径进行调整,流量仍然按照原路径转发.
8.
3.
2故障处理步骤造成故障的原因可能为整网链路状况不稳定,导致没有其他合适的路径进行优化调整.
故障处理步骤如下:(1)查看应用组绑定策略中的延时、抖动、丢包率等约束是否太严格.
当约束过于严格时,可能导致系统无法选择出其他符合策略的路径进行优化调整,此时需要放宽SLA策略的部分阈值限制,使系统能够优选其他路径.
(2)查看其他链路的带宽使用情况.
当其他链路流量拥塞时,系统进行路径优选时也不会选择这些链路,可能导致路径调整失败,此时请增加链路带宽.
(3)如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师.
8.
4添加应用组后,应用无法调度/可视8.
4.
1故障描述承载网添加应用组后,无法采集应用流量,应用调度也不生效.
8.
4.
2故障处理步骤造成故障的原因可能为:应用着色(CBTS)失败:部署时未配置设备的流量入接口(加入LAN网络),导致控制器未在设备的流量入接口下发CBTS对应的MQC.
MPLSL3VPN流量引流失败:存在多个IGP区域的情况下,没有手动配置隧道策略,流量无法引入隧道转发.
对于可视应用,默认隧道配置错误.
对于调度应用,调度隧道配置错误.
对于跨AREA域访问的应用,跨域配置错误.
23故障处理步骤如下:(1)ADWAN控制器上检查设备LAN口是否已经配置.
(2)对于MPLSL3VPN流量,确认设备全局视图下是否配置了对应的隧道策略:#tunnel-policytestdefaultselect-seqstrictcr-lsplspload-balance-number32#(3)创建应用组后,ADWAN控制器会自动下发默认隧道,可视应用会通过此隧道转发,需要在设备上确认隧道配置是否正确,绑定标签是否正确:[system]discurinterfaceTunnel#interfaceTunnel1modempls-teipaddressunnumberedinterfaceLoopBack0ospf1area0.
0.
0.
0mplsenablemplsldpenablemplstesignalingstaticmplstestatic-sr-mplsadwanLsp-0mplsteigpshortcutmplsteigpmetricabsolute1mplstestatisticsservice-classmplsbfdechodestination1.
2.
1.
1bfdmin-echo-receive-interval1000bfddetect-multiplier3#基于隧道的目的地址(destination)确认需要排查的隧道;当两点之间有调度应用组时,会下发多条SR-TE隧道,默认隧道中不指定service-class,隧道配置中无(mplsteservice-class);查询路径对应的标签栈信息:[system]discur|include"static-sr-mplslsp"static-sr-mplslspadwanLsp-0out-label16003static-sr-mplslspadwanLsp-1out-label33static-sr-mplslspadwanLsp-2out-label33其中adwanLsp-0为节点标签(16000开始的标签);(4)创建调度应用组后,ADWAN控制器会自动下发对应的调度隧道,调度应用会通过此隧道转发[system]discurinterfaceTunnel#interfaceTunnel2modempls-teipaddressunnumberedinterfaceLoopBack0ospf1area0.
0.
0.
0mplsenablemplsldpenablemplstesignalingstaticmplstestatic-sr-mplsadwanLsp-1mplsteservice-class124mplsteigpshortcutmplsteigpmetricabsolute1mplstestatisticsmplsbfdechodestination1.
2.
1.
1bfdmin-echo-receive-interval1000bfddetect-multiplier3基于隧道的目的地址(destination)确认需要排查的隧道;根据步骤2.
1.
1,确认应用remark的serviceclass,根据隧道绑定的serviceclass确认对应的调度隧道(mplsteservice-class);查询路径对应的标签栈信息:[system]discur|include"static-sr-mplslsp"static-sr-mplslspadwanLsp-0out-label16003tatic-sr-mplslspadwanLsp-1out-label33static-sr-mplslspadwanLsp-2out-label33其中adwanLsp-1路径标签,下一跳链路标签为33.
(5)普通IP流量业务的跨Area转发,请确认设备侧路由配置有无遗留,同时控制器隧道里下发的静态路由的引流方式:设备侧确认:跨Area的LAN口普通IP业务的路由必须要通过BGP使用network方式引入;要调整从IBGP学习路由的优先级使其高于IGP协议;这样才能保证去目的地址的路由下一条是对端PE的Loopback0口,且可以叠加到SR隧道上.
控制器侧确认:确认隧道是否下发了静态路由引流命令tunnelroute-staticpreference1.
259业务流量转发故障处理9.
1业务流量未按照指定路径转发9.
1.
1故障描述应用组按照规划部署后,流量未按照指定路径转发,导致部署的路径没有生效.
9.
1.
2故障处理步骤造成故障的原因可能为:部分配置下发异常.
故障处理步骤如下:(1)请确认网络设备上是否有当前配置与控制器下发的配置冲突.
如有,需删除这些配置;如没有,请继续进行下一步.
(2)通过控制器删除配置时,未同步删除设备侧配置,再次下发配置时导致控制器配置下发失败.
此时请联系H3C技术支持工程师.
9.
2一些基于TCP的业务无法访问9.
2.
1故障描述造成故障的原因可能为:报文通过MPLS转发需要增加MPLS头(4个字节),SR调度方案中有可能增加多层MPLS头,因此报文长度会增加;如果接口MTU未修改,会对报文进行分片,很多TCP业务报文的FG被置为1(不可分片),导致报文无法分片而被丢弃.
9.
2.
2故障处理步骤故障处理步骤如下:(1)方案一:确认设备之间互联的WAN链路是否可以透传大报文(报文长度和调度的跳数相关),如果不能能够透传,可以修改设备WAN接口的MTU.
(2)方案二:在设备上添加命令,修改转发报文的TCPMSS(参考实际组网需求,建议配置1300),减小协商的TCP报文大小,使得流量能够不分片直接通过MPLS转发.
MSR/SR66在流量入接口配置:interfaceGigabitEthernet1/0tcpmss1300SR88全局配置:tcpmodify-mss12002610分支场景异常故障处理10.
1分支场景设备零配置上线失败处理10.
1.
1故障描述控制器无法上线成功,控制器查询设备为离线状态,需要确认控制器上零部署开局配置是否正确,并登录设备进行排查.
附:设备上线流程.
(1)控制器通过零配置部署向导完成部署,包括配置网络(三层组网、二层组网)、运维配置、配置资源池、配置IPsec、配置设备认证;通过导入设备模板将设备导入控制器中.
(2)控制器地址发布在用户网络中:a.
MSTP链路:控制器地址需要在内网发布,并引入IGP路由中.
b.
Internet链路:控制器需要通过NAT镜像的方式映射到公网,协议为TCP,对应端口号为19443.
(3)设备通过U盘或URL方式开局,完成基础路由配置和Websocket配置:a.
MSTP链路:WAN口需要下发IGP路由配置,分支能通过IGP学习到控制器地址;websocket地址为控制器南向地址,端口号为19443.
b.
Internet链路:配置缺省路由下一跳指向Internet出口;websocket地址为控制器NAT转换后的公网地址,端口号为19443.
(4)设备主动向控制器建立Websocket连接,控制器根据导入的设备信息识别设备,下发Loopback管理口地址、SNMP和NETCONF配置.
a.
MSTP链路:将Loopback管理口地址引入WAN口对应的IGP路由中;b.
Internet链路:在分支和总部的Internet接口之间下发full-mesh的IPSEC隧道,保护控制器管理通道(保护的流为控制器地址到设备的管理口地址).
(5)控制器使用SNMP和NETCONF连接设备的管理口,获取设备的款型、版本和接口等信息,信息获取完毕后,设备上线成功;10.
1.
2故障处理步骤(1)确认基础路由是否正常.
检查设备到控制器是否可达,需要保证设备可以ping通控制器(映射的公网地址或者内部地址).
(2)确认设备Websocket连接状态.
检查设备上的Websocket连接状态,如下图:27状态显示没有连接成功,此时需要检查控制器导入设备时的Sysname与设备的名称是否一致;如果一致的话,需要在控制器上抓包,检查该报文是否到达控制器(可能该报文目的端口在路径设备上被过滤).
正常状态如下图:(3)确认设备管理口地址与控制器之间是否可达.
使用Loopback管理地址作为源地址去ping控制器南向地址,测试是否可达.
如果不可达,需要检查相关路由表项,路由下一跳或出接口是否正确,如果路由有问题需要手动排查路由相关配置.
对于Internet链路,则需需要检查IPsec建立情况,如下图:28Local和Remote分别是WAN口地址,Flow是Loopback管理地址和控制器地址.
由于Internet链路增加了IPsec封装,需要在总部设备的LAN口配置tcpmss命令,保证TCP报文不会被分片:interfaceGigabitEthernet3/0/10tcpmss120010.
2分支场景VXLAN隧道/Overlay网络下发失败10.
2.
1故障描述拓扑页面查询Overlay网络时,无法查询到链路信息或者在策略->VPN->VXLAN隧道中无法查询到对应的隧道信息;控制器下发VXLAN隧道后,会使用VSI地址建立BGP邻居,BGP邻居无法建立.
10.
2.
2故障处理步骤(1)进入[向导/配置导航/零配置部署]页面,配置资源池.
请确认资源池配置是否满足VXLAN隧道下发需求.
包括:隧道封装地址池:是否满足每设备每隧道分配一个封装地址;VSI接口地址池:对于MPLS链路,每条隧道使用一个30位掩码网段,每条专线一个网段;对于Internet链路,所有接入同一个云的VXLAN专线在同一个子网中,目前缺省使用23位掩码的网段;需要保证资源池满足地址分配需求.
(2)控制器正常下发的BGP路由配置:#bgp100029peer110.
3.
2.
2as-number1003peer110.
3.
2.
2connect-interfaceVsi-interface11peer110.
3.
2.
3as-number1004peer110.
3.
2.
3connect-interfaceVsi-interface11peer110.
3.
6.
2as-number1004peer110.
3.
6.
2connect-interfaceVsi-interface10peer110.
3.
6.
4as-number1003peer110.
3.
6.
4connect-interfaceVsi-interface10#address-familyipv4unicastbalance8balanceas-path-relaxpreference5255255import-routedirectroute-policyb0faf245-8826-401e-8cfe-29791f072b84import-routestaticroute-policyb0faf245-8826-401e-8cfe-29791f072b84import-routeripall-processesroute-policyb0faf245-8826-401e-8cfe-29791f072b84import-routeospfall-processesroute-policyb0faf245-8826-401e-8cfe-29791f072b84import-routeisisall-processesroute-policyb0faf245-8826-401e-8cfe-29791f072b84peer110.
3.
2.
2enablepeer110.
3.
2.
2next-hop-localpeer110.
3.
2.
3enablepeer110.
3.
2.
3next-hop-localpeer110.
3.
6.
2enablepeer110.
3.
6.
2next-hop-localpeer110.
3.
6.
4enablepeer110.
3.
6.
4next-hop-local(3)查询BGP邻居状态,确认所有邻居都建立成功.
displaybgppeeripv4BGPlocalrouterID:192.
168.
30.
140LocalASnumber:1000Totalnumberofpeers:4Peersinestablishedstate:4*-DynamicallycreatedpeerPeerASMsgRcvdMsgSentOutQPrefRcvUp/DownState110.
3.
2.
21003152017800523:52:53Established110.
3.
2.
31004187315720523:52:54Established110.
3.
6.
2100419831988050025h50mEstablished110.
3.
6.
4100318421846050025h50mEstablished(4)如果邻居建立失败,需使用ping命令确认VSI接口之间连通性是否正常.
ping110.
3.
2.
2Ping110.
3.
2.
2(110.
3.
2.
2):56databytes,pressCTRL+Ctobreak56bytesfrom110.
3.
2.
2:icmp_seq=0ttl=255time=1.
114ms56bytesfrom110.
3.
2.
2:icmp_seq=1ttl=255time=0.
555ms56bytesfrom110.
3.
2.
2:icmp_seq=2ttl=255time=0.
520ms56bytesfrom110.
3.
2.
2:icmp_seq=3ttl=255time=0.
523ms56bytesfrom110.
3.
2.
2:icmp_seq=4ttl=255time=0.
559m30(5)如果无法ping通,需要确认隧道封装地址是否可以ping通,指定源地址为隧道封装源地址,目的地址为隧道封装目的地址.
interfaceTunnel3modevxlandescriptionADWAN-Tunnel-3source110.
2.
0.
5destination110.
2.
0.
6rirroleserver#ping-a110.
2.
0.
5110.
2.
0.
6Ping110.
2.
0.
6(110.
2.
0.
6)from110.
2.
0.
5:56databytes,pressCTRL+Ctobreak56bytesfrom110.
2.
0.
6:icmp_seq=0ttl=255time=0.
620ms56bytesfrom110.
2.
0.
6:icmp_seq=1ttl=255time=0.
600ms56bytesfrom110.
2.
0.
6:icmp_seq=2ttl=255time=0.
443ms56bytesfrom110.
2.
0.
6:icmp_seq=3ttl=255time=0.
436ms56bytesfrom110.
2.
0.
6:icmp_seq=4ttl=255time=0.
544ms(6)如果无法ping通,需要查询一下目的地址的路由,确认路由下一跳/出接口是否正确.
displayiprouting-table110.
2.
0.
6Summarycount:3Destination/MaskProtoPreCostNextHopInterface0.
0.
0.
0/0Static600110.
1.
1.
2GE3/0/0Static600110.
1.
2.
2GE3/0/1110.
2.
0.
6/32Static10110.
1.
1.
2GE3/0/0(7)控制器会自动下发一条静态路由,目的地址为对端的隧道封装地址,下一跳为对应的公网出接口.
请确认下发的静态路由是否正确,如果一场,则需要确认拓扑导入中导入的数据是否正常.
iproute-static110.
2.
0.
232110.
1.
2.
2preference1iproute-static110.
2.
0.
432110.
1.
2.
2preference1iproute-static110.
2.
0.
632110.
1.
1.
2preference1iproute-static110.
2.
0.
732110.
1.
1.
2preference110.
3分支场景应用组调度不生效,流量转发异常10.
3.
1故障描述分支场景创建应用组后,流量调度不生效,总部和分支之间流量不通.
10.
3.
2故障处理步骤1.
确认应用着色是否正常.
(1)首先确认定义的应用是否匹配到了流量.
通过如下命令查看ACL的匹配情况,如果未匹配到任何流量,则请检查定义的应用是否正确.
[Hub1]displayaclallAdvancedIPv4ACLnamedADWAN-ACL-PBRGigabitEthernet3/0/0,1rule,ACL'sstepis5rule0permitipsource110.
1.
1.
1031AdvancedIPv4ACLnamedADWAN-ACL-PBRGigabitEthernet3/0/1,1rule,ACL'sstepis5rule0permitipsource110.
1.
2.
10AdvancedIPv4ACLnamedACL-71a9d989-29eb-4b3c-b801-445a2c327e28,2rules,ACL'sstepis5rule0permitipsource10.
1.
1.
00.
0.
0.
255(714timesmatched)rule1permitipdestination10.
1.
1.
00.
0.
0.
255(2)查看LAN接口的Qos策略,确认匹配对应ACL后Remark的flowid.
如下所示,匹配"ACL-71a9d989-29eb-4b3c-b801-445a2c327e28"后Remark的flow-id为1[Hub1]disqospolicyinterfaceGigabitEthernet3/0/3Interface:GigabitEthernet3/0/3Direction:InboundPolicy:ADWAN-QPInGE3/0/3Classifier:trafficClassifier10Matched:1840384(Packets)228206692(Bytes)5-minutestatistics:Forwarded:5511/5467656(pps/bps)Dropped:0/0(pps/bps)Operator:ORRule(s):If-matchaclnameACL-71a9d989-29eb-4b3c-b801-445a2c327e28Behavior:trafficBehavior11Marking:Remarktunnel-dscpcs5Remarkflow-id12.
确认应用引流是否正常(1)设备上查询到对应目的地址的路由,确认是否通过Tunnel转发:[Hub1]displayiprouting-table10.
1.
2.
1Summarycount:4Destination/MaskProtoPreCostNextHopInterface10.
1.
2.
0/24BGP50110.
3.
2.
2Vsi11BGP50110.
3.
6.
4Vsi10(2)如果路由错误,需首先排查BGP邻居状态;如果BGP邻居正常,则请确认路由引流是否正常.
#bgp1000#address-familyipv4unicastpreference5255255import-routedirectroute-policyb0faf245-8826-401e-8cfe-29791f072b84import-routestaticroute-policyb0faf245-8826-401e-8cfe-29791f072b84import-routeripall-processesroute-policyb0faf245-8826-401e-8cfe-29791f072b84import-routeospfall-processesroute-policyb0faf245-8826-401e-8cfe-29791f072b84import-routeisisall-processesroute-policyb0faf245-8826-401e-8cfe-29791f072b8432(3)确认路由策略是否正确:[Hub1]displayroute-policyRoute-policy:b0faf245-8826-401e-8cfe-29791f072b84Permit:6if-matchinterfaceLoopBack1GigabitEthernet3/0/3GigabitEthernet3/0/10Route-policy:f24432a0-90a1-41ed-bcc8-5bdb03ca2028Permit:5applyas-path65535(4)确认路由匹配设备的LAN口配置是否正确.
如果不正确需要排查控制器上设备的LAN口配置.
3.
确认Flowid对应的选路策略是否正确(1)设备上会基于flowid下发选路策略.
其中sla1~sla5对应控制器上5个SLA策略上的质量需求,请确认质量需求配置是否一致.
#rirprobesync-port65500serverenableprobeconnectinterval1000timeout900sla1jitterthreshold10delaythreshold500packet-lossthreshold1sla2jitterthreshold5delaythreshold300packet-lossthreshold1sla3jitterthreshold5delaythreshold150packet-lossthreshold1sla4jitterthreshold5delaythreshold100packet-lossthreshold1sla5jitterthreshold3delaythreshold50packet-lossthreshold1nqa1probeinterval3000probepacket-number10probepacket-interval1000probepacket-timeout1600probeport10000flow1pathlink-typeinternetindex2preference1pathlink-typeinternetindex4preference233quality-policysla5nqa1(2)flow下配置了优选策略,并且绑定sla质量需求,确认下发选路策略是否正确;对应VSI接口下配置了隧道类型,可以参考比对:[Hub1]displaycurrent-configurationinterfaceVsi-interface#interfaceVsi-interface10ipaddress110.
3.
6.
3255.
255.
254.
0qosapplypolicyADWAN-QPInVsi-interface10inboundrirlink-typeinternetindex4#interfaceVsi-interface11ipaddress110.
3.
2.
5255.
255.
254.
0qosapplypolicyADWAN-QPInVsi-interface11inboundrirlink-typeinternetindex2#3411VXLAN专线故障处理11.
1VXLAN专线创建失败11.
1.
1故障描述创建VXLAN专线并添加VXLAN专线成员后单击按钮,专线创建失败,页面右上角显示错误提示信息.
11.
1.
2故障处理步骤根据错误提示信息不同,造成故障的原因可能为:"failedtogetportlink-modeofAC-interface()indevice()".
无法获取AC口是属于二层接口还是三层接口.
"theportlink-modeofAC-interface()isbridge,butthisdevice()doesn'tsupporttocreateserviceinstance".
AC口为二层接口,但是设备为路由器设备,不支持创建服务实例.
"theportlink-modeofAC-interface()isroute,butthisdevice()don'tsupporttobindVSI".
AC口为三层接口,但是设备不支持三层接口绑定VSI.
"themain-AC-interface()thatportlink-modeisrouterindevice()forL2VPNhasbeenusedbyothervxlanVpn".
AC口已经作为其他专线的主接口,不能再生成子接口.
"thesub-interfaceofAC-interface()thatportlink-modeisrouterindevice()hasbeenusedbyothervxlanVpn".
AC口已经作为其他专线的子接口,不能再作为主接口.
当出现上述提示信息时,故障处理步骤分别如下:(1)在[基础网络/资源/设备管理]页面,选择"设备管理"页签,在设备列表中单击对应设备操作列的按钮并选择"信息同步"选项,使控制器重新读取设备的接口模式.
(2)在设备上将指定接口模式切换为三层模式,或者更换其他三层接口用于创建专线.
(3)在设备上将指定接口模式切换为二层模式,或者更换其他二层接口用于创建专线.
(4)更换其他接口,或者删除使用该AC口作为主接口的专线.
(5)更换其他接口,或者删除使用该AC口作为子接口的专线.
(6)如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师.
11.
2VXLAN专线成员创建失败11.
2.
1故障描述VXLAN专线创建完成后,在专线管理中单击查看按钮,专线成员状态显示为创建失败.
11.
2.
2故障处理步骤造成故障的原因可能为:专线指定的VXLANID在设备上已存在.
35生成的子接口终结的VLANID已被当前主接口下的其他子接口终结.
服务实例下匹配的VLANID在其他服务实例下已存在.
故障处理步骤如下:(1)检查设备上冲突的VXLANID,手工删除该配置;或者修改专线的VXLANID.
修改完成后删除并重新添加专线成员.
(2)检查设备接口上冲突的终结VLAN,手工删除该配置;或者修改子接口的终结VLANID.
修改完成后删除并重新添加成员.
(3)检查设备接口服务实例下匹配的VLANID,手工删除该配置;或者修改本专线生成服务实例的VLANID.
修改完成后删除并重新添加成员.
(4)如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师.
11.
3VXLAN专线成员状态异常11.
3.
1故障描述VXLAN专线创建完成后查看专线成员状态,部分专线成员状态不正常.
11.
3.
2故障处理步骤控制器异常重启、网络连接失败或设备不在线等多种异常可能会导致专线成员一直处于正在创建、创建失败、正在更新、更新失败、正在删除或删除失败状态中.
故障处理步骤如下:(1)在[基础网络/资源/设备管理]页面,检查设备是否正常上线,设备正常运行时节点状态指示灯为绿色.
若未正常上线,请参考"4.
3设备无法上线"排除故障.
(2)尝试删除专线成员,确认该专线成员是否可以正常删除.
(3)如果仍然存在问题,请尝试删除专线.
(4)如专线删除失败,请在[基础网络/资源/设备管理]页面删除所有专线内的设备,当专线内所有设备被删除后,系统将自动删除指定专线(此方法会导致所有跟设备相关数据被清除,请谨慎使用).
(5)如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师.
11.
4专线创建后流量无法正常转发11.
4.
1故障描述VXLAN专线创建成功后流量无法正常转发.
11.
4.
2故障处理步骤造成故障的原因可能为:设备上的Tunnel接口状态为down.
设备上的AC口状态为down.
Tunnel的源地址和目的地址之间网络不可达.
36设备不存在相关VLAN配置或者接口被VLAN隔离.
专线成员配置的标签替换策略与用户实际VLAN不相符.
故障处理步骤如下:(1)检查设备上AC口状态,如果为down,尝试在接口下执行undoshutdown命令开启接口.
(2)通过ping命令检查Tunnel的源地址和目的地址是否路由可达.
如不可达,请检查网络连通性是否正常.
(3)确认设备是否已配置了专线匹配的VLAN,以及检查设备接口是否允许专线匹配的VLAN通过.
(4)确认专线用户VLAN与专线成员标签替换策略的本端VLAN是否一致,若不一致,请在[VPN管理/VXLAN专线/专线管理]页面修改专线标签替换策略的本端VLAN,使其与用户VLAN一致.
(5)如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师.
11.
5专线链路颜色为灰色11.
5.
1故障描述VXLAN专线创建成功后,在[拓扑管理]页面查看VXLAN专线链路,专线链路颜色为灰色.
11.
5.
2故障处理步骤造成故障的原因可能为:Tunnel口状态为down.
控制器与设备数据不一致.
故障处理步骤如下:(1)通过ping命令检查Tunnel的源地址和目的地址是否路由可达.
如不可达,请检查网络连通性是否正常.
(2)在[基础网络/资源/设备管理]页面,选择"设备管理"页签,在设备列表中单击对应设备操作列的按钮并选择"信息同步"选项,使控制器重新读取设备相关信息.
(3)如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师.
3712运维管理故障处理12.
1链路带宽统计异常12.
1.
1故障描述单击拓扑管理页面中的链路时,链路实时带宽为"--".
12.
1.
2故障处理步骤造成故障的原因可能为:链路的源设备缺少SNMP配置或配置错误.
链路的源设备缺少NETCONF配置或配置错误.
SeerEngine-SDWAN控制器和设备之间路由不可达.
故障处理步骤如下:(1)检查链路源设备的SNMP配置.
若配置正确,进行下一步;若配置错误,进入该设备控制台,输入以下命令:system-view[H3C]snmp-agent(2)检查链路源设备的NETCONF配置.
若配置正确,进行下一步;若配置错误,进入该设备控制台进行如下配置:system-view[H3C]netconfsoaphttpenable[H3C]netconfsoaphttpsenable[H3C]netconfsshserverenable[H3C]linevty04[H3C-line-vty0-4]authentication-modescheme[H3C-line-vty0-4]user-rolenetwork-operator(3)通过ping命令检查控制器与链路源设备间通信是否正常.
若通信正常,直接进行下一步;若通信异常,则需解决网络问题.
(4)单击[基础网络/网络/物理链路]菜单项,选择故障的链路,在"操作"区段单击,选择[删除]选项,删除成功后,再点击左上角的按钮,重新添加该链路.
(5)如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师.
12.
2链路质量统计异常12.
2.
1故障描述单击拓扑管理页面中的链路时,链路质量(延时、抖动、丢包率)为"--".
3812.
2.
2故障处理步骤造成故障的原因可能有如下几种:链路的源设备缺少SNMP配置或者配置错误.
链路的源设备缺少NETCONF配置或配置错误.
SeerEngine-SDWAN控制器和设备之间路由不可达.
故障处理步骤如下:(1)检查链路源设备的SNMP配置.
若配置正确,进行下一步;若配置错误,进入该设备控制台,输入以下命令:system-view[H3C]snmp-agent(2)检查链路源设备的NETCONF配置.
若配置正确,进行下一步;若配置错误,进入该设备控制台,输入以下命令:system-view[H3C]netconfsoaphttpenable[H3C]netconfsoaphttpsenable[H3C]netconfsshserverenable[H3C]linevty04[H3C-line-vty0-4]authentication-modescheme[H3C-line-vty0-4]user-rolenetwork-operator(3)通过ping命令检查控制器与链路源设备间通信是否正常.
若通信正常,直接进行下一步;若通信异常,则需解决网络问题.
(4)单击[基础网络/网络/物理链路]菜单项,选择故障的链路,在"操作"区段单击,选择[删除]选项,删除成功后,再点击左上角的按钮,重新添加该链路.
(5)如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师.
12.
3质量探测数据有误12.
3.
1故障描述单击拓扑管理页面中的链路时,链路质量(延时、抖动、丢包率)与实际情况不符.
12.
3.
2故障处理步骤造成故障的原因可能有如下几种:当前控制器配置为导入优先.
NQA探测精度设置有误.
设备本身统计有误.
故障处理步骤如下:(1)检查控制器显示的链路质量数据来源.
进入RestConf后台operations/oam:get-global-config中查看"dataSource"的值,0代表采集优先,1代表导入优先,2代表带宽导入、质量采集,3代表质量导入、带宽采集.
若当前配置不是采集优先,请设置为采集优先.
39(2)承载网场景下,链路被发现后,控制器会下发NQA配置用于探测每条链路不同优先级的链路质量(延时、抖动、丢包率);不同运维精度下发的NQA参数不同,探测精度不同.
单击[系统/系统配置/运维配置]菜单项,点击运维配置Tab页,检查质量探测参数是否配置有误.
(3)在设备上查看设备本身的NQA探测是否有误,进入该设备控制台,输入以下命令:system-view[H3C]disnqaresult查看探测结果,如果是设备本身探测有误则应联系相关产品工程师解决.
(4)如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师.
12.
4应用组带宽统计异常12.
4.
1故障描述应用组带宽统计为0或者非常小,与实际流量带宽不符.
12.
4.
2故障处理步骤造成故障的原因可能有如下几种:应用组中没有添加应用.
应用组中的应用和实际流量不能匹配.
应用组网络范围的源设备实际流量的入接口未配置为LAN口.
SeerEngine-SDWAN控制器和设备之间路由不可达.
应用组网络范围的源设备缺少NETCONF配置导致NetStream配置下发不成功.
故障处理步骤如下:(1)单击[策略/应用/应用组管理]菜单项,查看应用组中是否有应用.
若没有应用,需要新增应用并将应用添加到应用组中,单击[策略/应用/应用组管理]菜单项,在"操作"区段单击,选择[修改]选项,进入"修改应用组"界面,在"应用列表"栏单击按钮可定义应用,单击按钮可将新增的应用添加到应用组中;若有应用,直接进行下一步.
(2)查看应用组中的应用定义的规则是否能和实际流量相匹配.
若不匹配,需要修改应用的匹配规则,单击[策略/应用/应用组管理/自定义应用]菜单项,在"操作"区段单击,选择[修改]选项,在"应用匹配列表"栏中修改应用匹配规则;若匹配,直接进行下一步.
(3)查看应用组源设备的流量的实际入口是否配置为LAN口.
若没有配置,单击[基础网络/资源/设备管理]菜单项,单击[设备接口管理]页签,在"设备名称"下拉选项框中,选择设备,在接口列表的"操作"区段单击,选择[修改]选项,在"修改设备接口"对话框中将接入网络名称设置为LAN;若配置正确,直接进行下一步.
(4)通过ping命令检查控制器与链路源设备间通信是否正常.
若通信异常,则需解决网络问题;若通信正常,直接进行下一步.
(5)检查链路源设备的NETCONF配置.
若配置正确,进行下一步,若配置错误,进入该设备控制台,输入以下命令:system-view[H3C]netconfsoaphttpenable[H3C]netconfsoaphttpsenable40[H3C]netconfsshserverenable[H3C]linevty04[H3C-line-vty0-4]authentication-modescheme[H3C-line-vty0-4]user-rolenetwork-operator(6)如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师.
12.
5应用组带宽超出实际带宽12.
5.
1故障描述承载网应用组带宽统计较大,超出实际流量带宽.
12.
5.
2故障处理步骤造成故障的原因可能为应用组中包含多个应用,并且应用的规则相同或有重合.
故障处理步骤如下:(1)查看应用组中是否包含多个应用,并且应用的规则相同或有重合.
如果是,删除与其他应用规则相同或有重合的应用.
(2)如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师.
12.
6链路上应用统计异常12.
6.
1故障描述链路上没有应用组流量统计或统计带宽为0.
12.
6.
2故障处理步骤造成故障的原因可能为:应用组规划的路径中不包括该链路,即该链路上没有应用流量经过.
SeerEngine-SDWAN控制器和设备之间路由不可达.
应用组网络范围的源设备缺少NETCONF配置导致采集失败.
故障处理步骤如下:(1)查看应用的路径是否经过该链路.
若没有经过该链路,则为正常现象;若经过该链路,进行下一步.
(2)通过ping命令检查控制器与链路源设备间通信是否正常.
若通信异常,则需解决网络问题;若通信正常,直接进行下一步.
(3)检查链路源设备的NETCONF配置.
若配置正确,进行下一步,若配置错误,进入该设备控制台,输入以下命令:system-view[H3C]netconfsoaphttpenable[H3C]netconfsoaphttpsenable[H3C]netconfsshserverenable[H3C]linevty04[H3C-line-vty0-4]authentication-modescheme41[H3C-line-vty0-4]user-rolenetwork-operator(4)如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师.
12.
7应用限速不生效12.
7.
1故障描述应用限速使能后,未限速成功.
12.
7.
2故障处理步骤(1)确认应用是否匹配正确.
查看所定义的限速应用流量和实际应用流量是否匹配正确,限速只对所属应用组定义的应用生效,如有问题请根据实际流量重新定义应用.
(2)确认限速配置是否正确.
在对应设备上检查控制器下发的限速配置是否成功以及是否正确,如有问题尝试修改限速重新下发(限速数值不可超过设备能力范围,否则命令会下发失败);应用限速配置如下:#trafficclassifiertrafficClassifier10operatororif-matchaclnameACL-2a2994e0-2338-4f66-acdb-7d6420465905#trafficbehaviortrafficBehavior0remarkmpls-exp5remarkservice-class1carcir10000cbs625000ebs0greenpassreddiscardyellowpass#qospolicyADWAN-QPInXGE2/1/5.
1classifiertrafficClassifier10behaviortrafficBehavior0#acladvancednameACL-2a2994e0-2338-4f66-acdb-7d6420465905其中,carcir10000cbs625000ebs0greenpassreddiscardyellowpass即代表限速10000kbps,acladvancednameACL-2a2994e0-2338-4f66-acdb-7d6420465905即为对应的应用规则,qospolicyADWAN-QPInXGE2/1/5.
1为配置在LAN口的策略.
(3)如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师.
12.
8历史信息页面无响应12.
8.
1故障描述链路历史信息、设备历史信息、应用历史信息页面无响应.
12.
8.
2故障处理步骤造成故障的原因可能为:42MongoDB数据库未启动.
MongoDB数据库有冲突.
故障处理步骤如下:(1)在集群稳定情况下,在任意一台matrix服务器执行以下命令确定主控制器.
kubectlgetall-nadwan-systemsdwan-owide(2)进入主控制器容器.
其中阴影部分需根据环境中实际的主控制器容器ID修改.
kubectlexec-it-nsdwansdwan-node1-7b468668fd-pzcp9/bin/bash(3)查看MongoDB进程是否启动.
在控制台输入命令ps-aux|grepmongodb,若输出结果如图12-1,则MongoDB数据库已经启动.
若MongoDB数据库未启动,则进入/opt/mongodb-linux/bin路径,输入命令.
/mongod--port27017--dbpath/opt/db启动MongoDB数据库.
图12-1MongoDB数据库启动成功(4)MongoDB数据库的默认安装路径为/opt/mongodb-linux/,若系统中其他路径下安装过MongoDB数据库,请将其卸载.
(5)若故障未解决,关闭SeerEngine-SDWAN控制器,查看MongoDB进程是否关闭.
若长时间未关闭,则关闭MongoDB进程,重新启动SeerEngine-SDWAN控制器.
(6)如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师.
4312.
9历史信息统计异常12.
9.
1故障描述历史信息页面只能显示时间段长度为0-3小时的历史信息,时间段长度为大于3小时的时段历史信息不能显示.
12.
9.
2故障处理步骤造成故障的原因可能为SeerEngine-SDWAN控制器系统时间被向后修改,之后又修改为当前时间.
故障处理步骤如下:(1)请参考"12.
8历史信息页面无响应"中的步骤进入主控制器中.
(2)在SeerEngine-SDWAN控制器的控制台输入以下命令:root@localhost:~$/opt/mongodb-linux/bin/mongo>useOAM>db.
RecordLastTime.
drop()>exit(3)如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师.
4413产品授权故障处理13.
1获取设备信息文件时出现错误13.
1.
1故障描述在License管理页面中,通过按钮获取设备信息文件时无法正常导出.
13.
1.
2故障处理步骤造成故障的原因可能为在生成设备信息文件过程中,获取系统文件资源时出现异常.
故障处理步骤如下:(1)该故障目前只能通过重启SeerEngine-SDWAN控制器来恢复.
重启SeerEngine-SDWAN控制器将导致网络中断,请谨慎操作,或请直接联系H3C技术支持工程师.
13.
2在注册License文件时,提示"License文件非法"13.
2.
1故障描述在[系统/License管理]页面注册License文件时提示"License文件非法".
13.
2.
2故障处理步骤造成故障的原因可能为:注册的License文件不是为当前SeerEngine-SDWAN控制器申请的.
SeerEngine-SDWAN控制器所在的服务器更换过网卡等硬件.
故障处理步骤如下:(1)请为当前SeerEngine-SDWAN控制器重新申请License文件.
(2)如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师.
13.
3临时License信息到期失效13.
3.
1故障描述SeerEngine-SDWAN控制器中,临时(试用)License已安装且系统正常运行.
一段时间后,在控制器管理设备过程中提示无法获取有效的授权信息,例如新添加的设备无法上线并提示原因为没有可用的License.
13.
3.
2故障处理步骤造成故障的原因可能是临时License到期导致授权信息失效,无法继续使用.
故障处理步骤如下:45(1)单击[系统/License管理]菜单项,在[激活文件管理]页签查看License的状态信息.
"Expired"即代表License已经失效;若不存在处于"Inuse"状态的License,则说明当前系统已安装的License均不可用.
(2)请为SeerEngine-SDWAN控制器重新申请License文件并安装使用.
(3)如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师.
4614MongoDB集群同步故障处理14.
1首次建立集群失败14.
1.
1故障描述控制器集群启动,无法建立MongoDB集群.
在系统的/opt/WAN_APP1000/data/log目录下查看相关日志,出现"hasdataalready,cannotinitiateset.
Allmembersexceptinitiatormustbeempty.
"信息.
14.
1.
2故障处理步骤首次建立集群失败的原因可能是参与建立集群的控制器中有超过一台成员的MongoDB数据库非空.
故障处理步骤如下:(1)在集群稳定情况下,在任意一台Matrix服务器执行以下命令确定主控制器.
kubectlgetall-nadwan-systemsdwan-owide(2)进入主控制器容器.
其中阴影部分需根据环境中实际的主控制器容器ID修改.
kubectlexec-it-nsdwansdwan-node1-7b468668fd-pzcp9/bin/bash(3)按照上述步骤,进入各个控制器中,查看mongoDB数据库文件/opt/db是否存在数据,确保不多于一台控制器的mongoDB数据库非空.
(4)如果上述操作完成以后故障仍然无法排除,请联系H3C技术支持工程师.
4714.
2集群建立后,在备控制器上无法显示相关数据14.
2.
1故障描述在集群建立后,在备控制器上的运维管理页面或拓扑管理页面无法显示流量调度历史、OAM(例如设备及链路信息)等数据.
14.
2.
2故障处理步骤造成故障的原因可能是备控制器未完成与主控制器间的数据同步.
故障处理步骤如下:(1)按照"14.
1首次建立集群失败"中步骤进入主控制器.
(2)在主控制器的控制台上执行如下命令查看成员状态.
(3)通过rs.
status()命令查看各MongoDB成员(以_id区分)的stateStr参数取值是否为"PRIMARY"或"SECONDARY".
其中PRIMARY状态表示该成员为主成员,SECONADRY状态表示该成员为备成员.
如果出现其他状态,则表示成员未完成数据库同步,请稍后再试.
4849(4)如果上述操作完成以后故障仍然无法排除,请联系H3C技术支持工程师.
14.
3建立集群后,主和备控制器均无法显示相关数据14.
3.
1故障描述在建立集群之后,主备控制器状态已经正常,数据库中有数据,但是这些信息在GUI页面上无法显示.
14.
3.
2故障处理步骤造成故障的原因可能为写入数据库的数据存在错误.
例如人为向数据库中构造数据,但是构造的数据错误导致显示异常.
或者在控制器向MongoDB中写入数据时系统未区分主备控制器,导致备控制器向数据库写入错误的数据,由于正常情况下只有主控制器会向数据库写入数据,此时可能出现数据错误导致显示异常.
故障处理步骤如下:(1)按照"14.
1首次建立集群失败"中步骤进入主控制器.
(2)在SeerEngine-SDWAN启动时,进入数据库(以查看调度日志为例):(3)执行如下命令查看数据库相关信息:showdbs:显示所有的数据库.
useADJUSTLOG_DATA:使用调度日志数据库.
showcollections:显示数据库内的数据集合.
db.
COLLECTION_ALL.
find():将该数据库的某个集合下保存的数据显示出来.
50(4)查看数据库中保存数据是否正确.
查看并确认某条记录是否在同一时间插入多条,且参数取值全为-1.
如果是,则该记录无法被读取.
例如:{"_id":ObjectId("5a6937114da2a048637993b7"),"uuid":"0763f161-e68a-4593-85ec-ee77e1afe5e4","delay":NumberLong(-1),"jitter":NumberLong(-1),"packageLossRate":-1,"timeStamp":NumberLong("1516844760000"),"bandwidth":NumberLong(-1),"bandwidthPercentage":NumberLong(-1),"flowGroupsBandwidthList"(5)在SeerEngine-SDWAN控制器未启动时数据库也未启动.
此时用户可执行如下命令手动启动数据库,再执行上述步骤的命令查看数据库信息.
启动数据库时请确认数据库所在目录以及端口号正确.
(6)如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师.
14.
4数据库集群大数据同步耗时较长14.
4.
1故障描述MongoDB集群初次搭建成功时,由于备数据库为空,主数据库会将自己的数据全部同步到备数据库.
若主数据库中数据过多,则数据同步时间较长,备数据库在同步过程中一直处于STARTUP2状态,导致控制器涉及MongoDB业务功能暂时不可用.
以调度日志数据库为例,在调度日志数量达到1000万条时,调度日志数据库的大小在1.
1GB左右,如图14-1所示.
此时主MongoDB数据库与备MongoDB数据库之间进行数据库同步需耗时10分钟左右.
在同步的过程中,备数据库始终处于STARTUP2状态,如图14-2所示.
当数据同步完成后,备mongoDB的数据库状态变为SECONDARY.
请注意,处于STARTUP2状态的数据库不可用,需状态变为SECONDARY后方才可用.
51图14-1数据库容量图14-2数据同步过程中备数据库状态5214.
4.
2故障处理步骤解决该问题可以通过数据手动同步加快数据同步过程.
启动MongoDB集群,通过ps-ef|grepmongo命令查询MongoDB集群进程是否正常启动.
图14-3查看MongoDB集群进程确认集群进程启动后,请通过如下步骤进行手动数据同步:(2)按照"14.
1首次建立集群失败"中步骤进入主控制器.
(1)通过如下命令进入MongoDB客户端,并查看数据库状态.
若集群内备MongoDB数据库状态均为STARTUP2,说明集群关系已成功建立.
图14-4进入数据库客户端并查看数据库状态(2)将集群内所有控制器通过adwanstop命令关闭.
(3)将备MongoDB数据库所在的/opt/db文件夹删除,或修改文件夹名称.
(4)将主MongoDB数据库文件目录/opt/db分别拷贝到各个备数据库所在的目录(/opt目录).
(5)再次启动集群内所有控制器.
(6)如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师.
5315控制器运行异常故障处理15.
1磁盘空间不足导致控制器异常退出15.
1.
1故障描述SeerEngine-SDWAN控制器进程异常退出,且无法重新启动,检查发现磁盘空间占用达100%,剩余空间不足.
系统会将异常退出的诊断日志转存在/opt/adwan-backup/ruptlog目录下.
15.
1.
2故障处理步骤当磁盘空间占用达到80%以上时,系统会发送磁盘空间不足的告警信息,此时应当及时清理磁盘释放空间或进行磁盘扩容,以免影响控制器正常运行.
当磁盘空间不足时,控制器会异常退出且无法重新启动,同时再次启动过程中可能损坏/opt/WAN_APP1000/data内的数据文件.
当文件损坏后,磁盘空间充足时也无法启动控制器.
故障处理步骤如下:(1)在集群稳定情况下,在任意一台Matrix服务器执行以下命令确定主控制器.
kubectlgetall-nadwan-systemsdwan-owide(2)通过如下命令进入主控制器容器.
其中阴影部分需根据环境中实际的主控制器容器ID修改.
kubectlexec-it-nsdwansdwan-node1-7b468668fd-pzcp9/bin/bash54(3)使用adwanstop命令关闭控制器,然后清理系统磁盘空间.
例如控制器在升级过程中会自动将原控制器的数据和配置备份保存到系统/opt/adwan-backup的相应目录下,当多次升级时可能有多个备份文件,您可根据需求到备份目录下手动清理较旧的文件以节省磁盘空间.
建议清理后的磁盘剩余空间达到总空间的20%,清理完成后使用adwanstart命令再次启动控制器.
(4)如无法启动,则可能由于数据文件损坏导致.
此时请删除/opt/WAN_APP1000目录下的data、lock、cache文件然后再次尝试启动.
(5)如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师.
15.
2端口文件不存在导致控制器无法正常退出15.
2.
1故障描述控制器在执行adwanstop命令后无法正常退出,并打印提示信息"/opt/WAN_APP1000/data/portshutdownportfiledoesn'texist.
Thecontainerisnotrunning.
".
15.
2.
2故障处理步骤该故障出现的原因可能为用户错误地更改了系统中/etc目录下的hosts文件内容,使其中记录的本地IP地址与当前系统IP地址不一致,导致控制器无法正常退出.
故障处理步骤如下:(1)按照"15.
1磁盘空间不足导致控制器异常退出"步骤进入主控制器中.
(2)检查/etc/hosts文件中记录的本地IPv4地址是否为默认的127.
0.
0.
1,或是否与当前系统的IP地址一致.
[root@localhost~]#cat/etc/hosts127.
0.
0.
1localhostlocalhost.
localdomainlocalhost4localhost4.
localdomain4::1localhostlocalhost.
localdomainlocalhost6localhost6.
localdomain6(3)如不一致,请使用vi编辑器修改/etc/hosts文件配置,将本地IPv4地址修改为127.
0.
0.
1.
不建议将其修改为当前系统的IP地址,避免后续再次修改系统IP地址后导致控制器出现异常.
修改完成后执行adwanstop命令查看控制器是否可以正常退出.
(4)如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师.
5515.
3控制器集群2个成员异常导致不可用15.
3.
1故障描述当前控制器仅支持3个成员组建集群.
当控制器中2个节点出现故障时,集群将无法正常工作,剩余1台正常控制器也将进入紧急模式,无法下发配置,仅支持配置查看.
15.
3.
2故障处理步骤此时需登录正常控制器,使用一台新服务器对当前集群的故障节点进行重建.
故障处理步骤如下:(1)创建2台新服务器作为故障节点重建的替代服务器.
新服务器的IP地址、用户名、密码、主机名称、网卡等均需与被替代的故障服务器保持一致.
此处将以1台服务器进行重建为例介绍.
(2)将故障的服务器断电,并将新服务器接入网络,加电启动.
(3)使用正常服务器的IP地址,通过https://ip_address:8443/matrix/ui登录SNAInstaller页面,输入用户名和密码(缺省用户名为admin,密码为admin@123),单击按钮进入SNAInstaller首页.
单击[部署>应用>应用列表]查看控制器节点信息,在详情页面可查看正常控制器的节点名称和IP地址,使用该IP地址通过http://IP_address:8585可访问控制器,查看相应业务信息.
(4)在SNAInstaller页面,进入[部署>集群]页面,选择故障的节点并单击右上角的配置按钮,在弹出的对话框中选择选项,并继续选择重建方式:方式一:上传与当前节点相同版本的SNAInstaller软件包进行节点重建,并上传重建文件,单击按钮.
方式二:使用系统中原有的节点部署文件进行重建,单击按钮.
56(5)等待控制器重建完成即可.
节点重建完成后,重建控制器将变为蓝色的正常状态.
需要注意的是,重建完成后当前页面仍处于紧急模式中,需退出后通过北向业务虚IP重新登录SNAInstaller.
(6)重复上述步骤,完成另一台故障服务器重建.
(7)如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师.

  • 设备蒲公英官网sdwan相关文档

Letbox(35美元/年),美国洛杉矶VPS终身7折

Letbox 云服务商在前面的文章中其实也有多次介绍,这个服务商其实也算是比较老牌的海外服务商,几年前我也一直有使用过他们家的VPS主机,早年那时候低至年付15-35美元左右的VPS算式比较稀缺的。后来由于服务商确实比较多,而且也没有太多的网站需要用到,所以就没有续费,最近这个服务商好像有点活动就躁动的发布希望引起他人注意。这不有看到所谓的家中有喜事,应该是团队中有生宝宝了,所以也有借此来发布一些...

易探云韩国云服务器仅50元/月,510元/年起

韩国云服务器哪个好?韩国云服务器好用吗?韩国是距离我国很近的一个国家,很多站长用户在考虑国外云服务器时,也会将韩国云服务器列入其中。绝大部分用户都是接触的免备案香港和美国居多,在加上服务器确实不错,所以形成了习惯性依赖。但也有不少用户开始寻找其它的海外免备案云服务器,比如韩国云服务器。下面云服务器网(yuntue.com)就推荐最好用的韩国cn2云服务器,韩国CN2云服务器租用推荐。为什么推荐租用...

ParkinHost:俄罗斯离岸主机,抗投诉VPS,200Mbps带宽/莫斯科CN2线路/不限流量/无视DMCA/55折促销26.4欧元 /年起

外贸主机哪家好?抗投诉VPS哪家好?无视DMCA。ParkinHost今年还没有搞过促销,这次parkinhost俄罗斯机房上新服务器,母机采用2个E5-2680v3处理器、128G内存、RAID10硬盘、2Gbps上行线路。具体到VPS全部200Mbps带宽,除了最便宜的套餐限制流量之外,其他的全部是无限流量VPS。ParkinHost,成立于 2013 年,印度主机商,隶属于 DiggDigi...

蒲公英官网sdwan为你推荐
蓝瘦香菇被抢注蓝瘦香菇这梗是怎么火起来的?怎么觉得火得莫名其妙?百度商城百度商城知道在哪个地方,怎么找不到啊老虎数码我想买个一千左右的数码相机!最好低于一千五!再给我说一下像素是多少?原代码什么是原代码rawtoolsRAW是什么衣服牌子同ip站点查询如何查看几个站是不是同IP长尾关键词挖掘工具大家是怎么挖掘长尾关键词的?www.haole012.com012qq.com真的假的www.zhiboba.com看NBA直播的网站哪个知道m.yushuwu.org花样滑冰名将YU NA KIM的资料谁有?
短域名 Oray域名注册服务商 阿里云os 80vps liquidweb 免备案cdn 60g硬盘 evssl 华为云主机 申请空间 申请个人网页 admit的用法 hostloc 速度云 vip购优惠 最好的qq空间 重庆双线服务器托管 cxz 国外在线代理服务器 lamp兄弟连 更多