为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

交换机二层环路问题处理指南

2017-12-21 23页 doc 51KB 82阅读

用户头像

is_266065

暂无简介

举报
交换机二层环路问题处理指南交换机二层环路问题处理指南 ------------------------------------------------------------------------------------------------ 交换机二层环路问题处理指南 目录 1 2 介 绍................................................................................................................. ...............
交换机二层环路问题处理指南
交换机二层环路问处理指南 ------------------------------------------------------------------------------------------------ 交换机二层环路问题处理指南 目录 1 2 介 绍................................................................................................................. .......................... 3 网络业务故障,如何确认存在环 路, ................................................................................... 3 2.1 2.2 第一步:是否可以通过端口流量发现数据风 暴, ................................................... 4 第二步:是否可以通过 MAC-Flapping检测漂移, .................................................. 5 2.2.1 2.2.2 2.3 框式交换 机 ....................................................................................................... 5 盒式交换 机 ....................................................................................................... 7 第三步,是否可以通过环路检测发现环 路, ........................................................... 8 2.3.1 2.3.2 Loop Detection(框 —————————————————————————————————————— ------------------------------------------------------------------------------------------------ 式) ....................................................................................... 9 Loopback Detection(盒式) .............................................................................. 10 3 环路问题发生后,如何快速破 环, ..................................................................................... 11 3.1 3.2 第一步:是否理解网络业务并明确拓 扑, ............................................................. 11 第二步:是否需要用影 响最小的方法破环, ......................................................... 11 3.2.1 3.2.2 3.2.3 3.3 方法一:端口退出成环VLAN破 环 .............................................................. 11 方法二:shutdown成环 端口破环 ................................................................. 11 方法三:通过拔 出成环光纤破环 ................................................................. 11 第三步: 操作后确认业务是否恢 复, ..................................................................... 12 4 环路问题发生后,如何定位问题根 因, ............................................................................. 12 4.1 4.2 4.3 第一步:是否由于近期施工操作引入环 —————————————————————————————————————— ------------------------------------------------------------------------------------------------ 路, ......................................................... 12 第二步:是否由于近期修 改配置引入的环路, ..................................................... 12 第三步:是 否典型的常见环路问题, ..................................................................... 13 4.3.1 4.3.2 4.3.3 4.3.4 4.3.5 交换机自环出现环 路 ..................................................................................... 13 交换机下 游设备自环出现环路 ..................................................................... 13 环 形组网链路震荡导致环收敛震荡 ............................................................. 14 环形组网寄存器下发失败无法破 环 ............................................................. 14 链路单通引入RRPP网络 单向环 ................................................................... 15 4.3.6 4.3.7 4.4 5 堵塞的端口L2PT(bpdu-tunnel)协议报文成 环 ................................. 16 下游设备报文转发异常导致疑似环 路 ......................................................... 17 第四步:收集信息返回研发 —————————————————————————————————————— ------------------------------------------------------------------------------------------------ 分析 ............................................................................. 17 环路问题解 决后,网络是否需要优 化, ............................................................................. 19 5.1 5.2 5.3 5.4 第一步:是否需要部署适当的破环协 议, ............................................................. 19 第二步:是否需要提升 链路质量和可靠性, ......................................................... 19 第三步: 是否需要部署广播抑制提升网络健壮性, ............................................. 19 第四步:是否需要部署QoS保证协议报文优先转 发, .......................................... 19 6 结束 语................................................................................................................. .................... 19 1 介绍 以太网链路由于各种原因,导致数据或协议报文环形转发,导致 网络形成数据风暴,最终影响正常业务。本文档仅介绍二层网络的常 见环路问题识别和处理。 本指导按照如下思路进行二层环路问题分析和处理: 1、 网络业务故障,如何观察确认存在二层环路, 2、 环路问题发生后,如何快速破环恢复业务, —————————————————————————————————————— ------------------------------------------------------------------------------------------------ 3、 如何排查环路问题的根本原因,是否已知案例,。 4、 针对问题原因,对网络进行适当的优化。 处理二层环路问题,您首先需要准备如下: 1、 整网的拓扑图,包含设备名称、登陆方式、系统MAC。 2、 登陆软件,记录全部的操作记录。 准备好这些,我们开始二层环路问题的处理之旅。 2 网络业务故障,如何确认存在环路, 网络业务故障后,如发生二层环路,通常会存端口流量数据风暴和反复大量的MAC漂移现象。因此,在骨干链路所在的节点,通过如下三步操作: 图1:环路排查流程图 可以判断网络是否可能存在二层环路。 2.1 第一步:是否可以通过端口流量发现数据风暴, 通过display interface brief命令,查看所有接口下的流量,存在环路的接口上InUti和OutUti两个计数会逐步增加: 第一次查询: [151]disp interface Ethernet brief | in up PHY: Physical *down: administratively down (l): loopback (b): BFD down InUti/OutUti: input utility/output utility —————————————————————————————————————— ------------------------------------------------------------------------------------------------ Interface PHY Auto-Neg Duplex Bandwidth InUtiOutUtiTrunk GigabitEthernet0/0/2 up enable full 100M 0% 0.01% -- GigabitEthernet0/0/16 up enable full 1000M 0.56% 0.56% 1 GigabitEthernet1/0/12 up enable full 1000M 0.56% 0.56% 1 MEth0/0/1 up enable half 100M 0.01% 0.01% -- 最后一次查询: [151]disp interface Ethernet brief | in up PHY: Physical *down: administratively down (l): loopback (b): BFD down InUti/OutUti: input utility/output utility Interface PHY Auto-Neg Duplex Bandwidth InUtiOutUtiTrunk GigabitEthernet0/0/2 up enable full 100M 0% 0.01% -- GigabitEthernet0/0/16 up enable full 1000M 76% 76% 1 GigabitEthernet1/0/12 up enable full 1000M 76% 76% 1 MEth0/0/1 up enable half 100M 0.01% 0.01% -- 一般情况下,查询只能看到网络的当前流量结果,此时需要和网 —————————————————————————————————————— ------------------------------------------------------------------------------------------------ 络的正常业务流量进行比较,业务流量的带宽可以从客户的网络流量监控图获取。 如果只有一台设备的一个端口出入方向流量较大,可能是单端口环回。 如果只有一台设备的两个端口流量较大,可能是本设备两个端口环回; 如果某端口只有单方向流量,只有出或者只有入,需要重点排查,因为环路有可能在该端口的上下游设备。 通常情况下: 如果当前网络流量远大于正常业务,可能存在二层环路。 如果当前网络流量正常,没有部署广播抑制,没有二层环路。 如果当前网路流量比正常流量稍大,且部署了广播抑制,需要继续后面的第二步和第三步操作。 2.2 第二步:是否可以通过MAC-Flapping检测漂移, MAC地址漂移即设备上一个接口学习到的MAC地址在同一VLAN中另一个接口上也学习到,后学习到的MAC地址表项的覆盖原来的表项。 导致MAC地址漂移的因为包括网络存在环路、或者非法用户进行网络攻击。 例如下图,当Switch1向两个方向同时发报文时,在Switch2上的两个不同端口都会收到该报文,从而出现MAC地址漂移。当Switch2的两个端口出现了MAC地址漂移时,说明交换机的两个端口间可能—————————————————————————————————————— ------------------------------------------------------------------------------------------------ 出现了环路。 LSW1 LSW2LSW3 图2:MAC-Flapping示意图 MAC地址漂移,交换机所有形态和版本均默认支持漂移,具体的MAC漂移配置主要是指漂移后是否告警,漂移后是否设置端口堵塞的功能。 由于框式交换机和盒式交换机MAC漂移检测的命令行和检测存在差异,我们分别介绍: 2.2.1 框式交换机 V1R2版本,在非S系列单板上支持全局使能的MAC-Flapping检测功能(全局使能,只支持发送TRAP)。 在V1R2上,开启MAC地址漂移检测: [Quidway]mac-flapping alarm enable V1R3及以后的版本,在V1R2版本的基础上,新增了基于VLAN的MAC地址漂移检测、检测到MAC地址漂移后执行对应的动作策略。 在V1R3及以后的版本上,开启MAC地址漂移检测(下面两个命令均可使用): 系统视图下:[Quidway]loop-detect eth-loop alarm-only VLAN视图下:[Quidway -vlan1001]loop-detect eth-loop alarm-only 2.2.2 盒式交换机 盒式交换机(不包括23、27系列)V1R3及以后版本,不支持全局使能的MAC地址漂移检测,只支持基于VLAN的MAC地址漂移检—————————————————————————————————————— ------------------------------------------------------------------------------------------------ 测,同时支持检测到漂移后的发送TRAP、阻塞端口等动作。 开启MAC地址漂移检测: VLAN视图下:[Quidway -vlan1001]loop-detect eth-loop alarm-only 2.3 第三步:设备作为三层网关,是否存在大量ARP报文被 CPCAR丢包记录, <dgg62aslhwug>disp clock 2011-11-30 20:04:32 Wednesday Time Zone : BJ add 08:00:00 <dgg62aslhwug>dispcpu-defend arp-request statistics slot 3 CPCAR on slot 3 ------------------------------------------------------------------------------- Packet Type Pass(Bytes) Drop(Bytes) Pass(Packets) Drop(Packets) arp-request 91720644 61001339156 1348833 897078517 ------------------------------------------------------------------------------- <dgg62aslhwug>dispcpu-defend arp-reply statistics slot 3 CPCAR on slot 3 ------------------------------------------------------------------------------- Packet Type Pass(Bytes) Drop(Bytes) Pass(Packets) Drop(Packets) arp-reply 381073700 46925484540 —————————————————————————————————————— ------------------------------------------------------------------------------------------------ 5604025 690080655 ------------------------------------------------------------------------------- <dgg62aslhwug>disp clock 2011-11-30 20:04:35 Wednesday Time Zone : BJ add 08:00:00 <dgg62aslhwug>dispcpu-defend arp-request statistics slot 3 CPCAR on slot 3 ------------------------------------------------------------------------------- Packet Type Pass(Bytes) Drop(Bytes) Pass(Packets) Drop(Packets) arp-request 91728872 61001759940 1348954 897084705 ------------------------------------------------------------------------------- <dgg62aslhwug>dispcpu-defend arp-reply statistics slot 3 CPCAR on slot 3 ------------------------------------------------------------------------------- Packet Type Pass(Bytes) Drop(Bytes) Pass(Packets) Drop(Packets) arp-reply 381082540 46925484540 5604155 690080655 ------------------------------------------------------------------------------- 通常情况下,ARP的交互是有序进行,短时间内不会出现超多报 —————————————————————————————————————— ------------------------------------------------------------------------------------------------ 文的丢弃。 问题一般发生在9300作为汇聚网关场景,出现上述情况后,可能的原因是ARP的广播报文在物理环形的网络中转发,形成协议报文的风暴,当前设备上送CPU,被交换机CPU限速丢弃。 2.4 第四步,当前是否可以增加配置环路检测发现环路, 框式交换机和盒式交换机都支持检测环,框式交换机的环路监测称为Loop Detection;盒式交换机的环回监测称为Loopback Detection。 2.4.1 Loop Detection(框式) 框式交换机端口配置Loop Detection功能以后,设备会从该端口发送环路检测报文,在端口所属且使能Loop Detection功能的VLAN内进行环路检测,如果设备接收到自己发送的检测报文,网络上存在环路。 框式交换机上的环路监测能检测到下面两种情况下的端口环路: 1、 设备上端口收到本端口发送的检测报文。 2、 设备上端口收到非本端口发送的检测报文。 开启了Loop Detection以后,用display loop-detection命令可以查看当前环路检测的状态,用display loop-detection interface命令可以查看具体某一个端口的状态。 <Quidway> display loop-detection Loop Detection is enable. Detection interval time is 5 seconds. Following vlans enable loop-detection: —————————————————————————————————————— ------------------------------------------------------------------------------------------------ vlan 556 Following ports are blocked for loop: NULL Following ports are shutdown for loop: NULL Following ports are nolearning for loop: NULL <Quidway> display loop-detection interface gigabitethernet 1/0/0 The port is enable. The port's status list: Status WorkMode Recovery-time EnabledVLAN ----------------------------------------------------------------------- Normal Shutdown 200 556 2.4.2 Loopback Detection(盒式) 盒式交换机端口配置Loopback Detection功能以后,设备会从该 端口发送环路检测报文,一个untagged报文和指定VLAN Tag报文。 盒式交换机的Loopback Detection,只能针对设备上端口收到本端口 发送的检测报文的环路。 开启了Loop Detection以后,用display loop-detection命令可以 查看环路检测功能的配置信息和接口状态信息。 —————————————————————————————————————— ------------------------------------------------------------------------------------------------ <Quidway> display loopback-detect Loopback-detect is enabled in the system view Loopback-detect interval: 30 Loopback-deteck sending-packet interval: 5 Interface ProtocolIDRecoverTime Action Status -------------------------------------------------------------------------------- GigabitEthernet0/0/2 602 30 block NORMAL 3 环路问题发生后,如何快速破环, 以太网的环路,会在短时间内形成数据风暴,当端口的流量达到 带宽的最大负荷,会形成链路拥塞,影响网络业务。因此,在确认网 络发生数据环路后,请按照如下步骤处理: 3.1 第一步:是否理解网络业务并明确拓扑, 环形网络拓扑一般较为复杂,可以向客户寻求网络拓扑结构全图, 具体到网络的VLAN规划信息,每台设备名称、系统MAC、管理IP, 本端端口名称、对端端口名称。 完整的拓扑信息是解决环路问题的首要条件,如果没有拓扑图, 需要从发现环路的设备,通过逐跳登陆,记录设备信息、端口信息和 VLAN信息,手动绘制完整的拓扑。 3.2 第二步:是否需要用影响最小的方法破环, 紧急破环又称手动破环,当网络风暴严重影响正常的业务时,需 —————————————————————————————————————— ------------------------------------------------------------------------------------------------ 要在尽快恢复业务。 可以通过如下三个方法紧急破环: (注意紧急破环不要影响远程telnet路径所在的设备、端口和VLAN,避免无法登陆。) 3.2.1 方法一:端口退出成环VLAN破环 备注:需要注意不要shutdown远程telnet路径所在的端口,避免无法远程登陆。 3.2.2 方法二:shutdown成环端口破环 Shutdown成环的物理端口,也可以达到破环的效果。 此时,需要保证shutdown的端口两端在全部VLAN内能够通信。 3.2.3 方法三:通过拔出成环光纤破环 通过拔出成环的光纤,可以紧急破环。 备注:该方法可以使用shutdown端口代替,只有在设备无法登陆时才使用。 3.3 第三步:操作后确认业务是否恢复, 通过ping等测证网络通信质量,并和客户一起观察现网业务是否已经恢复。 环路拓扑存在冗余链路和配置,环路破除后业务会自行恢复,特殊情况在此不一概而论。 4 环路问题发生后,如何定位问题根因, 4.1 第一步:是否由于近期施工操作引入环路, 如果环路问题是由于近期施工操作引入,可以和施工方确认,了解施工的过程,特别是新增线路连接的细节,结合拓扑结构,确认后排出物理环路。 —————————————————————————————————————— ------------------------------------------------------------------------------------------------ 4.2 第二步:是否由于近期修改配置引入的环路, 4.3 第三步:是否典型的常见环路问题, 4.3.1 交换机自环出现环路 LSW1 图3:设备自环出现环路 前置条件:交换机未配置STP和LDT 问题现象:端口出方向和入方向流量持续增加。 问题原因:端口自环或者链路环回。 处理方法: 1、首先在端口下去使能loopback internal。 2、设备由于链路引入环路有两种: 一种是单端口收发环回。第二种是设备上两个端口环路。 此类环路造成的原因是光纤或者网线误接,需要拆除连线。 4.3.2 交换机下游设备自环出现环路 LSW1 LSW2 图4:下游设备自环出现环路 前置条件:设备未部署STP和LDT,本设备未环回。 问题现象:端口入方向和出方向流量持续增大,环回链路在下游。 问题原因:下游链路环回或者自环。 处理方法: 1、首先逐跳向下游寻找环路的链路。 1、然后在端口下去使能loopback internal。 2、设备由于链路引入环路有两种: 一种是单端口收发环回。第二种是设备上两个端口环路。 —————————————————————————————————————— ------------------------------------------------------------------------------------------------ 此类环路造成的原因是光纤或者网线误接,需要拆除连线。 4.3.3 环形组网链路震荡导致环收敛震荡 LSW1 LSW2LSW3 理论上的堵塞端口 计算的堵塞端口 图5:环路堵塞端口存在振荡 前置条件:设备部署STP、RRPP、SEP或者SMLK等破环协议。 问题现象:环路一段时间收敛正常,一段时间收敛失败,或者持续震荡。 问题原因:网络上链路存在震荡,导致环网协议报文转发失败,反复超时震荡。如: 1、链路存在错包,协议报文被丢弃。 2、未知单播抑制、不合理的qos等配置丢弃协议报文。 处理方法: 1、 如因为错包丢弃,建议更换问题网线、光纤或者光模块。 2、 如因为被抑制丢包,建议修改单播抑制和不合理的Qos配置。 3、 观察当前网络带宽,确认是否是网络流量拥塞,导致协议报文丢失,超时放开堵塞 端口导致临时环路,此类问题需要进行网络优化。 4.3.4 环形组网寄存器下发失败无法破环 LSW1 —————————————————————————————————————— ------------------------------------------------------------------------------------------------ LSW2LSW3 理论上的堵塞端口 图6:环形网络无法破环 前置条件:物理环路,协议已经破环。 问题现象:网络数据风暴 问题原因:软件计算堵塞端口正确,但是芯片下发失败。 处理方法:此类问题极其少见,可以通过shutdown、undo shutdown期望的堵塞端口,观察协议是否收敛成功。 4.3.5 链路单通引入RRPP网络单向环 LSW1 LSW2LSW3 理论的堵塞端口 故障的单通端口 图7:链路单通造成的RRPP环 前置条件:RRPP组网 问题现象:RRPP堵塞端口超时放开 问题原因:RRPP心跳检测方向,链路单通。 处理方法:解决单通链路问题。 该问题有两个规避方法: 1、链路自协商,链路质量较差的情况下,链路单通无法协商UP,无单通问题。 2、通过在链路上部署DLDP检测协议,检测到链路单通后,会—————————————————————————————————————— ------------------------------------------------------------------------------------------------ 完全shutdown两侧的端口,解决单向环环路问题。 4.3.6 协议堵塞的端口L2PT(bpdu-tunnel)协议报文成环 LSW1 LSW2LSW3 计算的堵塞端口 图8:已经破环的网络协议报文成环 前置条件:二层网络环路收敛正常,堵塞端口状态下发正常 问题现象:disp l2protocol-tunnel statistics查看到报文增加很快,软转发成环。 问题原因:由于堵塞端口软件转发L2PT(bpdu-tunnel)协议报文,未判断端口是否堵塞,从堵塞端口发送L2PT报文,引起的L2PT报文成环, 处理方法:R6以前版本需要加载最新的补丁解决问题。V1R6C00SPC900解决该问题。 4.3.7 下游设备报文转发异常导致疑似环路 LSW1 LSW2 计算的堵塞端口 图9:报文转发异常导致环路 前置条件:二层网络环路收敛正常,堵塞端口状态下发正常 问题现象:在LSW3形成频繁的MAC-Flapping,出现疑似环路问题。 —————————————————————————————————————— ------------------------------------------------------------------------------------------------ 问题原因:二层网络的边缘设备,由于个别厂家实现差异,对于无法处理的报文,会反弹转发,常见的设备有机顶盒等。 处理方法:由于报文反弹,此类问题需要更换边缘设备解决。 4.4 第四步:收集信息返回研发分析 如果问题还没有解决,那么问题可能是由于交换机的软件或者硬件故障导致环路,您需要收集信息返回研发进行分析。 相对其他单台设备问题,环路问题涉及多台设备或者整网。 相关信息参考价值、收集方法以及细节要求如下表。 5 环路问题解决后,网络是否需要优化, 5.1 第一步:是否需要部署适当的破环协议, 如果当前的环路问题是由于物理环路引入,且没有配置破环协议,请按照网络规划合理部署破环协议。以太网交换机常见的破环协议为STP/RSTP/MSTP、RRPP、SEP等,具体应用请查询配置手册。 5.2 第二步:是否需要提升链路质量和可靠性, 如果当前环路问题是由于物理链路质量不可靠,存在协议报文拥塞丢失导致超时临时环路,请检查链路,并更换光纤光模块。 如果当前问题因为带宽不足导致协议报文被丢弃,需要扩充带宽或者使用聚合链路,提升链路可靠性。 5.3 第三步:是否需要部署广播抑制提升网络健壮性, 为了避免再次成环,成环后再次引入数据风暴,建议在环上设备端口下,部署广播抑制,按照经验,部署5%的广播抑制可以很好的防止广播风暴,具体抑制的比例值可以按照客户并发网络广播流量来—————————————————————————————————————— ------------------------------------------------------------------------------------------------ 评估确认。 5.4 第四步:是否需要部署QoS保证协议报文优先转发, 如果当前环路问题是由于网络拥塞导致协议报文,需要部署Qos,报文协议报文高优先级转发。 5.5 第五步:是否需要优化网络设计,提升网络, 复杂组网可以通过分层控制,建议合理规划设计接入层、汇聚层。 单层组网内设备数量较多时,建议按照逻辑组织和地理分布,划分不同的域。 6 结束语 该文档可以指导简单的环路排查,复杂问题还是需要协调各方联合定位解决。 关于本文档的建议和想法,请不吝赐教,邮件反馈给我们,谢谢。 ——————————————————————————————————————
/
本文档为【交换机二层环路问题处理指南】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索