公司网络突然断了几秒,等你冲到机房,一切又恢复正常。查交换机日志才发现,主链路故障时,备用链路确实切换了,但延迟有点高。这种时候,光靠“看起来正常”可不行,得动手测。
为什么要测冗余链路
很多单位都做了双链路上联,交换机也配了生成树(STP)或链路聚合(LACP),但配置写完就扔一边,真出问题才发现切换失败或者环路了。定期用命令测一下,比出事再抓瞎强得多。
常用测试命令和操作思路
进入交换机命令行,别只盯着端口UP/DOWN,要看协议状态和切换时间。以常见华为/H3C设备为例:
display stp brief
这条命令能看生成树各端口角色。正常情况下,主链路是“ROOT”,备用是“ALTE”(Alternate)。如果两个都是ROOT,那就有环路风险;如果备用端口是“DISCARDING”,说明它在待命中,这是对的。
想模拟主链路故障?直接拔线太粗暴,可以用命令临时关闭端口:
interface GigabitEthernet0/0/1
shutdown
关掉主口后,立刻再打一遍 display stp brief,看备用端口是不是从“ALTE”变成了“ROOT”。整个过程控制在几秒内算合格,超过15秒就得查原因。
链路聚合怎么测
如果是做了LACP聚合的双链路,不能随便关端口,否则可能整组失效。应该用下面这招:
display link-aggregation summary
看聚合组里两个成员端口是不是都处于“Selected”状态。然后,在其中一条物理链路上制造干扰,比如插拔一次网线,再刷命令,看它能否快速恢复并重新加入聚合。
有些设备支持强制主备切换测试:
lacp preempt enable
lacp preempt delay 5
开启抢占模式后,原主链路恢复时会自动切回来,延迟设为5秒,避免震荡。
别忘了终端侧验证
交换机看着没问题,终端可能还在丢包。找一台连在下联交换机的电脑,持续ping核心网关:
ping 192.168.1.1 -t
再执行主链路 shutdown,观察丢了几个包。理想情况是丢1~2个,马上恢复。如果连续丢5个以上,说明切换太慢,影响业务。
真实场景中,有次我遇到某办公楼无线AP集体掉线,查下来就是冗余链路切换花了8秒,而AP的心跳包每5秒一次,直接判定网络死亡重启了。后来优化STP参数,把转发延迟压到2秒内,问题才解决。
小技巧:保存对比日志
每次测试前后,把关键命令输出存个文本,比如 stp 状态、聚合状态。半年后换人维护,这些记录比文档还管用。见过太多环境,前任配得好好的,新人一改全乱套。
冗余不是摆设,测过才算落地。几个简单命令,花不了十分钟,但关键时刻能让你少背一口锅。