网络的拓扑如下

RiverStone3000(L3)作为网络的核心交换机,Flex16i汇聚了20几台接入层交换机u2,Flex16i只作为二层透传,所有用户的网关均指向Rs3000。网络稳定运行了3天后,Flex16i的下连用户出现5%丢包。Test pc ping 210.177.208.163或164均出现5%左右的丢包。Rs3000上ping server 出现5%的报文出现延时时间达到1秒。可以判断,客户端丢包是由于icmp报文超时的缘故。
问题解释:为了更准确地定位问题,做了如下测试环境。

用Test pc ping pc2同样出现5%的丢包率。Rs3000 ping test u2 5%报文的延时在1秒左右。在测试过程中,测试过Flex16i同一设备(510芯片)和不同设备(510芯片)下的二层用户互ping,同样出现5%丢包。显然可以排除光纤、u2等其他设备引起该问题。实际环境和测试环境中RS3000直接pingFLex16i的IP地址均没有出现报文延时时间长的现象。但ping Flex16i下连的u2则出现5%左右的报文延时长。因此,可以判断问题出现在Flex16i的二层转发上。
问题解决:将Flex16i reboot,故障依然;将Flex16i关电重启,故障消失,网络恢复正常!热启动和冷启动对于Flex16i来说,其硬件的初始化过程不一样,冷启动对硬件的初始化处理比较彻底,是否硬件还存在深层的Bug,需要研发人员做进一步的定位。
备注:虽然该故障定位在Flex16i上,但是是什么原因引起Flex16i的二层转发异常,并未能给出一个圆满的答案,不能不说是个遗憾。不过,这里要强调的是故障的定位处理,事实上这样的工作已经有利于研发对产品的改进工作了。
在此感谢为本手册付出了无数心血的原GW技术资源部的XDJM,正是他们的加班熬夜,将经历过故障进行总结,才能有今天这份珍贵的手册。
本手册是在原《网络丢包现象分析处理指导书》基础上进行部分的改动,谨此献给所有原GW技术资源部的XDJM,献给那段美好的光阴!献给那段偶们一起共同奋斗的岁月!
凡引用本系列文章相关内容,需要注明出处:www.ipdata.cn,www.cditlab.com 否则本站将追究相关的责任。
QQ交流群: 37198056