第一:故障现象
今天受邀处理一个现象比较“诡异”网络故障,之前已经有两批技术人员现场处理,而且运营商的线路安装师傅也测试过宽带速度,但都没有找到问题的真正原因,当然问题也没有彻底解决。
我作为第三梯队,又是老网工,带着好奇来到现场,废话不多说,先上拓扑图
刚到现场由于上线设备较少,网络测试一切正常,大概到三点左右上网设备达到130左右,无线和有线的电脑都出现访问网站频频提示失败的现象,和之前描述现象一本一致,看到故障现象,排查工作开始。
第二:排查故障的思路
1、对比无线和有线的上网情况
2、电脑直接网关lan口测试上网情况
3、拔掉主交换机网关设备只在lan口连接单台电脑测试上网情况
4、对内网上网终端的上网带宽和会话数做限制测试上网情况
根据上面整理的排查要素,进行各种组合测试、交叉测试、对比测试,发现当网关总的瞬间会话数超2800之后测试电脑的上网就会出现卡死状态,但是到网关lan ip地址ping值延时正常,ping 8.8.8.8 偶尔有丢包,但也和上面表现出来的卡死现象严重不符。
问题陷入互斥阶段,反复测试确认和会话数的数值有直接关系,通过深入了解客户申请的是家用千兆宽带,而家用宽带对并发会话数有限制,因此导致客户出现上网终端一多就网络卡死,而单台测试网络和宽带都很正常怪异的故障现象。
第三:解决方法
1、会话数限制
对全网终端进行会话数限制,进而控制会话数的总数量,上网效果得到明显改善
2、临时增加一根宽带
新申请一根1000兆宽带,在网关做带宽叠加,在增加带宽的同时,也相对的减少了单根宽带上的会话数的总量,上网效果改善非常明显,基本满足了内网所有人员的上网需求。
3、请客户再咨询运营商协助处理
关于带宽本身相关的问题都只能报修处理,其他方式都无能为力
第四:思考和总结
1、经验固然重要,但是也不能有经验主义,新问题总是不期而遇
2、全面汇总现场情况,及时请教和求助,争取更多的试错机会
3、故障处理了,问题和解决方法解释的清楚,及时做复盘,沉淀成可参考的案例
任何解决方案都是一个版本更替,逐步完善的工程,该专栏的文字皆为手动输入,有不当之处,请及时留言告知,定会及时更正,并在文中公开表示感谢!
感谢你的关注和支持。【 尝试多做点努力,对自己多些满意 】
评论留言