《出现链路抖动问题怎样排查与处理.docx》由会员分享,可在线阅读,更多相关《出现链路抖动问题怎样排查与处理.docx(4页珍藏版)》请在课桌文档上搜索。
1、链路抖动是指物理接口在至少10秒的时间内持续上升和下降,每秒三次或更多次。常见原因通常与电缆损坏、不受支持或非标准电缆或小型封装热插拔(SFP)或其他链路同步问题有关.链路抖动的原因可能是间歇性或永久性的。链路抖动通常是物理干扰,因此要采取相应的方式和步骤来诊断和防止以及解决.问题现象以数据库主机为例,在出现链路抖动时数据库磁盘链路有异常,IO延迟大,影响数据库的访问,生产业务受到影响.出现此问题需要按照架构层次进行排Si,先排查上层操作系统出现的现象,再根据现象进行排直存储、光纤交换机、光纤线缆收发光、光纤模块是否存在问题.问题处理过程操作系统排直在系统中,如使用存储链路抖动或远程数据传输到
2、本地未及时交互完成都可能会出现磁盘busy增高情况,磁盘IO延时会增大,正常情况下磁盘的响应时间应在10身秒以下,操作系统直看到的只是问题的表象,根因需要检查后端的光纤链路、光纤交换机等.以AIX操作系统为例(如图2所示).*-topanon-dte-dptex-Hostbjrxcdbl-Refresh-2cs11:31.09INaneb10yreadrxltefc21128.090105.2047.9IfCSO1128.09010S.2047.(TOTA1.S2adapters180211.3409S7IDisk-ServicetasandQueuesIDlkSrvic省理硬件设备监控控制器
3、,管理FC接口模块的操作提示,清除所有FC端口误码统计.如下图3所示:iMW+*21:IJWttOffttwostrl0000OAA2PZENGo&P?0000OAA2P3ENGo100001/1SB:12.XVP:04Wt图3存储设备管理界面系统运行一段时间(如1小时)后,由新直看告警内容中的端口的线路误码统计”增长情况,若误码增长速度较快,可通过尝试更换该端口对应的线缆、模块单元,甚至改用其他端口来确认误码消除情况.光纤交换机排直排查交换机上的误码增长情况.以博科和SNS系列交换机进行说明,登陆交换机的C1.i命令行,通过C1.l命令Statsclear和porterrshow清除和直看当
4、前误码情况.Wl9troMVcBsCrXetcetcrvycXimc503cttfetaitletotc3tltxWm口图4SAN交换机误防统计运行一段时同如1小时诟亚新使用C1.I命令Porterrshow查看端口统计情况.若encin和encout增长速度较快,可通过尝试更换该端口对应的线缆、模块单元,甚至改用其他端口来消除误码.总结在操作系统出现磁盘性能问题后,根据现象检查光纤交换机和存储的误码情况,更换线缆、光纤模块等操作后检查问题是否解决.如检直各项都在正常范围且无硬件告警,说明底层硬件没有问题,可以检查端口流量是否跑满;如端口已经跑满说明业务系统流IR较大,如数据库在跑大的面询,建议可以优化SQ1.和检查索引是否添加等。在底层架构无法进行优化的情况下考虑对上层业务层面进行优化.缓解压力.