日常运维排障常见误区:故障突发后盲目重启设备、随意改动配置、主观预判防火墙拦截,无序排查导致故障范围扩大、定位效率低下。
实绝大多数网络问题,都有一条相对清晰的定位路径。只要别跳着查,从物理层、链路层、网络层,一层层往上看,很多问题并没有想象中那么难。
遵循 OSI 由下至上分层排查逻辑,联动服务器运维与网络设备两端协同核验,是快速定位绝大多数网络故障的核心思路,标准排查顺序:物理层→链路层→网络层→传输层→应用层→安全策略→性能瓶颈→日志溯源。
一、物理层:链路硬件核验,故障高发基础层
端口灯亮不代表链路正常,线路松动、光模块故障、端口震荡是突发断网、偶发掉线首要诱因,更换线缆、光模块、端口是最简排障手段。
1.运维(服务器侧)核查命令与指标
- ip link:查看网卡状态,Link detected 为 no 即物理链路断开
- ethtool eh0(网卡名):核查网卡速率 / 双工模式,非千兆全双工为协商异常
- ip -s link show eh0(网卡名)/ethtool -S eh0(网卡名):监控 RX/TX 报错、CRC 错包,数值持续增长代表硬件故障
- dmesg | grep -Ei 'eth|link|nic|network':检索内核网卡硬件报错日志,是否有dropped / CRC / frame error 有值线缆模块故障
2.网工(交换机 / 防火墙侧)核查项
接口 UP/DOWN 状态、端口频繁闪断、光模块收发光功率、端口错包统计、设备电源 / 风扇 / 温度硬件告警。
不同厂商命令不一样,但检查点基本差不多:接口状态、模块状态、硬件健康状态、错误统计。
3.优先排查场景
网络瞬时中断、间歇性掉线、新更换线缆 / 模块 / 设备后故障、机房线路改动后异常。
有些问题,真不是查出来的,是看出来、摸出来、换出来的。 换根线、换个模块、换个口,有时候比你坐那分析半小时还快。
二、链路层(二层):连通显示正常,转发暗藏故障
接口 UP、指示灯正常,但同网段互通异常,故障多集中在 VLAN、Trunk、STP 环路、广播风暴,是极易被忽略的故障层。
1.运维核查
- ip link show eh0(网卡名):查看本机网卡 MAC 信息
- ip neigh/arp -n:查看 ARP 邻居条目
- tcpdump -i eh0(网卡名)arp/tcpdump -i eh0(网卡名)broadcast/tcpdump -i eh0(网卡名)-nn:抓包分析 ARP 应答、异常广播流量,无 ARP 回执即为二层阻断
2.网工核查
VLAN 配置匹配度、Trunk 放行清单、交换机 MAC 地址表学习状态、STP 端口阻塞 / 拓扑频繁变更、接口广播包突增(环路征兆)。
3.典型故障特征
同 VLAN 主机无法互访、单 VLAN 全业务瘫痪、交换机 CPU 满载、接入终端后全网卡顿。
三、网络层(三层):IP 与路由核验,保障跨网段转发
核心核查三点:IP 配置、ARP 解析、路由条目,仅能 ping 通网关≠全网路由正常。
1.运维排查指令
- ip addr:核对本机 IP;
- ip route/route -n:查看路由表;
- ip neigh/arp -n:查看ARP;
- 分段 ping:ping本地回环→网关→同网段主机→外网 IP;
- Traceroute8.8.8.8/tracepath 8.8.8.8:追踪报文转发跳点。
2.网工排查项
三层接口 IP、网关配置、设备 ARP 表、静态 / 动态路由条目、默认路由有效性、上下游路由发布状态。
3.高频故障
IP 地址冲突、默认路由缺失、内网通外网断、IP 可通域名无法访问。
四、传输层:破除误区,Ping 通不等于业务可用
ICMP 协议连通仅代表底层链路可达,TCP/UDP 端口、会话异常依旧会导致业务不可用。
真正到了传输层,你要看的已经不是“通不通”,而是:
- •端口有没有监听
- •连接能不能建立
- •三次握手是否完整
- •有没有重传、超时、RST
- •NAT 或防火墙会不会影响会话
1.运维实操
- ss -lntp/netstat -lntp #查看进程监听端口;
- ss -ant #查看连接状态
- nc -zv IP 端口/telnet IP 端口 #测试端口是否可达
- curl -I http://example.com/curl -kI https://example.com/curl -v http://目标地址 #测试 HTTP / HTTPS
- tcpdump -i eth0 host 目标IP and tcp/tcpdump -i eth0 port 443 -nn #抓包看三次握手/重传/RST
2.网工配合核查
- •会话表是否正常
- •NAT 转换是否正常
- •防火墙策略是否命中
- •是否存在大量会话堆积
- •是否有丢包、重传、RST 异常
- •必要时做镜像抓包
如果运维侧抓到大量重传,而网络设备侧又发现会话表异常、NAT 打满,那这时候问题基本就很清楚了。
3.适合重点看传输层的场景
ping 正常但网页打不开、服务偶发超时、部分端口连通其余不通、业务连接缓慢频繁超时。
五、应用层:底层网络无误,故障落在业务本身
链路、路由、端口全部正常,业务访问异常优先排查应用与域名转发。
运维侧重点查这些
- •DNS 解析是否正确
- •服务进程是否还活着
- •监听端口是否正确
- •反向代理、网关、负载均衡配置是否异常
- •HTTP 状态码是否异常
- •应用日志里有没有报错
1.运维核查常用命令
2.网工配合项
- •VIP / 负载均衡转发是否正常
- •SLB / 反向代理链路是否健康
- •DNS 解析链路是否异常
- •出入口是否存在策略干扰
- •应用访问流量是否真正到达后端
3.典型表现
- •IP 能通,但域名访问不通
- •端口通,但接口报错
- •业务偶发 502 / 504
- •服务重启后恢复,过一会又异常
六、安全策略层:流量被规则拦截,易误判为网络中断
访问异常并非链路故障,主机防火墙、设备 ACL、安全域策略拦截是常见诱因。
1.主机侧检查
- iptables -L -n -v/iptables -t nat -L -n -v #查看 iptables
- firewall-cmd --list-all #查看 firewalld
- nft list ruleset #查看 nftables
2.设备侧检查
防火墙 ACL 策略命中记录、IPS/IDS 防护拦截、VPN 访问权限、黑白名单管控。
3.区分特征
部分源 IP 可访问、指定端口阻断、内网 VPN 通外网不通、存量业务正常新业务无法上线。
七、性能优化排查:网络通但访问卡顿
无完全断网,但延迟高、传输卡顿,聚焦带宽、资源、流量异常排查。
1.运维指令
2.网工核查
- •接口带宽是否打满
- •丢包、延迟、抖动是否异常
- •设备 CPU、内存是否飙高
- •会话数、新建连接数是否异常
- •是否有广播风暴、大流量任务、异常流量
3.定位要点
- •是全网都慢,还是单个业务慢
- •是持续慢,还是高峰期慢
- •是上传慢,还是下载慢
- •是高延迟,还是高丢包
八、日志复盘:故障溯源关键依据
故障发生前后的系统与设备日志,可快速锁定变更、硬件异常、策略报错。
1.运维侧排查
- journalctl -xe
- journalctl -f
- dmesg | tail -n 50
- grep -i error /var/log/messages
- grep -i denied /var/log/secure
- 重点看:
- •服务报错
- •内核网络异常
- •拒绝访问
- •资源耗尽
- •时间点是否和故障一致
2.网工侧排查
- •设备日志
- •接口告警
- •链路 flap 记录
- •CPU / 内存变化
- •丢包、延迟趋势
- •配置变更记录
- •安全策略命中日志
3.经验之谈
- 很多故障不是突然发生的,而是早就有征兆:
- •接口错误包慢慢上涨
- •延迟长期抖动
- •高峰期资源持续打满
- •某次变更后开始异常
九、标准化协同排障流程
做网络排障时间长了,你会慢慢发现,真正厉害的人,不一定是背命令背得最多的人,而是脑子里一直有一条很清晰的线。
第一步:先判断范围
- 是单台机器?
- 一个网段?
- 某个业务?
- 还是全网?
第二步:运维先测基础连通,网工同步看接口和路径
ip addr
ip route
ping -c 4 网关
ping -c 4 目标IP
第三步:运维看端口和服务,网工看转发和策略
ss -lntp
nc -zv 目标IP 端口
curl -v http://目标地址
第四步:必要时两边一起抓包、对日志
tcpdump -i eth0 host 目标IP -nn
journalctl -f
iptables -L -n -v
第五步:把现象对齐,再缩范围
这个步骤特别重要。 真实现场最怕的不是查不到,而是信息没对齐。运维说“服务没问题”,网工说“链路没问题”,安全说“策略也没问题”,结果大家说的根本不是同一个点。
所以排障一定要对齐:
- 哪个 IP 不通
- 哪个端口不通
- 是源到目的不通,还是某一跳不通
- 是偶发,还是持续
- 是单点问题,还是范围性问题
把这些对齐,效率会高很多。
总结
网络排障核心不在于熟记命令,而是坚守自下而上分层逻辑,杜绝跳层排查、盲目重启改配置。依托运维与网工双向信息对齐,由硬件到应用逐级收缩故障范围,是高效排障的最优方案。