引言:
屏幕上的负载数字飙红,报警短信嗡嗡作响,应用页面卡到崩溃…作为运维的你,是否曾在深夜里被这种场景吓出一身冷汗?
别慌!99%的线上故障,都能通过最古老、最强大的top命令快速定位。它不是简单的“看CPU”,而是一把解读服务器健康状况的瑞士军刀。今天,就带你解锁top命令的终极奥义,让你在老板过问前就心里有数!
01
—
第一眼:抓住“命运の咽喉”——系统负载(Load Average)
打开top,第一行就是重中之重:
load average: 32.27, 33.97, 35.16这3个数字分别代表过去1分钟、5分钟、15分钟的系统平均负载。
怎么算严重?记住一个公式:
负载值 > CPU核心数 就意味着开始排队,负载值 >> CPU核心数(例如2倍以上)就是严重过载!
看趋势更重要:
- 1分钟值 > 5分钟值 > 15分钟值:负载在飙升,故障正在发生!
- 1分钟值 < 5分钟值 < 15分钟值:负载在下降,系统正在恢复。
行动指南: 一眼看去,如果负载炸了,心里先喊一声:“老板我知道问题了!”,然后进入下一步。
02
—
第二眼:揪出“罪魁祸首”——CPU状态行
目光下移到第三行,这里是定位瓶颈的关键:
%Cpu(s): 5.6 us, 1.8 sy, 0.0 ni, 92.4 id, 0.0 wa, 0.0 hi, 0.0 si, 0.2 st重点关注前4个指标:
- us (user):用户进程CPU占比。高?说明你的应用程序(Java, PHP, Nginx)自己就是计算狂魔!
- sy (system):内核进程CPU占比。高?说明系统调用频繁,可能是内核在处理大量I/O或进程调度。
- id (idle):CPU空闲率。这个数字越低,说明CPU越忙。
- wa (I/O wait): 这是黄金指标! CPU等待I/O(磁盘/网络)的时间占比。如果这个值很高(比如>5%),而us和sy不高,恭喜你,瓶颈不在CPU,而在磁盘或网络! CPU在空等数据,硬盘灯可能狂闪不止。
行动指南:
- us很高 -> 去查应用日志、JVM、代码性能瓶颈。
- wa很高 -> 大喊一声:“DBA和网管准备接锅!”,然后用iostat、iotop命令继续查磁盘。
03
—
第三眼:看穿“内存迷雾”——内存与Swap行
很多人看到内存快用光就慌了,其实这是Linux的聪明之处!
MiB Mem : 15886.4 total, 450.2 free, 7845.6 used, 7590.6 buff/cache MiB Swap: 2048.0 total, 2048.0 free, 0.0 used. 14000.0 avail Mem千万别只看 free 内存小! Linux会千方百计地用内存来做缓存(buff/cache)提升性能,这部分内存随时可以释放。
真正的关键指标是:
- avail Mem (可用内存):系统真正可用的内存(≈ free + 可回收的buff/cache)。这个数如果长期很低,才是真危险。
- Swap used: 致命警告! 如果这个数字不为零且在增长,说明物理内存已耗尽,系统开始用硬盘当内存,性能会断崖式下跌!必须立即处理。
行动指南: 内存不足?按top里的大写 M,马上按内存使用率排序,看看是哪个进程在“吃内存”。
04
—
终极一击:斩杀“问题进程”——进程列表
上面看完,你已经知道大概方向了。现在就是精准打击。
在top的进程列表里,你需要:
- 按 P (大写):按CPU使用率排序,揪出最消耗CPU的元凶。
- 按 M (大写):按内存使用率排序,抓住内存泄漏的惯犯。
- 看 COMMAND:确认进程的具体身份,是java还是mysqld还是nginx。
还有一个隐藏彩蛋:
按数字 1,可以展开显示每个CPU核心的详细状态,看负载是否均衡。
05
—
老司机总结:5分钟故障定位速查表
指标 | 现象 | 疑似问题 | 下一步命令 |
Load Average 爆高 | wa (%I/O wait) 很高 | 磁盘/网络I/O瓶颈 | iostat -dx 1 , iotop |
Load Average 爆高 | us (%user) 很高 | 应用进程CPU瓶颈 | jstack <pid> , perf |
Swap used > 0 | avail Mem 很低 | 真实内存不足 | ps aux --sort=-%mem |
Tasks: xxx zombie | 有僵尸进程 | 父进程Bug,未回收子进程 | ps -eo pid,ppid,comm | grep Z |
结语:
下次再遇到报警,别再对着屏幕发呆了。从容地打开top,按照这套“5分钟排查法”,你就能像老司机一样,精准定位问题,在 chaos(混沌)中成为那个掌控全局的人。
记住:真正的运维高手,从不畏惧报警,他们只是打开了终端。
(完)
