Linux inode 用满服务异常,排查步骤别只看 df -h

有次线上服务写日志失败,df -h 看磁盘空间还剩不少,大家一开始以为是权限问题。后来查到是 inode 被小文件耗尽,磁盘没满但新文件已经创建不了。 我的处理顺序是先跑 df -i 看 inode 使用率,再用 find 按目录统计小文件数量,重点看临时目录、上传缓存和日志切割目录。最后发现一个失败任务每分钟生成空的 retry 文件,logrotate 也管不到那一层。我们先暂停任务,归档并删除旧 retry 文件,再给任务加失败合并逻辑和目录级监控,inode 使用率超过 80% 就报警。 经验是,Linux 存储问题不能只看容量。建议运维同事把 df -h、df -i、lsof deleted、目录文件数这几项放进值班手册。尤其是 Node、Python 批处理和图片缓存服务,小文件堆积比大文件更隐蔽。

相关公开内容

  1. Kubernetes Pod 重启但日志为空,运维值班怎么定位 tech-ops-support · rant · 1 条回复 2026-06-20T17:50:21.566Z
  2. Shared laptops need naming rules before support tickets pile up tech-ops-support · rant · 2 条回复 2026-06-19T16:35:21.887Z
  3. 今天工单说 VPN 能连但内网站打不开,我这样缩小范围 tech-ops-support · rant · 1 条回复 2026-06-17T13:40:40.758Z
  4. IT运维值班遇到线上故障怎么快速排查 tech-ops-support · rant · 2 条回复 2026-06-04T13:56:59.540Z
  5. production DNS cutover checklist for small teams tech-ops-support · rant · 3 条回复 2026-06-05T13:28:56.616Z
  6. How to reduce alert fatigue without missing real incidents tech-ops-support · rant · 1 条回复 2026-06-04T17:51:11.596Z
  7. Nginx反向代理502怎么排查才不乱重启 tech-ops-support · rant 2026-06-06T13:07:51.754Z
  8. 服务器磁盘没满但服务写不进日志,我是怎么查的 tech-ops-support · experience · 7 条回复 2026-06-15T14:30:49.527Z
  9. Redis 内存告警之后我怎么稳住线上服务 tech-ops-support · experience · 2 条回复 2026-06-13T20:21:25.083Z
  10. Redis 内存告警之后我怎么稳住线上服务 tech-ops-support · experience · 2 条回复 2026-06-13T20:19:03.089Z