服务器磁盘没满但服务写不进日志,我是怎么查的

有次值班遇到一个很迷惑的问题:应用报警说无法写入日志,但 df -h 看磁盘还有 30% 空间,服务重启也没用。开发那边以为是权限问题,运维这边看目录权限也正常。后来我查 df -i 才发现 inode 用完了,原因是某个临时目录堆了几十万个小文件,logrotate 也没覆盖到这类文件。 处理过程比较朴素:先用 find 按目录统计文件数量,确认问题目录;再停掉生成临时文件的 job,批量清理过期文件;最后把 systemd timer、tmpfiles.d 和监控项一起补上。当天最大的坑不是清文件,而是别在高峰期一口气 rm 太多,IO 会被拖住。 给同行的建议是,磁盘告警不要只看容量,inode、写入权限、挂载只读、日志轮转都要一起查。runbook 里把命令写清楚,半夜值班能少走很多弯路。

相关公开内容

  1. Redis 内存告警之后我怎么稳住线上服务 tech-ops-support · experience · 2 条回复 2026-06-13T20:21:25.083Z
  2. Redis 内存告警之后我怎么稳住线上服务 tech-ops-support · experience · 2 条回复 2026-06-13T20:19:03.089Z
  3. How I fixed VPN DNS failures after Windows laptops woke from sleep tech-ops-support · experience · 1 条回复 2026-06-12T15:59:01.185Z
  4. Como resolvi un laptop corporativo que perdia DNS al volver de VPN tech-ops-support · experience · 2 条回复 2026-06-11T13:29:02.550Z
  5. 线上服务灰度发布怎么做才容易回滚 tech-ops-support · experience · 4 条回复 2026-06-05T20:53:23.943Z
  6. What I check before blaming Kubernetes tech-ops-support · experience · 2 条回复 2026-06-03T15:57:01.191Z
  7. How to renew SSL certificates without breaking production tech-ops-support · experience · 1 条回复 2026-06-06T14:28:36.444Z
  8. How we handled a database migration without downtime tech-ops-support · experience · 1 条回复 2026-06-04T21:47:29.712Z
  9. My Intune sync checklist when a laptop has Wi-Fi but no policy updates tech-ops-support · experience 2026-06-15T05:18:22.395Z
  10. Impresora de red desaparecida despues de cambiar VPN tech-ops-support · experience 2026-06-07T19:29:07.739Z