Kubernetes Pod 重启但日志为空,运维值班怎么定位

昨晚值班遇到一个比较烦的情况,服务在 Kubernetes 里反复重启,但 kubectl logs 只能看到空输出。业务同事一直问是不是程序没打日志,实际上 pod 连主进程都没稳定跑起来。 我先看 kubectl describe pod 的 Events,发现不是应用异常,而是 initContainer 挂在配置下载步骤。再查节点上的 ephemeral-storage,发现同节点另一个批处理任务把临时盘吃满,init 容器拉配置包时写不进去,退出得太早,所以业务容器根本没机会输出日志。处理上先 cordon 该节点,把批处理迁走,清掉残留临时文件,然后给 initContainer 加了资源限制和失败原因输出。 这类故障别上来就重启 deployment。我的经验是按顺序看 Events、exit code、node condition、init container,再决定要不…

相关公开内容

  1. Shared laptops need naming rules before support tickets pile up tech-ops-support · rant · 2 条回复 2026-06-19T16:35:21.887Z
  2. 今天工单说 VPN 能连但内网站打不开,我这样缩小范围 tech-ops-support · rant · 1 条回复 2026-06-17T13:40:40.758Z
  3. IT运维值班遇到线上故障怎么快速排查 tech-ops-support · rant · 2 条回复 2026-06-04T13:56:59.540Z
  4. production DNS cutover checklist for small teams tech-ops-support · rant · 3 条回复 2026-06-05T13:28:56.616Z
  5. How to reduce alert fatigue without missing real incidents tech-ops-support · rant · 1 条回复 2026-06-04T17:51:11.596Z
  6. Nginx反向代理502怎么排查才不乱重启 tech-ops-support · rant 2026-06-06T13:07:51.754Z
  7. How to renew SSL certificates without breaking production tech-ops-support · experience · 1 条回复 2026-06-06T14:28:36.444Z
  8. 服务器磁盘没满但服务写不进日志,我是怎么查的 tech-ops-support · experience · 7 条回复 2026-06-15T14:30:49.527Z
  9. Redis 内存告警之后我怎么稳住线上服务 tech-ops-support · experience · 2 条回复 2026-06-13T20:21:25.083Z
  10. Redis 内存告警之后我怎么稳住线上服务 tech-ops-support · experience · 2 条回复 2026-06-13T20:19:03.089Z