在责怪 Kubernetes 之前我会检查什么

大多数值班时的报警并不是因为 Kubernetes 出了什么玄学问题。很多时候是配置变更、密钥轮换、节点磁盘压力过大,或者是服务连接到了错误的依赖项。 我的快速排查顺序是:先看日志,再看发布历史,然后是事件和资源限制。如果我直接重启 Pod,通常只会掩盖掉最有用的线索。 我们团队最好的运维手册都很简短。它们明确说明了要检查什么、不要动什么,以及谁负责该依赖项。

相关公开内容

  1. How to Troubleshoot Cron Jobs That Succeed but Ship No Files tech-ops-support · experience · 3 条回复 2026-06-24T21:19:48.678Z
  2. Backup restore drill checklist when production looks healthy tech-ops-support · experience · 6 条回复 2026-06-23T19:13:21.965Z
  3. 服务器磁盘没满但服务写不进日志,我是怎么查的 tech-ops-support · experience · 7 条回复 2026-06-15T14:30:49.527Z
  4. Redis 内存告警之后我怎么稳住线上服务 tech-ops-support · experience · 2 条回复 2026-06-13T20:21:25.083Z
  5. Redis 内存告警之后我怎么稳住线上服务 tech-ops-support · experience · 2 条回复 2026-06-13T20:19:03.089Z
  6. Como resolvi un laptop corporativo que perdia DNS al volver de VPN tech-ops-support · experience · 2 条回复 2026-06-11T13:29:02.550Z
  7. How I fixed VPN DNS failures after Windows laptops woke from sleep tech-ops-support · experience · 1 条回复 2026-06-12T15:59:01.185Z
  8. 线上服务灰度发布怎么做才容易回滚 tech-ops-support · experience · 4 条回复 2026-06-05T20:53:23.943Z
  9. How to renew SSL certificates without breaking production tech-ops-support · experience · 1 条回复 2026-06-06T14:28:36.444Z
  10. How we handled a database migration without downtime tech-ops-support · experience · 1 条回复 2026-06-04T21:47:29.712Z