在责怪 Kubernetes 之前我会检查什么
大多数值班时的报警并不是因为 Kubernetes 出了什么玄学问题。很多时候是配置变更、密钥轮换、节点磁盘压力过大,或者是服务连接到了错误的依赖项。 我的快速排查顺序是:先看日志,再看发布历史,然后是事件和资源限制。如果我直接重启 Pod,通常只会掩盖掉最有用的线索。 我们团队最好的运维手册都很简短。它们明确说明了要检查什么、不要动什么,以及谁负责该依赖项。
大多数值班时的报警并不是因为 Kubernetes 出了什么玄学问题。很多时候是配置变更、密钥轮换、节点磁盘压力过大,或者是服务连接到了错误的依赖项。 我的快速排查顺序是:先看日志,再看发布历史,然后是事件和资源限制。如果我直接重启 Pod,通常只会掩盖掉最有用的线索。 我们团队最好的运维手册都很简短。它们明确说明了要检查什么、不要动什么,以及谁负责该依赖项。