如何在不遗漏真实事故的情况下减少告警疲劳

告警疲劳并非始于告警过多，而是始于团队不再信任告警。我见过即使仪表盘做得再漂亮，也无法帮助值班人员解决问题的情况，因为每个警告的紧急程度看起来都一样。磁盘占用 82%、一个 Pod 重启、一个批处理作业延迟、真实的客户错误，所有这些都涌入同一个频道。久而久之，人们就会将频道静音，剩下的只能靠运气了。对我而言，有效的清理工作其实很枯燥：尽可能将告警与用户影响挂钩，仅针对需要人工立即介入的症状进行寻呼，将趋势性的噪音发送到每日回顾中，并删除几个月来无人处理的检查项。最难的部分在于让团队承认某个告警即使在纸面上看起来很"负责任"，实际上却是无用的。