数据异常监控怎么做才不会天天误报
做数据监控时,我吃过最大的亏是阈值拍脑袋。一个指标昨天涨了30%就报警,看起来很负责,结果周末、节假日、活动日全都在响,业务几天以后就不看了。后来我会先把指标分层:核心收入和支付转化走更敏感的报警,普通行为指标只进日报。阈值也不只看单点,要看最近7天同时间段、历史波动范围、样本量是不是够。样本太小的页面,百分比变化很吓人,实际只多了几个用户。新监控上线前我一般先静默跑一周,看它每天会触发几次,再决定要不要进告警群。报警文案也要写清楚:哪个表、哪个口径、从多少变到多少、可能影响哪个业务,而不是只甩一个"数据异常"。责任人也要提前定好,数据仓库、埋点、后端接口各查哪一段,不然半夜没人知道该从哪里接手。真正有用的监控不是让人紧张,是让接手的人知道先查哪里。