特征流水线变更后的模型漂移警报:我的调试笔记
几周前,我们的模型监控系统开始每天早上 7:30 左右发出漂移警报。该模型用于评估客户支持工单的升级风险,警报显示特征分布与训练基准相比发生了剧烈偏移。起初,这看起来像是一个真实的生产问题,因为 ticket_age_hours(工单时长)、agent_queue(坐席队列)和 last_contact_channel(最后联系渠道)的 PSI 指标同时出现了跳升。 令人困惑的是,业务行为并没有发生变化。工单量正常,路由规则保持不变,模型制品也没有重新部署。我差点就开始调整阈值了,但警报模式看起来太规律了。它发生在第一次特征刷新之后,而不是全天随机出现,正好在支持主管检查早间队列之前。 我提取了一天的在线特征、一天的离线训练特征,以及两者背后的原始数据行。问题不在模型本身。一个回填任务改变了缺失时间戳的处理方式。离线任务仍然将缺失的 last_contact_at 视为 null,而新的…