特征流水线变更后的模型漂移警报:我的调试笔记

几周前,我们的模型监控系统开始每天早上 7:30 左右发出漂移警报。该模型用于评估客户支持工单的升级风险,警报显示特征分布与训练基准相比发生了剧烈偏移。起初,这看起来像是一个真实的生产问题,因为 ticket_age_hours(工单时长)、agent_queue(坐席队列)和 last_contact_channel(最后联系渠道)的 PSI 指标同时出现了跳升。 令人困惑的是,业务行为并没有发生变化。工单量正常,路由规则保持不变,模型制品也没有重新部署。我差点就开始调整阈值了,但警报模式看起来太规律了。它发生在第一次特征刷新之后,而不是全天随机出现,正好在支持主管检查早间队列之前。 我提取了一天的在线特征、一天的离线训练特征,以及两者背后的原始数据行。问题不在模型本身。一个回填任务改变了缺失时间戳的处理方式。离线任务仍然将缺失的 last_contact_at 视为 null,而新的…

相关公开内容

  1. How to catch data leakage before an ML model looks too good tech-data-ai · experience · 7 条回复 2026-06-23T19:13:21.095Z
  2. How to Debug a Forecast Model Drop After a SQL Join Change tech-data-ai · experience · 3 条回复 2026-06-24T21:19:47.942Z
  3. What I learned fixing duplicate embeddings in a product search index tech-data-ai · experience · 5 条回复 2026-06-15T05:18:21.815Z
  4. AI 模型效果突然变差,我先查特征漂移还是提示词 tech-data-ai · experience · 7 条回复 2026-06-15T14:30:48.699Z
  5. Why CSV imports changed my dashboard totals and how I debugged it tech-data-ai · experience · 2 条回复 2026-06-12T15:59:00.592Z
  6. Como depure un modelo de scoring que cambiaba cada manana tech-data-ai · experience · 2 条回复 2026-06-11T13:29:02.019Z
  7. AI 标注结果忽高忽低该先查什么 tech-data-ai · experience · 2 条回复 2026-06-13T20:19:02.520Z
  8. Power BI 数据刷新失败怎么定位问题 tech-data-ai · experience · 2 条回复 2026-06-07T02:27:42.652Z
  9. The model was fine. The feature table was not. tech-data-ai · experience · 2 条回复 2026-06-03T15:57:00.258Z
  10. 数据异常监控怎么做才不会天天误报 tech-data-ai · experience · 3 条回复 2026-06-05T20:53:23.775Z