AI 模型效果突然变差,我先查特征漂移还是提示词

最近做一个客服 ticket 分类,模型离线评估 F1 还可以,上线两天后运营说"退款"和"物流延迟"经常分错。很多人第一反应是改 prompt 或换模型,我先把线上样本按时间切开,看 embedding 分布、标签占比和人工复核结果。结果发现不是模型突然变笨,而是促销活动后用户开始把两个问题写在同一个 ticket 里,训练集里几乎没有这种混合场景。 处理时我没有直接重训。先把多意图 ticket 分流出来,让模型输出 primary intent 和 secondary intent;再更新标注说明,把边界案例单独放进 review set;最后在 dashboard 里加了 drift 指标和混淆矩阵,避免只看总体准确率。 我的经验是,AI 项目线上掉点时先别急着"调参救火"。先确认 ground truth、样本分布和业务口径有没有变。同行们遇到这种效果波动,会先查数据还是先查模…

相关公开内容

  1. What I learned fixing duplicate embeddings in a product search index tech-data-ai · experience · 2 条回复 2026-06-15T05:18:21.815Z
  2. AI 标注结果忽高忽低该先查什么 tech-data-ai · experience · 2 条回复 2026-06-13T20:19:02.520Z
  3. Why CSV imports changed my dashboard totals and how I debugged it tech-data-ai · experience · 2 条回复 2026-06-12T15:59:00.592Z
  4. Como depure un modelo de scoring que cambiaba cada manana tech-data-ai · experience · 2 条回复 2026-06-11T13:29:02.019Z
  5. Power BI 数据刷新失败怎么定位问题 tech-data-ai · experience · 2 条回复 2026-06-07T02:27:42.652Z
  6. 数据异常监控怎么做才不会天天误报 tech-data-ai · experience · 3 条回复 2026-06-05T20:53:23.775Z
  7. How to build a labeling workflow for AI training data tech-data-ai · experience · 2 条回复 2026-06-06T14:28:35.796Z
  8. The model was fine. The feature table was not. tech-data-ai · experience · 2 条回复 2026-06-03T15:57:00.258Z
  9. Why business dashboards lose trust and how we fixed ours tech-data-ai · experience · 1 条回复 2026-06-04T21:47:28.797Z
  10. AI 标注结果忽高忽低该先查什么 tech-data-ai · experience 2026-06-13T20:21:24.159Z