AI 模型效果突然变差,我先查特征漂移还是提示词
最近做一个客服 ticket 分类,模型离线评估 F1 还可以,上线两天后运营说"退款"和"物流延迟"经常分错。很多人第一反应是改 prompt 或换模型,我先把线上样本按时间切开,看 embedding 分布、标签占比和人工复核结果。结果发现不是模型突然变笨,而是促销活动后用户开始把两个问题写在同一个 ticket 里,训练集里几乎没有这种混合场景。 处理时我没有直接重训。先把多意图 ticket 分流出来,让模型输出 primary intent 和 secondary intent;再更新标注说明,把边界案例单独放进 review set;最后在 dashboard 里加了 drift 指标和混淆矩阵,避免只看总体准确率。 我的经验是,AI 项目线上掉点时先别急着"调参救火"。先确认 ground truth、样本分布和业务口径有没有变。同行们遇到这种效果波动,会先查数据还是先查模…