AI 模型效果突然变差，我先查特征漂移还是提示词

最近做一个客服 ticket 分类，模型离线评估 F1 还可以，上线两天后运营说"退款"和"物流延迟"经常分错。很多人第一反应是改 prompt 或换模型，我先把线上样本按时间切开，看 embedding 分布、标签占比和人工复核结果。结果发现不是模型突然变笨，而是促销活动后用户开始把两个问题写在同一个 ticket 里，训练集里几乎没有这种混合场景。处理时我没有直接重训。先把多意图 ticket 分流出来，让模型输出 primary intent 和 secondary intent；再更新标注说明，把边界案例单独放进 review set；最后在 dashboard 里加了 drift 指标和混淆矩阵，避免只看总体准确率。我的经验是，AI 项目线上掉点时先别急着"调参救火"。先确认 ground truth、样本分布和业务口径有没有变。同行们遇到这种效果波动，会先查数据还是先查模…