AI 标注结果忽高忽低该先查什么

前阵子处理客服工单做意图分类的 AI 标注项目时，最头疼的不是工作量，而是同一批 ticket 早上和下午跑出来的标签比例差很多，运营开始怀疑模型不稳定。如果只凭经验拍脑袋，很容易把责任推给某个人，真正的原因反而还在。我的做法是先把时间线拉出来，再看哪些节点可以验证。我把 prompt、模型版本、采样参数和输入清洗脚本都打上版本号，用 200 条 golden set 固定复跑，发现真正变化来自清洗脚本把订单号段误删了。后来证明，AI 结果飘的时候别只怪模型，输入字段、截断规则和提示词改动都可能影响分布，尤其是数据血缘这种细节，平时没人注意，出事时最关键。我给同行的建议是上线前保留一批人工确认样本，跑批必须记录 prompt hash、model 和 temperature。流程不用写得很厚，但关键步骤要能被下一班、客户或管理方看懂。大家做 AI 分类时，golden set 一般留…