AI 标注结果忽高忽低该先查什么
前阵子处理客服工单做意图分类的 AI 标注项目时,最头疼的不是工作量,而是同一批 ticket 早上和下午跑出来的标签比例差很多,运营开始怀疑模型不稳定。如果只凭经验拍脑袋,很容易把责任推给某个人,真正的原因反而还在。 我的做法是先把时间线拉出来,再看哪些节点可以验证。我把 prompt、模型版本、采样参数和输入清洗脚本都打上版本号,用 200 条 golden set 固定复跑,发现真正变化来自清洗脚本把订单号段误删了。后来证明,AI 结果飘的时候别只怪模型,输入字段、截断规则和提示词改动都可能影响分布,尤其是数据血缘这种细节,平时没人注意,出事时最关键。 我给同行的建议是上线前保留一批人工确认样本,跑批必须记录 prompt hash、model 和 temperature。流程不用写得很厚,但关键步骤要能被下一班、客户或管理方看懂。大家做 AI 分类时,golden set 一般留…