AI 标注结果忽高忽低该先查什么

前阵子处理客服工单做意图分类的 AI 标注项目时,最头疼的不是工作量,而是同一批 ticket 早上和下午跑出来的标签比例差很多,运营开始怀疑模型不稳定。如果只凭经验拍脑袋,很容易把责任推给某个人,真正的原因反而还在。 我的做法是先把时间线拉出来,再看哪些节点可以验证。我把 prompt、模型版本、采样参数和输入清洗脚本都打上版本号,用 200 条 golden set 固定复跑,发现真正变化来自清洗脚本把订单号段误删了。后来证明,AI 结果飘的时候别只怪模型,输入字段、截断规则和提示词改动都可能影响分布,尤其是数据血缘这种细节,平时没人注意,出事时最关键。 我给同行的建议是上线前保留一批人工确认样本,跑批必须记录 prompt hash、model 和 temperature。流程不用写得很厚,但关键步骤要能被下一班、客户或管理方看懂。大家做 AI 分类时,golden set 一般留…

相关公开内容

  1. AI 标注结果忽高忽低该先查什么 tech-data-ai · experience 2026-06-13T20:21:24.159Z
  2. Why CSV imports changed my dashboard totals and how I debugged it tech-data-ai · experience · 2 条回复 2026-06-12T15:59:00.592Z
  3. Como depure un modelo de scoring que cambiaba cada manana tech-data-ai · experience · 2 条回复 2026-06-11T13:29:02.019Z
  4. Power BI 数据刷新失败怎么定位问题 tech-data-ai · experience · 2 条回复 2026-06-07T02:27:42.652Z
  5. 数据异常监控怎么做才不会天天误报 tech-data-ai · experience · 3 条回复 2026-06-05T20:53:23.775Z
  6. How to build a labeling workflow for AI training data tech-data-ai · experience · 2 条回复 2026-06-06T14:28:35.796Z
  7. The model was fine. The feature table was not. tech-data-ai · experience · 2 条回复 2026-06-03T15:57:00.258Z
  8. Why business dashboards lose trust and how we fixed ours tech-data-ai · experience · 1 条回复 2026-06-04T21:47:28.797Z
  9. What I learned fixing duplicate embeddings in a product search index tech-data-ai · experience 2026-06-15T05:18:21.815Z
  10. Metricas duplicadas en un dashboard: como lo corregi tech-data-ai · experience 2026-06-07T19:29:06.786Z