训练数据标签不一致怎么做 label audit 和抽样复核

最近做一个客服意图分类模型,离线准确率看着还行,上线前人工抽查却发现同一类退款问题,有人标成 refund,有人标成 after_sales。模型不是学不会,而是训练集口径本身不统一。 我的处理办法是先导出每个 label 的高频关键词和样本,再按 label pair 做混淆矩阵,看哪些类别最容易互相串。然后抽每类 50 条,找业务同事一起定判断规则,把边界例子写进标注指南。已经标过的数据不要全量重做,先重标高混淆类别和低置信样本,再重新训练对比 macro F1。 经验是,label audit 比盲目换模型更有效。建议做数据和 AI 的同行把标注指南当成版本化文档,规则一改就记录时间和样例,不然后面模型效果波动,很难判断是数据变了还是模型变了。

相关公开内容

  1. RAG 知识库答案跑偏时,先做这三个检索命中率检查 tech-data-ai · rant · 1 条回复 2026-06-21T12:53:39.232Z
  2. Vector search rollback plans matter more than the first demo tech-data-ai · rant · 4 条回复 2026-06-19T16:35:21.150Z
  3. 向量搜索今天召回突然变少,我先查 embedding 还是过滤条件 tech-data-ai · rant · 6 条回复 2026-06-17T13:40:36.956Z
  4. Cursor 生成的代码总是改乱项目?后来我发现问题根本不在 AI tech-data-ai · rant · 1 条回复 2026-06-08T18:07:17.427Z
  5. 数据分析转AI工程师需要补哪些技能 tech-data-ai · rant · 2 条回复 2026-06-04T13:56:59.249Z
  6. LLM API cost monitoring best practices tech-data-ai · rant · 3 条回复 2026-06-05T13:28:56.328Z
  7. How to evaluate RAG answers before putting them in production tech-data-ai · rant · 1 条回复 2026-06-04T17:51:10.678Z
  8. 推荐列表分数一早波动,怎么查特征更新时间 tech-data-ai · rant 2026-06-20T17:51:25.059Z
  9. Cursor 安装完成后一直无法连接 AI?我是这样排查解决的 tech-data-ai · rant 2026-06-08T18:02:22.461Z
  10. pgvector和Milvus怎么选,做向量检索别只看性能 tech-data-ai · rant 2026-06-06T13:07:51.294Z