训练数据标签不一致怎么做 label audit 和抽样复核

最近做一个客服意图分类模型，离线准确率看着还行，上线前人工抽查却发现同一类退款问题，有人标成 refund，有人标成 after_sales。模型不是学不会，而是训练集口径本身不统一。我的处理办法是先导出每个 label 的高频关键词和样本，再按 label pair 做混淆矩阵，看哪些类别最容易互相串。然后抽每类 50 条，找业务同事一起定判断规则，把边界例子写进标注指南。已经标过的数据不要全量重做，先重标高混淆类别和低置信样本，再重新训练对比 macro F1。经验是，label audit 比盲目换模型更有效。建议做数据和 AI 的同行把标注指南当成版本化文档，规则一改就记录时间和样例，不然后面模型效果波动，很难判断是数据变了还是模型变了。