训练数据标签不一致怎么做 label audit 和抽样复核
最近做一个客服意图分类模型,离线准确率看着还行,上线前人工抽查却发现同一类退款问题,有人标成 refund,有人标成 after_sales。模型不是学不会,而是训练集口径本身不统一。 我的处理办法是先导出每个 label 的高频关键词和样本,再按 label pair 做混淆矩阵,看哪些类别最容易互相串。然后抽每类 50 条,找业务同事一起定判断规则,把边界例子写进标注指南。已经标过的数据不要全量重做,先重标高混淆类别和低置信样本,再重新训练对比 macro F1。 经验是,label audit 比盲目换模型更有效。建议做数据和 AI 的同行把标注指南当成版本化文档,规则一改就记录时间和样例,不然后面模型效果波动,很难判断是数据变了还是模型变了。