¿Cómo realizar una auditoría de etiquetas (label audit) y una revisión por muestreo cuando las etiquetas de los datos de entrenamiento son inconsistentes?

Recientemente he estado trabajando en un modelo de clasificación de intención para atención al cliente. La precisión offline parecía aceptable, pero al realizar una revisión manual antes del despliegue, descubrí que problemas de reembolso similares eran etiquetados por algunos como 'refund' y por otros como 'after_sales'. El problema no es que el modelo no aprenda, sino que los criterios del…