El rendimiento del modelo de IA empeoró repentinamente, ¿debería revisar primero la deriva de características (feature drift) o los prompts?

Recientemente trabajé en la clasificación de tickets de atención al cliente. La evaluación offline del modelo mostraba un F1 aceptable, pero dos días después de la implementación, el equipo de operaciones reportó que los tickets de "reembolso" y "retraso logístico" se clasificaban mal con frecuencia. La primera reacción de muchos es cambiar el prompt o el modelo, pero yo primero segmenté las…