Cómo evaluar las respuestas de RAG antes de ponerlas en producción

Las demostraciones de RAG son fáciles de hacer lucir bien. La producción es donde aparecen los casos extraños: documentos obsoletos, dos páginas que dicen cosas diferentes, una respuesta que suena segura pero omite la única restricción que el usuario realmente necesitaba. Para las herramientas internas, ya no confío en un solo número de precisión. Quiero un pequeño conjunto de preguntas confusas…