Cómo versionar prompts de LLM y datos de prueba en un proyecto real

Los cambios en los prompts parecen triviales hasta que el primer error en producción resulta imposible de reproducir. He visto equipos editar un prompt en una pantalla de administración, mejorar un caso de demostración y, silenciosamente, empeorar cinco casos normales. El modelo no cambió, el código no cambió, pero nadie pudo decir qué versión del prompt respondió al cliente. Ahora trato los…