在投入生产环境前如何评估 RAG（检索增强生成）的回答

RAG 的演示很容易做得看起来很完美。但生产环境才会暴露出各种奇怪的问题：过时的文档、两页内容自相矛盾、回答听起来言之凿凿却忽略了用户真正需要的那个限制条件。对于内部工具，我不再信任单一的准确率数字。我需要一套来自真实用户的、杂乱的问题集，包括预期的源文档、引用检查，以及一种标记该回答是否会导致错误操作的方法。错误操作的部分比措辞本身更重要。一个不断出现的问题是所有权归属。数据团队可以构建评估集，但业务方通常更清楚哪些错误的回答代价高昂。如果没有他们的输入，模型会被优化为输出整洁的基准答案，而支持团队依然会收到同样令人困惑的工单。