在投入生产环境前如何评估 RAG(检索增强生成)的回答
RAG 的演示很容易做得看起来很完美。但生产环境才会暴露出各种奇怪的问题:过时的文档、两页内容自相矛盾、回答听起来言之凿凿却忽略了用户真正需要的那个限制条件。 对于内部工具,我不再信任单一的准确率数字。我需要一套来自真实用户的、杂乱的问题集,包括预期的源文档、引用检查,以及一种标记该回答是否会导致错误操作的方法。错误操作的部分比措辞本身更重要。 一个不断出现的问题是所有权归属。数据团队可以构建评估集,但业务方通常更清楚哪些错误的回答代价高昂。如果没有他们的输入,模型会被优化为输出整洁的基准答案,而支持团队依然会收到同样令人困惑的工单。