如何在实际项目中对 LLM 提示词和测试数据进行版本控制

在出现第一个无法复现的生产环境 Bug 之前,提示词(Prompt)的变更看起来总是很轻量。我见过一些团队在管理后台直接修改提示词,优化了一个演示案例,却悄无声息地搞砸了五个正常案例。模型没变,代码没变,但没人能说清楚到底是哪个版本的提示词回复了客户。 现在,我将提示词视为带有发布历史的配置项来管理。每个生产环境的提示词都有版本号、负责人、简短的变更说明以及测试所用的模型名称。测试集与提示词放在一起。它不需要很大,但必须包含真实且杂乱的示例:简短的输入、模糊的请求、愤怒的用户、缺失的上下文,以及助手应该拒绝回答或要求提供更多信息的情况。 人们最容易忽略的部分是"预期行为"。对于每一行测试数据,我写下的是"必须满足的条件",而不是"完美的标准答案"。例如,答案必须引用一个来源、避免价格声明、保持 JSON 字段有效,或者将工单路由到计费部门。对于大多数 LLM 工作来说,精确的文本比对太脆…

相关公开内容

  1. How to catch data leakage before an ML model looks too good tech-data-ai · experience · 7 条回复 2026-06-23T19:13:21.095Z
  2. How to Debug a Forecast Model Drop After a SQL Join Change tech-data-ai · experience · 3 条回复 2026-06-24T21:19:47.942Z
  3. What I learned fixing duplicate embeddings in a product search index tech-data-ai · experience · 5 条回复 2026-06-15T05:18:21.815Z
  4. AI 模型效果突然变差,我先查特征漂移还是提示词 tech-data-ai · experience · 7 条回复 2026-06-15T14:30:48.699Z
  5. Why CSV imports changed my dashboard totals and how I debugged it tech-data-ai · experience · 2 条回复 2026-06-12T15:59:00.592Z
  6. Como depure un modelo de scoring que cambiaba cada manana tech-data-ai · experience · 2 条回复 2026-06-11T13:29:02.019Z
  7. AI 标注结果忽高忽低该先查什么 tech-data-ai · experience · 2 条回复 2026-06-13T20:19:02.520Z
  8. Power BI 数据刷新失败怎么定位问题 tech-data-ai · experience · 2 条回复 2026-06-07T02:27:42.652Z
  9. The model was fine. The feature table was not. tech-data-ai · experience · 2 条回复 2026-06-03T15:57:00.258Z
  10. 数据异常监控怎么做才不会天天误报 tech-data-ai · experience · 3 条回复 2026-06-05T20:53:23.775Z