向量搜索的回滚计划比首次演示更重要

我曾参与过一个产品搜索功能的开发,最初的向量演示效果看起来很棒。几次测试查询都找到了正确的目录项,团队希望尽快上线。问题出现在一位商品运营人员重命名了一个产品系列并将几个 SKU 移入新类别之后。数据库中的文本变了,但嵌入索引(embedding index)中仍保留着旧的产品语言,导致搜索结果显得很奇怪。用户输入新术语,却得到了旧系列的产品。 我们通过将嵌入视为真正的派生数据而非辅助文件来解决这个问题。每一行都增加了 embedding_version(嵌入版本)、source_hash(源哈希)和 indexed_at(索引时间)。索引作业会比较我们实际嵌入字段的哈希值,然后仅对过时的数据行重新排队。在发布时,我们还保留了纯关键字回退方案,以及一个可以在向量服务出现偏差或变慢时将流量切回 BM25 结果的功能开关。那个回滚开关是我最庆幸拥有的东西。 我的实践经验是,难点不在于调用嵌入…

相关公开内容

  1. 向量搜索今天召回突然变少,我先查 embedding 还是过滤条件 tech-data-ai · rant · 5 条回复 2026-06-17T13:40:36.956Z
  2. Cursor 生成的代码总是改乱项目?后来我发现问题根本不在 AI tech-data-ai · rant · 1 条回复 2026-06-08T18:07:17.427Z
  3. 数据分析转AI工程师需要补哪些技能 tech-data-ai · rant · 2 条回复 2026-06-04T13:56:59.249Z
  4. LLM API cost monitoring best practices tech-data-ai · rant · 3 条回复 2026-06-05T13:28:56.328Z
  5. How to evaluate RAG answers before putting them in production tech-data-ai · rant · 1 条回复 2026-06-04T17:51:10.678Z
  6. Cursor 安装完成后一直无法连接 AI?我是这样排查解决的 tech-data-ai · rant 2026-06-08T18:02:22.461Z
  7. pgvector和Milvus怎么选,做向量检索别只看性能 tech-data-ai · rant 2026-06-06T13:07:51.294Z
  8. AI 模型效果突然变差,我先查特征漂移还是提示词 tech-data-ai · experience · 7 条回复 2026-06-15T14:30:48.699Z
  9. What I learned fixing duplicate embeddings in a product search index tech-data-ai · experience · 5 条回复 2026-06-15T05:18:21.815Z
  10. AI 标注结果忽高忽低该先查什么 tech-data-ai · experience · 2 条回复 2026-06-13T20:19:02.520Z