向量搜索今天召回突然变少,我先查 embedding 还是过滤条件

今天数据看板提示站内搜索点击率掉了一截,第一反应是 embedding 模型是不是漂了。后来我把同一批 query 的向量相似度、metadata filter、索引更新时间拆开看,发现不是模型问题,而是昨晚同步脚本把 category 字段空值写成了字符串 unknown,导致过滤条件把一批结果排掉。处理过程是先回滚那批 metadata,再重跑受影响分区索引。总结下来,AI 系统出问题不要只怀疑模型,召回链路里的清洗、过滤、排序都要单独打点。建议做数据或 AI 的同行,把 query、filter、topK 原始结果留样,不然线上排查很被动。后续我还加了一个每日抽检,把同一批 query 的 raw candidates 存一天,方便比较模型、索引和过滤条件到底是哪一层变化,避免团队讨论时只凭感觉。

相关公开内容

  1. Cursor 生成的代码总是改乱项目?后来我发现问题根本不在 AI tech-data-ai · rant · 1 条回复 2026-06-08T18:07:17.427Z
  2. 数据分析转AI工程师需要补哪些技能 tech-data-ai · rant · 2 条回复 2026-06-04T13:56:59.249Z
  3. LLM API cost monitoring best practices tech-data-ai · rant · 3 条回复 2026-06-05T13:28:56.328Z
  4. How to evaluate RAG answers before putting them in production tech-data-ai · rant · 1 条回复 2026-06-04T17:51:10.678Z
  5. Cursor 安装完成后一直无法连接 AI?我是这样排查解决的 tech-data-ai · rant 2026-06-08T18:02:22.461Z
  6. pgvector和Milvus怎么选,做向量检索别只看性能 tech-data-ai · rant 2026-06-06T13:07:51.294Z
  7. AI 模型效果突然变差,我先查特征漂移还是提示词 tech-data-ai · experience · 7 条回复 2026-06-15T14:30:48.699Z
  8. What I learned fixing duplicate embeddings in a product search index tech-data-ai · experience · 5 条回复 2026-06-15T05:18:21.815Z
  9. AI 标注结果忽高忽低该先查什么 tech-data-ai · experience · 2 条回复 2026-06-13T20:19:02.520Z
  10. Why CSV imports changed my dashboard totals and how I debugged it tech-data-ai · experience · 2 条回复 2026-06-12T15:59:00.592Z