向量搜索今天召回突然变少,我先查 embedding 还是过滤条件
今天数据看板提示站内搜索点击率掉了一截,第一反应是 embedding 模型是不是漂了。后来我把同一批 query 的向量相似度、metadata filter、索引更新时间拆开看,发现不是模型问题,而是昨晚同步脚本把 category 字段空值写成了字符串 unknown,导致过滤条件把一批结果排掉。处理过程是先回滚那批 metadata,再重跑受影响分区索引。总结下来,AI 系统出问题不要只怀疑模型,召回链路里的清洗、过滤、排序都要单独打点。建议做数据或 AI 的同行,把 query、filter、topK 原始结果留样,不然线上排查很被动。后续我还加了一个每日抽检,把同一批 query 的 raw candidates 存一天,方便比较模型、索引和过滤条件到底是哪一层变化,避免团队讨论时只凭感觉。