推荐列表分数一早波动,怎么查特征更新时间
今天早上商品推荐列表的排序忽上忽下,运营看到点击率掉了,第一反应是模型又不稳定。我们这边先看模型版本,线上 artifact 没变,A/B 分桶也正常,问题更像是输入数据在变。 我把推荐服务的 request id 抽出来,对比 feature store 里的 user_feature 和 item_feature 更新时间,发现 item_feature 有一张表凌晨 ETL 延迟,部分 SKU 还在用前一天的热度值。处理上先把排序服务切到上一批完整特征快照,暂停自动刷新,然后补跑 Airflow 任务,重新比对 coverage、null rate 和 top item overlap,确认波动收敛后再放开。 这次经验是,推荐或 AI 排序问题别只问"模型是不是坏了"。特征 freshness、join key 命中率、缓存 TTL 和回填顺序都要查。建议同行给每个线上模型配一张数…