如何在机器学习模型表现“好得离谱”之前发现数据泄露

我评审过的一个需求模型在离线验证中表现惊人。AUC 的提升幅度大到业务团队想直接将其推送到下一次规划运行中。这恰恰引起了我的怀疑。在真实的仓库需求数据中,巨大的提升通常源于更好的特征,而不是魔法。 我首先检查了每个特征的时间戳与预测时间戳的对应关系。有两个字段来自一张在订单关闭后才更新的表,但笔记本在处理时却将其连接在一起,就好像这些值在预测时已知一样。训练集/测试集的划分也使用了随机行,导致相同的客户和 SKU 模式同时出现在两端。我使用 as_of_time 值重建了数据集,采用了基于时间的划分,并强制特征流水线仅读取 updated_at 早于 as_of_time 的行。分数虽然下降了,但实时回测的结果终于与运营部门在现场看到的情况相符了。 实际的教训是,数据泄露通常看起来像是个好消息。现在,在信任任何模型之前,我都会要求进行三项检查:时间点连接(point-in-time jo…

相关公开内容

  1. What I learned fixing duplicate embeddings in a product search index tech-data-ai · experience · 5 条回复 2026-06-15T05:18:21.815Z
  2. Como depure un modelo de scoring que cambiaba cada manana tech-data-ai · experience · 2 条回复 2026-06-11T13:29:02.019Z
  3. How to build a labeling workflow for AI training data tech-data-ai · experience · 2 条回复 2026-06-06T14:28:35.796Z
  4. Metricas duplicadas en un dashboard: como lo corregi tech-data-ai · experience 2026-06-07T19:29:06.786Z
  5. Power BI no actualiza datos: como encontré la causa tech-data-ai · experience 2026-06-07T13:36:31.046Z
  6. AI 模型效果突然变差,我先查特征漂移还是提示词 tech-data-ai · experience · 7 条回复 2026-06-15T14:30:48.699Z
  7. Why CSV imports changed my dashboard totals and how I debugged it tech-data-ai · experience · 2 条回复 2026-06-12T15:59:00.592Z
  8. AI 标注结果忽高忽低该先查什么 tech-data-ai · experience · 2 条回复 2026-06-13T20:19:02.520Z
  9. Power BI 数据刷新失败怎么定位问题 tech-data-ai · experience · 2 条回复 2026-06-07T02:27:42.652Z
  10. 数据异常监控怎么做才不会天天误报 tech-data-ai · experience · 3 条回复 2026-06-05T20:53:23.775Z