我是如何调试一个每天都在变化的评分模型的

在我的日常工作中，我负责管理风险报告，其中评分模型为商业决策提供支持。让我停下工作去解决的问题是：尽管代码没有变动，但模型每天早上给出的结果却不同。促使我认真调查的迹象是百分位数发生了偏移，Power BI 仪表板看起来正常，且在 Git 中也找不到任何差异。我选择不进行临时修补，因为快速修复可能会掩盖真正的原因，并将问题留给下一个班次。我的处理流程是将数据与观点分开。首先，我冻结了一个输入快照，按列比较哈希值，检查日期分区，并发现一个增量表正在重写历史数据。我还检查了特征存储（feature store）、漂移（drift）、哈希、Power BI 和增量流水线等证据。我整理了截图、事件发生时间以及流程中断的确切点。实际的解决方案是将冻结的特征与新鲜数据分开，并在发布评分前增加了一项漂移测试。这不是魔法，而是按顺序进行的小型检查。结果是团队能够解释每一次变化，我们不再争论到底是模型…