模型没问题。问题出在特征表上。
我花了一周时间排查一个模型问题,结果发现是数据问题。离线指标看起来还不错,但生产环境的分数波动很大,因为其中一个每日聚合数据在周一总是延迟到达。 有效的修复方法很枯燥:增加新鲜度检查,在预测结果旁边记录特征时间戳,并且在特征过期时直接报错停止,而不是让模型根据残缺的数据进行猜测。 从那以后,我更信任特征流水线的警报,而不是漂亮的笔记本图表。
我花了一周时间排查一个模型问题,结果发现是数据问题。离线指标看起来还不错,但生产环境的分数波动很大,因为其中一个每日聚合数据在周一总是延迟到达。 有效的修复方法很枯燥:增加新鲜度检查,在预测结果旁边记录特征时间戳,并且在特征过期时直接报错停止,而不是让模型根据残缺的数据进行猜测。 从那以后,我更信任特征流水线的警报,而不是漂亮的笔记本图表。