为什么 CSV 导入改变了我的仪表板总数以及我是如何调试的
这个问题出现在一个每周运营仪表板的维护过程中,该仪表板的数据源自两个供应商门户网站的 CSV 导出文件。起初问题并不严重:每次导入替换后的 CSV 文件时,即使可见行看起来完全相同,相同的收入总额也会发生变化。我怀疑是图表聚合出现了错误,尤其是当财务部门上传了从 Excel 导出而非直接从供应商门户导出的文件时,这种情况就会发生。当它导致管理层不再信任仪表板并要求重新进行手动电子表格核对时,我将其视为一个运营问题来处理。 我提取了行数、文件哈希值、导入时间戳以及类型转换前的原始列值,并将它们与暂存表、dbt 模型和 BI 语义层进行了对比。第一个有用的步骤是将两个文件加载到临时表中,而不是比较格式化后的电子表格。之后,在触及仪表板之前,我对发票 ID、货币和税码进行了分组检查。揭示根本原因的细节是:Excel 将两个长发票 ID 转换成了科学计数法,从而产生了虚假的重复项。 我选择了一个…