LLM API 成本监控的最佳实践

LLM API 成本是那种在首次出现实际使用高峰前看起来微不足道的生产问题之一。演示版本运行一周可能几乎不花钱。然后，一旦有人将其连接到支持工单、批处理或内部搜索工具，账单就会开始给架构上一堂没人做过预算的课。我看到的错误是只跟踪每月的总支出。那个数字太滞后且太模糊。它无法告诉你成本是来自长提示词、重复重试、工具调用、糟糕的分块、用户粘贴整个文档，还是某个重复处理了三次相同记录的后台作业。对于一个内部助手，我们曾以为是模型选择的问题。结果发现是我们的检索层每次都发送八个分块，即使是只需要一个政策页面的简单问题也是如此。答案质量没有提高，但 Token 数量却增加了。对我有所帮助的做法是尽可能在请求发生时记录成本：用户或团队、功能名称、提示词 Token 数、补全 Token 数、模型、重试次数、缓存命中情况，以及答案是否被实际采纳或使用。并非每个产品团队都想看 Token 计算，但他…