LLM API 成本监控的最佳实践

LLM API 成本是那种在首次出现实际使用高峰前看起来微不足道的生产问题之一。演示版本运行一周可能几乎不花钱。然后,一旦有人将其连接到支持工单、批处理或内部搜索工具,账单就会开始给架构上一堂没人做过预算的课。 我看到的错误是只跟踪每月的总支出。那个数字太滞后且太模糊。它无法告诉你成本是来自长提示词、重复重试、工具调用、糟糕的分块、用户粘贴整个文档,还是某个重复处理了三次相同记录的后台作业。对于一个内部助手,我们曾以为是模型选择的问题。结果发现是我们的检索层每次都发送八个分块,即使是只需要一个政策页面的简单问题也是如此。答案质量没有提高,但 Token 数量却增加了。 对我有所帮助的做法是尽可能在请求发生时记录成本:用户或团队、功能名称、提示词 Token 数、补全 Token 数、模型、重试次数、缓存命中情况,以及答案是否被实际采纳或使用。并非每个产品团队都想看 Token 计算,但他…

相关公开内容

  1. 训练数据标签不一致怎么做 label audit 和抽样复核 tech-data-ai · rant · 3 条回复 2026-06-22T16:18:17.738Z
  2. RAG 知识库答案跑偏时,先做这三个检索命中率检查 tech-data-ai · rant · 2 条回复 2026-06-21T12:53:39.232Z
  3. Vector search rollback plans matter more than the first demo tech-data-ai · rant · 4 条回复 2026-06-19T16:35:21.150Z
  4. 向量搜索今天召回突然变少,我先查 embedding 还是过滤条件 tech-data-ai · rant · 6 条回复 2026-06-17T13:40:36.956Z
  5. Cursor 生成的代码总是改乱项目?后来我发现问题根本不在 AI tech-data-ai · rant · 1 条回复 2026-06-08T18:07:17.427Z
  6. 数据分析转AI工程师需要补哪些技能 tech-data-ai · rant · 2 条回复 2026-06-04T13:56:59.249Z
  7. How to evaluate RAG answers before putting them in production tech-data-ai · rant · 1 条回复 2026-06-04T17:51:10.678Z
  8. 推荐列表分数一早波动,怎么查特征更新时间 tech-data-ai · rant 2026-06-20T17:51:25.059Z
  9. Cursor 安装完成后一直无法连接 AI?我是这样排查解决的 tech-data-ai · rant 2026-06-08T18:02:22.461Z
  10. pgvector和Milvus怎么选,做向量检索别只看性能 tech-data-ai · rant 2026-06-06T13:07:51.294Z