后台作业队列卡住了?重启 Node worker 之前我会检查什么

上个月我负责一个小型的内部管理应用的值班工作,支持团队联系我,说客户导出的文件没有显示。UI 上只显示"已排队(queued)",所以 Slack 里的第一个建议就是重启 Node worker。我以前这样做过,重启后确实能管用十分钟,但这通常掩盖了真正的问题。 我首先没有去看总数,而是按状态拆分了队列。在 BullMQ 中,waiting(等待中)、active(执行中)、delayed(延迟中)、failed(失败)和 stalled(停滞)代表着完全不同的含义。这些作业并没有真正卡在等待中。它们大多数处于延迟状态,且退避(backoff)值在不断增加。CPU 使用率很低,Redis 内存看起来正常,worker 进程也在正常发送心跳,所以盲目重启并不能解决什么问题。 接下来的检查是查看作业负载以及第一次失败前后的 worker 日志。下游供应商的 API 在其批处理窗口期间开始返回…

相关公开内容

  1. Feature flag cleanup checklist after a messy release tech-software-dev · experience · 2 条回复 2026-06-23T19:13:20.223Z
  2. Como instalar Cursor y arreglar el indexado lento tech-software-dev · experience 2026-06-07T13:36:30.120Z
  3. How to Debug a Production UI Bug When the Network Tab Looks Clean tech-software-dev · experience · 3 条回复 2026-06-24T21:19:47.231Z
  4. Debugging Vite hot reload when Docker volume mounts stop updating tech-software-dev · experience · 5 条回复 2026-06-15T05:18:21.083Z
  5. 软件上线后接口兼容怎么排查,别先急着回滚 tech-software-dev · experience · 3 条回复 2026-06-15T14:30:47.739Z
  6. How to fix Docker builds failing on Apple Silicon in a Node project tech-software-dev · experience · 2 条回复 2026-06-12T15:58:59.823Z
  7. Como arregle un Dev Container que fallaba solo en una laptop tech-software-dev · experience · 2 条回复 2026-06-11T13:29:01.275Z
  8. 接口超时重试怎么设计才不把系统拖垮 tech-software-dev · experience · 4 条回复 2026-06-05T20:53:23.573Z
  9. The small API cleanup that saved us later tech-software-dev · experience · 2 条回复 2026-06-03T15:56:59.439Z
  10. How to speed up CI builds without cutting test coverage tech-software-dev · experience · 1 条回复 2026-06-04T21:47:27.887Z