Redis 内存告警之后我怎么稳住线上服务

有一次在一个有秒杀活动的电商后台值班,问题一开始看着不大:Redis memory usage 突然冲到 92%,接口还没挂,但缓存 miss 和响应时间已经开始抖。现场几个人的说法都合理,可放到一起就是对不上。 我先让大家暂停继续扩大影响,再逐项核对证据。我先确认不是连接数暴涨,再看 keyspace 和 big key,临时调低部分非核心缓存 TTL,同时把商品详情热 key 做了分片和预热。这件事让我感觉,内存告警不是等到 OOM 才处理,过期策略、key 命名和热 key 都要一起看。很多返工不是技术不会做,而是容量和降级没有提前定清楚。 给同行一个实际建议:值班手册里要写清哪些缓存能删、哪些只能降 TTL,别让新人高峰期直接 flushall。遇到类似情况别只想着快点过去,先把事实固定住,后面沟通才有底。你们线上 Redis 告警会先看 big key,还是先看业务流量变化?

相关公开内容

  1. Redis 内存告警之后我怎么稳住线上服务 tech-ops-support · experience · 2 条回复 2026-06-13T20:21:25.083Z
  2. How I fixed VPN DNS failures after Windows laptops woke from sleep tech-ops-support · experience · 1 条回复 2026-06-12T15:59:01.185Z
  3. Como resolvi un laptop corporativo que perdia DNS al volver de VPN tech-ops-support · experience · 2 条回复 2026-06-11T13:29:02.550Z
  4. 线上服务灰度发布怎么做才容易回滚 tech-ops-support · experience · 4 条回复 2026-06-05T20:53:23.943Z
  5. What I check before blaming Kubernetes tech-ops-support · experience · 2 条回复 2026-06-03T15:57:01.191Z
  6. How to renew SSL certificates without breaking production tech-ops-support · experience · 1 条回复 2026-06-06T14:28:36.444Z
  7. How we handled a database migration without downtime tech-ops-support · experience · 1 条回复 2026-06-04T21:47:29.712Z
  8. 服务器磁盘没满但服务写不进日志,我是怎么查的 tech-ops-support · experience 2026-06-15T14:30:49.527Z
  9. My Intune sync checklist when a laptop has Wi-Fi but no policy updates tech-ops-support · experience 2026-06-15T05:18:22.395Z
  10. Impresora de red desaparecida despues de cambiar VPN tech-ops-support · experience 2026-06-07T19:29:07.739Z