Redis 内存告警之后我怎么稳住线上服务
有一次在一个有秒杀活动的电商后台值班,问题一开始看着不大:Redis memory usage 突然冲到 92%,接口还没挂,但缓存 miss 和响应时间已经开始抖。现场几个人的说法都合理,可放到一起就是对不上。 我先让大家暂停继续扩大影响,再逐项核对证据。我先确认不是连接数暴涨,再看 keyspace 和 big key,临时调低部分非核心缓存 TTL,同时把商品详情热 key 做了分片和预热。这件事让我感觉,内存告警不是等到 OOM 才处理,过期策略、key 命名和热 key 都要一起看。很多返工不是技术不会做,而是容量和降级没有提前定清楚。 给同行一个实际建议:值班手册里要写清哪些缓存能删、哪些只能降 TTL,别让新人高峰期直接 flushall。遇到类似情况别只想着快点过去,先把事实固定住,后面沟通才有底。你们线上 Redis 告警会先看 big key,还是先看业务流量变化?