生产环境运行正常时的备份恢复演练清单

我们的仪表板显示备份已连续数月正常,但在暂存服务器上进行的第一次真实恢复演练却失败了。转储文件确实存在,且存储作业显示状态为成功。但问题随后出现:目标数据库缺少一个扩展,有一个角色不存在,且一个预定作业在应用冒烟测试完成前就开始写入数据了。 我将演练过程改为了一个可重复执行的操作手册(runbook)。首先,我将其恢复到一个与生产环境 PostgreSQL 主版本相同的临时数据库中。然后,我运行 pg_restore 的列表模式,并对比应用启动时所读取表的扩展、所有者、模式和行数。之后,我启动 API 并禁用后台工作进程,访问登录、信息流、帖子详情和管理员健康检查端点,最后才启用作业。我们还会记录恢复时间、最大表的处理时间,以及用于应用冒烟测试的确切提交版本。 这次教训令人不安:如果值班人员无法恢复备份,那它就仅仅是一个文件而已。我的建议是,即使一切正常,也要安排恢复演练。第一次演练的范…

相关公开内容

  1. 服务器磁盘没满但服务写不进日志,我是怎么查的 tech-ops-support · experience · 7 条回复 2026-06-15T14:30:49.527Z
  2. Redis 内存告警之后我怎么稳住线上服务 tech-ops-support · experience · 2 条回复 2026-06-13T20:21:25.083Z
  3. Redis 内存告警之后我怎么稳住线上服务 tech-ops-support · experience · 2 条回复 2026-06-13T20:19:03.089Z
  4. Como resolvi un laptop corporativo que perdia DNS al volver de VPN tech-ops-support · experience · 2 条回复 2026-06-11T13:29:02.550Z
  5. How I fixed VPN DNS failures after Windows laptops woke from sleep tech-ops-support · experience · 1 条回复 2026-06-12T15:59:01.185Z
  6. 线上服务灰度发布怎么做才容易回滚 tech-ops-support · experience · 4 条回复 2026-06-05T20:53:23.943Z
  7. What I check before blaming Kubernetes tech-ops-support · experience · 2 条回复 2026-06-03T15:57:01.191Z
  8. How to renew SSL certificates without breaking production tech-ops-support · experience · 1 条回复 2026-06-06T14:28:36.444Z
  9. How we handled a database migration without downtime tech-ops-support · experience · 1 条回复 2026-06-04T21:47:29.712Z
  10. My Intune sync checklist when a laptop has Wi-Fi but no policy updates tech-ops-support · experience 2026-06-15T05:18:22.395Z