数据灾备

 数据灾备(Data Disaster Recovery)是指通过技术手段和管理策略,预防因自然灾害(如地震、洪水)、人为失误(误删、误操作)、恶意攻击(勒索病毒、黑客入侵)、硬件故障(服务器宕机、存储损坏)等 “灾难” 导致的数据丢失或业务中断,并在灾难发生后快速恢复数据和业务的体系。它是企业 IT 系统稳定性和业务连续性的核心保障,核心目标是 **“减少数据丢失量(RPO)” 和 “缩短业务中断时间(RTO)”**。

一、核心指标:RPO 与 RTO

 数据灾备的效果主要通过两个关键指标衡量,也是制定灾备策略的核心依据:

 RPO(Recovery Point Objective,恢复点目标):灾难发生后,允许丢失的数据量(或可回溯的时间点)。例如,RPO=1 小时意味着最多丢失灾难发生前 1 小时内的数据。

 RTO(Recovery Time Objective,恢复时间目标):灾难发生后,业务从中断到恢复正常运行的最大允许时间。例如,RTO=4 小时意味着业务需在 4 小时内恢复。

二、灾备等级与典型方案

 根据 RPO 和 RTO 的不同,数据灾备可分为多个等级,对应不同的技术方案:

 本地备份

 技术:通过备份软件(如 Veritas、Commvault)将数据定期(每日 / 每周)备份到磁带、硬盘或 NAS 存储。

 特点:成本低,但恢复依赖人工操作,RPO 和 RTO 较高,仅能应对单点故障(如硬盘损坏),无法抵御区域性灾难(如机房火灾)。

 本地高可用

 技术:

 服务器集群:多台服务器部署相同应用,通过负载均衡(如 F5)和心跳检测(Heartbeat)实现故障自动切换(如一台服务器宕机,另一台立即接管);

 存储镜像:通过 RAID(如 RAID10)或存储双活(如 SAN 镜像)实现数据实时冗余,避免单存储故障导致数据丢失。

 特点:可快速恢复(RTO 分钟级),但仅限本地机房,无法应对机房级灾难。

 异地灾备

 冷备:本地数据定期(每小时 / 每天)通过专线或互联网同步至异地机房存储(如磁带库、对象存储),灾难发生后需人工在异地恢复系统和数据。

 热备(同步 / 异步复制):

 同步复制:本地与异地数据实时同步(写入本地时同时写入异地),RPO≈0,但对网络带宽要求极高(需低延迟专线,如光纤);

 异步复制:本地数据先写入缓存,再按周期(毫秒 / 秒级)同步至异地,RPO 可控制在秒级,适合跨城市(延迟较高)场景。

 双活数据中心:两地机房同时运行相同业务,数据实时同步,用户请求可路由至任意机房,灾难发生时无感知切换(RTO≈0),成本最高(如金融行业 “两地三中心” 架构)。