ASR 和 GRS:Azure 灾难恢复计划中隐藏的差距

Avilas

IT 界普遍认为,使用 Azure 站点恢复 (ASR) 和异地冗余存储 (GRS) 保管库保护本地工作负载可提供完整的灾难恢复解决方案,即使在整个 Azure 区域中断的情况下也是如此。这一假设隐藏了业务连续性方面的一个关键差距。此技术深入探讨解释了为什么依赖 GRS 进行故障转移不是可行的策略,并详细介绍了 Microsoft 推荐的明确架构,使用 Azure 到 Azure ASR 来实现真正的、可控的跨区域弹性。

GigXP.com | ASR 深入探讨:在本地和 Azure 区域双中断中幸存

千兆XP.com
云与技术见解


博客
关于

Azure 灾难恢复

对 ASR 限制的技术分析以及真正跨区域弹性的明确策略。

发布于 2025 年 8 月 5 日

·

15 分钟阅读

执行摘要

此报告提供了对使用 Azure 站点恢复 (ASR) 和异地冗余存储 (GRS) 保管库复制到 Azure 的本地虚拟机的灾难恢复 (DR) 功能的详细技术分析。核心问题:**如果本地数据中心和主 Azure 区域都出现故障,是否可以故障转移到辅助 Azure 区域?**

简短的回答是**不**。当前配置仅依赖于带有 GRS 的 ASR,不提供到次要区域的自动或用户启动的故障转移功能。本报告详细介绍了原因并介绍了 Microsoft 推荐的真正跨区域灾难恢复解决方案。

GRS 的可及性差距

GRS 可确保数据存活,但不保证您可以访问它。

赫普莱姆

初级天蓝色
自动语音识别同步

次要蔚蓝
GRS复制

在发生 Microsoft 发起的区域故障转移之前,用户无法访问(“锁定”)辅助区域中的数据。

阅读更多:将 VMware 迁移到 Azure Stack(本地)Azure VMware 解决方案 (AVS)

第 1 部分:当前配置说明

1.1 Azure 站点恢复 (ASR) 的作用

Azure 站点恢复主要是编排引擎。它管理本地计算机到 Azure 存储的复制,并在发生灾难时使用该数据构建和运行新的 Azure VM。它的价值在于自动化整个灾难恢复生命周期,从复制到故障转移和故障恢复。

1.2 解构恢复服务库和 GRS

恢复服务库是特定 Azure 区域中的管理实体。它存储元数据和配置,但不存储批量 VM 磁盘数据。异地冗余存储 (GRS)是一个数据持久性选项,可将存储数据异步复制到辅助的配对 Azure 区域。其目的是确保数据副本在区域中断中幸存下来。

1.3 关键限制:GRS 数据可访问性

这是问题的核心。标准 GRS 配置自动提供对辅助区域中数据的读或写访问。 Azure 官方文档很明确:只有在正式、微软发起区域故障转移。客户无法控制此流程,也没有执行该流程的 SLA。

第二部分:为什么次要区域故障转移不可行

如果主 Azure 区域不可用,则无法使用当前体系结构启动到次要区域的故障转移。这是由于两个关键因素。

2.1 ASR对主要区域的依赖

ASR 服务本身(控制平面)在主 Azure 区域中运行。如果该区域发生故障,ASR 服务也会关闭。您无法访问保管库,无法单击“故障转移”,也无法运行任何恢复计划。协调恢复所需的工具在灾难中丢失了。

2.2 ASR 故障转移与 Azure 备份的跨区域还原 (CRR)

重要的是不要将 ASR 与其他服务混淆:Azure 备份与跨区域还原 (CRR)。 CRR *确实*允许用户启动对次要区域的恢复。但是,它是备份服务,而不是灾难恢复服务。差异是显而易见的:

特征/指标 当前设置(ASR + GRS) Azure 备份 + CRR 推荐(Azure 到 Azure ASR)
恢复触发 微软发起 用户发起 用户发起
典型恢复点目标 有效无限 最多36小时 秒到分钟
典型RTO 未知(几小时到几天) 时间 分钟
机制 等待微软 手动恢复 精心安排的故障转移
可测试性 无法测试 手动/破坏性 无中断灾难恢复演练

RPO/RTO 比较(小时)

越低越好。为了清楚起见,请注意对数刻度。

第三节:推荐架构:真正的跨域容灾

最终的解决方案是两阶段恢复模型。这扩展了现有的灾难恢复计划,将其转变为多阶段策略,有效降低双重中断的风险。

推荐的两阶段恢复模型

第一阶段:本地故障转移

赫普莱姆

初级天蓝色
现有的 ASR

第二阶段:跨地域容灾

初级天蓝色

次要蔚蓝
Azure 到 Azure ASR

故障转移到主要区域后,立即使用 Azure 到 Azure ASR 将这些 VM 保护到次要区域。

3.1 实施 Azure 到 Azure 站点恢复

这是 ASR 中的一项本机功能,旨在将 Azure VM 从一个区域复制到另一个区域。这是 Microsoft 推荐的行业标准方法。通过实施它,您可以从依赖转变为完全控制,可按需提供用户启动的故障转移。

推荐架构的主要优点

所有福利
控制
表现
可靠性

完全的客户控制

企业(而不是云提供商)决定何时通过门户、PowerShell 或 API 宣布灾难并触发恢复。

积极的 RPO 和 RTO

通过持续复制和精心策划的恢复计划,实现分钟(或秒)的 RPO 和分钟的 RTO。

无中断测试

在隔离网络中定期进行无中断灾难恢复演练,以验证恢复程序而不影响生产。

精心策划的恢复

使用恢复计划自动执行多层应用程序的故障转移,确保尊重依赖性并减少手动错误。

结论和最终建议

依赖 GRS 来实现故障转移功能是对该技术的根本性误用。最终的解决方案是将当前的 BCDR 策略发展为通过实施 Azure 到 Azure 站点恢复的两阶段恢复模型。该架构提供完全的用户控制、企业级性能以及通过测试证明的可靠性。本报告强烈建议客户优先考虑此实施,以缩小其业务连续性状况中的重大差距。

© 2025 GigXP.com。版权所有。

面向云专业人士的深入分析。