ASR 和 GRS:Azure 灾难恢复计划中隐藏的差距
IT 界普遍认为,使用 Azure 站点恢复 (ASR) 和异地冗余存储 (GRS) 保管库保护本地工作负载可提供完整的灾难恢复解决方案,即使在整个 Azure 区域中断的情况下也是如此。这一假设隐藏了业务连续性方面的一个关键差距。此技术深入探讨解释了为什么依赖 GRS 进行故障转移不是可行的策略,并详细介绍了 Microsoft 推荐的明确架构,使用 Azure 到 Azure ASR 来实现真正的、可控的跨区域弹性。
GigXP.com | ASR 深入探讨:在本地和 Azure 区域双中断中幸存
千兆XP.com
云与技术见解
Azure 灾难恢复
对 ASR 限制的技术分析以及真正跨区域弹性的明确策略。
发布于 2025 年 8 月 5 日
·
15 分钟阅读
执行摘要
此报告提供了对使用 Azure 站点恢复 (ASR) 和异地冗余存储 (GRS) 保管库复制到 Azure 的本地虚拟机的灾难恢复 (DR) 功能的详细技术分析。核心问题:**如果本地数据中心和主 Azure 区域都出现故障,是否可以故障转移到辅助 Azure 区域?**
简短的回答是**不**。当前配置仅依赖于带有 GRS 的 ASR,不提供到次要区域的自动或用户启动的故障转移功能。本报告详细介绍了原因并介绍了 Microsoft 推荐的真正跨区域灾难恢复解决方案。
GRS 的可及性差距
GRS 可确保数据存活,但不保证您可以访问它。
赫普莱姆
初级天蓝色
自动语音识别同步
次要蔚蓝
GRS复制
在发生 Microsoft 发起的区域故障转移之前,用户无法访问(“锁定”)辅助区域中的数据。
阅读更多:将 VMware 迁移到 Azure Stack(本地)Azure VMware 解决方案 (AVS)
第 1 部分:当前配置说明
1.1 Azure 站点恢复 (ASR) 的作用
Azure 站点恢复主要是编排引擎。它管理本地计算机到 Azure 存储的复制,并在发生灾难时使用该数据构建和运行新的 Azure VM。它的价值在于自动化整个灾难恢复生命周期,从复制到故障转移和故障恢复。
1.2 解构恢复服务库和 GRS
这恢复服务库是特定 Azure 区域中的管理实体。它存储元数据和配置,但不存储批量 VM 磁盘数据。异地冗余存储 (GRS)是一个数据持久性选项,可将存储数据异步复制到辅助的配对 Azure 区域。其目的是确保数据副本在区域中断中幸存下来。
1.3 关键限制:GRS 数据可访问性
这是问题的核心。标准 GRS 配置不自动提供对辅助区域中数据的读或写访问。 Azure 官方文档很明确:只有在正式、微软发起区域故障转移。客户无法控制此流程,也没有执行该流程的 SLA。
第二部分:为什么次要区域故障转移不可行
如果主 Azure 区域不可用,则无法使用当前体系结构启动到次要区域的故障转移。这是由于两个关键因素。
2.1 ASR对主要区域的依赖
ASR 服务本身(控制平面)在主 Azure 区域中运行。如果该区域发生故障,ASR 服务也会关闭。您无法访问保管库,无法单击“故障转移”,也无法运行任何恢复计划。协调恢复所需的工具在灾难中丢失了。
2.2 ASR 故障转移与 Azure 备份的跨区域还原 (CRR)
重要的是不要将 ASR 与其他服务混淆:Azure 备份与跨区域还原 (CRR)。 CRR *确实*允许用户启动对次要区域的恢复。但是,它是备份服务,而不是灾难恢复服务。差异是显而易见的:
| 特征/指标 | 当前设置(ASR + GRS) | Azure 备份 + CRR | 推荐(Azure 到 Azure ASR) |
|---|---|---|---|
| 恢复触发 | 微软发起 | 用户发起 | 用户发起 |
| 典型恢复点目标 | 有效无限 | 最多36小时 | 秒到分钟 |
| 典型RTO | 未知(几小时到几天) | 时间 | 分钟 |
| 机制 | 等待微软 | 手动恢复 | 精心安排的故障转移 |
| 可测试性 | 无法测试 | 手动/破坏性 | 无中断灾难恢复演练 |
RPO/RTO 比较(小时)
越低越好。为了清楚起见,请注意对数刻度。
第三节:推荐架构:真正的跨域容灾
最终的解决方案是两阶段恢复模型。这扩展了现有的灾难恢复计划,将其转变为多阶段策略,有效降低双重中断的风险。
推荐的两阶段恢复模型
第一阶段:本地故障转移
赫普莱姆
初级天蓝色
现有的 ASR
第二阶段:跨地域容灾
初级天蓝色
次要蔚蓝
Azure 到 Azure ASR
故障转移到主要区域后,立即使用 Azure 到 Azure ASR 将这些 VM 保护到次要区域。
3.1 实施 Azure 到 Azure 站点恢复
这是 ASR 中的一项本机功能,旨在将 Azure VM 从一个区域复制到另一个区域。这是 Microsoft 推荐的行业标准方法。通过实施它,您可以从依赖转变为完全控制,可按需提供用户启动的故障转移。
推荐架构的主要优点
所有福利
控制
表现
可靠性
完全的客户控制
企业(而不是云提供商)决定何时通过门户、PowerShell 或 API 宣布灾难并触发恢复。
积极的 RPO 和 RTO
通过持续复制和精心策划的恢复计划,实现分钟(或秒)的 RPO 和分钟的 RTO。
无中断测试
在隔离网络中定期进行无中断灾难恢复演练,以验证恢复程序而不影响生产。
精心策划的恢复
使用恢复计划自动执行多层应用程序的故障转移,确保尊重依赖性并减少手动错误。
结论和最终建议
依赖 GRS 来实现故障转移功能是对该技术的根本性误用。最终的解决方案是将当前的 BCDR 策略发展为通过实施 Azure 到 Azure 站点恢复的两阶段恢复模型。该架构提供完全的用户控制、企业级性能以及通过测试证明的可靠性。本报告强烈建议客户优先考虑此实施,以缩小其业务连续性状况中的重大差距。
© 2025 GigXP.com。版权所有。
面向云专业人士的深入分析。
