灾难恢复需要从精确的IT清单开始。如果您从备份中还原 - 如果没有从备份中恢复所有内容 - 那么它将在依赖项中抛出扳手。最糟糕的情况:中断持续时间较长,更难修复。

灾难恢复基础知识

备份和恢复过程是企业环境中最关键的工作流之一。这个过程有三个重要目标:

  1. 保存客户服务的连续性:理想情况下,他们从来没有知道灾难恢复事件发生在他们最后。
  2. 恢复劳动力的生产力:确保您的人员尽可能快地重新开始工作,帮助由于中断或其他灾难而遏制收入损失。
  3. 恢复丢失数据:防止重复努力,保护关键信息,并在各种合规性制度下减少曝光。

平均数据中心中断是 超过两个小时,和最多 三分之一的数据中心 可以在给定年度遇到中断(一个上涨的数字,没有下降)。数据中心中断的平均长度和增加频率指向令人不安的趋势:从备份恢复的过程实际上不是在上面的三个重要目标。

它的复杂性脱位备份和恢复过程

假设您的数据中心经历了电源故障或赎金软件攻击。灾难恢复意味着您可以在事件前七天恢复您的数据,应用程序和配置设置。在一个Devops环境中,它非常容易更改VM,云卷,容器和配置设置,七天是永恒。虽然从完全备份恢复将相对容易,但可能需要数周才能重复七天的努力。

大多数企业知道这一点,所以它们创建了增量或差异备份。简而言之,这些备份捕获自上次完全备份以来已更改的文件。虽然在存储空间方面更快,但在存储空间方面更快,但这些方法导致多个不同的备份集,必须拼凑在一起,以便准确恢复。

从多个备份剪切数据,而不是从一个大备份恢复。风险也有更多的风险。如果其中一个增量或差异备份是不完整的,则您的恢复将不会完整。事实上,这甚至可能会造成更糟糕的问题,因为你不一定知道遗失的部分恢复以及需要解决它的部分。

这些困难不是摘要。备份失败发生了很多。一个巨大的例子是 2017年Gitlab失败。在此事件期间,垃圾邮件发送者通过敲击数据库创建了一个次要问题,然后创建了一个次要问题,然后是数据库复制事件。虽然这些事件是未成年人的,但他们证明难以解决。在尝试解决它们时,开发人员删除了大约300GB的生产数据。尽管Gitlab部署了不少于五个备份和复制技术,但它们都没有工作。 Gitlab下跌了几个小时,团队最终从六小时的旧备份中恢复了。

对Gitlab事件的深入分析证明了他们努力备份和恢复任务关键系统的努力确实被复杂性挫败了。由于PostgreSQL二进制文件之间的版本不匹配,某些备份失败。其他人失败,因为某些服务器已启用Azure快照,但不是其他服务器。备份到S3根本不起作用。用一个Gitlab团队成员的话语,“复制过程是超级脆弱的,容易出错,依赖于少数随机壳脚本,并且被录得很糟糕。”

用库存跟踪加固备份

库存跟踪提供了组织软件基础架构的鸟瞰图。这包括所有组织资产 - 不仅仅是裸机服务器 - 包括他们正在运行的VM和容器以及它们包含的应用程序,以及它们的操作系统,版本号和配置设置。此信息甚至可能包含应用程序依赖信息。

在配置管理数据库(CMDB)内集中包含此信息并包含IT在灾难期间从备份恢复时是一个Godsend。如果您尝试从备份恢复应用程序并且它不起作用,则可能缺少您首先还原的依赖应用程序。即使备份失败或不完整,您仍然能够将数据中心恢复到全功能,更快,因为您将能够了解丢失的内容。

使用Device42,公司可以进行瞬时基础架构审核,并立即了解其应用程序依赖项。如果您需要快速增强您的灾难恢复工作,我们可以帮助您迅速提高您的姿势。如果您有兴趣, 下载我们的30天免费试用版 today!

资源://www.device42.com/blog/2020/05/why-your-disaster-recovery-plan-must-include-inventory-tracking/