为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

重复数据删除

2018-04-29 10页 doc 31KB 24阅读

用户头像

is_682974

暂无简介

举报
重复数据删除重复数据删除 白 皮 书重复数据删除技术背景知识介绍 技术白皮书声明本白皮书可能包含受版权保护的专有信息。所含信息如有更改恕不另行通知。本白皮书不代表 Quantum 方面做出任何承诺。尽管可确定信息来源非常可靠但对于本白皮书中可能包含的不准确信息Quantum 不承担任何责任。Quantum 不保证本白皮书中的信息始终是最新的而且保留在不另行通知的情况下更改或不再发布本白皮书和/或产品的权利。未经 Quantum 明确书面许可除购买者之外的其他任何人都不得出于个人使用的目的以影印、录制或信息存储和检索系统等电子或机械方式或...
重复数据删除
重复数据删除 白 皮 书重复数据删除技术背景知识介绍 技术白皮书声明本白皮书可能包含受版权保护的专有信息。所含信息如有更改恕不另行通知。本白皮书不代表 Quantum 方面做出任何承诺。尽管可确定信息来源非常可靠但对于本白皮书中可能包含的不准确信息Quantum 不承担任何责任。Quantum 不保证本白皮书中的信息始终是最新的而且保留在不另行通知的情况下更改或不再发布本白皮书和/或产品的权利。未经 Quantum 明确书面许可除购买者之外的其他任何人都不得出于个人使用的目的以影印、录制或信息存储和检索系统等电子或机械方式或以任何形式复制或传播本文档的任何部分。 白 皮 书2重复数据删除技术背景知识介绍目录重复数据删除 — 来自共用存储池的多个数据集 ..............................................3固定长度数据块与可变长度数据段对比 ..........................................................4重复数据删除存储池数据变化的影响 ..............................................................5共享共用的重复删除数据块池 .........................................................................7重复数据删除架 构 ...........................................................................................7“线内”方法与“后期处理”方法比较 ..........................................................8将重复数据删除技术用于数据复制 ..................................................................8复制方法背景知 识 ...........................................................................................9应用于复制的重复数据删除技术 .....................................................................9应用于复制的加密技术 ....................................................................................11Quantum DXi 系列基于磁盘的备份解决相关信息 ...................................11特征和优势简 介 ..............................................................................................12表 A-1 至表 A-6 ..............................................................................................12表 A-7 至表 A-10 ............................................................................................13 白 皮 书3重复数据删除技术背景知识介绍Quantum 公司在本白皮书中使用的术语“重复数据删除”是指特定的数据简化方法该方法基于这样一种原理构建而成为特定数据集中长度可变的冗余数据块数据段系统替换引用指针。重复数据删除的目的是增大磁盘阵列中可存储的信息量并增加可通过网络传输的有效数据量。如果基于长度可变的数据段进行重复数据删除则可以提供比单实例存储技术更大的粒度因而能够识别并且无需存储所有相同文件的重复实例。事实上针对可变长度数据块的重复数据删除技术可以与基于文件的数据简化系统结合使用以提高效率。此外它还与用于压缩写入磁带或磁盘的数据的现有压缩系统兼容并且能够在解决方案级别实现与压缩功能的整合。针对长度可变数据块的重复数据删除技术的关键要点最先在公司 1999 年向 Rocksoft Ltd现在成为了 Quantum 公司的一部分发布的专利中进行了说明。注意在数据简煊蚴跤锉曜蓟栽诓欢辖小,跤铩重复数据删除”也相应地可用于未使用可变长度数据段的数据简化方法。适用于小型企业办公/家庭办公环境的 Quantum GoVault?? 磁盘备份系统采用了不同的重复数据删除技术该技术可标识不同版本备份文件的位级变化。有些厂商还可能使用此术语指代主要基于文件的方法或可能使用固定长度数据段的方法。在介绍重复数据删除技术之前多了解一些有关如何在基于磁盘的传统存储系统中表示文件和数据集的存储知识对读者是有帮助的。单一文件或单一数据集中的数据几乎不会被存储到单一磁盘系统上的连续或相邻数据块中如果采用 RAID 存储数据通常会被写入跨多个磁盘系统分布的多个数据块。在操作系统的文件系统中文件或数据集可通过一组元数据包括指向构成该数据集的数据块 在磁盘中物理驻留位置的引用指针来表示。在 Windows 系统中“文件分配表”将映射这些链接而在 UNIX/Linux 系统中索引节点将保留映射信息。差异性快照和重复数据删除等基于数据块的数据存储实用程序均采用了这样的技术通过不同元数据集中的多个指针同时引用单一数据段或数据块。重复数据删除技术还充分利用了通过多个指针引用共用数据块的理念。重复数据删除 — 来自共用存储池的多个数据集总体而言重复数据删除技术的具体使用方式是将数据集在备份环境下通常是备份数据流划分为数据块并将这些数据块写入磁盘目标区域。为了识别传输数据流中的数据块重复数据删除引擎会为每个数据段创建一个数字签名类似指纹并为给定存储库的签名创建一个索引。该索引可从所存储数据段中重建并提供了引用列表以确定数据块是否已处于存储库中。在复制操作过程中该索引可用来确定哪些数据段要被存储哪些数据段要被复制。当重复数据删除软件发现某一数据块以前已被处理过则会插入指向该数据集元数据中原始数据块的指针而不是再次存储该数据块。如果同一数据块出现多次将生成多个指向它的指针。使用可变长度重复数据删除技术可以存储多组离散元数据映像而每组映像都代表一个不同的数据集但所有映像都会引用共用存储池中包含的数据块。 白 皮 书4重复数据删除技术背景知识介绍 图 1. 重复数据删除方法首次创建重复数据删除存储池 A 时会有一组带有指向存储数据块的指针的元数据。随着新数据集的添加 B将为每个数据集添加单独的元数据映像 MD2以及新的数据块。此时MD1 将继续指向原始数据块而 MD2 会同时指向某些原始数据块以及新数据块。在每个备份事件中系统都会存储该数据集的完整元数据映像但只有新的数据段才会被添加到数据块池。图 1. 重复数据删除方法当存在重复的数据段时重复数据删除技术的利用率最高因此它是目前存储备份数据时使用最频繁的技术。借助此方法不仅可以让备份数据集在磁盘上保留更长的时间而且可用来从多个备份事件中的任意事件恢复文件或整个数据集。由于重复数据技术的操作对象通常是备份流程所创建的数据流因此该技术能够用来识别传输数据集中不同位置重复出现的数据块。由于大小固定的数据块不能很好地满足这些要求因此Quantum 重复数据删除方法是基于可变长度数据段系统构建的。固定长度数据块与可变长度数据段对比尽管使用固定长度数据块可以在传输数据中查找重复的数据块但此方法成效非常有限。原因在于备份环境下数据简化的“最佳机会”是查找绝大部分但非全部由相同数据段构成的两个传输数据集中的重复数据块。如果我们将备份数据流分为长度固定的多个数据块那么只要数据集某一部分的大小发生变化下次传输数据集时所有“下游”数据块都将随之发生变化。因此差异很小的两个数据集很可能拥有几乎完全不同的数据块参见图 3。Quantum 重复数据删除技术不是将数据流分割为长度固定的多个数据块而是通过采用可在不同位置和条件下找到相同数据块边界的方法将数据流划分成长度可变的数据段。由于这种数据块创建方法可以使边界在数据流内“浮动”因此数据集某一部分的变化对数据集其他位置内的边界的影响很小甚至没有。通过这种方法可以在单一文件、不同的文件、由不同应用程序创建的文件以及不同时间创建的文件内的不同位置找到重复的数据段。 白 皮 书5重复数据删除技术背景知识介绍 图 2. 将数据序列划分为固定长度或可变长度数据块将数据序列划分为固定长度数据块上一行显示了原始数据块划分 — 下一行显示了对数据块 A 进行变化插入后的数据块。尽管上下两行中形成的信息序列相同但所有数据块的内容都发生了变化而且未检测到任何重复数据。如果我们存储了两个序 列就会拥有 8 个完全不同的数据块。 将数据序列划分为可变长度数据段查看数据序列时重复数据删除技术会利用可变长度数据块或数据段。在这种情况下数据块 A 会在添加新的数据时发生变化现在为 E但其他数据块没有受到任何影响。数据块 B、C 和 D 都可以确认为与第一行中的相应数据块完全相同。如果我们存储了两个序列将拥有 5 个完全不同的数据块。重复数据删除存储池数据变化的影响在首次通过重复数据删除系统对数据集进行处理时数据集内重复数据段的数量会因数据性质包括文件类型和用来创建文件使用的应用程序的不同而存在很大的差异。对存储效率的影响可能微不足道也可能高达 50 甚至更高。但是将多个相似数据集例如来自特定磁盘组的一系列备份映像写入共用重复数据删除池时这种优势往往非常显著因为每个新的写入操作只是依据引入的新数据段的数量来使整个数据池增大。在代表传统业务运营的数据集中两个备份事件之间一般只有 1 或 2 的数据段级差异尽管高变化率同样比较常见。在任何给定备份事件中引入的新数据段的数量取决于数据类型、两次备份事件之间的数据变化率以及从一个备份作业到下一个备份作业的数据增长量。在多个备份事件中存储的数据段的总数同样在很大程度上取决于用户制定的保留策略如备份作业的数量和数据在磁盘中保留的时间。在传统磁盘存储系统中存储所有备份数据集所需空间大小与重复数据删除系统所使用的容量之间的差异率被称为重复数据删除比率。图 3 显示的公式可用来推算重复数据删除比率而图 4 显示了四个不同备份数据集拥有不同的总压缩率和不同的变化率的重复数据删除比率。图 5 还显示了达到 20:1 的重复数据删除比率所需的备份事件数该比率被业界广泛用作基于可变长度数据段的数据简化系统的平均工作值。在各种情况下简单起见我们假设每一备份事件都会对所有主要数据进行完全备份。 白 皮 书6重复数据删除技术背景知识介绍在每日完全备份模式或每周完全/每日递增备份模式下重复数据删除存储池的大小应相同因为在这两种模式下每次备份只添加新的数据段。但由于在每日完全备份模式下非重复数据删除磁盘存储系统所需的空间要大得多也就是说即使存储的数据量基本保持相同但使用完全备份方法获得的存储优势更大因此重复数据删除比率将有所不同。 图 3. 重复数据删除比率计算公式通过示例可以清楚知道重复数据删除在用于备份数据集备份事件之间的变化率很低或一般时能够发挥最大功效即使对于变化率很高的数据集优势仍然显著。 图 4. 重复删除数据比率变动的影响 1 5:1 0 20:1 4 2 2:1 1 20:1 11 3 2:1 5 20:1 19 4 2:1 10 20:1 1825 白 皮 书7重复数据删除技术背景知识介绍为了帮助最终用户选择适用的重复数据删除设备Quantum 开发了一种根据要保护的数据量、备份方法、数据类型、总压缩率、数据增长率和变化率以及数据保留时间长短对备份数据集增长进行模拟计算的估算工具 Sizing Calculator。该估算工具可帮助用户了解重复数据删除技术在哪些方面拥有最大优势传统磁盘或磁带备份系统在哪些方面可能更适用。注意请与您的 Quantum 代表联系以参与重复数据删除估算工具实践。共享共用的重复删除数据块池如果允许多个源和多个文件系统将数据写入共用重复数据删除存储池重复数据删除系统将发挥最大作用。Quantum DXi 系列设备就是一个很好的例证。每款 DXi 系列设备都可以通过多个文件系统包括 NAS 组CIFS 或 NFS和虚拟磁带库使用 iSCSI 或光纤通道连接的任意组合使用共用重复数据删除存储池又称为“数据块池”。由于所有的文件系统都会使用共用存储池因此写入设备的所有数据集中的冗余数据段都会被删除。实际上这意味着 DXi 系列设备将识别 并删除来自不同来源和通过不同接口的重复数据块例如通过 NAS 在打印和文件服务器上备份的相同数据段和通过 VTL 在邮件服务器上备份的相同数据段。 图 5. 共享重复数据删除存储池写入 DXi 设备的所有数据集将共享共用的重复数据删除存储池而不管数据收录期间使用了什么样的文件系统、接口或应用程序。一台 DXi 系列设备可以同时支持多个文件系统和接口。重复数据删除架构重复数据删除操作不可避免地会涉及一些管理费用而且通常会涉及多个解决方案级的处理包括压缩。也就是说选择执行重复数据删除的位置和方式会影响备份流程的速度。重复数据删除处理可应用于数据流中的数据“线内”处理或磁盘中的数据后期处理。此外还可应用于备份操作的目标端或源例如最初处理备份数据的应用服务器端。 白 皮 书8重复数据删除技术背景知识介绍胙顾趸蚣用芰鞒滔嗨平重复数据删除时多数情况下都能够从为特定流程而优化的特定用途系统获得最佳性能。另外使用基于通用操作平台运行的软件代理也是一种进行重复数据删除的有效方法但该方法有以下一些不足之处所有操作都基于软件进行所有受保护的服务器都必须运行代理执行处理的应用服务器并非专门用于特定的重复数据删除任务而且其他操作会共享服务器资源。因此目前软件代理方法的功能通常仅限于非常小的数据集其中系统性能并非优先考虑的问题以及服务器较少的环境因为持续服务器管理的费用相对较高。重复数据删除方法不仅整体性能最佳而且最易实施通常是在备份数据传输的目标端对专门的硬件系统进行处理的方法之一。此外它还可以使整体备份保持最高效率因为备份流程本身是独立于重复数据删除操作的并且可以与任何备份软件包一起高效运行。“线内”方法与“后期处理”方法比较采用“后期处理”方法的重复数据删除系统通过将所有备份数据首先存储于磁盘中的目标位置然后通过后台处理删除重复数据的方式使简化操作不必在初始数据流中进行。采用此方法能够获得最佳初始性能但由于它需要足够的磁盘空间才能将完整的备份集写入未进行重复数据删除处理的磁盘组而且涉及了一个两阶段数据流程因此后期处理最适合拥有更大总磁盘空间和更大规模处理资源的大型系统。而且即使在后期处理系统中创建一个高速重复数据删除引擎依然对整个系统功能至关重要。因为大多数实际操作都对重复数据删除处理有时间限制即它必须在有新一轮备份数据需接收和处理之前完成。因此可用重复数据删除池的大小与重复数据删除比率以及磁盘系统数据写入速度密切相关。“线内”重复数据删除可在系统收录备份数据时对备份数据流进行处理。“线内”方法虽然最大限度降低了磁盘需求但它涉及数据写入操作中重复数据删除的管理费用因此“线内”系统需要精心设计以保持较高的数据流。例如Quantum DXi3500 和 DXi5500 设备经过专门优化后可以进行高速线内重复数据删除。这些产品采用了数据缓冲、高速文件系统技术及“线内”硬件压缩等 Quantum 技术可将速度提到 800 GB/小时220 MB/秒该速度相当于上一代典型线内重复数据删除设备速度的两倍。将重复数据删除技术用于数据复制迄今为止我们主要介绍了重复数据删除技术在存储方面的优势该技术的优势远不止于此它还可以显著降低通过网络复制数据所需的带宽从而为远程复制提供类似优势。因此可为磁盘备份提供切实可行的基于 WAN 的灾难恢复 DR 保护并降低对移动介质的需求。每个 IT 机构所需的最基本的灾难恢复 DR 保护确保了备份数据的安全使其免遭现场丢失或损坏。设备和应用程序都可以更换但数字资产通常是不可替代的。不管特定存储或备份系统的弹性或冗余有多强或者拥有多少层冗余当所有数据副本都位于单一位置和单一硬件系统时它们非常容易受到针对特 定位置的损坏包括自然灾害、火灾、盗窃以及恶意或意外的设备损坏等。 白 皮 书9重复数据删除技术背景知识介绍重复数据删除技术为 IT 部门提供了一种全新的 DR 选择使通过 WAN 进行站点间复制成为另一种切实可行的方法不仅使 DR 更易实施而且可以降低运营费用减少移动介质的使用。复制方法背景知识有以下两种得到广泛认可的复制模式同步复制和异步复制。同步复制通常又称为映射可通过在每个 I/O 周期在两个存储系统之间传输数据块来始终保持两个主活动数据集处于同一状态。同步复制通常可为复制数据提供非常快的故障转移如果主数据集受到损坏功能并且往往会涉及两个独立的存储系统而且这两个系统通常位于不同位置。因为只有在本地和远程写入完成后同步复制系统才会向主机发送 I/O 完成状态信号因此同步复制系统统常需要高速链接这会降低性能而且复杂难管。因此该技术通常适用于必须始终保持可用性的事务导向型应用中所使用的重要数据。异步复制同样可应用于主数据映射。在这种操作模式下第二个数据集将动态地作为主数据集的副本加以保留但第二个数据集可以滞后主数据集一定时间。只允许延迟一个或两个 I/O 周期以确保映射始终为最新内容但也可能更长。尽管映射的映像滞后主数据太多但异步映射占用带宽较少而且往往可以最大限度降低对主数据进行操作的负面影响因此主系统可能需要定期暂停写入以便及时进行映射。另外异步复制还可用于备份映像等非动态、时间点映像以提供现场数据丢失和灾难恢复保护。该技术比映像技术更加易于实施不仅可以防止出现其他故障减少移动介质的使用而且对主应用程序影响更小。备份数据是一种可用于 DR 的很好的复制方法它不仅是主数据的时间点副本而且可以通过备份流程与主应用程序隔离开来。阻碍备份数据复制广泛部署一大因素在于通常情况下备份数据量较大时通过广域网复制变得非常困难。应用于复制的重复数据删除技术重复数据删除技术可减少通过网络创建和维护重复数据集所导致的带宽耗费和相应成本因而使备份数据复制更加切实可行。支持重复数据删除技术的复制与支持重复数据删除技术的数据存储基本相似。一旦为一个备份数据存储创建了两个映像要想保持映像或目标内容与源内容相同就必须定期复制和迁移备份事件所添加的新数据段、元数据映像或命名空间。接下来将介绍 Quantum 在其 DXi 系列磁盘备份和远程复制解决方案中采用的异步复制方法。其他厂商和不同数据简化系统所使用的处理方法可能存在重大差异。DXi 系列设备可以通过复制在借助 WAN 连接进行数据传输的不同设备上创建并维护备份数据集的备份映像。使用 DXi 系列设备可以对整个源设备或在源设备中创建的单个 NAS 共享或虚拟磁带库进行复制。复制流程始于将源设备某一共享或某一部分中的所有数据段复制到另一目标设备对等的相应共享或部分。尽管这种初始数据传输可通过网络进行但由于数据量过大对源设备和目标设备进行临时共置以使数据集实现同步或者使用磁带传输初始数据集都是切实可行的。 白 皮 书10重复数据删除技术背景知识介绍在源设备和目标设备实现同步后对于写入源设备的每个新备份事件复制流程只发送新的数据段。如果新的备份事件变化率达到 1创建映像的最大带宽需求将是复制写入源设备的整个备份数据集所需带宽的百分之一。由于 Quantum 使用两阶段、预传输流程作为其复制软件的一部分因此带宽需求可能进一步降低。在本系统中将数据发送到目标设备之前DXi 系列复制软件会将可用于复制的数据块的列表发送至目标设备该列表通常仅几 MB 大小比实际数据要小得多。目标设备可通过已存储的数据段索引来核对该数据段列表并返回包含本地不可用而需要从源 DXi 系列设备 发送的要素的列表。随后源设备将通过网络发送新数据段的副本。一旦备份作业开始被写入源设备数据段便会在后台被发送当新的备份映像元数据被传送时复制即告完成。此时备份映像可用于在目标设备上进行恢复。 图 6. 复制 — 在传输前验证数据段使用 DXi 系列复制软件可以让多个源设备指向同一个目标设备而且复制通常都是采用分区到分区的例如每个源设备都由将数据复制到源设备上类似映像的特定设备.
/
本文档为【重复数据删除】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索