充分利用DB2 9.7的重复数据删除设备支持
重复数据删除能够最大程度地减少存储需求、加速备份和恢复、降低网络流量,从而显著改善数据库环境。 但在发布 DB2 v9.7 FixPack 3 之前,如果需要为重复数据删除设备优化 DB2 备份映像,则必须合理地设置多个 BACKUP DATABASE 命令选项。否则,备份目标的重
重复数据删除能够最大程度地减少存储需求、加速备份和恢复、降低网络流量,从而显著改善环境。
但在发布 DB2 v9.7 FixPack 3 之前,如果需要为重复数据删除设备优化 DB2 备份映像,则必须合理地设置多个 BACKUP DATABASE 命令选项。否则,备份目标的重复数据删除设备很可能无法使用您生成的数据流来识别冗余的数据“块”。为了简化将 DB2 数据库备份到重复数据删除设备的过程(同时提高删除备份映像中重复数据的效率),IBM 在 DB2 v9.7 FixPack 3 中为 BACKUP DATABASE 命令引入了 DEDUP_DEVICE 选项,并在 FixPack 4 中改进了该选项的行为。在这篇专栏文章中,我将介绍重复数据删除是什么,以及重复数据删除的常见实现方法。此外,我还会介绍如何执行 DB2 备份操作,包括如何在指定了 BACKUP DATABASE 命令的 DEDUP_DEVICE 选项时执行此操作,以及如何在未指定此选项时执行该操作。最后,我会提供一些建议:如果您使用 DB2 v9.7 FixPack 4 以外的版本,应该如何为重复数据删除设备优化 DB2 备份映像。
重复数据删除是什么?它是如何实现的?
重复数据删除(有时也称为“智能压缩”或者“单实例存储”)是一种特殊的数据压缩形式,旨在消除冗余数据。与其他压缩形式类似,重复数据删除的工作方式是检查数据,识别具有等同字节模式的部分。如果发现此类模式,则会仅将数据的单独一个惟一实例写入存储;将出现的重复实例替换为“数据指针”,引用之前存储的版本。考虑到相同的字节模式可能会出现数十次、数百次乃至数千次,使用重复数据删除设备之后,需要物理存储的数据量可能会大幅减少。
例如,假设一个电子邮件系统包含某个 4 MB 附件的 100 个完全相同的实例。如果在未使用重复数据删除的情况下备份这个电子邮件系统,保存该附件的全部 100 个实例,那么需要 400 MB 的存储空间。然而,如果将相同的电子邮件系统备份到重复数据删除设备,那么实际上仅储存了附件的一个实例,后续出现的每个实例仅引用已保存的副本。这样,备份该系统所需的 400 MB 存储空间就会缩减为 4 MB!
如前所述,大多数重复数据删除设备的工作方式都是对比相对较大的数据“块”,例如整个文件或者文件中较大的部分。设备会为所检查的每个块指派一个标识符,这个标识符通常使用加密散列函数计算得出。很多实现都假设:如果标识符等同,则对应的数据也等同。其他一些实现摒弃了这种假设,而是执行逐个字节的对比,验证标识符相同的数据是否确实相同。无论如何,如果确定某个特定的数据块在删除了重复数据的命名空间内已经存在,就会使用一个指向已存储数据的链接取代该数据块。随后,在访问删除了重复数据的数据时,如果遇到链接,就会将该链接替换为它所指向的数据。当然,整个过程对于最终用户和应用程序都是透明的。
通常情况下,重复数据删除通过两种方法之一执行:“内联”或“后处理”。使用内联重复数据删除时,会在将数据写入磁盘之前执行散列计算和查找。这样,内联重复数据删除能够显著减少所需的原始磁盘容量,因为任何未经过重复数据删除处理的数据均不会写入磁盘。出于这方面的原因,内联重复数据删除往往被视为最有效、最经济的重复数据删除方法。尽管某些内联重复数据删除解决方案供应商已经能实现与后处理重复数据删除水平相当的性能,但由于内联重复数据删除需要耗费时间来执行散列计算和查找,因此会减缓某些操作的速度。
对于后处理重复数据删除,所有数据会在重复数据删除过程开始之前写入磁盘。这种方法的优势在于,无需在存储数据之前等待散列计算和查找完成。缺点在于,必须暂时将重复数据写入存储,因此需要的初始存储量更多一些。这种方法也会延长完成重复数据删除的延迟时间。
传统 DB2 备份操作的工作方式
为了理解 BACKUP DATABASE 命令的 DEDUP_DEVICE 选项如何为重复数据删除设备优化 DB2 备份映像,最好先了解一下发起备份操作时,数据通常会得到怎样的处理。在 DB2 备份操作开始时,会启动一个或多个缓冲区操作器 db2bm 线程。这些线程负责访问数据库中的数据,并将它们以流程方式传送至一个或多个备份缓冲区。另外还会启动一个或多个介质控制器 db2med 线程。这些线程负责将备份缓冲区中的数据写入目标备份设备上的文件。(所用的 db2bm 线程数量由 BACKUP DATABASE 命令的 PARALLELISM 选项控制;所用的 db2med 线程数量由 OPEN n SESSIONS 选项控制。)最终,将指派一个 DB2 代理 db2agent 线程负责指导缓冲区操作器线程与介质控制器线程之间的通信。图 1 展示了这个过程。
图1:DB2 备份流程模型。
通常情况下,会读取缓冲区操作器 db2bm 线程检索到的数据,并跨介质控制器 db2med 线程使用的所有输出流来多路复用这些数据,将数据置入输出流中的方式没有确定的模式。(图 2 展示了这种行为。)因此,在将输出流导向重复数据删除设备时,设备会尝试识别已经备份的数据块,这会造成了某些问题。
图 2:默认数据库备份行为。请注意,表空间的元数据会出现在输出流中,先于该表空间的任何数据,空区段永远不会置入输出流。