使用并发I/O改进DB2数据库性能
并发 I/O 是 UNIX 和 Linux 平台中引入的一项功能,主要用在关系数据库系统中。本文将介绍 UNIX/Linux 文件系统中可使用的 I/O 机制之间的区别,以及如何在 IBM DB2 环境中利用并发 I/O 技术来改进数据库性能。
并发 I/O 和缓存 I/O 是两个与文件系统相关联的功能。出于此原因,大部分 DB2 DBA 认为这两种技术的使用取决于存储和系统管理员的见识。然而,在 DB2 环境中利用此技术是 DBA 的职责。事实上,IBM 的 DB2 专家推荐在级别实现此技术,因为这使 DB2 Database Manager 能够控制,应该使用 O_CIO 标志打开哪些文件和不应该打开哪些文件。
本文将介绍并发和缓存 I/O 的概念,重点介绍二者之间的重要区别。更重要的是,它将介绍如何在 DB2 数据库环境中利用并发 I/O 技术改善 CPU 和内存利用率。
本文将介绍的主要主题如下:
- 缓存 I/O 以及它对 DB2 的影响:缓存 I/O 在应用程序向操作系统发出请求时如何工作,以及这对 DB2 等关系型 DBMS 有何影响。
- 并发 I/O (CIO) 以及它与 DB2 的关系:并发 I/O 的工作原理、直接 I/O 与并发 I/O 之间的区别、CIO 和原始设备之间的性能类似性,以及这些性能对 DB2 有何益处。
- 如何实现 CIO:与 DB2 相关的实现方面、该实现的简单性,以及使用它的适合时机。
- 使用 CIO(限制与局限):无法或不应使用 CIO 的场景。
- 各种能从 CIO 获益的应用程序,以及真实世界中的使用示例。
什么是缓存 I/O?
当应用程序发出一个访问磁盘中的数据的请求时,操作系统可通过两种方式处理该请求:一种是直接从磁盘检索该数据,另一种是利用一个缓存区域,以便保留经常访问的数据以供快速访问。对每个请求执行物理 I/O 会影响性能,而在内存中拥有一个缓存经常访问的数据的缓冲区可改进数据检索过程。
文件缓冲区缓存的用途是通过将经常访问的数据放在主要内存中,最小化物理磁盘 I/O 的频率。结果是,在缓存命中比率很高时,文件缓冲区缓存的使用可非常有效地减少磁盘 I/O。这种数据检索方法常常称为缓存 I/O。当应用程序向操作系统发出一个读取请求时,操作系统首先在文件缓冲区缓存中查找需要的数据。如果在这里找到该数据,就会从缓存获取并写入应用程序缓冲区,无需进入磁盘。然而,如果请求的数据未在文件系统缓存中,操作系统必须从磁盘获取数据,并将它存储在文件系统缓存中,之后再将它传输到应用程序缓冲区。
图 1 显示了将 I/O 缓存用于数据读取操作的步骤。
- 应用程序发出一个读取请求。
- 操作系统在文件缓冲区中查找请求的数据。
- 请求的数据未在文件缓冲区缓存中。
- 操作系统从磁盘读取数据。
- 读取的数据缓存在文件缓冲区缓存中。
- 读取的数据从文件缓冲区缓存复制到应用程序缓存。
图 1. 如何将 I/O 缓存用于数据读取操作
缓存 I/O 的另一个优势是,操作系统可利用异步文件写入。换句话说,应用程序不需要等待一个写入操作完成,即可继续执行。与读取一样,缓存 I/O 尝试将要写入的数据缓存在文件系统缓冲区中,以改进未来的数据读取和最大程度地减少向磁盘写入的操作。因此,对于读取和写入请求,缓存 I/O 支持先读取,后写入,这在缓存命中率很高时有助于改善性能。
图 2 显示了将 I/O 缓存用于数据写入操作的以下步骤。
- 应用程序发出一个写入请求。
- 操作系统将数据从应用程序缓冲区复制到文件缓冲区缓存。
- 应用程序继续执行,无需等待磁盘写入。
- 同步守护进程发起对脏文件缓冲区缓存页面的定期刷新。
- 将脏页面写入磁盘。
图 2. I/O 缓存如何用于数据写入操作
尽管数据缓存很适合大部分应用程序,但它是冗余的,对大部分 DB2 数据库部署常常没有必要。这是因为 DB2 拥有自己的缓存区域(表现为一个或多个缓冲池的形式),并且对于它的大部分操作,DB2 使用此缓存区域来存储被访问的数据。所以除了 DB2 缓冲池,文件系统缓存的使用实际增加了 CPU 和内存开销。系统内存的很大一部分常常被用于文件缓冲区缓存,将数据复制到文件系统缓存和从文件系统缓存复制到缓冲池会消耗更多的 CPU 资源。
对于具有缓存 I/O 的写入请求,操作系统会使用所谓的 Inode 锁定机制来执行写入序列化,以始终保持数据的完整性。结果是,当将缓存 I/O 用于 DB2 时,会引入另一种形式的开销,因为 DB2 依靠它自己的锁定机制来维护数据一致性和完整性。
推荐阅读