数据库索引统计信息
欢迎进入Oracle社区论坛,与200万技术人员互动交流 >>进入 SQL Server 2005 允许创建有关列中值的分布情况的统计信息。查询优化器使用这些统计信息并通过估计使用索引评估查询的开销来确定最佳查询计划。 创建统计信息后,数据库引擎对列值(根据这些值创建
欢迎进入Oracle社区论坛,与200万技术人员互动交流 >>进入
SQL Server 2005 允许创建有关列中值的分布情况的统计信息。查询优化器使用这些统计信息并通过估计使用索引评估查询的开销来确定最佳查询计划。
创建统计信息后,数据库引擎对列值(根据这些值创建统计信息)进行排序,并根据这些值(最多 200 个,按间隔分隔开)创建一个"直方图".直方图指定有多少行精确匹配每个间隔值,有多少行在间隔范围内,以及间隔中值的密度大小或重复值的发生率。
SQL Server 2005 引入了对 char、varchar、varchar(max)、nchar、nvarchar、nvarchar(max)、text 和 ntext 列创建的统计信息收集的其他信息。这些信息称为"字符串摘要",可以帮助查询优化器估计字符串模式中查询谓词的选择性。查询中有 LIKE 条件时,使用字符串摘要可以更准确地估计结果集大小,并不断优化查询计划。这些条件包括诸如 WHERE ProductName LIKE '%Bike' 和 WHERE Name LIKE '[CS]heryl' 之类的条件。
注意:
如果列样本摘要的大小超过了数据库引擎可以维护的范围,则不对字符串摘要信息进行维护。例如,如果统计信息是使用 WITH FULLSCAN 对具有 85,000 行的表中唯一的varchar(80) 列(每个字符串中有 80 个字符,字符串之间几乎没有相似性)创建的,则不对这些统计信息的字符串摘要进行维护。若要确定是否为特定的统计信息对象存储了字符串摘要,请使用 DBCC SHOW_STATISTICS (Transact-SQL)。
统计信息自动功能工作方式
创建索引时,查询优化器自动存储有关索引列的统计信息。另外,当 AUTO_CREATE_STATISTICS 数据库选项设置为 ON(默认值)时,数据库引擎自动为没有用于谓词的索引的列创建统计信息。
随着列中数据发生变化,索引和列的统计信息可能会过时,从而导致查询优化器选择的查询处理方法不是最佳的。例如,如果创建一个包含一个索引列和 1,000 行数据的表,每一行在索引列中的值都是唯一的,则查询优化器将把该索引列视为收集查询数据的好方法。如果更新列中的数据后存在许多重复值,则该列不再是用于查询的理想候选列。但是,查询优化器仍然根据索引的过时分布统计信息(基于更新前的数据),将其视为好的候选列。
注意:
在使用 SQL Server Management Studio 以图形方式显示查询的执行计划时,过时或缺少的统计信息将予以警告显示(表名称以红色文本显示)。有关详细信息,请参阅显示图形执行计划 (SQL Server Management Studio)。另外,使用 SQL Server Profiler 监视 Missing Column Statistics 事件类可以指明何时缺少统计信息。有关详细信息,请参阅 Errors and Warnings 事件类别(数据库引擎)。
当 AUTO_UPDATE_STATISTICS 数据库选项设置为 ON(默认值)时,查询优化器会在表中的数据发生变化时自动定期更新这些统计信息。每当查询执行计划中使用的统计信息没有通过针对当前统计信息的测试时就会启动统计信息更新。采样是在各个数据页上随机进行的,取自表或统计信息所需列的最小非聚集索引。从磁盘读取一个数据页后,该数据页上的所有行都被用来更新统计信息。常规情况是:在大约有 20% 的数据行发生变化时更新统计信息。但是,查询优化器始终确保采样的行数尽量少。对于小于 8 MB 的表,则始终进行完整扫描来收集统计信息。
采样数据(而不是分析所有数据)可以将统计信息自动更新的开销降至最低。在某些情况下,统计采样无法获得表中数据的精确特征。可以使用 UPDATE STATISTICS 语句的 SAMPLE 子句和 FULLSCAN 子句,控制按逐个表的方式手动更新统计信息时采样的数据量。FULLSCAN 子句指定扫描表中的所有数据来收集统计信息,而 SAMPLE 子句用来指定采样的行数百分比或采样的行数。
统计信息异步更新
启动更新过期统计信息的查询必须等待那些统计信息更新,之后才能编译并返回结果集。这会导致不可预知的查询响应时间,并可能导致应用程序因过长超时而失败。
在 SQL Server 2005 中,数据库选项 AUTO_UPDATE_STATISTICS_ASYNC 提供了统计信息异步更新功能。当此选项设置为 ON 时,查询不等待统计信息更新,即可进行编译。而过期的统计信息置于队列中,由后台进程中的工作线程来更新。查询和任何其他并发查询都通过使用现有的过期统计信息立即编译。由于不存在等待更新后的统计信息的延迟,因此查询响应时间可预测;但是过期的统计信息可能导致查询优化器选择低效的查询计划。在更新后的统计信息就绪后启动的查询将使用那些统计信息。这可能会导致重新编译缓存的计划(取决于较旧的统计信息版本)。如果在同一个显式用户事务中出现某些数据定义语言 (DDL) 语句(例如,CREATE、ALTER 和 DROP 语句),则无法更新异步统计信息。
AUTO_UPDATE_STATISTICS_ASYNC 选项设置于数据库级别,并确定用于数据库中所有统计信息的更新方法。它只适用于统计信息更新,而无法用于以异步方式创建统计信息。只有将 AUTO_UPDATE_STATISTICS 设置为 ON 时,将此选项设置为 ON 才有效。默认情况下,AUTO_UPDATE_STATISTICS_ASYNC 选项设置为 OFF.有关设置此选项的详细信息,请参阅 ALTER DATABASE (Transact-SQL)。
在将数据库设置为 SINGLE_USER 之前,应验证 AUTO_UPDATE_STATISTICS_ASYNC 选项设置为 OFF.设置为 ON 时,用于更新统计信息的后台线程将与数据库建立连接,您将无法以单用户模式访问数据库。如果此选项设置为 ON,请执行以下任务:
将 AUTO_UPDATE_STATISTICS_ASYNC 设置为 OFF.
通过查询 sys.dm_exec_background_job_queue 动态管理视图来检查活动的异步统计信息作业。
如果存在活动的作业,可以允许作业完成或通过使用 KILL STATS JOB 来手动终止这些作业。
最佳实践注意事项
如果您的应用程序出现以下情况,应考虑将 AUTO_UPDATE_STATISTICS_ASYNC 选项设置为 ON.
遇到由一个或多个等待更新后的统计信息的查询导致的客户端请求超时。
请求可预测查询响应时间,即使存在偶尔运行执行因过期统计信息导致的低效查询计划的查询的情况。
查看异步更新统计信息属性
若要查看 AUTO_UPDATE_STATISTICS_ASYNC 选项的 ON 或 OFF 状态,请从 sys.databases 目录视图中选择 is_auto_update_stats_async_on 列。有关详细信息,请参阅 sys.databases (Transact-SQL)。
若要查看统计信息是否已经置于队列中等待更新或正在更新,请使用 sys.dm_exec_background_job_queue 动态管理视图。统计信息中,列 object_id1 为表或视图 ID,列 object_id2 为统计信息 ID.sys.dm_exec_background_job_queue_stats 动态管理视图用于查看所有后台作业队列的聚合统计信息,例如等待执行的作业请求数、失败的请求数以及以前提交的请求的平均执行时间。
禁用统计信息自动功能
可以按照以下方式针对特定列或索引禁用统计信息自动生成功能。
使用 sp_autostats 系统存储过程。
使用 CREATE INDEX 语句的 STATISTICS_NORECOMPUTE 子句。
使用 UPDATE STATISTICS 语句的 NORECOMPUTE 子句。
使用 CREATE STATISTICS 语句的 NORECOMPUTE 子句。
使用 ALTER DATABASE 语句将 AUTO_CREATE_STATISTICS 和 AUTO_UPDATE_STATISTICS 数据库选项设置为 OFF.有关详细信息,请参阅设置数据库选项。
如果指示数据库引擎不要自动维护统计信息,则必须手动更新统计信息。
注意:
除非指定了 NORECOMPUTE 子句,否则 UPDATE STATISTICS 语句将重新启用统计信息自动更新功能。