信息通信常识:数据挖掘
问:什么是数据挖掘?
答:数据挖掘(Data Mining,DM)又称数据库中的知识发现(Knowledge Discover in Database,KDD),是目前人工智能和数据库领域研究的热点问题。所谓数据挖掘,是指从数据库的大量数据中揭示出隐含的、先前未知的、并有潜在价值的信息的过程。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业数据,做出归纳性推理,从中挖掘出潜在模式,帮助决策者调整市场策略,减少风险,做出正确决策。
问:什么是数据仓库?
答:数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。数据仓库是一个过程而不是一个项目;是一个环境而不是一件产品。它提供用户用于决策支持的当前和历史数据,这些数据在传统的操作型数据库中很难或不能得到。数据仓库技术是为了有效地把操作型数据集成到统一的环境中以提供决策型数据访问的各种技术和模块的总称,其所做的一切都是为了让用户更快、更方便地查询所需要的信息,获取决策支持。
问:什么是联机分析处理?
答:随着数据库技术的发展和应用,数据库存储的数据量从20世纪80年代的兆字节(M)及千兆字节(G)过渡到现在的兆兆字节(T),同时,用户的查询需求也越来越复杂,涉及的已不仅是查询或操纵一张关系表中的一条或几条记录,而是要对多张表中千万条记录数据进行分析和综合,关系数据库系统已不能全部满足这一要求。操作型应用和分析型应用,在性能上难以两全,人们常常在关系数据库中放宽了对冗余的限制,引入了统计及综合数据,但这些统计综合数据的应用逻辑是分散而杂乱的、非系统化的,因此分析功能有限、不灵活、维护困难。在国外,不少软件厂商采取了发展前端产品来弥补关系数据库管理系统支持的不足,他们通过专门的数据综合引擎,辅以更加直观的数据访问界面,力图统一分散的公共应用逻辑,在短时间内响应非数据处理专业人员复杂的查询要求。1993年,E.F.Codd(关系数据库之父)将这类技术定义为“联机分析处理”。