《数据挖掘:概念与技术》前言
前言
我们产生和收集数据的能力正在迅速提高。起作用的因素包括商务、科学技术和*部门在内的事务处理的计算机化;数码相机、出版工具和用于大部分商用产品的条码的广泛使用;由文本和图像扫描平台到卫星遥感系统的数据收集工具的进步。此外,作为全球信息系统的万维网的流行,已经将我们淹没在数据和信息的汪洋大海中。存储数据或瞬态数据的爆炸性增长业已激发对新技术和自动工具的需求,这些技术和工具能够以智能方式将海量数据转换成有用的信息和知识。
本书考察数据挖掘的概念和技术。数据挖掘是数据和信息系统及其应用的一个有希望的、欣欣向荣的学科前沿。数据挖掘通常又称为数据中的知识发现(KDD),是自动或方便地提取代表知识的模式;这些模式隐藏或记录在大型数据库、数据仓库、Web、其他大量信息库或数据流中。
数据挖掘是一个多学科领域,从多个学科汲取营养。这些学科包括数据库技术、机器学习、统计学、模式识别、信息检索、神经网络、基于知识的系统、人工智能、高性能计算和数据可视化。我们提供发现隐藏在大型数据集中的模式的技术,关注涉及可行性、实用性、有效性和可伸缩性的问题。这样,本书不打算作为数据库系统、机器学习、统计学或其他类似领域的导论,尽管我们确实提供了这些领域的必要背景材料,以便读者理解它们各自在数据挖掘中的作用。本书是对数据挖掘的全面介绍,同时关注有效性和可伸缩性问题。对于计算科学的学生、应用开发者、行业专业人员以及涉及以上列举的学科的研究者,本书应当是有用的。
数据挖掘出现于20世纪80年代后期,90年代有了突飞猛进的发展,并可望在新千年继续繁荣。本书提供该领域的全面情况,介绍有趣的数据挖掘技术和系统,并讨论数据挖掘的应用和研究方向。写这本书的重要动机是需要建立一个研究数据挖掘的有组织的框架—由于这个快速发展领域的多学科特点,这是一项具有挑战性的任务。我们希望本书有助于具有不同背景和经验的人们交流关于数据挖掘的见解,为进一步促进这个令人激动的、不断发展的领域的成长做出贡献。
本书的组织
自本书第1版出版以来,数据挖掘领域已经取得重大进展。开发出了许多新的数据挖掘方法、系统和应用。这个新版对本书第1版做了重大修订,加强和重新组织了全书的技术内容。此外,新添了几章,描述复杂数据类型挖掘方面的进展,其中包括流数据、序列数据、图结构数据、社会网络数据和多重关系数据。
各章的简要内容如下,重点介绍新的内容。
第1章提供关于数据挖掘的多学科领域的导论。该章讨论导致需要数据挖掘的数据库技术的发展道路和数据挖掘应用的重要性。该章考察挖掘的数据类型,包括关系、事务和数据仓库数据,以及复杂数据类型,如像数据流、时间序列、序列、图形、社会网络和多重关系数据,时空数据,多媒体数据,文本数据以及Web数据。该章根据所挖掘的知识类型,对数据挖掘任务进行一般分类。与第1版相比,新增加了两节:1.7节介绍数据挖掘原语,这些原语能够使用户与数据挖掘系统相互通信,以便指导挖掘过程,而1.8节讨论数据挖掘系统与数据库或数据仓库系统的集成问题。这两节是第1版第4章的浓缩。最后讨论该领域的主要挑战。
第2章介绍挖掘之前的数据预处理技术。这对应于第1版的第3章。由于数据预处理先于数据仓库的构建,我们在该章讨论预处理,然后在下一章介绍数据仓库。该章介绍描述性数据汇总的各种统计方法,包括数据的中心趋势和散布的度量。加强了数据清理方法的介绍,讨论了数据集成和变换、数据归约的方法,包括动态和静态离散化概念分层的使用。该章还介绍了概念分层的自动产生。
第3、4章是数据仓库、OLAP(联机分析处理)和数据泛化的引论。这两章对应于第1版的第2章和第5章,但是显著加强了数据仓库的实现方法。第3章介绍了数据仓库和联机分析处理的基本概念、系统结构和一般实现,以及数据仓库和数据挖掘的关系。第4章更深入地考察数据仓库和OLAP技术,详细地研究数据立方体的计算方法,包括最近开发的star-cubing方法和高维OLAP方法。该章还讨论数据仓库和OALP的进一步探查,如发现驱动的立方体探查,复杂数据挖掘查询的多特征立方体和立方体梯度分析。该章还讨论另一种数据泛化和概念描述方法—面向属性的归纳。
第5章介绍挖掘事务数据库、关系数据库和数据仓库中的频繁模式、关联和相关性的方法。除介绍诸如购物篮分析等基本概念之外,还以有条理的方式提供许多频繁项集挖掘技术。这些技术领域从基本Apriori算法和它的变形,到改进性能的更高级的方法,包括频繁模式增长方法,使用数据垂直格式的频繁模式挖掘和挖掘闭频繁项集。该章还介绍挖掘多层关联规则、多维关联规则和量化关联规则的技术。与上一版相比,该章更强调产生有意义的关联规则和相关规则。该章还讨论基于约束的挖掘和使用兴趣度度量对规则搜索聚焦的策略。
第6章介绍数据分类和预测方法,包括决策树归纳、贝叶斯分类、基于规则的分类、后向传播的神经网络技术、支持向量机、关联分类、k最邻近分类、基于案例的推理、遗传算法、粗糙集理论和模糊集合方法。该章还介绍了回归方法,讨论了关于准确率和如何选择最佳的分类和预测方法问题。与第1版的对应章相比,新增加了基于规则的分类和支持向量机这两节,并且大幅度地扩充了度量和加强分类和预测的准确率的讨论。
聚类分析构成第7章的主题。该章介绍了主要的数据聚类方法,包括划分方法、层次方法、基于密度的方法、基于网格的方法和基于模型的方法。本版新增加了几节,介绍高维数据聚类技术,以及基于约束的聚类分析。该章还讨论了离群点分析。
第8~10章讨论数据挖掘的高级课题,涵盖了学科前沿最新进展的大量材料。这三章取代了前一版关于高级课题的一章。第8章主要讨论流数据、时间序列数据和序列数据(包括事务序列和生物学序列)的挖掘。基本数据挖掘技术(如频繁模式挖掘、分类、聚类和基于约束的挖掘)都扩展到这些类型的数据。第9章讨论图和结构模式挖掘方法、社会网络分析和多重关系数据挖掘。第10章介绍对象、空间、多媒体、文本和Web数据挖掘方法,涵盖了这些领域的大量新进展。
最后,在第11章,我们总结本书提供的概念,并讨论数据挖掘的应用和发展趋势。添加了一些新的数据挖掘材料,涉及生物学和生物医学数据分析、其他科学应用、入侵检测和协同过滤。除了具有挑战性的研究问题之外,还讨论了数据挖掘对社会的影响,如隐私和数据安全问题。新版还增加了无处不在的数据挖掘的进一步讨论。
附录提供了微软用于数据挖掘的OLE DB(用于DM的OLE DB)。
全书用楷体字强调定义的术语,黑体字突出主要思想。
本书具有一些显著特点,不同于其他数据挖掘教材。本书广泛、深入地讨论了整个数据挖掘领域,特别是关于数据流挖掘、图挖掘、社会网络分析和多重关系数据挖掘的一些最新研究课题。在讨论高级主题之前的各章尽可能是独立的,读者可以按自己的兴趣选择阅读顺序。本书提供了数据挖掘的所有主要方法。由于我们从数据库的角度来处理数据挖掘,本书还提供了许多诸如可伸缩的算法和多维OLAP分析等数据挖掘中的重要主题。这些主题在其他书中常被忽略或很少提及。
致教师
本书旨在提供数据挖掘领域的一个广泛而深入的概览。本书可以用作高年级本科生或一年级研究生的数据挖掘导论。此外,本书也可以用来讲授数据挖掘的高级课程。
如果你打算使用本书作为导论课程的教材,你可能发现第1~7章是基本的,如果你不打算深入地讲述数据立方体计算和联机分析处理的实现方法,第4章可以略去。另一种方法,你也可以忽略第1~7章的某些节,而使用第11章,最后涵盖数据挖掘的应用和发展趋势。
如果你打算使用本书讲述数据挖掘的高级课程,可以使用第8~11章。此外,附加的材料和最新发表的一些研究论文可以作为从这些章中选择的高级主题的补充。
本书的每一章都可以用作自学材料,或用作诸如数据库系统、机器学习、模式识别和数据智能分析等相关课程的专题。
每章后面都有一组习题,适合作为家庭作业。这些习题或者是用于测验对内容的掌握情况的短问题,或者是需要分析思考的长问题,或者是实现设计。有些习题也可以用作研究讨论课题。每章后面的文献注释可以用来查找包含正文中提供的概念和方法的来源、相关课题的深入讨论和可能的扩展的研究文献。本书的网站提供了广泛的教学辅助支持,如授课幻灯片、读物目录和课程提纲。
致学生
我们希望这本教材能激发你对处于年轻时代然而正在快速发展的数据挖掘领域的兴趣。我们力求以清晰的方式提供材料,仔细地解释所涵盖的课题。每一章都用总结要点的小结结束。全书包含了许多图和解释,以便使本书成为更加有趣的和读者友好的。尽管本书是作为教材编写的,但是我们也试图把它组织成一本参考书或手册,如果你今后决定在数据挖掘的相关领域进行深入研究或者以数据挖掘为毕生职业对你将是有用的。
为阅读本书,你需要知道什么?
你应当具有关于数据库系统、统计学和机器学习的概念与术语方面的一些知识。然而,我们尽力提供这些领域中的基础的足够背景,以便在读者对这些领域不太熟悉或者记忆有些淡忘时,也能够跟随本书的讨论。
你应当具有一些程序设计经验。特别是,应当能够阅读伪代码,能够理解诸如多维数组这样的简单数据结构。
致专业人员
本书旨在涵盖数据挖掘领域的广泛课题。这样,本书是关于该主题的一本优秀手册。由于每一章的编写尽可能独立,你可以关注于你最感兴趣的课题。希望学习数据挖掘的关键思想的应用程序员和信息服务管理者可以使用本书。对于有兴趣使用数据挖掘技术解决其业务问题的银行、保险、医药和零售业的技术数据分析人员,本书也是有用的。此外,本书也可以作为数据挖掘领域的全面综述,有助于研究人员提升数据挖掘技巧,扩展数据挖掘的应用范围。
所提供的技术和算法是实用的。本书介绍的算法适合于发现隐藏在大型、现实数据集中的模式和知识,而不是挑选对小型“玩具”数据集运行良好的算法。在第11章,我们简略讨论数据挖掘系统的商业应用,以及有希望的研究原型。本书提供的算法用伪代码解释。伪代码类似于程序设计语言C,但是被设计成使得不熟悉C或C++的程序员易于理解。如果你想实现算法,你会发现将我们的伪代码转换成选定的程序设计语言是一项非常简单的任务。
本书资源网站
本书网站的地址http://www.cs.uiuc.edu/~hanj/bk2,另一个是Morgan Kaufmann出版社的网站www.mkp.com/datamining2e。这些网站为本书的读者和对数据挖掘感兴趣的人提供了一些补充材料。资源包括:
每章的幻灯片。提供了用微软的PowerPoint制作的每章教案。
本书的模型图。可以帮助你制作自己的课堂教学幻灯片。
教师手册。本书习题的完整答案通过出版社的网站只向教师提供。
课程提纲和教学计划。对使用本书和幻灯片为数据挖掘导论课程和高级教程的本科生和研究生提供。
带超链接的补充读物目录。补充读物原创性文章按章组织。
到数据挖掘数据集和软件的链接。我们将提供到数据挖掘数据集和某些包含有趣的数据挖掘软件包的站点的链接,如到伊利诺伊大学Urbana-Champaign分校IlliMine的链接http://illimine.cs.uiuc.edu)。
作业、考试和课程设计实例。一组作业、考试和课程设计实例将在出版社的网站上向教师提供。
本书目录(PDF格式)。
本书不同印次的勘误表。欢迎你指出本书中的错误。一旦错误被确认,我们就更新勘误表,并对你的贡献致谢。
评论或建议请发往hanj@cs.uiuc.edu。我们很高兴听到你的建议。
本书的参考文献已放到机械工业出版社华章网站http://www.hzbook.com)上,请读者登录华章网站免费下载。—编辑注
第1版致谢
我们希望向曾经或正在与我们一道从事数据挖掘相关研究和/或DBMiner项目,或在数据挖掘方面向我们提供各种支持的所有人表示衷心的感谢。这些人包括Rakesh Agrawal, Stella Atkins, Yvan Bedard, Binay Bhattacharya, (Yandong) Dora Cai, Nick Cercone, Surajit Chaudhuri, Sonny H. S. Chee, Jianping Chen, Ming-Syan Chen, Qing Chen, Qiming Chen, Shan Cheng, David Cheung, Shi Cong, Son Dao, Umeshwar Dayal, James Delgrande, Guozhu Dong, Carole Edwards, Max Egenhofer, Martin Ester, Usama Fayyad, Ling Feng, Ada Fu, Yongjian Fu, Daphne Gelbart, Randy Goebel, Jim Gray, Robert Grossman, Wan Gong, Yike Guo, Eli Hagen, Howard Hamilton, Jing He, Larry Henschen, Jean Hou, Mei-Chun Hsu, Kan Hu, Haiming Huang, Yue Huang, Julia Itskevitch, Wen Jin, Tiko Kameda, Hiroyuki Kawano, Rizwan Kheraj, Eddie Kim, Won Kim, Krzysztof Koperski, Hans-Peter Kriegel, Vipin Kumar, Laks V. S. Lakshmanan, Joyce Man Lam, James Lau, Deyi Li, George (Wenmin) Li, Jin Li, Ze-Nian Li, Nancy Liao, Gang Liu, Junqiang Liu, Ling Liu, Alan (Yijun) Lu, Hongjun Lu, Tong Lu,Wei Lu, Xuebin Lu, Wo-Shun Luk, Heikki Mannila, Runying Mao, Abhay Mehta, Gabor Melli, Alberto Mendelzon, Tim Merrett, Harvey Miller, Drew Miners, Behzad Mortazavi-Asl, Richard Muntz, Raymond T. Ng, Vicent Ng, Shojiro Nishio, Beng-Chin Ooi, Tamer Ozsu, Jian Pei, Gregory Piatetsky-Shapiro, Helen Pinto, Fred Popowich, Amynmohamed Rajan, Peter Scheuermann, Shashi Shekhar, Wei-Min Shen, Avi Silberschatz, Evangelos Simoudis, Nebojsa Stefanovic, Yin Jenny Tam, Simon Tang, Zhaohui Tang, Dick Tsur, Anthony K. H. Tung, Ke Wang, Wei Wang, Zhaoxia Wang, Tony Wind, Lara Winstone, Ju Wu, Betty (Bin) Xia, Cindy M. Xin, Xiaowei Xu, Qiang Yang, Yiwen Yin, Clement Yu, Jeffrey Yu, Philip S. Yu, Osmar R. Zaiane, Carlo Zaniolo, Shuhua Zhang, Zhong Zhang, Yvonne Zheng, Xiaofang Zhou和Hua Zhu。我们还要感谢Jean Hou, Helen Pinto, Lara Winstone和Hua Zhu,感谢他们帮助绘制本书的一些草图;感谢Eugene Belchev仔细地校对了每一章。
我们还要感谢Morgan Kaufmann出版社的执行编辑Diane Cerra在本书写作期间的热情、耐心和支持;感谢出版编辑Howard Severson和他的同事,感谢他们尽职尽责的努力,使本书得以出版。我们对所有的评论者不胜感激,感谢他们的无价反馈。最后,我们感谢家人对该项目的全身心支持。
第2版致谢
我们希望向UIUC数据挖掘小组以前和现在的所有成员表达我们的感谢;向伊利诺伊大学Urbana-Champaign分校计算机科学系的数据与信息系统实验室(DAIS)的教师和学生表示感谢;向许多朋友和同事表示感谢。他们始终不渝的支持使我们在第2版的工作受益匪浅。这些人包括Gul Agha, Rakesh Agrawal, Loretta Auvil, Peter Bajcsy, Geneva Belford, Deng Cai, Y. Dora Cai, Roy Cambell, Kevin C.-C. Chang, Surajit Chaudhuri, Chen Chen, Yixin Chen, Yuguo Chen, Hong Cheng, David Cheung, Shengnan Cong, Gerald DeJong, AnHai Doan, Guozhu Dong, Charios Ermopoulos, Martin Ester, Christos Faloutsos, Wei Fan, Jack C. Feng, Ada Fu, Michael Garland, Johannes Gehrke, Hector Gonzalez, Mehdi Harandi, Thomas Huang, Wen Jin, Chulyun Kim, Sangkyum Kim, Won Kim, Won-Young Kim, David Kuck, Young-Koo Lee, Harris Lewin, Xiaolei Li, Yifan Li, Chao Liu, Han Liu, Huan Liu, Hongyan Liu, Lei Liu, Ying Lu, Klara Nahrstedt, David Padua, Jian Pei, Lenny Pitt, Daniel Reed, Dan Roth, Bruce Schatz, Zheng Shao, Marc Snir, Zhaohui Tang, Bhavani M. Thuraisingham, Josep Torrellas, Peter Tzvetkov, Benjamin W. Wah, Haixun Wang, Jianyong Wang, Ke Wang, Muyuan Wang, Wei Wang, Michael Welge, Marianne Winslett, Ouri Wolfson, Andrew Wu, Tianyi Wu, Dong Xin, Xifeng Yan, Jiong Yang, Xiaoxin Yin, Hwanjo Yu, Jeffrey X. Yu, Philip S. Yu, Maria Zemankova, ChengXiang Zhai, Yuanyuan Zhou和Wei Zou。Deng Cai和ChengXiang Zhai对文本挖掘和Web挖掘两节,Xifeng Yan对图挖掘一节,Xiaoxin Yin对多重关系挖掘一节做出了贡献。Hong Cheng, Charios Ermopoulos, Hector Gonzalez, David J. Hill, Chulyun Kim, Sangkyum Kim, Chao Liu, Hongyan Liu, Kasif Manzoor, Tianyi Wu, Xifeng Yan和Xiaoxin Yin校阅了手稿的部分章节。
上一篇: WEB数据挖掘相关术语整理
下一篇: 要不要来玩玩~