数据挖掘的详情介绍
1.1 为什么进行数据挖掘
1.1.1 迈向信息时代
当代社会,数据的爆炸式增长、广泛可用和巨大数量使得我们的时代成为真正的数据时代。需要功能强大和通用的工具,从海量数据中发现有价值的信息,把这些数据转化成有组织的知识。这种需求导致了数据挖掘的产生。
1.1.2 数据挖掘是信息技术的进化
数据挖掘可以看做是信息技术自然进化的结果。在今天,大量数据库系统提供查询和事务处理已经司空见惯,高级数据分析自然成为下一步。
1.2 什么是数据挖掘
无明确定义。数据挖掘指的是“从数据中挖掘知识”。有人将数据挖掘定义为知识发现KDD过程的一个步骤。
知识发现的步骤为:数据清理(消除噪声和删除不一致数据)->数据集成(多种数据源可以组合在一起)->数据选择(从数据库中提取与分析任务相关的数据)->数据变换(通过汇总和聚集操作,把数据变换和统一成适合挖掘的形式)->数据挖掘(基本步骤,使用智能方法提取数据模式)->模式评估(根据某种兴趣度度量,识别代表知识的真正的有趣的模式)->知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)。
1.3 可以挖掘什么类型的数据
作为一种通用技术,数据挖掘可以用于任何类型的数据,只要数据对目标应用是有意义的。
常用的,数据的最基本的形式是:数据库数据、数据仓库数据和事务数据。也可以用于其他类型的数据,如:数据流、有序/序列数据、图或网络数据、空间数据、多媒体数据、文本数据和万维网。
1.3.1 数据库数据
关系数据库数据是数据挖掘最常见、最丰富的信息源,可以用数据挖掘技术探索数据模式或趋势。
1.3.2 数据仓库
数据仓库是一个从多个数据源手机的信息存储库,存放在一致的模式下,通常驻留在单个站点上。数据仓库用称作数据立方体(data cube)的多维数据结构建模。
1.3.3 事务数据
事务数据库中的每个记录代表一个事务,比如顾客的一次购物、一个航班订票或一个用户的网页点击。 事务数据挖掘的一个例子是顾客的购物篮分析。
1.3.4 其他类型的数据
a. 时间相关或序列数据:股票交易数据、时间序列和生物学序列数据
b. 数据流:连续播送的视频监控和传感器数据
c. 空间数据:地图
d. 超文本和多媒体数据:本文、图像、视频和音频数据
e. 图和网状数据:社会和信息网络
等
1.4 可以挖掘什么类型的模式
一般,数据挖掘的任务可以分为两类:描述性和预测性。
1.4.1 类/概念描述:特征化与区分
数据特征化是目标类数据的一般特征或特征的汇总。比如:统计在某商店一年消费大于50K的顾客的特征。
数据区分是将目标类数据对象的一般特征与一个或多个对比类对象的一般特征进行比较。如:比较在某商店一年消费大于50K和小于5k的顾客的有什么不同。
1.4.2 挖掘频繁模式、关联和相关性
频繁模式是在数据中频繁出现的模式,包括:频繁项集、频繁子序列和频繁子结构。
a. 频繁项集:频繁地在事务数据集中一起出现的商品的集合,如顾客一般频繁的将面包和牛奶放在一起购买;
b. 频繁子序列:频繁出现的子序列,如顾客一般先购买便携机,再购买数码相机,然后再购买内存卡。
c. 频繁子结构:子结构可能涉及不同的结构形式,如图、树,可以与项集或子序列结合在一起。
e.g
buys(X,"computer") -> buys(X,"software") [support=1%,confidence=50%]
x是变量,代表顾客。1%的支持度表示:所分析的所有书屋的1%显示计算机和软件一起被购买;50%的置信度表示:如果一位顾客购买计算机,则购买软件的可能性是50%。
一个关联规则如果不用同时满足最小支持度阀值和最小置信度阀值,将被认为是无趣的而被丢弃。
1.4.3 分类
分类预测类别,找出描述和区分数据类或概念的模型,以便能够使用模型预测类标号未知的对象的类标号。
1.4.4 聚类
聚类分析数据对象,而不考虑类标号。对象根据最大化类内相似度、最小化类间相似性的原则进行聚类或分组。
1.4.5 离群点分析
大部分数据挖据方法都将离群点视为噪声或异常而丢弃。然而,在一些应用中,例如:欺诈检测,罕见的事件可能比正常出现的时间更令人感兴趣。
1.4.6 所有模式都是有趣的吗
一个模式是有趣的(interesting),需要满足:
a. 易于被人理解的;
b. 在某种确信度上,对于新的或检验数据是有效的;
c. 潜在有用的;
d. 新颖的。
1.5 使用什么技术
作为一个应用驱动的领域,数据挖掘吸纳了统计学、机器学习、模式识别、数据库和数据仓库、信息检索、可视化、算法、高性能计算和许多应用领域的大量技术。
1.6 应用
很多应用,如商务智能、Web搜索、生物信息学、卫生保健信息学、金融、数字图书馆和数字*。
1.7 挑战
挖掘方法、用户交互、有效性和可伸缩性,以及处理多种多样的数据类型,数据挖掘对社会的影响。