数据挖掘算法聚类方法之K-均值聚类算法讲解
数据挖掘算法聚类方法之K-均值聚类算法讲解
1.分类和聚类是两个容易混淆的概念,事实上它们具有显著区别。
在分类中,为了建立分类模型而分析的数据对象的类别是已知的,然而,在聚类时处理的所有数据对象的类别都是未知的。
因此,分类是有指导的,是通过例子(训练样本集)学习的过程,而聚类是无指导的,是通过观察学习的过程 。
2. 聚类
聚类是将数据对象的集合分成相似的对象类的过程。使得同一个簇(或类)中的对象之间具有较高的相似性,而不同簇中的对象具有较高的相异性。
3. 聚类过程
4. 聚类方法的分类
按照聚类的尺度,聚类方法可被分为以下三种:
(1)基于距离的聚类算法:用各式各样的距离来衡量数据对象之间的相似度。
(2)基于密度的聚类算法:相对于基于距离的聚类算法,基于密度的聚类方法主要是依据合适的密度函数等。
(3)基于互连性的聚类算法:通常基于图或超图模型。高度连通的对象聚为一类。
按照聚类分析方法的主要思路,可以被归纳为如下几种
划分法:基于一定标准构建数据的划分。
层次法:对给定数据对象集合进行层次的分解。
密度法:基于数据对象的相连密度评价。
网格法:将数据空间划分成为有限个单元的网格结构,基于网格结构进行聚类。
模型法:给每一个簇假定一个模型,然后去寻找能够很好的满足这个模型的数据集。
5. 聚类分析在数据挖掘中的应用
① 聚类分析可以用于数据预处理。利用聚类分析进行数据划分,进行特征抽取或分类就可以提高精确度和挖掘效率。
② 可以作为一个独立的工具来获得数据的分布情况。可获得数据分布情况,集中对特定的某些簇进行分析。比如市场细分、目标顾客定位、业绩评估和生物种群划分。
③ 聚类分析可以完成孤立点挖掘。有些孤立点有用,比如欺诈探测中,孤立点可能预示欺诈行为的存在。
6. 基于划分的聚类算法
划分聚类算法预先指定聚类数目或聚类中心,通过反复迭代运算,逐步优化目标函数的值,当目标函数收敛时,得到最终聚类结果。