数据挖掘算法聚类方法之K-均值聚类算法讲解

程序员文章站 2022-06-26 14:58:47

数据挖掘算法聚类方法之K-均值聚类算法讲解 1.分类和聚类是两个容易混淆的概念，事实上它们具有显著区别。在分类中，为了建立分类模型而分析的数据对象的类别是已知的，然而，在聚类时处理的所有...

1.分类和聚类是两个容易混淆的概念，事实上它们具有显著区别。

在分类中，为了建立分类模型而分析的数据对象的类别是已知的，然而，在聚类时处理的所有数据对象的类别都是未知的。

因此，分类是有指导的，是通过例子(训练样本集)学习的过程，而聚类是无指导的，是通过观察学习的过程。

2. 聚类

聚类是将数据对象的集合分成相似的对象类的过程。使得同一个簇(或类)中的对象之间具有较高的相似性，而不同簇中的对象具有较高的相异性。

3. 聚类过程

4. 聚类方法的分类

按照聚类的尺度，聚类方法可被分为以下三种：

(1)基于距离的聚类算法：用各式各样的距离来衡量数据对象之间的相似度。

(2)基于密度的聚类算法：相对于基于距离的聚类算法，基于密度的聚类方法主要是依据合适的密度函数等。

(3)基于互连性的聚类算法：通常基于图或超图模型。高度连通的对象聚为一类。

按照聚类分析方法的主要思路，可以被归纳为如下几种

划分法：基于一定标准构建数据的划分。

层次法：对给定数据对象集合进行层次的分解。

密度法：基于数据对象的相连密度评价。

网格法：将数据空间划分成为有限个单元的网格结构，基于网格结构进行聚类。

模型法：给每一个簇假定一个模型，然后去寻找能够很好的满足这个模型的数据集。

5. 聚类分析在数据挖掘中的应用

① 聚类分析可以用于数据预处理。利用聚类分析进行数据划分，进行特征抽取或分类就可以提高精确度和挖掘效率。

② 可以作为一个独立的工具来获得数据的分布情况。可获得数据分布情况，集中对特定的某些簇进行分析。比如市场细分、目标顾客定位、业绩评估和生物种群划分。

③ 聚类分析可以完成孤立点挖掘。有些孤立点有用，比如欺诈探测中，孤立点可能预示欺诈行为的存在。

6. 基于划分的聚类算法

划分聚类算法预先指定聚类数目或聚类中心，通过反复迭代运算，逐步优化目标函数的值，当目标函数收敛时，得到最终聚类结果。

Python聚类算法之基本K均值实例详解