欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  科技

数据挖掘算法聚类方法之K-均值聚类算法讲解

程序员文章站 2022-03-15 11:30:52
数据挖掘算法聚类方法之K-均值聚类算法讲解 1.分类和聚类是两个容易混淆的概念,事实上它们具有显著区别。 在分类中,为了建立分类模型而分析的数据对象的类别是已知的,然而,在聚类时处理的所有...

数据挖掘算法聚类方法之K-均值聚类算法讲解

1.分类和聚类是两个容易混淆的概念,事实上它们具有显著区别。

在分类中,为了建立分类模型而分析的数据对象的类别是已知的,然而,在聚类时处理的所有数据对象的类别都是未知的。

因此,分类是有指导的,是通过例子(训练样本集)学习的过程,而聚类是无指导的,是通过观察学习的过程 。

2. 聚类

聚类是将数据对象的集合分成相似的对象类的过程。使得同一个簇(或类)中的对象之间具有较高的相似性,而不同簇中的对象具有较高的相异性。

3. 聚类过程

数据挖掘算法聚类方法之K-均值聚类算法讲解

4. 聚类方法的分类

按照聚类的尺度,聚类方法可被分为以下三种:

(1)基于距离的聚类算法:用各式各样的距离来衡量数据对象之间的相似度。

(2)基于密度的聚类算法:相对于基于距离的聚类算法,基于密度的聚类方法主要是依据合适的密度函数等。

(3)基于互连性的聚类算法:通常基于图或超图模型。高度连通的对象聚为一类。

按照聚类分析方法的主要思路,可以被归纳为如下几种

划分法:基于一定标准构建数据的划分。

层次法:对给定数据对象集合进行层次的分解。

密度法:基于数据对象的相连密度评价。

网格法:将数据空间划分成为有限个单元的网格结构,基于网格结构进行聚类。

模型法:给每一个簇假定一个模型,然后去寻找能够很好的满足这个模型的数据集。

5. 聚类分析在数据挖掘中的应用

① 聚类分析可以用于数据预处理。利用聚类分析进行数据划分,进行特征抽取或分类就可以提高精确度和挖掘效率。

② 可以作为一个独立的工具来获得数据的分布情况。可获得数据分布情况,集中对特定的某些簇进行分析。比如市场细分、目标顾客定位、业绩评估和生物种群划分。

③ 聚类分析可以完成孤立点挖掘。有些孤立点有用,比如欺诈探测中,孤立点可能预示欺诈行为的存在。

6. 基于划分的聚类算法

划分聚类算法预先指定聚类数目或聚类中心,通过反复迭代运算,逐步优化目标函数的值,当目标函数收敛时,得到最终聚类结果。

数据挖掘算法聚类方法之K-均值聚类算法讲解数据挖掘算法聚类方法之K-均值聚类算法讲解