DBSCAN聚类算法

程序员文章站 2022-05-02 18:06:12

...

DBSCAN

DBSCAN是一种非常著名的基于密度的聚类算法。其英文全称是 Density-Based Spatial Clustering of Applications with Noise，意即：一种基于密度，对噪声鲁棒的空间聚类算法。
直观效果上看，DBSCAN算法可以找到样本点的全部密集区域，并把这些密集区域当做一个一个的聚类簇。

DBSCAN算法具有以下特点：

基于密度，对远离密度核心的噪声点鲁棒
无需知道聚类簇的数量
可以发现任意形状的聚类簇
DBSCAN通常适合于对较低维度数据进行聚类分析。

基本概念

1个核心思想：基于密度。

直观效果上看，DBSCAN算法可以找到样本点的全部密集区域，并把这些密集区域当做一个一个的聚类簇。
DBSCAN聚类算法
2个算法参数：邻域半径R和最少点数目minpoints。

这两个算法参数实际可以刻画什么叫密集——当邻域半径R内的点的个数大于最少点数目minpoints时，就是密集。
DBSCAN聚类算法
3种点的类别：核心点，边界点和噪声点。

邻域半径R内样本点的数量大于等于minpoints的点叫做核心点。不属于核心点但在某个核心点的邻域内的点叫做边界点。既不是核心点也不是边界点的是噪声点。
DBSCAN聚类算法
4种点的关系：密度直达，密度可达，密度相连，非密度相连。
如果P为核心点，Q在P的R邻域内，那么称P到Q密度直达。任何核心点到其自身密度直达，密度直达不具有对称性，如果P到Q密度直达，那么Q到P不一定密度直达。

如果存在核心点P2，P3，……，Pn，且P1到P2密度直达，P2到P3密度直达，……，P(n-1)到Pn密度直达，Pn到Q密度直达，则P1到Q密度可达。密度可达也不具有对称性。

如果存在核心点S，使得S到P和Q都密度可达，则P和Q密度相连。密度相连具有对称性，如果P和Q密度相连，那么Q和P也一定密度相连。密度相连的两个点属于同一个聚类簇。

如果两个点不属于密度相连关系，则两个点非密度相连。非密度相连的两个点属于不同的聚类簇，或者其中存在噪声点。
DBSCAN聚类算法

DBSCAN算法步骤

二，DBSCAN算法步骤
DBSCAN的算法步骤分成两步。

1，寻找核心点形成临时聚类簇。

扫描全部样本点，如果某个样本点R半径范围内点数目>=MinPoints，则将其纳入核心点列表，并将其密度直达的点形成对应的临时聚类簇。

2，合并临时聚类簇得到聚类簇。

对于每一个临时聚类簇，检查其中的点是否为核心点，如果是，将该点对应的临时聚类簇和当前临时聚类簇合并，得到新的临时聚类簇。

重复此操作，直到当前临时聚类簇中的每一个点要么不在核心点列表，要么其密度直达的点都已经在该临时聚类簇，该临时聚类簇升级成为聚类簇。

继续对剩余的临时聚类簇进行相同的合并操作，直到全部临时聚类簇被处理。
DBSCAN聚类算法

代码

import numpy as np
import pandas as pd
import  matplotlib.pyplot as plt
from sklearn import datasets
from sklearn.cluster import  dbscan

#此方法为生成一个半环形简单的样本数据集
#sklearn.datasets.make_moons(n_samples=100, shuffle=True, noise=None, random_state=None)
#单个独立下划线是用作一个名字，来表示某个变量是临时的或无关紧要的。
X,_ = datasets.make_moons(500,noise = 0.1,random_state=1)
df = pd.DataFrame(X,columns = ['feature1','feature2'])
df.plot.scatter('feature1','feature2', s = 100,alpha = 0.6, title = 'dataset by make_moon')


#eps为邻域半径，min_samples为最少点数目
core_samples,cluster_ids = dbscan(X, eps=0.2,min_samples=20)
#cluster_ids中-1对应的点为噪声点

#绘图
#np.c_是按行连接两个矩阵，就是把两矩阵左右相加，要求行数相等，类似于pandas中的merge()。
df = pd.DataFrame(np.c_[X,cluster_ids],columns = ['feature1','feature2','cluster_id'])

df['cluster_id'] = df['cluster_id'].astype('i2')


df.plot.scatter('feature1','feature2', s = 100,
    c = list(df['cluster_id']),cmap = 'rainbow',colorbar = False,
    alpha = 0.6,title = 'DBSCAN cluster result')
plt.show()

DBSCAN聚类算法

DBSCAN

基本概念

DBSCAN算法步骤

代码

RMM分词算法类

算法模型---聚类分析之DBSCAN密度聚类算法

【Python-ML】SKlearn库密度聚类DBSCAN模型

Python机器学习算法之k均值聚类（k-means）

python中kmeans聚类实现代码

php和c#一致的DES加密解密算法类

Python实现的KMeans聚类算法实例分析

K-means聚类算法介绍与利用python实现的代码示例

python 基于空间相似度的K-means轨迹聚类的实现

PHP排序算法类实例_php技巧