机器学习实战第二章——学习KNN算法,读书笔记
程序员文章站
2022-07-14 19:42:18
...
K近邻算法(简称KNN)学习是一种常用的监督学习方法,给定测试样本,基于某种距离度量找出训练集中与其最靠近的k个训练样本,然后基于这k个“邻居”的信息来进行预测。通常在分类任务中可以使用“投票法”,即选择这k个样本中出现最多的类别标记作为预测结果;在回归任务中可以使用“平均法”,即将这个k个样本的实值输出标记的平均值作为预测结果。
from numpy import *
import operator
def createDataSet(): #创建一个数据集
group=array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]]) #作为训练集的数据,该数据集有4个样本,每一个样本是一个二维坐标
labels=['A','A','B','B'] #上面的样本数据所对应的标记
return group,labels
def classify0(inX,dataSet,labels,k): #classify0()函数有4个输入参数,inX是用于分类的输入向量,dataSet是上面函数中的训练数据集,
#label是上面的训练数据集中的样本的标记,k是KNN选择的大小
dataSetSize=dataSet.shape[0] #dataSetSize是上面的训练数据集的大小
diffMat=tile(inX,(dataSetSize,1))-dataSet #为了计算距离的准备,tile函数将inX重复了dataSetSize行,每一行重复1次,与训练集相减
sqDiffMat=diffMat**2 #diffMat的平方,(x1-x2)^2
sqDistances=sqDiffMat.sum(axis=1) #列相加,(x1-x2)^2+(y1-y2)^2
distances=sqDistances**0.5
sortedDistIndicies=distances.argsort() #argsort进行排序,按照值的大小按照从小到大的顺序返回下标值
classCount={}
for i in range(k):
voteIlabel=labels[sortedDistIndicies[i]] #返回前k个小的距离的标记
classCount[voteIlabel]=classCount.get(voteIlabel,0)+1 #这一行代码的意思就是将返回的k个点的类别进行统计
sortedClassCount=sorted(classCount.iteritems(),key=operator.itemgetter(1),reverse=True) #按照类别和数量进行排序
return sortedClassCount[0][0] #返回数量最多的一个类别
上面代码中的tile函数,tile函数位于python模块 numpy.lib.shape_base中,他的功能是重复某个数组。比如tile(A,reps),功能是将数组A重复reps次,构成一个新的数组,生成一个与reps的长度相同维度的数组,上面代码中的tile(inX,(dataSetSize,1))中的resps就是(dataSetSize,1),相当于是一个4*1的矩阵类型。
代码的运行结果:
示例:使用K-近邻算法
(1)从文本文件中解析数据
def file2matrix(filename):
fr=open(filename) #打开文件
arrayOLines=fr.readlines() #一行一行的读文件内容
numberOfLines=len(arrayOLines) #得到文件的行数,返回给numberOfLines
returnMat=zeros((numberOfLines,3)) #创建一个以0填充的矩阵,是一个二维矩阵,numberOfLines*3的矩阵
classLabelVector=[]
index=0
for line in arrayOLines:
line=line.strip() #截取掉所有的回车字符
listFromLine=line.split('\t') #然后使用tab字符‘\t’将上一步得到的整行数据分割成一个元素列表
returnMat[index,:]=listFromLine[0:3] #取元素列表中的前3个元素,将其存储到特征矩阵当中
classLabelVector.append(int(listFromLine[-1])) #Python语言使用索引值-1表示列表中的最后一列元素,需要明确的表示存储的类型是int,不然会解释为字符串
index+=1
return returnMat,classLabelVector
然后用MatPlotlib创建散点图
散点图的显示如上图所示。
下一篇: GO语言实战一 Go简介