欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

机器学习实战第二章——学习KNN算法,读书笔记

程序员文章站 2022-07-14 19:42:18
...
        K近邻算法(简称KNN)学习是一种常用的监督学习方法,给定测试样本,基于某种距离度量找出训练集中与其最靠近的k个训练样本,然后基于这k个“邻居”的信息来进行预测。通常在分类任务中可以使用“投票法”,即选择这k个样本中出现最多的类别标记作为预测结果;在回归任务中可以使用“平均法”,即将这个k个样本的实值输出标记的平均值作为预测结果。
from numpy import *
import operator

def createDataSet():                                          #创建一个数据集
	group=array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])          #作为训练集的数据,该数据集有4个样本,每一个样本是一个二维坐标
	labels=['A','A','B','B']                                  #上面的样本数据所对应的标记
	return group,labels

def classify0(inX,dataSet,labels,k):                          #classify0()函数有4个输入参数,inX是用于分类的输入向量,dataSet是上面函数中的训练数据集,
                                                              #label是上面的训练数据集中的样本的标记,k是KNN选择的大小
	dataSetSize=dataSet.shape[0]                          #dataSetSize是上面的训练数据集的大小
	diffMat=tile(inX,(dataSetSize,1))-dataSet             #为了计算距离的准备,tile函数将inX重复了dataSetSize行,每一行重复1次,与训练集相减
	sqDiffMat=diffMat**2                                  #diffMat的平方,(x1-x2)^2
	sqDistances=sqDiffMat.sum(axis=1)                     #列相加,(x1-x2)^2+(y1-y2)^2 
	distances=sqDistances**0.5
	sortedDistIndicies=distances.argsort()                #argsort进行排序,按照值的大小按照从小到大的顺序返回下标值
	classCount={}
	for i in range(k):
		voteIlabel=labels[sortedDistIndicies[i]]      #返回前k个小的距离的标记
		classCount[voteIlabel]=classCount.get(voteIlabel,0)+1            #这一行代码的意思就是将返回的k个点的类别进行统计
	sortedClassCount=sorted(classCount.iteritems(),key=operator.itemgetter(1),reverse=True)   #按照类别和数量进行排序
	return sortedClassCount[0][0]                                              #返回数量最多的一个类别
       上面代码中的tile函数,tile函数位于python模块 numpy.lib.shape_base中,他的功能是重复某个数组。比如tile(A,reps),功能是将数组A重复reps次,构成一个新的数组,生成一个与reps的长度相同维度的数组,上面代码中的tile(inX,(dataSetSize,1))中的resps就是(dataSetSize,1),相当于是一个4*1的矩阵类型。

      代码的运行结果:

机器学习实战第二章——学习KNN算法,读书笔记

示例:使用K-近邻算法

(1)从文本文件中解析数据

def file2matrix(filename):
	fr=open(filename)                                  #打开文件
	arrayOLines=fr.readlines()                          #一行一行的读文件内容
	numberOfLines=len(arrayOLines)                     #得到文件的行数,返回给numberOfLines
	returnMat=zeros((numberOfLines,3))                 #创建一个以0填充的矩阵,是一个二维矩阵,numberOfLines*3的矩阵
	classLabelVector=[]                                
	index=0
	for line in arrayOLines:
		line=line.strip()                          #截取掉所有的回车字符
		listFromLine=line.split('\t')              #然后使用tab字符‘\t’将上一步得到的整行数据分割成一个元素列表
		returnMat[index,:]=listFromLine[0:3]       #取元素列表中的前3个元素,将其存储到特征矩阵当中
		classLabelVector.append(int(listFromLine[-1]))    #Python语言使用索引值-1表示列表中的最后一列元素,需要明确的表示存储的类型是int,不然会解释为字符串
		index+=1
	return returnMat,classLabelVector
 然后用MatPlotlib创建散点图

机器学习实战第二章——学习KNN算法,读书笔记

机器学习实战第二章——学习KNN算法,读书笔记

    散点图的显示如上图所示。