Python获取sklearn库中iris数据写入本地csv文件,可视化展示数据并进行分类、聚类实验以及结果可视化
程序员文章站
2022-07-14 13:17:22
...
今天有点时间就找来了iris数据实验了一下,就是可视化绘图感觉很好玩,就拿这个数据集做了一个实验,下面是简单的实验流程
1.获取iris数据写入本地csv文件,实现如下:
def write_iris_data2csv(csvpath='result/show/iris_data.csv'):
'''
读取sklearn库中的iris数据写入到csv文件中
'''
iris=load_iris()
data=iris['data']
target=iris['target'].tolist()
myfile=open(csvpath, 'wb')
mywriter=csv.writer(myfile)
mywriter.writerow(['Sepal.Length', 'Sepal.Width', 'Petal.Length', 'Petal.Width', 'Species'])
for one_list in data.tolist():
one_list.append(target.pop(0))
mywriter.writerow(one_list)
myfile.close()
数据结果截图如下:
2.绘制iris数据的散点图,iris数据通过打印可以看到一共是150个样本数据,每个样本数据包括4个特征,这里采用的方法是使用第一列数据作为x坐标,采用第二列数据作为y坐标来绘制iris数据的散点图,实现如下:
def draw_iris_data(csvpath='result/show/iris_data.csv', savepath='result/show/iris_data.png'):
'''
绘制iris数据的散点图
'''
x_list=[]
y_list=[]
csv_reader=csv.reader(open(csvpath))
for one_line in csv_reader:
print one_line
if one_line[0]!='Sepal.Length':
x_list.append(one_line[0])
y_list.append(one_line[1])
plt.xlabel('sepal-length')
plt.ylabel('sepal-width')
plt.title("iris_data_pic")
plt.scatter(x_list,y_list,c='g',marker='x')
plt.legend('x1')
plt.savefig(savepath)
结果如下:
3.使用sklearn封装好的决策树模型来对iris数据集进行分类,我们都知道iris数据集中一共是三个类别的花,每个类别样本数均为50,下面是具体实现:
def DT_iris_data(savepath, csvpath='result/show/iris_data.csv'):
'''
决策树分析iris数据
'''
x_list=[]
y_list=[]
data_list=[]
label_list=[]
csv_reader=csv.reader(open(csvpath))
for one_line in csv_reader:
if one_line[0]!='Sepal.Length':
x_list.append(one_line[0])
y_list.append(one_line[1])
label_list.append(one_line.pop())
data_list.append(one_line)
model=DecisionTreeClassifier()
model.fit(data_list, label_list)
predicted=model.predict(data_list)
plt.legend('x1')
plt.xlabel('sepal-length')
plt.ylabel('sepal-width')
plt.title("DT_iris_data_analysis_pic")
plt.scatter(x_list, y_list, c=predicted, marker='o')
pl.savefig(savepath)
结果如下:
4.使用sklearn库中的Kmeans对iris数据进行聚类处理,结果一共是三个类别,下面是具体实现:
def Kmeans_iris_data(savepath, csvpath='result/show/iris_data.csv'):
'''
Kmeans分析iris数据
'''
x_list=[]
y_list=[]
data_list=[]
label_list=[]
csv_reader=csv.reader(open(csvpath))
for one_line in csv_reader:
if one_line[0]!='Sepal.Length':
x_list.append(one_line[0])
y_list.append(one_line[1])
label_list.append(one_line.pop())
data_list.append(one_line)
model=KMeans(n_clusters=3)
model.fit(data_list, label_list)
predicted=model.predict(data_list)
print 'predicted'
print predicted
plt.xlabel('sepal-length')
plt.ylabel('sepal-width')
plt.title("KMeans_iris_data_analysis_pic")
plt.scatter(x_list, y_list, c=predicted, marker='o')
pl.savefig(savepath)
结果如下:
简单的小实验,sklearn还有很多很多的机器学习模型可以用于分类和聚类实验,感兴趣的话可以都一一尝试一下,欢迎交流