机器学习——python数据导入、数据理解
程序员文章站
2022-07-13 09:00:48
...
这里导入的数据格是CSV格式
导入方法一:采用python类库导入数据
from csv import reader
import numpy as np
filename = 'pima_data.csv'
#with语句简化了异常的处理,不需要自己再来对文件句柄操作
with open(filename , 'rt') as raw_data:
readers = reader(raw_data)
x = list(readers)
data = np.array(x).astype('float')
print(data.shape)
方法二:采用numpy导入数据from numpy import loadtxt
filename = 'pima_data.csv'
with open(filename , 'rt') as raw_data:
data = loadtxt(raw_data,delimiter=',')
print(data.shape)
方法三:采用pandas导入数据
from pandas import read_csv
from pandas import set_option
filename = 'pima_data.csv'
names = ['preg','plas','pres','skin','test','mass','pedi','age','class']
data = read_csv(filename,names = names)
print (data.dtypes)
from pandas import read_csv
from pandas import set_option
#pandas导入数据
filename = 'pima_data.csv'
names = ['preg','plas','pres','skin','test','mass','pedi','age','class']
data = read_csv(filename,names = names)
#数据属性与类型,查看每一个字段的数据类型
print (data.dtypes)
#设置输出格式
set_option('display.width',100)
set_option('precision',4)
#数据记录数、平均值、标准差、最小值、下四分位数、中位数、上四分位数、最大值
print (data.describe())
#数据分组分布(用于分类)
print(data.groupby('class').size())
#数据属性的相关性
print(data.corr(method='pearson'))
#数据的分布分析(高斯分布)
#接近0时表示偏差非常小
print(data.skew())
上一篇: python保存和加载机器学习模型
下一篇: 机器学习,模型保存,模型加载