欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

机器学习——python数据导入、数据理解

程序员文章站 2022-07-13 09:00:48
...

这里导入的数据格是CSV格式

导入方法一:采用python类库导入数据

from csv import reader
import numpy as np
filename = 'pima_data.csv'
#with语句简化了异常的处理,不需要自己再来对文件句柄操作
with open(filename , 'rt') as raw_data:
    readers = reader(raw_data)
    x = list(readers)
    data = np.array(x).astype('float')
    print(data.shape)
方法二:采用numpy导入数据
from numpy import loadtxt
filename = 'pima_data.csv'
with open(filename , 'rt') as raw_data:
    data = loadtxt(raw_data,delimiter=',')
    print(data.shape)
方法三:采用pandas导入数据

from pandas import read_csv
from pandas import set_option
filename = 'pima_data.csv'
names = ['preg','plas','pres','skin','test','mass','pedi','age','class']
data = read_csv(filename,names = names)
print (data.dtypes)


数据的理解

from pandas import read_csv
from pandas import set_option
#pandas导入数据
filename = 'pima_data.csv'
names = ['preg','plas','pres','skin','test','mass','pedi','age','class']
data = read_csv(filename,names = names)
#数据属性与类型,查看每一个字段的数据类型
print (data.dtypes)
#设置输出格式
set_option('display.width',100)
set_option('precision',4)
#数据记录数、平均值、标准差、最小值、下四分位数、中位数、上四分位数、最大值
print (data.describe())
#数据分组分布(用于分类)
print(data.groupby('class').size())
#数据属性的相关性
print(data.corr(method='pearson'))
#数据的分布分析(高斯分布)
#接近0时表示偏差非常小
print(data.skew())