数据理解常用函数
程序员文章站
2022-07-13 09:00:42
...
1、数据的相关性
通常用来计算两个属性的相关性的方法是皮尔逊相关系数,介于-1~1之间。通过Dataframe的corr()方法来计算数据相关性,如果数据属性之间关联性过高,则进行降维处理。
from pandas import read_csv
filename='iris.csv'
names=['separ-length','separ-width','petal-length','petal-width','class']
dataset=read_csv(filename,names=names)
print(dataset.corr(method='pearson'))
2数据分布分析
使用Dataframe的skew()方法来计算所有数据属性的高斯分布偏离情况
from pandas import read_csv
filename='iris.csv'
names=['separ-length','separ-width','petal-length','petal-width','class']
dataset=read_csv(filename,names=names)
print(dataset.skew())
上一篇: 机器学习入门(一)