欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

数据理解常用函数

程序员文章站 2022-07-13 09:00:42
...

1、数据的相关性

通常用来计算两个属性的相关性的方法是皮尔逊相关系数,介于-1~1之间。通过Dataframe的corr()方法来计算数据相关性,如果数据属性之间关联性过高,则进行降维处理。

from pandas import read_csv
filename='iris.csv'
names=['separ-length','separ-width','petal-length','petal-width','class']
dataset=read_csv(filename,names=names)
print(dataset.corr(method='pearson'))

2数据分布分析

  使用Dataframe的skew()方法来计算所有数据属性的高斯分布偏离情况

from pandas import read_csv
filename='iris.csv'
names=['separ-length','separ-width','petal-length','petal-width','class']
dataset=read_csv(filename,names=names)
print(dataset.skew())