Pandas数据分析——从0.5到1学习指南
注:本文是学习+整理的原创喔
基础部分
import pandas as pd
import numpy as np
设置行列最大数
pd.set_option('max_column',8,'max_rows',10)
文件读取:pd.read_csv
DataFrame组件访问:data.colunms data.index data.values
type查看数据类型或行列属性;data.['属性名']亦可
调用Series方法pd.Series
最大显示行数:pd.set_option('max_rows',8)
属性值出现次数:columns.value_counts()
属性值中位分位数:columns.quantile()
data.min(skipna=False) 参数说明:只计算非缺失值列 .max() .mean() .median() .std() .sum() 分别查看最小值、最大值、平均值、中位数、标准差、总和
data.isnull()查看空值 .isnull().mean()查看空值比例 属性.fillna(0)填补空值 属性.dropna()删除空值
data.value_counts(normalize=True) 查看每个值出现的频率
data.hasnans 判断是否有缺失值 属性.notnull()判断是否为非缺失值
data可直接进行四则运算+ - * /
.add()加法 .mul()乘法 .floordiv()底除 .gt()筛选大于 .eq()筛选等于 .mod取模长
括号串联筛选示例:(data.fillna(0).astype(int).head())
增加列名:data['列名']=0 注:也可使用insert()方法直接插入列与值
data.all()检查是否所有布尔值都为ture
筛选数据
筛选多列:data[['a','b']] 或者
pd.DataFrame(data,columns=['Height','Weight'])
筛选特定数据列:data.select_dtypes(include=['输入要筛选的数据类型']).head()
.ndim() 查看数据维度
数据分析部分
(明天接着写~)