Python进行数据挖掘、数据清洗、数据探索时常用pandas代码片段技巧
程序员文章站
2024-01-30 23:18:04
...
一、常见pandas命令
1、data.dropna()
: 处理并删除缺失值,应用于Series和DataFrame对象。
- 对于DataFrame:
- 格式为:
DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)
- axis:
- axis = 0, 代表删除包含缺失值的行
- axis = 1, 代表删除包含缺失值的列
- how:
- how = ‘any’,只要有缺失值出现,就删除该行或列
- how = ‘all’,所有的值都缺失,才删除行或列
- thresh:
- axis中至少有thresh个非缺失值,否则删除
- subset:
- subset = list:丢弃list中的相应属性有缺失值的行或列
- inplace:
- inplace = False:在原数据上进行操作,返回去掉缺失值的新的copy
- inplace = True:返回None
- 格式为:
- 对于Series:
- 丢弃所有有缺失值的项
2、 data.fillna()
:处理并填充缺失值,应用于Series和DataFrame对象。
- 对于DataFrame对象:
-
data.fillna(0)
:用0填充所有缺失值; -
data.fillna(data.mean())
:用每列特征的均值填充缺失值; -
data.fillna(data.median())
:用每列特征的中位数填充缺失值; -
data.fillna(method='pad/ffill')
:用每列相邻的前面(上一个)的特征值填充缺失值; -
data.fillna(method='backfill/bfill)
:用每列相邻的后面(下一个)的特征值填充缺失值; -
data.fillna({key:value})
:用字典填充缺失值,key是每列的关键字,value是填充的值
-
- 对于Series对象: 同
3、让DataFrame输出结果整行显示或自定义显示
- 使用以下代码,根据自己需求进行调整
pd.set_option('display.height',1000) #显示高度
pd.set_option('display.max_rows',500) #显示最大行数
pd.set_option('display.max_columns',500) # 显示最大列数
pd.set_option('display.width',1000) #显示宽度