欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

Pandas数据分析——从0.5到1学习指南

程序员文章站 2022-03-09 20:30:56
...

 注:本文是学习+整理的原创喔 

 基础部分

import pandas as pd
import numpy as np

设置行列最大数

pd.set_option('max_column',8,'max_rows',10)

文件读取:pd.read_csv

DataFrame组件访问:data.colunms   data.index   data.values

type查看数据类型或行列属性;data.['属性名']亦可

调用Series方法pd.Series

最大显示行数:pd.set_option('max_rows',8)

属性值出现次数:columns.value_counts()

属性值中位分位数:columns.quantile()

data.min(skipna=False) 参数说明:只计算非缺失值列         .max()    .mean()    .median()       .std()    .sum() 分别查看最小值、最大值、平均值、中位数、标准差、总和

data.isnull()查看空值       .isnull().mean()查看空值比例       属性.fillna(0)填补空值      属性.dropna()删除空值

data.value_counts(normalize=True) 查看每个值出现的频率

data.hasnans 判断是否有缺失值          属性.notnull()判断是否为非缺失值   

data可直接进行四则运算+ - * /

.add()加法    .mul()乘法    .floordiv()底除    .gt()筛选大于    .eq()筛选等于  .mod取模长 

括号串联筛选示例:(data.fillna(0).astype(int).head())

增加列名:data['列名']=0   注:也可使用insert()方法直接插入列与值

data.all()检查是否所有布尔值都为ture

筛选数据

筛选多列:data[['a','b']]  或者

pd.DataFrame(data,columns=['Height','Weight'])

筛选特定数据列:data.select_dtypes(include=['输入要筛选的数据类型']).head()

.ndim() 查看数据维度

数据分析部分

 

(明天接着写~)