欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

pandas数据分析包简介

程序员文章站 2022-03-08 15:51:17
pandas数据分析包简介pandas是基于numpy的一个数据分析包.它的数据结构与numpy的ndarry数据结构类似,它的核心数据结构为series(一维数据结构)和datafram(二维数据结构).pandas 的操作流程1.表格数据的增删改查2.实现多表格处理3.数据清洗操作:缺失值,重复值,异常值,数据标准化,数据转换操作,4.实现excel的特殊操作,生成透视表,交叉表5.完成统计分析构建dataframe# 方法一df = pd.DataFrame(data=[['ss...

pandas数据分析包简介

pandas是基于numpy的一个数据分析包.它的数据结构与numpy的ndarry数据结构类似,它的核心数据结构为series(一维数据结构)和datafram(二维数据结构).

pandas 的操作流程

1.表格数据的增删改查

2.实现多表格处理

3.数据清洗操作:

缺失值,重复值,异常值,数据标准化,数据转换操作,

4.实现excel的特殊操作,生成透视表,交叉表

5.完成统计分析

构建dataframe

# 方法一
df = pd.DataFrame(data=[['ss', 20, '男'], ['hh',20 , '男']],index = ['a','b'],colums=['name', 'age', 'sex'])
# 方法二
df = pd.DataFrame(data={'name': ['ss', 'lx'], 'sex': ['男', '女'], 'age': [20, 21], 'class': ['0831', '0931']},
                  index=['a', 'b'])

dataframe的属性

因为pandas基于numpy,因此,numpy的ndarray的属性,dataframe也同样具有,

df.shape # 结构
df.ndim # 维度
df.size # 数量
df.dtypes # 元素的数据类型
df.columns # 列索引
df.index # 行索引
df.values # 元素

df 的增删改查

df的查找
切一列值方法:
  ser = df['name']
切多列值的方法:
  df[['name','age']][:2]
索引名取值
df.loc[行索引名称/条件, 列的索引名称]
条件切片
mask = df['age'] > 18
df.loc[mask, 'name']
索引取值
df.iloc[行的位置索引, 列的位置索引]
df 增加
增加一列
df['address'] = ['北京','上海','北京'] # 修改原df
增加一行
df_mini = pd.DataFrame(data={'name':['ss','lx'],
                   'age':[20, 18], 
                   'sex':['男','女'], 
                   'class':['0831','0830']},index=['a','b'])
df3 = df.append(df_mini,ignore_index=True ) 
#ignore_index: 表示忽略原始索引,重新设置索引
df删除
# 删除列,inplace: 表示是否对原表进行修改,True为直接修改原始表格, False为不修改;
df3.drop(labels=['address','class'], axis=1)
df更改数值
df.loc[df['name']=='lx', 'class'] = '有问题'

统计分析方法

pandas用到的统计分析方法大多是numpy中的数据分析方法

np.mean(df['age'])
np.ptp(df['age'])

pandas中的方法

df['age'].min() # 最小值
df['age'].max() # 最大值
df['age'].std() # 极差
df['age'].argmax()# 只能在series中使用
df['name'],mode() # 众数
df['name'].count() # 非空数目
df['name'].value_counts() # 只能在series中使用

Exel文件的读取

pandas可以读取多种数据类型,这里介绍下读取excel数据的操作方法

pd.read_excel(r'文件路径')

本文地址:https://blog.csdn.net/weixin_50022322/article/details/111938822