欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

Pandas 学习笔记1 -- 基础使用

程序员文章站 2022-05-26 21:33:58
...

Pandas 学习笔记1 – 基础使用


官方英文文档
官方文档PDF下载
中文文档


一、安装Pandas

打开 cmd 使用 pip 安装

pip3 install pandas

Python导入Pandas

import pandas as pd

二、常用的API

1. 读取/加载文件

# 读取csv文件
df = pd.read_csv('file_name')

2. 查看文件信息

# 查看数据概况
df.info()

# 查看数值型列的数据分布汇总统计
df.describe()

# 查看行数和列数
df.shape()

# 查看头n行数据
df.head(n)

# 查看尾n行数据
df.tail(n)

# 查看标签/行名
df.index

# 查看列名
df.columns

# 查看数据内容
df.values

# 计算某一列的各个值的个数
df.列名.value_counts()

3. 访问数据

支持切片操作

# 通过行标签索引数据,等价于df.at[]
df.loc['行名':'行名', ['列名','列名']]

# 通过行号/位置索引数据,等价于df.iat[] 
df.iloc[0:5, 2:4]

# 通过标签或者行号索引行数据(基于loc和iloc 的混合)
df.ix[]

# 布尔索引,得到满足条件的行
df[df.A > 0]

# 在某列查找某一元素所在行
df[df.iloc[: , 0].isin([元素值])]

4. 数据处理

# 根据标签排序,axis=0表示行排序,=1表示列排序
df.sort_index(axis=1, ascending=False)

# 根据值排序
df.sort_values(by='列名')

# 丢弃某行/列数据
df.drop('行/类索引',inplace=True)

# 丢弃NaN值
df.dropna(axis=0, how='any', inplace=True)

# 替换NaN值,加.列名可只替换该列的NaN值
df.fillna(value=0)

5. 保存数据

# 数据转为数据帧(DataFrame)对象
# 数据集为DataFrame格式时
data = pd.DataFrame([数据], index=['行名', '行名', ...)], columns=['列名', '列名', ...)])

# 数据集为numpy格式时
data = pd.DataFrame({'列名':[该列数据],'列名':[2,4]},index=['行名','行名'])

# 保存为csv文件
# index为False表示不保存行索引,header为False表示不保存列索引
data.to_csv("data.csv", index=False, header=False)