Pandas 学习笔记1 -- 基础使用
程序员文章站
2022-05-26 21:33:58
...
Pandas 学习笔记1 – 基础使用
一、安装Pandas
打开 cmd 使用 pip 安装
pip3 install pandas
Python导入Pandas
import pandas as pd
二、常用的API
1. 读取/加载文件
# 读取csv文件
df = pd.read_csv('file_name')
2. 查看文件信息
# 查看数据概况
df.info()
# 查看数值型列的数据分布汇总统计
df.describe()
# 查看行数和列数
df.shape()
# 查看头n行数据
df.head(n)
# 查看尾n行数据
df.tail(n)
# 查看标签/行名
df.index
# 查看列名
df.columns
# 查看数据内容
df.values
# 计算某一列的各个值的个数
df.列名.value_counts()
3. 访问数据
支持切片操作
# 通过行标签索引数据,等价于df.at[]
df.loc['行名':'行名', ['列名','列名']]
# 通过行号/位置索引数据,等价于df.iat[]
df.iloc[0:5, 2:4]
# 通过标签或者行号索引行数据(基于loc和iloc 的混合)
df.ix[]
# 布尔索引,得到满足条件的行
df[df.A > 0]
# 在某列查找某一元素所在行
df[df.iloc[: , 0].isin([元素值])]
4. 数据处理
# 根据标签排序,axis=0表示行排序,=1表示列排序
df.sort_index(axis=1, ascending=False)
# 根据值排序
df.sort_values(by='列名')
# 丢弃某行/列数据
df.drop('行/类索引',inplace=True)
# 丢弃NaN值
df.dropna(axis=0, how='any', inplace=True)
# 替换NaN值,加.列名可只替换该列的NaN值
df.fillna(value=0)
5. 保存数据
# 数据转为数据帧(DataFrame)对象
# 数据集为DataFrame格式时
data = pd.DataFrame([数据], index=['行名', '行名', ...)], columns=['列名', '列名', ...)])
# 数据集为numpy格式时
data = pd.DataFrame({'列名':[该列数据],'列名':[2,4]},index=['行名','行名'])
# 保存为csv文件
# index为False表示不保存行索引,header为False表示不保存列索引
data.to_csv("data.csv", index=False, header=False)