欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

Pandas数据处理基础2

程序员文章站 2024-01-24 17:03:04
...

数据读取

我们想要使用 Pandas 来分析数据,那么首先需要读取数据。大多数情况下,数据都来源于外部的数据文件或者数据库。Pandas 提供了一系列的方法来读取外部数据,非常全面。下面,我们以最常用的 CSV 数据文件为例进行介绍。
读取csv文件的方法是pandas.read_csv(),传入的参数是相对路径或者是网络URL

df=pd.read_csv("https://labfile.oss.aliyuncs.com/courses/906/los_census.csv")
df

输出结果(由于图片太大,仅截取部分):
Pandas数据处理基础2由于 CSV 存储时是一个二维的表格,那么 Pandas 会自动将其读取为 DataFrame 类型。DataFrame 是 Pandas 构成的核心。一切的数据,无论是外部读取还是自行生成,我们都需要先将其转换为 Pandas 的 DataFrame 或者 Series 数据类型。实际上,大多数情况下,这一切都是设计好的,无需执行额外的转换工作。
pd.read_ 前缀开始的方法还可以读取各式各样的数据文件,且支持连接数据库。

为什么要将数据转换为 Series 或者 DataFrame 结构?
因为 Pandas 针对数据操作的全部方法都是基于 Pandas 支持的数据结构设计的。也就是说,只有 Series 或者 DataFrame 才能使用 Pandas 提供的方法和函数进行处理。所以,学习真正数据处理方法之前,我们需要将数据转换生成为 Series 或 DataFrame 类型。

基本操作

通过上面的内容,我们已经知道一个 DataFrame 结构大致由 3 部分组成,它们分别是列名称、索引和数据。
Pandas数据处理基础2上面,我们已经读取了一个外部数据,这是洛杉矶的人口普查数据。有些时候,我们读取的文件很大。如果全部输出预览这些文件,既不美观,又很耗时。还好,Pandas 提供了 head() 和 tail() 方法,它可以帮助我们只预览一小块数据。

df.head()#默认显示前5条

输出结果:
Pandas数据处理基础2

df.tail(7)#指定显示后7条

输出结果:
Pandas数据处理基础2Pandas 还提供了统计和描述性方法,方便你从宏观的角度去了解数据集。describe() 相当于对数据集进行概览,会输出该数据集每一列数据的计数、最大值、最小值等。

df.describe()

输出结果:
Pandas数据处理基础2Pandas 基于 NumPy 开发,所以任何时候你都可以通过 .values 将 DataFrame 转换为 NumPy 数组。

df.values

输出结果:
Pandas数据处理基础2DataFrame支持的常见的属性:

df.index #查看索引

输出结果:
Pandas数据处理基础2

df.columns #查看列名

输出结果:
Pandas数据处理基础2

df.shape #查看形状

输出结果:
Pandas数据处理基础2