欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

Pandas数据处理基础3

程序员文章站 2024-01-24 17:12:58
...

数据选择

在数据预处理过程中,我们往往会对数据集进行切分,只将需要的某些行、列,或者数据块保留下来,输出到下一个流程中去。这也就是所谓的数据选择,或者数据索引。

基于索引数字的选择

当我们新建一个 DataFrame 之后,如果未自己指定行索引或者列对应的标签,那么 Pandas 会默认从 0 开始以数字的形式作为行索引,并以数据集的第一行作为列对应的标签。其实,这里的「列」也有数字索引,默认也是从 0 开始,只是未显示出来。

Pandas 中的 .iloc 方法。该方法可以接受的类型有:

1.整数。例如:5
2.整数构成的列表或数组。例如:[1, 2, 3]
3.布尔数组。
4.可返回索引值的函数或参数。
df.iloc[:3] #选择前三行数据

输出结果:
Pandas数据处理基础3

df.iloc[5] #选择指定行

输出结果:
Pandas数据处理基础3

df.iloc[[1,3,5]] #选择多行,比如1,3,5行

输出结果:
Pandas数据处理基础3

df.iloc[:, 1:4] #选择2-4列

输出结果(由于图片太大,仅截取部分):
Pandas数据处理基础3

基于标签名称选择

除了根据数字索引选择,还可以直接根据标签对应的名称选择。这里用到的方法和上面的 iloc 很相似,少了个 i 为 df.loc[]
df.loc[] 可以接受的类型有:

1.单个标签。例如:2 或 'a',这里的 2 指的是标签而不是索引位置。
2.列表或数组包含的标签。例如:['A', 'B', 'C']。
3.切片对象。例如:'A':'E',注意这里和上面切片的不同支持,首尾都包含在内。
4.布尔数组。
5.可返回标签的函数或参数。
df.loc[0:2] #选择前3行

输出结果:
Pandas数据处理基础3

df.loc[[0,2,4]] #选择1,3,5行

输出结果:
Pandas数据处理基础3

df.loc[:,'Total Population':'Total Males'] #选择2-4列

输出结果(由于图片太大,仅截取部分):
Pandas数据处理基础3

df.loc[[0,2],'Median Age':] #选择 1,3 行和 Median Age 后面的列

输出结果:
Pandas数据处理基础3