欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

Pandas数据处理基础1

程序员文章站 2024-01-24 18:08:58
...

介绍

Pandas 是非常著名的开源数据处理库,我们可以通过它完成对数据集进行快速读取、转换、过滤、分析等一系列操作。除此之外,Pandas 拥有强大的缺失数据处理与数据透视功能,可谓是数据预处理中的必备利器。

数据类型

Pandas 的数据类型主要有以下几种,它们分别是:Series(一维数组),DataFrame(二维数组),Panel(三维数组),Panel4D(四维数组),PanelND(更多维数组)。其中 Series 和 DataFrame 应用的最为广泛,几乎占据了使用频率 90% 以上。

Series

Series 是 Pandas 中最基本的一维数组形式。其可以储存整数、浮点数、字符串等类型的数据。Series 基本结构如下:

pandas.Series(data=None, index=None)

其中,data 可以是字典,或者NumPy 里的 ndarray 对象等。index 是数据索引,索引是 Pandas 数据结构中的一大特性,它主要的功能是帮助我们更快速地定位数据。
比如:

import numpy as np
s=pd.Series(np.random.randn(5))
s

DataFrame

DataFrame 是 Pandas 中最为常见、最重要且使用频率最高的数据结构。DataFrame 和平常的电子表格或 SQL 表结构相似。你可以把 DataFrame 看成是 Series 的扩展类型,它仿佛是由多个 Series 拼合而成。它和 Series 的直观区别在于,数据不但具有行索引,且具有列索引。

Pandas数据处理基础1DataFrame 基本结构如下:

pandas.DataFrame(data=None, index=None, columns=None)

区别于 Series,其增加了 columns 列索引。DataFrame 可以由以下多个类型的数据构建:

一维数组、列表、字典或者 Series 字典。
二维或者结构化的 numpy.ndarray。
一个 Series 或者另一个 DataFrame。

比如:
指定索引:

df = pd.DataFrame({'one': pd.Series([1, 2, 3]),
                   'two': pd.Series([4, 5, 6])})
df

不指定索引:

df=pd.DataFrame({'one':[1,2,3],
                'two':[4,5,6]})
df

或者

df=pd.DataFrame([{'one':1,'two':4},
                 {'one':2,'two':5},
                 {'one':3,'two':6}])
df

或者

pd.DataFrame(np.random.randint(5,size=(2,4)))

常用的 Series 和 DataFrame 数据类型,二者的核心区别是 Series 没有列索引
比如:

pd.Series(np.random.randint(5,size=(5,)))

输出结果:

0    3
1    2
2    3
3    3
4    0
dtype: int64
pd.DataFrame(np.random.randint(5,size=(5,)))

输出结果:

 	0
0 	0
1 	2
2 	4
3 	4
4 	3