python pandas库的安装和创建

程序员文章站 2022-07-18 20:26:30

pandas 对于数据分析的人员来说都是必须熟悉的第三方库，pandas 在科学计算上有很大的优势，特别是对于数据分析人员来说，相当的重要。python中有了numpy ，...

pandas 对于数据分析的人员来说都是必须熟悉的第三方库，pandas 在科学计算上有很大的优势，特别是对于数据分析人员来说，相当的重要。python中有了numpy ，但是numpy 还是比较数学化，还需要有一种库能够更加具体的代表数据模型，我们都非常的清楚在数据处理中excel 扮演着非常重要的作用，表格的模式是数据模型最好的一种展现形式。

pandas 是对表格数据模型在python上的模拟，它有简单的像sql 对数据的处理，能够方便的在python上实现。

pandas 的安装

pandas 在python上的安装同样的使用pip进行：

pip install pandas

pandas 创建对象

pandas 有两种数据结构：series 和 dataframe 。

series

series 像python中的数据list 一样，每个数据都有自己的索引。从list创建 series。

>>> import pandas as pd
>>> s1 = pd.series([100,23,'bugingcode'])
>>> s1
0   100
1   23
2 bugingcode
dtype: object
>>>

在series 中添加相应的索引：

>>> import numpy as np
>>> ts = pd.series(np.random.randn(365), index=np.arange(1,366))
>>> ts

在index中设置索引值是一个从1到366的值。

series 的数据结构最像的是python中的字典，从字典中创建series：

sd = {'xiaoming':14,'tom':15,'john':13}
s4 = pd.series(sd)

这时候可以看到series 已经是自带索引index。

pandas 本身跟 python的另外一个第三方库matplotlib 有很多的连接，matplotlib 一个最经常用到的是用来展示数据的，如果还对matplotlib 不了解的话，后面的章节会进行介绍，现在先拿过来直接用下，如果还没有安装的话，一样的用pip命令安装 pip install matplotlib ，展示如下数据：

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

ts = pd.series(np.random.randn(365), index=np.arange(1,366))
ts.plot()
plt.show()

python pandas库的安装和创建

一个不规则的图形，在数据分析中，时间是一个重要的特性，因为很多数据都是跟时间是有关系的，销售额跟时间有关系，天气跟时间有关系。。。，在pandas 中也提供了关于时间的一些函数，使用date_range 生成一系列时间。

>>> pd.date_range('01/01/2017',periods=365)
datetimeindex(['2017-01-01', '2017-01-02', '2017-01-03', '2017-01-04',
    '2017-01-05', '2017-01-06', '2017-01-07', '2017-01-08',
    '2017-01-09', '2017-01-10',
    ...
    '2017-12-22', '2017-12-23', '2017-12-24', '2017-12-25',
    '2017-12-26', '2017-12-27', '2017-12-28', '2017-12-29',
    '2017-12-30', '2017-12-31'],
    dtype='datetime64[ns]', length=365, freq='d')
>>>

之前我们的图形不规则，有一个原因是数据不是连续的，使用cumsum让数据连续：

如下：

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

ts = pd.series(np.random.randn(365), index=pd.date_range('01/01/2017',periods=365))
ts = ts.cumsum()
ts.plot()
plt.show()

python pandas库的安装和创建

dataframe

dataframe 相当于series 一维的一个扩展，是一种二维的数据模型，相当于excel表格中的数据，有横竖两种坐标，横轴很series 一样使用index，竖轴用columns 来确定，在建立dataframe 对象的时候，需要确定三个元素：数据，横轴，竖轴。

df = pd.dataframe(np.random.randn(8,6), index=pd.date_range('01/01/2018',periods=8),columns=list('abcdef'))
print df

数据如下：

     a   b   c   d   e   f
2018-01-01 0.712636 0.546680 -0.847866 -0.629005 2.152686 0.563907
2018-01-02 -1.292799 1.122098 0.743293 0.656412 0.989738 2.468200
2018-01-03 1.762894 0.783614 -0.301468 0.289608 -0.780844 0.873074
2018-01-04 -0.818066 1.629542 -0.595451 0.910141 0.160980 0.306660
2018-01-05 2.008658 0.456592 -0.839597 1.615013 0.718422 -0.564584
2018-01-06 0.480893 0.724015 -1.076434 -0.253731 0.337147 -0.028212
2018-01-07 -0.672501 0.739550 -1.316094 1.118234 -1.456680 -0.601890
2018-01-08 -1.028436 -1.036542 -0.459044 1.321962 -0.198338 -1.034822

在数据分析的过程中，很常见的一种情况是数据直接从excel 或者cvs 过来，可以excel中读取数据到dataframe ，数据在 dataframe 中进行处理：

df = pd.read_excel('data.xlsx',sheet_name= 'sheet1')
print df

同样的有保存数据到excel 中 to_excel。

处理cvs数据的函数是：read_cvs 和 to_cvs ，处理hdf5的函数为 read_hdf 和 to_hdf 。

访问dataframe 可以跟二位数组一样的访问方式：

print df['a']

带出横轴标签：

2018-01-01 0.712636
2018-01-02 -1.292799
2018-01-03 1.762894
2018-01-04 -0.818066
2018-01-05 2.008658
2018-01-06 0.480893
2018-01-07 -0.672501
2018-01-08 -1.028436

同样的可以指定某一个元素：

print df['a']['2018-01-01']

对数组进行切片出来，认清横轴和纵轴：

>>> import pandas as pd
>>> df = pd.read_excel('data.xlsx',sheet_name= 'sheet1')
>>> df[:][0:3]
     a   b   c   d   e   f
2018-01-01 0.712636 0.546680 -0.847866 -0.629005 2.152686 0.563907
2018-01-02 -1.292799 1.122098 0.743293 0.656412 0.989738 2.468200
2018-01-03 1.762894 0.783614 -0.301468 0.289608 -0.780844 0.873074
>>>

dataframe 涉及的较多的函数，接下来会有更多的介绍。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持。

上一篇： Docker CentOS7的系统上安装部署以及基础教程

下一篇：咸鱼如何翻身？2017互联网下的站长生存指南

python pandas库的安装和创建

python pandas 对series和dataframe的重置索引reindex方法

Python使用cx_Freeze库生成msi格式安装文件的方法

python库lxml在linux和WIN系统下的安装

在Mac OS系统上安装Python的Pillow库的教程

Google开源的Python格式化工具YAPF的安装和使用教程

python安装numpy和pandas的方法步骤

CentOS下Python3的安装及创建虚拟环境的方法

记录安装Python第三方包“tesserocr”的方法和遇到的坑

详解python第三方库的安装、PyInstaller库、random库

python+pandas生成指定日期和重采样的方法