NumPy库的介绍与使用教程

程序员文章站 2023-08-23 12:07:49

“实践是检验真理的唯一标准”。对我个人来讲，学习任何一门python语言的库最好的方法就是实践。所以我希望当你在读我这篇文章的时候能够拿出你的电脑，一边阅读一边实践。NumPy库简介NumPy(Numerical Python) 是 Python 语言的一个扩展程序库。其中提供了许多向量和矩阵操作，能让用户轻松完成最优化、线性代数、积分、...

“实践是检验真理的唯一标准”。对我个人来讲，学习任何一门python语言的库最好的方法就是实践。所以我希望当你在读我这篇文章的时候能够拿出你的电脑，一边阅读一边实践。

NumPy库简介

       NumPy(Numerical Python)是 Python 语言的一个扩展程序库。其中提供了许多向量和矩阵操作，能让用户轻松完成最优化、线性代数、积分、插值、特殊函数、傅里叶变换、信号处理和图像处理、常微分方程求解以及其他科学与工程中常用的计算，不仅方便易用而且效率更高。
       NumPy 的前身 Numeric 最早是由 Jim Hugunin 与其他协作者共同开发。2005 年，Travis Oliphant 在 Numeric 中结合了另一个同性质的程序库 Numarray 的特色，并加入了其它扩展而开发了 NumPy。NumPy 为开放源代码并且由许多协作者共同维护开发。
       NumPy 是一个开源的Python科学计算基础库，是SciPy、Pandas等数据处理或科学计算库的基础。包含：

一个强大的N维数组对象 ndarray
广播功能函数
整合 C/C++/Fortran 代码的工具
线性代数、傅里叶变换、随机数生成等功能

NumPy库入门

1.数据的维度

一个数据表达一个含义；一组数据表达一个或多个含义。维度是一组数据的组织形式。

一维数据由对等关系的有序或无需数据构成，采用线性方式组织，对应列表、数组和集合等概念。其中，列表和数组都是一维数据的有序结构。列表：数据类型可以不同；数组：数据类型可以相同。
二维数据由多个一维数据构成，是一维数据的组合形式，表格是典型的二维数据。
多维数据由一维或二维数据在新维度上扩展形成。
高维数据仅利用最基本的二元关系展示数据间的复杂结构。

对于数据维度的Python表示，一维数据可以用列表或集合类型表示；二维或多维可以用列表类型表示；高维数据可以用字典或数据表示格式表示。目前，国际公认的数据表示格式有三种，分别是JSON、XML和YMAL格式。

2.NumPy的数组对象：ndarray

(1)NumPy的引用

import numpy as np

尽管别名可以省略或者更改，但是为了编程过程中更加简洁以及符合大多程序员的习惯，建议使用上述约定的别名。

(2)为什么要引入ndarry呢？
我们先来看一个例子：计算A的平方＋B的三次方，其中，A和B是一维数组。
传统写法：

def pySum():
    a = [0,1,2,3,4]
    b = [9,8,7,6,5]
    c = []
    for i in range(len(a)):
        c.append(a[i]**2 + b[i]**3)
    return c

print(pySum())
[729, 513, 347, 225, 141]

使用NumPy写法：

def npSum():
    a = np.array([0,1,2,3,4])
    b = np.array([9,8,7,6,5])
    c = a**2 + b**3
    return c

print(npSum())
[729 513 347 225 141]

从中可以看出，①数组对象可以去掉元素运算所需的循环，使一维向量更像单个数据；②由于NumPy的底层是由c语言实现的，所以设置专门的数组对象，经过优化，可以提升这类应用的运算速度；通过观察，在科学计算中，一个维度所有数据的类型往往相同。③数组对象采用相同的数据类型，有助于节省运算和存储空间。

(3)ndarray是一个多维数组对象
由两部分构成：①实际的数据；②描述这些数据的元数据(数据维度、数据类型等)。
np.array()生成一个ndarray数组：
NumPy库的介绍与使用教程
●ndarray数组一般要求所有元素类型相同(同质)，数组下标从0开始。
●ndarray在程序中的别名是：array。
●np.array()输出成[]形式，元素由空格分割。
●ndarray有两个基本的概念：①轴(axis)：保存数据的维度；②秩(rank)：轴的数量，即这个数组有多少个维度。

(4)ndarray对象的属性
NumPy库的介绍与使用教程

a = np.array([[0,1,2,3,4],
              [9,8,7,6,5]])

a.ndim
Out[15]: 2 #一共有2个维度

a.shape
Out[16]: (2, 5) #第一个维度有两个方向，第二个维度有5个元素

a.size
Out[17]: 10 #一共有10个元素

a.dtype
Out[18]: dtype('int32') #这是一个32位的整数类型

a.itemsize
Out[19]: 4 #每个元素由4个字节构成

(5)ndarray数组的元素类型
NumPy库的介绍与使用教程

ndarray为什么要支持这么多种元素类型?
对比：Python语法仅支持整数、浮点数和复数3种类型。
●科学计算涉及数据较多，对存储和性能都有较高要求。
●对元素类型精细定义，有助于NumPy合理使用存储空间并优化性能。
●对元素类型精细定义，有助于程序员对程序规模有合理评估。

(6)ndarray数组可以由非同质对象构成

x = np.array([[0,1,2,3,4],
              [9,8,7,6]])

x.shape
Out[26]: (2,) #只有一个维度分析

x.dtype
Out[27]: dtype('O') #将每个元素看成一个对象类型

x
Out[28]: array([list([0, 1, 2, 3, 4]), list([9, 8, 7, 6])], dtype=object)

x.ndim
Out[29]: 1

x.size
Out[30]: 2 #一共有两个元素(对象)

x.itemsize
Out[31]: 8

非同质ndarray对象无法有效的发挥NumPy优势，尽量避免使用。

3.ndarray数组的创建

ndarray数组的创建方法
●从Python中的列表、元组等类型创建ndarray数组。
●使用NumPy中函数创建ndarray数组，如：arange，ones，zeros等。
●从字节流(raw bytes)中创建ndarray数组。
●从文件中读取特定格式，创建ndarray数组。

(1)从Python中的列表、元组等类型创建ndarray数组
当np. array()不指定dtype时，NumPy将根据数据情况关联一个dtype类型。
x = np.array(list/tuple)
x = np.array(list/tuple, dtype=np.float32)

x = np.array([0,1,2,3]) #从列表类型创建
print(x)
[0 1 2 3]

x = np.array((4,5,6,7)) #从元组类型创建
print(x)
[4 5 6 7]

x = np.array([[1,2],[9,8],(0.1,0.2)]) #从列表和元组混合类型创建
print(x)
[[1.  2. ]
 [9.  8. ]
 [0.1 0.2]]

(2)使用NumPy中函数创建ndarray数组
NumPy库的介绍与使用教程

np.arange(10)
Out[40]: array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]) #注意元素是0-9

np.ones((3,6)) #中间是元组类型
Out[41]: 
array([[1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1.]])

np.zeros((3,6)) #中间是元组类型
Out[42]: 
array([[0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.]])

np.eye(5)
Out[43]: 
array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

np.full(5,1)
Out[44]: array([1, 1, 1, 1, 1])
np.full((3,4),1)
Out[45]: 
array([[1, 1, 1, 1],
       [1, 1, 1, 1],
       [1, 1, 1, 1]])

x = np.ones((2,3,4))
print(x)
[[[1. 1. 1. 1.]
  [1. 1. 1. 1.]
  [1. 1. 1. 1.]]

 [[1. 1. 1. 1.]
  [1. 1. 1. 1.]
  [1. 1. 1. 1.]]]
  
x.shape #注意这个shape
Out[50]: (2, 3, 4)

NumPy库的介绍与使用教程

x.shape
Out[50]: (2, 3, 4)

np.ones_like(x)
Out[51]: 
array([[[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]],

       [[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]]])
        
np.zeros_like(x)
Out[53]: 
array([[[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]],

       [[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]]])
        
np.full_like(x,3)
Out[56]: 
array([[[3., 3., 3., 3.],
        [3., 3., 3., 3.],
        [3., 3., 3., 3.]],

       [[3., 3., 3., 3.],
        [3., 3., 3., 3.],
        [3., 3., 3., 3.]]])

(3)使用NumPy中其他函数创建ndarray数组
NumPy库的介绍与使用教程

a = np.linspace(1,10,4) #起始数据，终止数据(包含)，元素个数

a
Out[58]: array([ 1.,  4.,  7., 10.])

b = np.linspace(1,10,4,endpoint=False) #相当于先多生成一个元素，再去掉终止数据

b
Out[59]: array([1.  , 3.25, 5.5 , 7.75])

c = np.concatenate((a,b))

c
Out[60]: array([ 1.  ,  4.  ,  7.  , 10.  ,  1.  ,  3.25,  5.5 ,  7.75])

4.ndarray数组的变换

对于创建后的ndarray数组，可以对其进行维度变换和元素类型变换。
(1)ndarray数组的维度变换
NumPy库的介绍与使用教程

a  = np.ones((2,3,4),dtype=np.int32)

a.reshape((3,9)) #维度变换元素个数必须相同
ValueError: cannot reshape array of size 24 into shape (3,9)

a.reshape((3,8))
Out[67]: 
array([[1, 1, 1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1, 1, 1]])

a #原数组不变
Out[68]: 
array([[[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]],

       [[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]]])

a.resize((3,8))

a #原数组改变
Out[70]: 
array([[1, 1, 1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1, 1, 1]])

b  = np.ones((2,3),dtype=np.int32)

b.flatten()
Out[73]: array([1, 1, 1, 1, 1, 1])

b #原数组不变
Out[74]: 
array([[1, 1, 1],
       [1, 1, 1]])

(2)ndarray数组的类型变换
astype方法一定会创建新的数组，即使两个类型一致(原始数据的一个拷贝)。
new_ a = a.astype(new type)

a = np.ones((2,3,4),dtype=np.int) #np.int表示整数类型这一类

a
Out[76]: 
array([[[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]],

       [[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]]])

b = a.astype(np.float)

b
Out[78]: 
array([[[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]],

       [[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]]])

a
Out[79]: 
array([[[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]],

       [[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]]])

(3)ndarry数组向列表的转换
ls = a.tolist()

a = np.full((2,3,4),25,dtype=np.int32)

a
Out[81]: 
array([[[25, 25, 25, 25],
        [25, 25, 25, 25],
        [25, 25, 25, 25]],

       [[25, 25, 25, 25],
        [25, 25, 25, 25],
        [25, 25, 25, 25]]])

a.tolist()
Out[82]: 
[[[25, 25, 25, 25], [25, 25, 25, 25], [25, 25, 25, 25]],
 [[25, 25, 25, 25], [25, 25, 25, 25], [25, 25, 25, 25]]]

5.nadarry数组的操作

nadarry数组的操作包括数组的索引和切片。①索引：获取数组中特定位置元素的过程；②切片：获取数组元素子集的过程。
(1)一维数组的索引和切片
与Python的列表类似

a = np.array([9,8,7,6,5])

a[2] #编号0开始从左递增，或-1开始从右递减
Out[85]: 7

a[1:4:2] #起始编号：终止编号(不含)：步长
Out[86]: array([8, 6])

(2)多维数组的索引

 a = np.arange(24).reshape((2,3,4))

a
Out[88]: 
array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]],

       [[12, 13, 14, 15],
        [16, 17, 18, 19],
        [20, 21, 22, 23]]])

a[1,2,3] #每个维度一个索引值，逗号分割
Out[89]: 23

a[0,1,2]
Out[90]: 6

a[-1,-2,-3]
Out[91]: 17

(3)多维数组的切片

a = np.arange(24).reshape((2,3,4))

a
Out[93]: 
array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]],

       [[12, 13, 14, 15],
        [16, 17, 18, 19],
        [20, 21, 22, 23]]])

a[:, 1, 3] #选取一个维度用：
Out[94]: array([ 7, 19])

a[:, 1:3, :] #每个维度切片与一维数组相同
Out[95]: 
array([[[ 4,  5,  6,  7],
        [ 8,  9, 10, 11]],

       [[16, 17, 18, 19],
        [20, 21, 22, 23]]])

a[:, :, ::2] #每个维度可以使用步长跳跃切片
Out[96]: 
array([[[ 0,  2],
        [ 4,  6],
        [ 8, 10]],

       [[12, 14],
        [16, 18],
        [20, 22]]])

6.nadarry数组的运算

(1) 数组与标量之间的运算
数组与标量之间的运算作用于数组的每一个元素

a = np.arange(24).reshape((2,3,4))

a
Out[97]: 
array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]],

       [[12, 13, 14, 15],
        [16, 17, 18, 19],
        [20, 21, 22, 23]]])

a.mean()
Out[98]: 11.5

a = a / a.mean() #计算a与元素平均值的商

a
Out[99]: 
array([[[0.        , 0.08695652, 0.17391304, 0.26086957],
        [0.34782609, 0.43478261, 0.52173913, 0.60869565],
        [0.69565217, 0.7826087 , 0.86956522, 0.95652174]],

       [[1.04347826, 1.13043478, 1.2173913 , 1.30434783],
        [1.39130435, 1.47826087, 1.56521739, 1.65217391],
        [1.73913043, 1.82608696, 1.91304348, 2.        ]]])

(2)NumPy一元函数
对ndarray中的数据执行元素级运算的函数
NumPy库的介绍与使用教程

(3)NumPy二元函数

在这里我就不举例子了，函数不需要我们记住，需要使用的可以自己查看，但我们要注意使用函数之后数组是否被真实改变。
本文内容参考：
中国大学慕课北京理工大学嵩天老师所讲的Python数据分析与展示
后续将会推出NumPy库的介绍与使用教程(二）
如有错误或者不足之处，欢迎大家留言指正！