欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

python数据分析之numpy基础代码展示

程序员文章站 2022-06-25 10:57:47
python数据分析之numpy基础代码展示 #coding:utf-8 import scrapy import xlwt, lxml import re, json...

python数据分析之numpy基础代码展示

#coding:utf-8
import scrapy
import xlwt, lxml
import re, json,time
import matplotlib.pyplot as plt
import numpy as np
import pylab
from scipy import linalg

'''
points=np.arange(-5,5,0.01)
xs,ys=np.meshgrid(points,points)
print(xs)

z=np.sqrt(xs **2+ys**2)
print(z)
print(np.arange(32))
plt.imshow(xs,cmap=plt.cm.gray)
# plt.colorbar()
plt.title("haha")
pylab.show()
'''


'''利用数组进行数据处理 将条件逻辑表述为数组运算
列表推导的局限性
 纯python代码,速度不够快
 无法应用于高维数组
where 和where的嵌套
'''
# l=[i for i in np.arange(4).reshape(2,2)]
# #np.where(condition,x,y)如果条件成立执行x,否则执行y。另外,x和y可以继续写成np.where()的形式构成嵌套
# x=[i for i in np.arange(11,20)]
# y=[j for j in np.arange(21,30)]
# print(l)
# print(np.array(l))
# result=np.where(np.linalg.det(l)<0,x,y)
# print(result)
# print((np.array(l)>0).sum())
# bool=np.array(l)>0
# print(bool)
# print(bool.any())#有一个为True则返回True
# print(bool.all())#有一个为False则返回False
'''
关于zip函数的一点解释,zip可以接受任意多参数,然后重新组合成1个tuple列表。
zip([1, 2, 3], [4, 5, 6], [7, 8, 9])
返回结果:[(1, 4, 7), (2, 5, 8), (3, 6, 9)]
'''


'''
#排序sort()
#找到位置在5%的数字
large_arr=np.random.randn(1000)
large_arr.sort()
print(large_arr[int(0.05*len(large_arr))])

#去重以及其他集合运算
'''

'''
unique(x) 计算x中的唯一元素,并返回有序结果
intersectld(x,y) 计算x和y中的公共元素,并返回有序结果
unionld(x,y)计算x和y的并集,并返回有序结果
inld(x,y)得到一个表述“x的元素是否包含于y”的布尔数组
setdiffld(x,y) 集合的差,即元素在x中且不在y中
setxorld(x,y) 集合的异或,即存在于一个数组中但不同时存在于两个数组中的元素
'''
set_arr=np.array([1,1,2,3,4,5])
print(np.unique(set_arr))
set_arr2=np.unique(set_arr)
print(np.intersect1d(set_arr,set_arr2))

'''
#文件的输入输出
#arr=np.loadtxt('file.txt',delimiter=',') 读取csv
arr=np.arange(10)
#np.save('some_array',arr)
print(np.load('some_array.npy'))

np.savez('array_archive.npz',a=arr,b=arr)#多个数组压缩存储
arch=np.load('array_archive.npz')
print(arch['a'])
'''

'''
线性代数 常用的numpy.linalg函数
diag 以一维数组的形式返回方阵的对角线(或非对角线元素),或将一维数组转换为方阵(非对角线元素为0)
dot 矩阵乘法
trace 计算对角线元素的和
det 计算矩阵行列式
eig 计算方阵的特征值和特征向量
inv 计算方阵的逆
pinv 计算矩阵的Moore-Penrose伪逆
qr 计算QR分解
svd 计算奇异值分解
solve 解线性方程Ax=b,其中A为一个方阵
lstsq 计算Ax=b的最小二乘解
'''

#数组重塑 reshape()
'''
#数组的合并与拆分
concatenate 最一般化的连接,沿一条轴连接一维数组 [两个数组连接的axis需要规格一致]
vstack,row_stack 以面向行的方式对数组进行堆叠(沿轴0)
hstack 以面向行的方式对数组进行堆叠(沿轴1)
column_stack 类似于hstack,但会先将一维数组转换为二维列向量
dstack 以面向“深度”的方式对数组进行堆叠(沿轴2)
split 沿指定轴在指定的位置拆分数组
hsplit,vsplit,dsplit split的便捷化函数,分别沿着轴0,1,2进行拆分
'''
# r_对象
# c_对象

arr1=np.arange(1,7).reshape((2,3))
arr2=np.arange(7,13).reshape((2,3))
arr3=np.arange(13,28).reshape((5,3))
#
# print(arr1)
# print(arr2)
#连接
# print(np.concatenate([arr1,arr2],0))
# print(np.concatenate([arr1,arr2],1))
# # print(np.concatenate([arr1,arr3],0))
#
# #堆叠
# print(np.vstack((arr1,arr2)))#垂直堆叠
# print(np.hstack((arr1,arr2)))#水平堆叠

#拆分
print(np.split(arr3,[0,1],axis=1))
arr4=np.random.randn(5,5)
print(arr4)
first,second,third=np.split(arr4,[1,3],axis=0)#其中[1,3]为下刀的位置
# first,second,third=np.split(arr4,[1,3],axis=1)
print(first)
print('888888888888')
print(second)
print('888888888888')
print(third)
print('888888888888')

#堆叠辅助类

arr5=np.arange(6).reshape((3,2))
arr6=np.random.randn(3,2)
#r_用于按行堆叠
print(np.r_[arr5,arr6])

#c_用于按列堆叠
print(np.c_[np.r_[arr5,arr6],np.arange(6)])

#切片直接转为数组
print(np.c_[1:6,-10:-5])

#元素的重复操作
print(arr5.repeat(3))#按元素
print(arr5.repeat([1,2,3,4,5,6]))#按元素,长度要匹配

#repeat(n,axis)指定轴
print(arr5.repeat(2,0))#按行
print(arr5.repeat(2,1))#按列

#tile
print(np.tile(arr5,(2)))#贴瓷砖
print(np.tile(arr5,(2,3)))#指定每个轴的tile次数

#距离矩阵计算
#给定mxn阶矩阵X,满足X=[x1,x2,...,xn],这里第i列向量是m维向量。  求nxn矩阵,使得Dij=||Xi-Xj||^2
X = np.array([range(0, 500), range(500, 1000)])
m, n = X.shape

t = time.time()
D = np.zeros([n, n])
for i in range(n):
 for j in range(i + 1, n):
  D[i, j] = linalg.norm(X[:, i] - X[:, j]) ** 2
  D[j, i] = D[i, j]
print(time.time() - t)

t = time.time()
D = np.zeros([n, n])
for i in range(n):
 for j in range(i + 1, n):
  d = X[:, i] - X[:, j]
  D[i, j] = np.dot(d, d)
  D[j, i] = D[i, j]
print(time.time() - t)

t = time.time()
G = np.dot(X.T, X)
D = np.zeros([n, n])
for i in range(n):
 for j in range(i + 1, n):
  D[i, j] = G[i, i] - G[i, j] * 2 + G[j,j]
  D[j, i] = D[i, j]
print(time.time() - t)

t = time.time()
G = np.dot(X.T, X)
H = np.tile(np.diag(G), (n, 1))
D = H + H.T - G * 2
print(time.time() - t)