听课笔记--Python数据分析--Numpy基础及基本应用
程序员文章站
2022-01-09 09:50:00
'''@Author: Liang@LastEditors: Liang@Date: 2020-07-26 19:16:40@LastEditTime: 2020-07-28 20:26:31@Email: str-liang@outlook.com@FilePath: /undefinede:/Python数据分析/Numpy基础及基本应用.py@Environment: Win 10 Python 3.8@Description: Numpy基础及基本应用 '''# 一维二维三维....
'''
@Author: Liang
@LastEditors: Liang
@Date: 2020-07-26 19:16:40
@LastEditTime: 2020-07-28 20:26:31
@Email: str-liang@outlook.com
@FilePath: /undefinede:/Python数据分析/Numpy基础及基本应用.py
@Environment: Win 10 Python 3.8
@Description: Numpy基础及基本应用
'''
# 一维二维三维数组
"""
数据收集:
爬虫
公开数据(披露数据-如财报等)
其他途径的数据
"""
"""
数据预处理的方法:
1、归一化
2、二值化
3、维度变换
4、去重
5、无效数据过滤
"""
"""
数据-处理的方法:
1、数据排序
2、数据查找
3、数据统计分析
"""
# 为什么要用Numpy?
# 高性能、开源、数组运算、读写迅速
import numpy as np
import time
# 如果抽象成这样:aeb
# 要求a不能不写,也就是说是1也要写上
# b必须是整数.
# 实现上就是 a*10^b
# a乘以10的b次方
# 所以楼主的就是1*10^6 也就是一百万的数据量
"""
list_array = list(range(int(1e6)))
start_time = time.time()
python_array = [val * 5 for val in list_array]
end_time = time.time()
print('Python array time:{} ms(毫秒)'.format(round((end_time - start_time)*1000,2)))
# 约为 80 ms
np_array = np.arange(1e6)
start_time = time.time()
np_array = np_array * 5
end_time = time.time()
print('Numpy array time:{} ms(毫秒)'.format(round((end_time - start_time)*1000,2)))
# 约为 4 ms
# 将近20倍速度的差
print('What sup!')
"""
# data = [1,2,3] # Python 直接创建数组
# data = np.array([1,2,3]) # Numpy 创建数组
# data = np.array([[1,2,3],[4,5,6]]) # 二维数组需要两层中括号,请留意
# 或者这么写,看的更加直观
"""
data = np.array(
[
[1,2,3],
[4,5,6]
]) # 二维数组需要两层中括号,请留意
"""
# data = np.array([[1,2,3],[4,5,6]])
# print(data.ndim) # 2 判断是几位数组
# print(data.shape) # (2,3) 获取每个维度上面的数量
# data = np.zeros(10)
# print(data) # [0. 0. 0. 0. 0. 0. 0. 0. 0. 0.] 创建 10 个 0的数组
# data = np.ones(10)
# print(data) # [1. 1. 1. 1. 1. 1. 1. 1. 1. 1.] 创建 10 个 1的数组
"""
data = np.ones((3,10))
print(data)
创建一个 三行十列 且都是1的二维数组
[[1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]
[1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]
[1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]]
"""
""" data = np.arange(10)
print(data) # [0 1 2 3 4 5 6 7 8 9] 从 0到9
print(data[5]) # 获取索引(下标)为5的值
"""
""" data = np.array([[1,2,3],[4,5,6]])
print(data[0]) #[1,2,3] 代表第0行
print(data[1]) #[4,5,6] 代表第1行
print(data[0][0]) #[1] 代表第0行 第0列
print(data[1][2]) #[6] 代表第1行 第2列
print(data[1,2]) # 这个和上面的表述方法一致,都是 [6] 代表第1行 第2列
"""
"""
data = np.arange(10)
print(data[:2]) # [0,1] 代表第前面两个 下标(索引) 从0开始(包含) 到 2(不包含) 的元素
print(data[1:2]) # [1] 代表下标(索引) 从1开始(包含) 到 2(不包含) 的元素
print(data[1:]) # [1 2 3 4 5 6 7 8 9] 代表从1(包含)开始到最后
print(data[:]) # [0 1 2 3 4 5 6 7 8 9] 所有
"""
# 注意!切片得到的数据对应的还是原始数据任何修改都会反映到原始数据上
# 注意!切片得到的数据对应的还是原始数据任何修改都会反映到原始数据上
# 注意!切片得到的数据对应的还是原始数据任何修改都会反映到原始数据上
"""
data = np.arange(10)
print(data)
data_slice = data[0:1]
data_slice[0] = 100
print(data)
print(data_slice)
# [100 1 2 3 4 5 6 7 8 9] 源数据会被修改 如果不想被修改 可以 使用 data_slice = data[0:1].copy()
"""
"""
data = np.arange(10)
# 变换数组的维度,如果维度无法进行变换 如 2,3 则报错 cannot reshape array of size 10 into shape (2,3)
print(data.reshape(5,2))
print(data.reshape(2,5))
print(data.reshape(2,3))
"""
"""
data = np.arange(10)
print(data.reshape(2,5).T)
# .T 转置操作
[[0 5]
[1 6]
[2 7]
[3 8]
[4 9]]
"""
"""
data = np.arange(3)
print(np.sqrt(data))
# 求平方根 [0. 1. 1.41421356]
"""
"""
函数 说明
abs 计算绝对值
sgrt 计算平方根
square 计算平方
exp 计算指数ex
sign 计算正负号:1、0、-1
ceil 计算大于等于该元素的最小整数
floor 计算小于等于该元素的最大整数
isnan 计算哪些元素是非数字
"""
"""
data = np.array([1,2,3])
data1 = np.array([11,22,33])
print(np.add(data, data1))
# Numpy 的加法运算 """
"""
常见的数组可用方法
函数 说明
add 计算两个数组的和
subtract 从第一个数组减去第二个数组
multiply 计算两个数组元素的乘积(不是矩阵乘法)
divide 第一个数组元素除以第二个数组元素
power 第一个数组元素A,第二个数组元素B,计算Ab
fmax 计算两个元素各个位置上更大的那个
fmin 计算两个元素各个位置上更小的那个
"""
"""
data = np.array([1,2,3])
data1 = np.array([3,6,9])
print(np.multiply(data, data1))
# [ 3 12 27] multiply 计算两个数组元素的乘积(不是矩阵乘法) 和刚刚的 add 加法是一样的,是对应下标的元素进行相乘
"""
"""
data = np.arange(10)
print(np.sum(data)) # 对数组内所有元素求和
"""
"""
一些常用的统计方法
函数 说明
sum 计算数组所有元素的和
mean 计算数组所有元素的平均值
std 计算数组所有元素的标准差
min,max 计算数组所有元素的最小或者最大值
argmin,argmax 计算数组所有元素的最小或者最大值对应的位置
"""
"""
# 数组的排序 第一种 ==> 不会修改 data 源数据
data = np.array([5,8,6,3,8,10,1])
print(np.sort(data))
print(data)
# [ 1 3 5 6 8 8 10] 数组的排序
# 数组的排序 第一种 ==> 修改 data 源数据
data = np.array([5,8,6,3,8,10,1])
data.sort()
print(data)
"""
data = np.genfromtxt('C:/Users/Desktop/data.txt',delimiter=',') # delimiter 代表指定的分隔符是什么
print(data)
# 如果不是数字 显示 nan
本文地址:https://blog.csdn.net/STR_Liang/article/details/107644441