线性回归 & Softmax与分类模型 & 多层感知机
目录
一、线性回归
大学的时候,统计学专业,线性回归这个内容足足有一本书,包含了很多内容。《动手学深度学习》这本书,书如其名,侧重于实践。
1 线性回归
统计学习方法=模型+策略+算法,下面就从这三部分对线性回归进行描述。
待更新
2 动手实践
实现一个模型的pipeline包括以下几个部分:
1 准备数据集
2 数据读取
3 定义模型
4 定义损失函数
5 定义优化器/优化函数
6 参数初始化
参数初始化方法有很多,什么?你想要初始化为一个常数?你摊上大事了!!!
如果初始化后同一层神经元的参数都相同,那么在模型训练时,该层中每个神经元将根据相同输入计算出相同的输出,反向传播时梯度都一样,这种情况下,无论该层神经元有多少,本质上只有1个神经元在发挥作用。
7 模型训练
8 模型预测
这里不详细写每一步的具体实现,只总结一些编程中的二三事:
1 为了提高计算效率,尽量避免用for循环,应尽可能的使用矢量运算。这是因为for循环是串行的,而工具库封装的向量运算、矩阵运算等是做了优化的,比如并行实现,所以效率会更高。
2 对于求解数值解,都需要用到梯度计算与梯度更新(对各个参数同时进行更新),若使用Pytorch,要格外注意一件事情,那就是每轮迭代要记得梯度清零,因为Pytorch中实现的梯度计算是累积梯度。
l = loss(output, y.view(-1, 1))
optimizer.zero_grad() # reset gradient
l.backward() # compute gradient
optimizer.step() # update gradient
二 Softmax与分类模型
Softmax常用于多分类模型
1 Softmax
待更新
2 分类模型
统计学习方法 = 模型+策略+算法
策略,即如何定义损失函数,分类模型中常用交叉熵损失函数,那么,为什么用交叉熵损失函数而不用平方损失函数呢?
3 动手实践
仅记录一些编程中的二三事。
(1)广播机制
什么是广播机制?以下介绍复制于《动手学深度学习》
了解了广播机制的定义,那么为什么要用广播机制呢?自然是为了进行矢量运算加快计算效率。下图同样来源于《动手学深度学习》,如果没有广播机制,XW与b的维度不同,不能直接进行矩阵运算。
(2)关于softmax函数
softmax函数在使用时,容易出现上溢或者下溢,为了保证数值稳定性,根据性质softmax(x) = softmax(x-c),c常取为max(x),对softmax进行如下实现:
def softmax(x):
"""Compute the softmax function for each row of the input x.
Numpy broadcasting documentation:
http://docs.scipy.org/doc/numpy/user/basics.broadcasting.html
Arguments:
x -- A D dimensional vector or N x D dimensional numpy matrix.
Return:
x -- You are allowed to modify x in-place
"""
if len(x.shape) > 1:
# Matrix
f = lambda vec: np.exp(vec)/np.sum(np.exp(vec))
# numpy.apply_along_axis(func, axis, arr)是一个根据func()函数以及维度axis运算后得到的的数组.
x -= np.max(x, 1).reshape(-1, 1)
x = np.apply_along_axis(f, 1, x) # 1表示按行运算,x是一个二维数组,即矩阵
else:
# Vector
x -= np.max(x)
x = np.exp(x)/np.sum(np.exp(x))
return x
3 测验题
关于第二题,本节课每个epoch结束后计算并输出测试集上的准确率,在epoch过程中,每个batch迭代完就计算一次该batch上的准确率,等整个epoch结束计算总的准确率并输出。具体代码见《动手学深度学习》。
三 多层感知机
多层感知机(MLP)是基础中的基础,直接做问答题好了=-=
1 多层感知机
1 上图所示感知机能否解决异或(XOR)问题?
2 **函数
1 为什么使用**函数?
全连接层只是对数据做仿射变换(affine transformation),而多个仿射变换的叠加仍然是一个仿射变换。解决问题的一个方法是引入非线性变换,例如对隐藏变量使用按元素运算的非线性函数进行变换,然后再作为下一个全连接层的输入。这个非线性函数被称为**函数(activation function)
2 **函数及其优缺点
①Relu
② Sigmoid 将元素的值变换到0和1之间
③tanh 双曲正切函数
**函数的选择:
ReLu函数是一个通用的**函数,目前在大多数情况下使用。但是,ReLU函数只能在隐藏层中使用,用于二分类时,sigmoid函数与Relu组合通常效果更好。
由于梯度消失问题,有时要避免使用sigmoid和tanh函数。
在神经网络层数较多的时候,最好使用ReLu函数,ReLu函数比较简单计算量少,而sigmoid和tanh函数计算量大很多。
在选择**函数的时候可以先选用ReLu函数如果效果不理想可以尝试其他**函数。
推荐阅读
-
线性回归 & Softmax与分类模型 & 多层感知机
-
《动手学深度学习》Task01:线性回归+Softmax与分类模型+多层感知机MLP
-
【《机器学习》第5章神经网络】神经元模型+感知机与多层网络+误差逆传播算法+全局最小与局部最小
-
python实现感知机线性分类模型示例代码
-
python实现感知机线性分类模型示例代码
-
Task01:线性回归;Softmax与分类模型、多层感知机
-
Task01:线性回归;Softmax与分类模型、多层感知机
-
Task1.0 学习笔记线性回归;Softmax与分类模型、多层感知机
-
动手学深度学习PyTorch-task1(线性回归;Softmax与分类模型;多层感知机)
-
Task1.0 学习笔记线性回归;Softmax与分类模型、多层感知机