【记录】动手学深度学习01
待处理问题:
-
x.grad.data.zero_()
与x.grad.zero_()
的区别? - focal loss的原理,PyTorch实现(二分类、多分类),超参数的含义。
- PyTorch中在反向传播前为什么要手动将梯度清零?
2.2 数据操作
2.2.1 创建Tensor
2.2.2 操作
PyTorch操作inplace版本都有后缀_
。
索引
使用类似NumPy的索引操作,索引出来的结果与原数据共享内存,也即修改一个,另一个会跟着修改。
高级的选择函数:
函数 | 功能 |
---|---|
index_select(input, dim, index) | 在指定维度dim上选取,比如选取某些行、某些列 |
masked_select(input, mask) | a[a>0],使用ByteTensor进行选取 |
nonzero(input) | 非0元素的下标 |
gather(input, dim, index) | 根据index,在dim维度上选取数据,输出的size与index一样 |
改变形状
view()
,注意view()
返回的新Tensor
与源Tensor
虽然可能有不同的size
,但是是共享data
的,也即更改其中的一个,另外一个也会跟着改变。(顾名思义,view仅仅是改变了对这个张量的观察角度,内部数据并未改变)。
reshape()
,可以改变形状,但并不能保证返回的是其拷贝,不推荐使用。
如果想返回一个真正新的副本(即不共享data内存),推荐先用clone
创造一个副本然后再使用view
。参考此处:https://*.com/questions/49643225/whats-the-difference-between-reshape-and-view-in-pytorch。使用clone
还有一个好处是会被记录在计算图中,即梯度回传到副本时也会传到源Tensor
。
item()
,可以将一个标量Tensor转换成一个Python number。
线性代数
mm/bmm,矩阵乘法,batch的矩阵乘法。
2.2.3 广播机制
当对两个形状不同的Tensor
按元素运算时,可能会触发广播(broadcasting)机制:先适当复制元素使这两个Tensor
形状相同后再按元素运算。
2.2.4 运算的内存开销
索引操作不会开辟新内存,而像y = x + y
这样的运算会新开内存,然后将y
指向新内存。可以用Python自带的id
函数验证。
如果想指定结果到原来的y
的内存,可以用:
y[:] = y + x
torch.add(x, y, out=y)
-
y += x
(即add_()
)
注:虽然
view
返回的Tensor
与源Tensor
是共享data的,但是依然是一个新的Tensor
(因为Tensor
除了包含data
外还有一些其他属性),二者id(内存地址)并不一致。
2.2.5 Tensor和Numpy相互转换
Tensor转NumPy
numpy()
,所产生的的Tensor
和NumPy中的数组共享相同的内存(所以他们之间的转换很快),改变其中一个时另一个也会改变!!!。
NumPy数组转Tensor
from_numpy()
,所产生的的Tensor
和NumPy中的数组共享相同的内存(所以他们之间的转换很快),改变其中一个时另一个也会改变!!!。
所有在CPU上的Tensor
(除了CharTensor
)都支持与NumPy数组相互转换。
torch.tensor()
,将NumPy数组转换成Tensor
,需要注意的是该方法总是会进行数据拷贝(就会消耗更多的时间和空间),返回的Tensor
和原来的数据不再共享内存。
2.2.6 Tensor on GPU
# 以下代码只有在PyTorch GPU版本上才会执行
if torch.cuda.is_available():
device = torch.device("cuda") # GPU
y = torch.ones_like(x, device=device) # 直接创建一个在GPU上的Tensor
x = x.to(device) # 等价于 .to("cuda")
z = x + y
print(z)
print(z.to("cpu", torch.double)) # to()还可以同时更改数据类型
2.3 自动求梯度
2.3.1 概念
Tensor
- 属性
requires_grad=True
,将开始追踪(track)在其上的所有操作(这样就可以利用链式法则进行梯度传播了)。完成计算后,可以调用.backward()
来完成所有梯度计算。此Tensor
的梯度将累积到.grad
属性中。
注意在
y.backward()
时,如果y
是标量,则不需要为backward()
传入任何参数;否则,需要传入一个与y同形的Tensor
。
- 属性
.detach()
将Tensor
从追踪记录中分离出来,防止将来的计算被追踪,这样梯度就传不过去了。 -
with torch.no_grad
将不想被追踪的操作代码包裹起来,在评估模型时常用。因为在评估模型时,我们并不需要计算可训练参数(requires_grad=True
)的梯度。 -
Function
,Function是另外一个很重要的类。Tensor
和Function
互相结合就可以构建一个记录有整个计算过程的有向无环图(DAG)。每个Tensor
都有一个.grad_fn
属性,该属性即创建该Tensor
的Function
, 就是说该Tensor
是不是通过某些运算得到的,若是,则grad_fn
返回一个与这些运算相关的对象,否则是None。
2.3.2 Tensor
-
.require_grad
,缺失情况下默认require_grad=False
。 -
.is_leaf
,直接创建的Tensor
称为叶子节点,叶子节点对应的grad_fn
是None
。 -
.requires_grad_()
,用in-place的方式改变requires_grad
属性。
2.3.3 梯度
out
是标量,所以调用backward()
时不需要指定求导变量。
out.backward() # 等价于 out.backward(torch.tensor(1.))
注意:grad在反向传播过程中是累加的(accumulated),这意味着每一次运行反向传播,梯度都会累加之前的梯度,所以一般在反向传播之前需把梯度清零。
x.grad.data.zero_()
,???
x = torch.ones(2, 2, requires_grad=True)
print(x)
print(x.grad_fn)
y = x + 2
print(y)
print(y.grad_fn)
z = y * y * 3
out = z.mean()
print(z, out)
out.backward()
print(x.grad)
# 再来反向传播一次,注意grad是累加的
out2 = x.sum()
out2.backward()
print(x.grad)
out3 = x.sum()
x.grad.data.zero_()
out3.backward()
print(x.grad)
为什么在
y.backward()
时,如果y
是标量,则不需要为backward()
传入任何参数;否则,需要传入一个与y
同形的Tensor
? 简单来说就是为了避免向量(甚至更高维张量)对张量求导,而转换成标量对张量求导。不允许张量对张量求导,只允许标量对张量求导,求导结果是和自变量同形的张量。所以必要时我们要把张量通过将所有张量的元素加权求和的方式转换为标量,举个例子,假设y
由自变量x
计算而来,w
是和y
同形的张量,则y.backward(w)
的含义是:先计算l = torch.sum(y * w)
,则l
是个标量,然后求l
对自变量x
的导数。参考:https://zhuanlan.zhihu.com/p/29923090,https://zhuanlan.zhihu.com/p/65609544
x = torch.tensor([1.0, 2.0, 3.0, 4.0], requires_grad=True)
y = 2 * x
z = y.view(2, 2)
print(z)
v = torch.tensor([[1.0, 0.1], [0.01, 0.001]], dtype=torch.float)
z.backward(v)
print(x.grad)
中断梯度追踪的例子,
x = torch.tensor(1.0, requires_grad=True)
y1 = x ** 2
with torch.no_grad():
y2 = x ** 3
y3 = y1 + y2
print(x.requires_grad)
print(y1, y1.requires_grad) # True
print(y2, y2.requires_grad) # False
print(y3, y3.requires_grad) # True
y3.backward()
print(x.grad)
上面的y2
是没有grad_fn
而且y2.requires_grad=False
的,而y3
是有grad_fn
的。
将y3
对x
求梯度为什么是2呢?事实上,由于y2
的定义是被torch.no_grad():
包裹的,所以与y2
有关的梯度是不会回传的,只有与y1
有关的梯度才会回传,即x
平方对x
的梯度。
上面提到,y2.requires_grad=False
,所以不能调用y2.backward()
,会报错:
RuntimeError: element 0 of tensors does not require grad and does not have a grad_fn
如果我们想要修改tensor
的数值,但是又不希望被autograd
记录(即不会影响反向传播),那么我么可以对tensor.data
进行操作。
如一般在反向传播之前需把梯度清零。x.grad.data.zero_()
???
x = torch.ones(1,requires_grad=True)
print(x.data) # 还是一个tensor
print(x.data.requires_grad) # 但是已经是独立于计算图之外
y = 2 * x
x.data *= 100 # 只改变了值,不会记录在计算图,所以不会影响梯度传播
y.backward()
print(x) # 更改data的值也会影响tensor的值
print(x.grad)
微信公众号「padluo」,分享数据科学家的自我修养,既然遇见,不如一起成长。
读者交流电报群
知识星球交流群
上一篇: opencv学习笔记四十二:稠密光流跟踪