欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

【记录】动手学深度学习01

程序员文章站 2022-07-11 16:14:44
...

待处理问题:

  • x.grad.data.zero_()x.grad.zero_()的区别?
  • focal loss的原理,PyTorch实现(二分类、多分类),超参数的含义。
  • PyTorch中在反向传播前为什么要手动将梯度清零?

2.2 数据操作

2.2.1 创建Tensor

2.2.2 操作

PyTorch操作inplace版本都有后缀_

索引

使用类似NumPy的索引操作,索引出来的结果与原数据共享内存,也即修改一个,另一个会跟着修改

高级的选择函数:

函数 功能
index_select(input, dim, index) 在指定维度dim上选取,比如选取某些行、某些列
masked_select(input, mask) a[a>0],使用ByteTensor进行选取
nonzero(input) 非0元素的下标
gather(input, dim, index) 根据index,在dim维度上选取数据,输出的size与index一样

改变形状

view()注意view()返回的新Tensor与源Tensor虽然可能有不同的size,但是是共享data的,也即更改其中的一个,另外一个也会跟着改变。(顾名思义,view仅仅是改变了对这个张量的观察角度,内部数据并未改变)

reshape(),可以改变形状,但并不能保证返回的是其拷贝,不推荐使用。

如果想返回一个真正新的副本(即不共享data内存),推荐先用clone创造一个副本然后再使用view。参考此处:https://*.com/questions/49643225/whats-the-difference-between-reshape-and-view-in-pytorch。使用clone还有一个好处是会被记录在计算图中,即梯度回传到副本时也会传到源Tensor

item(),可以将一个标量Tensor转换成一个Python number。

线性代数

mm/bmm,矩阵乘法,batch的矩阵乘法。

2.2.3 广播机制

当对两个形状不同的Tensor按元素运算时,可能会触发广播(broadcasting)机制:先适当复制元素使这两个Tensor形状相同后再按元素运算。

2.2.4 运算的内存开销

索引操作不会开辟新内存,而像y = x + y这样的运算会新开内存,然后将y指向新内存。可以用Python自带的id函数验证。

如果想指定结果到原来的y的内存,可以用:

  • y[:] = y + x
  • torch.add(x, y, out=y)
  • y += x(即add_())

注:虽然view返回的Tensor与源Tensor是共享data的,但是依然是一个新的Tensor(因为Tensor除了包含data外还有一些其他属性),二者id(内存地址)并不一致。

2.2.5 Tensor和Numpy相互转换

Tensor转NumPy

numpy()所产生的的Tensor和NumPy中的数组共享相同的内存(所以他们之间的转换很快),改变其中一个时另一个也会改变!!!

NumPy数组转Tensor

from_numpy()所产生的的Tensor和NumPy中的数组共享相同的内存(所以他们之间的转换很快),改变其中一个时另一个也会改变!!!

所有在CPU上的Tensor(除了CharTensor)都支持与NumPy数组相互转换。

torch.tensor(),将NumPy数组转换成Tensor,需要注意的是该方法总是会进行数据拷贝(就会消耗更多的时间和空间),返回的Tensor和原来的数据不再共享内存。

2.2.6 Tensor on GPU

# 以下代码只有在PyTorch GPU版本上才会执行
if torch.cuda.is_available():
    device = torch.device("cuda")          # GPU
    y = torch.ones_like(x, device=device)  # 直接创建一个在GPU上的Tensor
    x = x.to(device)                       # 等价于 .to("cuda")
    z = x + y
    print(z)
    print(z.to("cpu", torch.double))       # to()还可以同时更改数据类型

2.3 自动求梯度

2.3.1 概念

Tensor

  • 属性requires_grad=True,将开始追踪(track)在其上的所有操作(这样就可以利用链式法则进行梯度传播了)。完成计算后,可以调用.backward()来完成所有梯度计算。此Tensor的梯度将累积到.grad属性中。

注意在y.backward()时,如果y是标量,则不需要为backward()传入任何参数;否则,需要传入一个与y同形的Tensor

  • 属性.detach()Tensor从追踪记录中分离出来,防止将来的计算被追踪,这样梯度就传不过去了。
  • with torch.no_grad将不想被追踪的操作代码包裹起来,在评估模型时常用。因为在评估模型时,我们并不需要计算可训练参数(requires_grad=True)的梯度。
  • Function,Function是另外一个很重要的类。TensorFunction互相结合就可以构建一个记录有整个计算过程的有向无环图(DAG)。每个Tensor都有一个.grad_fn属性,该属性即创建该TensorFunction, 就是说该Tensor是不是通过某些运算得到的,若是,则grad_fn返回一个与这些运算相关的对象,否则是None。

2.3.2 Tensor

  • .require_grad,缺失情况下默认require_grad=False
  • .is_leaf,直接创建的Tensor称为叶子节点,叶子节点对应的grad_fnNone
  • .requires_grad_(),用in-place的方式改变requires_grad属性。

2.3.3 梯度

out是标量,所以调用backward()时不需要指定求导变量。

out.backward() # 等价于 out.backward(torch.tensor(1.))

注意:grad在反向传播过程中是累加的(accumulated),这意味着每一次运行反向传播,梯度都会累加之前的梯度,所以一般在反向传播之前需把梯度清零。

x.grad.data.zero_(),???

x = torch.ones(2, 2, requires_grad=True)
print(x)
print(x.grad_fn)

y = x + 2
print(y)
print(y.grad_fn)

z = y * y * 3
out = z.mean()
print(z, out)

out.backward()
print(x.grad)

# 再来反向传播一次,注意grad是累加的
out2 = x.sum()
out2.backward()
print(x.grad)

out3 = x.sum()
x.grad.data.zero_()
out3.backward()
print(x.grad)

为什么在y.backward()时,如果y是标量,则不需要为backward()传入任何参数;否则,需要传入一个与y同形的Tensor? 简单来说就是为了避免向量(甚至更高维张量)对张量求导,而转换成标量对张量求导。不允许张量对张量求导,只允许标量对张量求导,求导结果是和自变量同形的张量。所以必要时我们要把张量通过将所有张量的元素加权求和的方式转换为标量,举个例子,假设y由自变量x计算而来,w是和y同形的张量,则y.backward(w)的含义是:先计算l = torch.sum(y * w),则l是个标量,然后求l对自变量x的导数。参考:https://zhuanlan.zhihu.com/p/29923090https://zhuanlan.zhihu.com/p/65609544

x = torch.tensor([1.0, 2.0, 3.0, 4.0], requires_grad=True)
y = 2 * x
z = y.view(2, 2)
print(z)

v = torch.tensor([[1.0, 0.1], [0.01, 0.001]], dtype=torch.float)
z.backward(v)
print(x.grad)

中断梯度追踪的例子,

x = torch.tensor(1.0, requires_grad=True)
y1 = x ** 2
with torch.no_grad():
    y2 = x ** 3
y3 = y1 + y2

print(x.requires_grad)
print(y1, y1.requires_grad) # True
print(y2, y2.requires_grad) # False
print(y3, y3.requires_grad) # True

y3.backward()
print(x.grad)

上面的y2是没有grad_fn而且y2.requires_grad=False的,而y3是有grad_fn的。

y3x求梯度为什么是2呢?事实上,由于y2的定义是被torch.no_grad():包裹的,所以与y2有关的梯度是不会回传的,只有与y1有关的梯度才会回传,即x平方对x的梯度。

上面提到,y2.requires_grad=False,所以不能调用y2.backward(),会报错:

RuntimeError: element 0 of tensors does not require grad and does not have a grad_fn

如果我们想要修改tensor的数值,但是又不希望被autograd记录(即不会影响反向传播),那么我么可以对tensor.data进行操作。

如一般在反向传播之前需把梯度清零。x.grad.data.zero_()???

x = torch.ones(1,requires_grad=True)

print(x.data) # 还是一个tensor
print(x.data.requires_grad) # 但是已经是独立于计算图之外

y = 2 * x
x.data *= 100 # 只改变了值,不会记录在计算图,所以不会影响梯度传播

y.backward()
print(x) # 更改data的值也会影响tensor的值
print(x.grad)

微信公众号「padluo」,分享数据科学家的自我修养,既然遇见,不如一起成长。

【记录】动手学深度学习01

 


读者交流电报群

https://t.me/sspadluo


知识星球交流群

【记录】动手学深度学习01