pytorch中Schedule与warmup_steps的用法说明

程序员文章站 2023-12-23 16:05:34

1. lr_scheduler相关其中args.warmup_steps可以认为是耐心系数num_train_optimization_steps为模型参数的总更新次数一般来说：schedule用来调...

1. lr_scheduler相关

其中args.warmup_steps可以认为是耐心系数

num_train_optimization_steps为模型参数的总更新次数

一般来说：

schedule用来调节学习率，拿线性变换调整来说，下面代码中，step是当前迭代次数。

在实际运行中，lr_scheduler.step()先将lr初始化为0. 在第一次参数更新时，此时step=1，lr由0变为初始值initial_lr；在第二次更新时，step=2，上面代码中生成某个实数alpha，新的lr=initial_lr *alpha；在第三次更新时，新的lr是在initial_lr基础上生成，即新的lr=initial_lr *alpha。

其中warmup_steps可以认为是lr调整的耐心系数。

由于有warmup_steps存在，lr先慢慢增加，超过warmup_steps时，lr再慢慢减小。

在实际中，由于训练刚开始时，训练数据计算出的grad可能与期望方向相反，所以此时采用较小的lr，随着迭代次数增加，lr线性增大，增长率为1/warmup_steps；迭代次数等于warmup_steps时，学习率为初始设定的学习率；迭代次数超过warmup_steps时，学习率逐步衰减，衰减率为1/(total-warmup_steps)，再进行微调。

2. gradient_accumulation_steps相关

gradient_accumulation_steps通过累计梯度来解决本地显存不足问题。

假设原来的batch_size=6，样本总量为24，gradient_accumulation_steps=2

那么参数更新次数=24/6=4

现在，减小batch_size=6/2=3，参数更新次数不变=24/3/2=4

在梯度反传时，每gradient_accumulation_steps次进行一次梯度更新，之前照常利用loss.backward()计算梯度。

补充：pytorch学习笔记 -optimizer.step()和scheduler.step()

optimizer.step()和scheduler.step()的区别

optimizer.step()通常用在每个mini-batch之中，而scheduler.step()通常用在epoch里面,但是不绝对，可以根据具体的需求来做。只有用了optimizer.step()，模型才会更新，而scheduler.step()是对lr进行调整。

通常我们有

在scheduler的step_size表示scheduler.step()每调用step_size次，对应的学习率就会按照策略调整一次。

所以如果scheduler.step()是放在mini-batch里面，那么step_size指的是经过这么多次迭代，学习率改变一次。

以上为个人经验，希望能给大家一个参考，也希望大家多多支持。

pytorch中Schedule与warmup_steps的用法说明

1. lr_scheduler相关

2. gradient_accumulation_steps相关

optimizer.step()和scheduler.step()的区别

pytorch中Schedule与warmup_steps的用法说明

基于PyTorch中view的用法说明

关于Pytorch中模型的保存与迁移问题

Pytorch中的variable, tensor与numpy相互转化的方法

Pytorch中的variable, tensor与numpy相互转化的方法

postgreSQL中的row_number() 与distinct用法说明

Pytorch中Softmax与LogSigmoid的对比分析

java中的按位与(&)用法说明

pytorch中Schedule与warmup_steps的用法说明

pytorch中的numel函数用法说明