自动混合精度示例#
创建日期:2020 年 2 月 13 日 | 最后更新日期:2024 年 9 月 13 日
通常,“自动混合精度训练”是指将 torch.autocast 和 torch.amp.GradScaler 一起使用进行训练。
torch.autocast 的实例可以为选定的区域启用自动类型转换。自动类型转换会自动选择操作的精度,以提高性能并保持准确性。
torch.amp.GradScaler 的实例有助于方便地执行梯度缩放的步骤。梯度缩放通过最小化梯度下溢来提高具有 float16(在 CUDA 和 XPU 上默认为此)梯度的网络的收敛性,具体解释 在此。
torch.autocast 和 torch.amp.GradScaler 是模块化的。在下面的示例中,每个都按照其各自文档的建议使用。
(此处提供的示例仅供说明。有关可运行的演练,请参阅 自动混合精度教程。)
典型的混合精度训练#
# Creates model and optimizer in default precision
model = Net().cuda()
optimizer = optim.SGD(model.parameters(), ...)
# Creates a GradScaler once at the beginning of training.
scaler = GradScaler()
for epoch in epochs:
for input, target in data:
optimizer.zero_grad()
# Runs the forward pass with autocasting.
with autocast(device_type='cuda', dtype=torch.float16):
output = model(input)
loss = loss_fn(output, target)
# Scales loss. Calls backward() on scaled loss to create scaled gradients.
# Backward passes under autocast are not recommended.
# Backward ops run in the same dtype autocast chose for corresponding forward ops.
scaler.scale(loss).backward()
# scaler.step() first unscales the gradients of the optimizer's assigned params.
# If these gradients do not contain infs or NaNs, optimizer.step() is then called,
# otherwise, optimizer.step() is skipped.
scaler.step(optimizer)
# Updates the scale for next iteration.
scaler.update()
使用未缩放的梯度#
由 scaler.scale(loss).backward() 生成的所有梯度都是缩放的。如果您希望在 backward() 和 scaler.step(optimizer) 之间修改或检查参数的 .grad 属性,则应首先对它们进行取消缩放。例如,梯度裁剪会操纵一组梯度,使其全局范数(参见 torch.nn.utils.clip_grad_norm_())或最大幅度(参见 torch.nn.utils.clip_grad_value_())小于或等于某个用户定义的阈值。如果您尝试在*未*取消缩放的情况下进行裁剪,则梯度的范数/最大幅度也会被缩放,因此您请求的阈值(旨在作为*未缩放*梯度的阈值)将无效。
scaler.unscale_(optimizer) 会取消缩放由 optimizer 分配的参数所持有的梯度。如果您的模型或模型包含分配给其他优化器(例如 optimizer2)的其他参数,您可以单独调用 scaler.unscale_(optimizer2) 来取消缩放这些参数的梯度。
梯度裁剪#
在裁剪之前调用 scaler.unscale_(optimizer) 可以让您像往常一样裁剪未缩放的梯度
scaler = GradScaler()
for epoch in epochs:
for input, target in data:
optimizer.zero_grad()
with autocast(device_type='cuda', dtype=torch.float16):
output = model(input)
loss = loss_fn(output, target)
scaler.scale(loss).backward()
# Unscales the gradients of optimizer's assigned params in-place
scaler.unscale_(optimizer)
# Since the gradients of optimizer's assigned params are unscaled, clips as usual:
torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm)
# optimizer's gradients are already unscaled, so scaler.step does not unscale them,
# although it still skips optimizer.step() if the gradients contain infs or NaNs.
scaler.step(optimizer)
# Updates the scale for next iteration.
scaler.update()
scaler 会记录在此迭代中已为该优化器调用过 scaler.unscale_(optimizer),因此 scaler.step(optimizer) 会知道在(内部)调用 optimizer.step() 之前不要重复取消缩放梯度。
警告
unscale_ 应该每迭代每优化器只调用一次,并且仅在为该优化器分配的参数累积了所有梯度之后调用。在每次 step 调用之间为给定优化器调用两次 unscale_ 会触发 RuntimeError。
使用缩放的梯度#
梯度累积#
梯度累积会累加在有效批次大小为 batch_per_iter * iters_to_accumulate(如果分布式,则为 * num_procs)上的梯度。比例应该针对有效批次进行校准,这意味着进行 inf/NaN 检查,如果找到 inf/NaN 梯度则跳过步骤,并且比例更新应该在有效批次粒度上发生。此外,梯度应保持缩放状态,比例因子应保持不变,同时累积给定有效批次的梯度。如果在累积完成之前取消了梯度缩放(或更改了比例因子),则下一次反向传播会将缩放的梯度添加到未缩放的梯度(或以不同因子缩放的梯度)中,之后就无法恢复 step 必须应用的累积未缩放梯度。
因此,如果您想 unscale_ 梯度(例如,允许裁剪未缩放的梯度),请在 step 之前调用 unscale_,在此之前,即将进行的 step 的所有(缩放的)梯度都已累积。另外,仅在您调用了 step 以完成整个有效批次的迭代结束时才调用 update。
scaler = GradScaler()
for epoch in epochs:
for i, (input, target) in enumerate(data):
with autocast(device_type='cuda', dtype=torch.float16):
output = model(input)
loss = loss_fn(output, target)
loss = loss / iters_to_accumulate
# Accumulates scaled gradients.
scaler.scale(loss).backward()
if (i + 1) % iters_to_accumulate == 0:
# may unscale_ here if desired (e.g., to allow clipping unscaled gradients)
scaler.step(optimizer)
scaler.update()
optimizer.zero_grad()
梯度惩罚#
梯度惩罚的实现通常通过 torch.autograd.grad() 创建梯度,将它们组合起来创建惩罚值,并将惩罚值添加到损失中。
这是一个不使用梯度缩放或自动类型转换的 L2 惩罚的常规示例
for epoch in epochs:
for input, target in data:
optimizer.zero_grad()
output = model(input)
loss = loss_fn(output, target)
# Creates gradients
grad_params = torch.autograd.grad(outputs=loss,
inputs=model.parameters(),
create_graph=True)
# Computes the penalty term and adds it to the loss
grad_norm = 0
for grad in grad_params:
grad_norm += grad.pow(2).sum()
grad_norm = grad_norm.sqrt()
loss = loss + grad_norm
loss.backward()
# clip gradients here, if desired
optimizer.step()
要实现*带*有梯度缩放的梯度惩罚,传递给 torch.autograd.grad() 的 outputs 张量应被缩放。因此,生成的梯度也将被缩放,并在组合以创建惩罚值之前应进行取消缩放。
此外,惩罚项的计算是前向传递的一部分,因此应该包含在 autocast 上下文中。
对于相同的 L2 惩罚,这就是它看起来的样子
scaler = GradScaler()
for epoch in epochs:
for input, target in data:
optimizer.zero_grad()
with autocast(device_type='cuda', dtype=torch.float16):
output = model(input)
loss = loss_fn(output, target)
# Scales the loss for autograd.grad's backward pass, producing scaled_grad_params
scaled_grad_params = torch.autograd.grad(outputs=scaler.scale(loss),
inputs=model.parameters(),
create_graph=True)
# Creates unscaled grad_params before computing the penalty. scaled_grad_params are
# not owned by any optimizer, so ordinary division is used instead of scaler.unscale_:
inv_scale = 1./scaler.get_scale()
grad_params = [p * inv_scale for p in scaled_grad_params]
# Computes the penalty term and adds it to the loss
with autocast(device_type='cuda', dtype=torch.float16):
grad_norm = 0
for grad in grad_params:
grad_norm += grad.pow(2).sum()
grad_norm = grad_norm.sqrt()
loss = loss + grad_norm
# Applies scaling to the backward call as usual.
# Accumulates leaf gradients that are correctly scaled.
scaler.scale(loss).backward()
# may unscale_ here if desired (e.g., to allow clipping unscaled gradients)
# step() and update() proceed as usual.
scaler.step(optimizer)
scaler.update()
使用多个模型、损失和优化器#
如果您的网络有多个损失,您必须分别对每个损失调用 scaler.scale。如果您的网络有多个优化器,您可以分别对任何一个优化器调用 scaler.unscale_,并且必须分别对每个优化器调用 scaler.step。
但是,scaler.update 应该只调用一次,在本次迭代使用的所有优化器都已步进之后。
scaler = torch.amp.GradScaler()
for epoch in epochs:
for input, target in data:
optimizer0.zero_grad()
optimizer1.zero_grad()
with autocast(device_type='cuda', dtype=torch.float16):
output0 = model0(input)
output1 = model1(input)
loss0 = loss_fn(2 * output0 + 3 * output1, target)
loss1 = loss_fn(3 * output0 - 5 * output1, target)
# (retain_graph here is unrelated to amp, it's present because in this
# example, both backward() calls share some sections of graph.)
scaler.scale(loss0).backward(retain_graph=True)
scaler.scale(loss1).backward()
# You can choose which optimizers receive explicit unscaling, if you
# want to inspect or modify the gradients of the params they own.
scaler.unscale_(optimizer0)
scaler.step(optimizer0)
scaler.step(optimizer1)
scaler.update()
每个优化器都会检查其梯度是否存在 inf/NaN,并独立决定是否跳过该步骤。这可能导致一个优化器跳过该步骤,而另一个优化器不跳过。由于跳过步骤很少发生(每几百次迭代一次),这不应该影响收敛性。如果您在具有多个优化器的模型中添加梯度缩放后观察到收敛性不佳,请报告错误。
使用多个 GPU#
此处描述的问题仅影响 autocast。 GradScaler 的用法不变。
单个进程中的 DataParallel#
即使 torch.nn.DataParallel 会产生线程在每个设备上运行前向传递。自动类型转换状态会在每个线程中传播,并且以下代码将正常工作。
model = MyModel()
dp_model = nn.DataParallel(model)
# Sets autocast in the main thread
with autocast(device_type='cuda', dtype=torch.float16):
# dp_model's internal threads will autocast.
output = dp_model(input)
# loss_fn also autocast
loss = loss_fn(output)
DistributedDataParallel,每个进程一个 GPU#
为了获得最佳性能,torch.nn.parallel.DistributedDataParallel 的文档推荐每个进程一个 GPU。在这种情况下,DistributedDataParallel 不会在内部生成线程,因此 autocast 和 GradScaler 的用法不受影响。
DistributedDataParallel,每个进程多个 GPU#
在这里,torch.nn.parallel.DistributedDataParallel 可能会像 torch.nn.DataParallel 一样,生成一个辅助线程在每个设备上运行前向传递。解决方法是相同的:将自动类型转换作为模型 forward 方法的一部分应用,以确保它在辅助线程中启用。
Autocast 和自定义 Autograd 函数#
如果您的网络使用 自定义 autograd 函数(torch.autograd.Function 的子类),则需要进行更改以兼容自动类型转换,如果任何函数
接受多个浮点 Tensor 输入,
包装了任何可自动类型转换的操作(参见 Autocast 操作参考),或者
需要特定的
dtype(例如,如果它包装了仅为dtype编译的 CUDA 扩展)。
在所有情况下,如果您导入了该函数且无法更改其定义,一个安全的折衷方法是在出现错误的使用点禁用自动类型转换,并强制在 float32(或 dtype)中执行。
with autocast(device_type='cuda', dtype=torch.float16):
...
with autocast(device_type='cuda', dtype=torch.float16, enabled=False):
output = imported_function(input1.float(), input2.float())
如果您是函数的作者(或者可以更改其定义),一个更好的解决方案是使用 torch.amp.custom_fwd() 和 torch.amp.custom_bwd() 装饰器,如下方相关案例所示。
具有多个输入或可自动类型转换的操作的函数#
将 custom_fwd 和 custom_bwd(不带参数)分别应用于 forward 和 backward。这些确保 forward 使用当前的自动类型转换状态执行,并且 backward 使用与 forward 相同的自动类型转换状态执行(这可以防止类型不匹配错误)。
class MyMM(torch.autograd.Function):
@staticmethod
@custom_fwd
def forward(ctx, a, b):
ctx.save_for_backward(a, b)
return a.mm(b)
@staticmethod
@custom_bwd
def backward(ctx, grad):
a, b = ctx.saved_tensors
return grad.mm(b.t()), a.t().mm(grad)
现在 MyMM 可以在任何地方调用,而无需禁用自动类型转换或手动转换输入。
mymm = MyMM.apply
with autocast(device_type='cuda', dtype=torch.float16):
output = mymm(input1, input2)
需要特定 dtype 的函数#
考虑一个需要 torch.float32 输入的自定义函数。将 custom_fwd(device_type='cuda', cast_inputs=torch.float32) 应用于 forward,并将 custom_bwd(device_type='cuda') 应用于 backward。如果在启用了自动类型转换的区域中运行 forward,则装饰器会将浮点 Tensor 输入转换为 float32(在由 device_type 参数指定的设备上,在此示例中为 CUDA),并在 forward 和 backward 执行期间本地禁用自动类型转换。
class MyFloat32Func(torch.autograd.Function):
@staticmethod
@custom_fwd(device_type='cuda', cast_inputs=torch.float32)
def forward(ctx, input):
ctx.save_for_backward(input)
...
return fwd_output
@staticmethod
@custom_bwd(device_type='cuda')
def backward(ctx, grad):
...
现在 MyFloat32Func 可以在任何地方调用,而无需手动禁用自动类型转换或转换输入。
func = MyFloat32Func.apply
with autocast(device_type='cuda', dtype=torch.float16):
# func will run in float32, regardless of the surrounding autocast state
output = func(input)