编译自动求导(Compiled Autograd):为 torch.compile 捕获更大的反向传播图#
创建日期:2024年10月9日 | 最后更新:2026年3月31日 | 最后验证:2024年10月9日
作者: Simon Fan
编译自动求导与
torch.compile的交互方式如何使用编译自动求导 API
如何使用
TORCH_LOGS检查日志
PyTorch 2.4
通读 PyTorch 2.x 入门 中的 TorchDynamo 和 AOTAutograd 章节
概述#
编译自动求导(Compiled Autograd)是 PyTorch 2.4 中引入的一项 torch.compile 扩展,它允许捕获更大的反向传播图。
虽然 torch.compile 确实会捕获反向传播图,但它只能捕获部分。AOTAutograd 组件在预先(ahead-of-time)捕获反向传播图时存在一定的局限性:
前向传播中的图中断(Graph breaks)会导致反向传播中的图中断
编译自动求导通过直接与自动求导引擎集成解决了这些限制,使其能够在运行时捕获完整的反向传播图。具有上述两个特征的模型应尝试使用编译自动求导,并可能获得更好的性能。
然而,编译自动求导也引入了它自身的局限性:
在反向传播开始时增加了用于缓存查找的运行时开销
由于捕获范围更大,在 Dynamo 中更容易触发重新编译和图中断
注意
编译自动求导处于活跃开发阶段,尚未与所有现有的 PyTorch 功能兼容。有关特定功能的最新状态,请参阅 编译自动求导着陆页。
设置#
在本教程中,我们将基于这个简单的神经网络模型进行示例。它接收一个 10 维输入向量,通过一个线性层处理,并输出另一个 10 维向量。
import torch
class Model(torch.nn.Module):
def __init__(self):
super().__init__()
self.linear = torch.nn.Linear(10, 10)
def forward(self, x):
return self.linear(x)
基本用法#
在调用 torch.compile API 之前,请确保将 torch._dynamo.config.compiled_autograd 设置为 True
model = Model()
x = torch.randn(10)
torch._dynamo.config.compiled_autograd = True
@torch.compile
def train(model, x):
loss = model(x).sum()
loss.backward()
train(model, x)
在上面的代码中,我们创建了 Model 类的一个实例,并使用 torch.randn(10) 生成了一个随机的 10 维张量 x。我们定义了训练循环函数 train 并用 @torch.compile 对其进行装饰以优化其执行。当调用 train(model, x) 时:
Python 解释器调用 Dynamo,因为此调用已使用
@torch.compile装饰。Dynamo 拦截 Python 字节码,模拟其执行并将操作记录到图中。
AOTDispatcher禁用钩子并调用自动求导引擎来计算model.linear.weight和model.linear.bias的梯度,并将操作记录到图中。使用torch.autograd.Function,AOTDispatcher 重写了train的前向和反向传播实现。Inductor 生成一个函数,对应于 AOTDispatcher 前向和反向传播的优化实现。
Dynamo 将优化后的函数设置为接下来由 Python 解释器评估。
Python 解释器执行优化后的函数,该函数执行
loss = model(x).sum()。Python 解释器执行
loss.backward(),调用自动求导引擎,由于我们设置了torch._dynamo.config.compiled_autograd = True,因此路由到编译自动求导引擎。编译自动求导计算
model.linear.weight和model.linear.bias的梯度,并将操作(包括它遇到的任何钩子)记录到图中。在此过程中,它将记录之前由 AOTDispatcher 重写的反向传播过程。然后,编译自动求导生成一个新函数,该函数对应于loss.backward()的完全追踪实现,并以推理模式运行它与torch.compile一起执行。相同的步骤递归地应用于编译自动求导图,但这一次 AOTDispatcher 不需要对图进行分区。
检查编译自动求导日志#
使用 TORCH_LOGS 环境变量运行脚本
若要仅打印编译自动求导图,请使用
TORCH_LOGS="compiled_autograd" python example.py若要以牺牲性能为代价,打印包含更多张量元数据和重编译原因的图,请使用
TORCH_LOGS="compiled_autograd_verbose" python example.py
重新运行上面的代码片段,编译自动求导图现在应该被记录到 stderr 中。某些图节点的名称将以 aot0_ 为前缀,这些对应于之前在 AOTAutograd 反向传播图 0 中预先编译的节点,例如,aot0_view_2 对应于 id=0 的 AOT 反向传播图中的 view_2。
在下图中,红色框封装了在没有编译自动求导的情况下被 torch.compile 捕获的 AOT 反向传播图。
注意
这是我们将要在其上调用 torch.compile 的图,而不是优化后的图。编译自动求导本质上生成了一些未优化的 Python 代码来表示整个 C++ 自动求导执行过程。
使用不同标志编译前向和反向传播过程#
你可以为两次编译使用不同的编译器配置,例如,即使前向传播中有图中断,反向传播也可以是一个完整图(fullgraph)。
def train(model, x):
model = torch.compile(model)
loss = model(x).sum()
torch._dynamo.config.compiled_autograd = True
torch.compile(lambda: loss.backward(), fullgraph=True)()
或者你可以使用上下文管理器,它将应用于其作用域内的所有自动求导调用。
def train(model, x):
model = torch.compile(model)
loss = model(x).sum()
with torch._dynamo.compiled_autograd.enable(torch.compile(fullgraph=True)):
loss.backward()
编译自动求导解决了 AOTAutograd 的某些限制#
前向传播中的图中断不再必然导致反向传播中的图中断
@torch.compile(backend="aot_eager")
def fn(x):
# 1st graph
temp = x + 10
torch._dynamo.graph_break()
# 2nd graph
temp = temp + 10
torch._dynamo.graph_break()
# 3rd graph
return temp.sum()
x = torch.randn(10, 10, requires_grad=True)
torch._dynamo.utils.counters.clear()
loss = fn(x)
# 1. base torch.compile
loss.backward(retain_graph=True)
assert(torch._dynamo.utils.counters["stats"]["unique_graphs"] == 3)
torch._dynamo.utils.counters.clear()
# 2. torch.compile with compiled autograd
with torch._dynamo.compiled_autograd.enable(torch.compile(backend="aot_eager")):
loss.backward()
# single graph for the backward
assert(torch._dynamo.utils.counters["stats"]["unique_graphs"] == 1)
在第一个 torch.compile 案例中,我们看到由于编译函数 fn 中的 2 个图中断,产生了 3 个反向传播图。而在第二个带有编译自动求导的 torch.compile 案例中,尽管存在图中断,我们仍看到追踪到了一个完整的反向传播图。
注意
当追踪被编译自动求导捕获的反向传播钩子时,Dynamo 仍然可能发生图中断。
现在可以捕获反向传播钩子
@torch.compile(backend="aot_eager")
def fn(x):
return x.sum()
x = torch.randn(10, 10, requires_grad=True)
x.register_hook(lambda grad: grad+10)
loss = fn(x)
with torch._dynamo.compiled_autograd.enable(torch.compile(backend="aot_eager")):
loss.backward()
图中应该有一个 call_hook 节点,Dynamo 稍后会将其内联到以下内容中:
编译自动求导常见的重新编译原因#
由于损失值(loss)自动求导结构的变化
torch._dynamo.config.compiled_autograd = True
x = torch.randn(10, requires_grad=True)
for op in [torch.add, torch.sub, torch.mul, torch.div]:
loss = op(x, x).sum()
torch.compile(lambda: loss.backward(), backend="eager")()
在上面的示例中,我们在每次迭代中调用不同的算子,导致 loss 每次都追踪不同的自动求导历史。你应该会看到一些重编译消息:Cache miss due to new autograd node(由于新的自动求导节点导致的缓存未命中)。
由于张量形状的变化
torch._dynamo.config.compiled_autograd = True
for i in [10, 100, 10]:
x = torch.randn(i, i, requires_grad=True)
loss = x.sum()
torch.compile(lambda: loss.backward(), backend="eager")()
在上面的示例中,x 改变了形状,编译自动求导会在第一次改变后将 x 标记为动态形状张量。你应该会看到重编译消息:Cache miss due to changed shapes(由于形状改变导致的缓存未命中)。
结论#
在本教程中,我们概述了带有编译自动求导的 torch.compile 生态系统,介绍了编译自动求导的基础知识以及一些常见的重编译原因。敬请关注 dev-discuss 上的深度解析。