注意
转到末尾 以下载完整的示例代码。
简介 || 张量 || Autograd || 构建模型 || TensorBoard 支持 || 训练模型 || 模型理解
Autograd 的基础#
创建日期:2021 年 11 月 30 日 | 最后更新:2024 年 2 月 26 日 | 最后验证:2024 年 11 月 05 日
可以观看下面的视频或在 youtube 上观看。
PyTorch 的 Autograd 功能是 PyTorch 在构建机器学习项目时能够灵活快速的关键因素之一。它能够对复杂的计算进行多个偏导数(也称为梯度)的快速简便计算。此操作是反向传播神经网络学习的核心。
Autograd 的强大之处在于它在运行时动态跟踪您的计算,这意味着如果您的模型有决策分支,或者循环的长度直到运行时才知道,计算仍然会被正确跟踪,您将获得正确的梯度来驱动学习。这一点,加上您的模型是用 Python 构建的事实,比依赖于对计算梯度更严格结构化模型的静态分析的框架提供了更大的灵活性。
我们为什么需要 Autograd?#
机器学习模型是一个函数,具有输入和输出。在本讨论中,我们将输入视为一个 i 维向量 \(\vec{x}\),其元素为 \(x_{i}\)。然后,我们可以将模型 M 表示为输入的向量值函数:\(\vec{y} = \vec{M}(\vec{x})\)。(我们将 M 的输出值视为向量,因为通常模型可以有任意数量的输出。)
由于我们主要在训练的上下文中讨论 autograd,因此我们感兴趣的输出将是模型的损失。损失函数 L(\(\vec{y}\)) = L(\(\vec{M}\)(\(\vec{x}\))) 是模型输出的标量值函数。此函数表示我们的模型预测与特定输入的理想输出之间的差距。注意:在此之后,我们经常会省略向量符号,只要在上下文中可以理解即可 — 例如,\(y\) 而不是 \(\vec y\)。
在训练模型时,我们希望最小化损失。在理想情况下,一个完美的模型意味着调整其学习权重 — 即函数的可调参数 — 使所有输入的损失为零。在实际世界中,这意味着一个迭代过程,即微调学习权重,直到我们看到对于各种输入都能获得可容忍的损失。
我们如何决定如何调整权重的幅度以及方向?我们希望最小化损失,这意味着使其相对于输入的第一个导数等于 0:\(\frac{\partial L}{\partial x} = 0\)。
然而,请记住,损失并不是直接从输入派生的,而是模型输出(它是输入的直接函数)的函数,\(\frac{\partial L}{\partial x}\) = \(\frac{\partial {L({\vec y})}}{\partial x}\)。根据微分的链式法则,我们有 \(\frac{\partial {L({\vec y})}}{\partial x}\) = \(\frac{\partial L}{\partial y}\frac{\partial y}{\partial x}\) = \(\frac{\partial L}{\partial y}\frac{\partial M(x)}{\partial x}\)。
\(\frac{\partial M(x)}{\partial x}\) 是事情变得复杂的地方。模型的输出相对于其输入的偏导数,如果我们再次使用链式法则展开表达式,将涉及每个乘法学习权重、每个激活函数以及模型中所有其他数学转换的许多局部偏导数。每个此类偏导数的完整表达式是结束于我们试图度量其梯度的变量的计算图中所有可能路径的局部梯度乘积的总和。
特别是,我们对学习权重的梯度很感兴趣 — 它们告诉我们每个权重的变化方向,以便将损失函数更接近零。
由于这些局部导数的数量(每个导数对应于模型计算图中的一个单独路径)会随着神经网络的深度呈指数级增长,计算它们的复杂性也会随之增长。这就是 autograd 的用武之地:它跟踪每个计算的历史。PyTorch 模型中的每个计算出的张量都带有其输入张量和创建它的函数的历史。结合 PyTorch 中用于处理张量的函数都具有计算自身导数的内置实现这一事实,这大大加快了学习所需的局部导数的计算。
一个简单的例子#
这已经有很多理论了——但实际使用 autograd 是什么样的呢?
让我们从一个简单的例子开始。首先,我们将进行一些导入,以便我们可以绘制结果
# %matplotlib inline
import torch
import matplotlib.pyplot as plt
import matplotlib.ticker as ticker
import math
接下来,我们将创建一个包含区间 \([0, 2{\pi}]\) 上均匀分布值的输入张量,并指定 requires_grad=True
。(与大多数创建张量的函数一样,torch.linspace()
接受一个可选的 requires_grad
选项。)设置此标志意味着在后续的每个计算中,autograd 都将在该计算的输出张量中累积计算历史。
a = torch.linspace(0., 2. * math.pi, steps=25, requires_grad=True)
print(a)
tensor([0.0000, 0.2618, 0.5236, 0.7854, 1.0472, 1.3090, 1.5708, 1.8326, 2.0944,
2.3562, 2.6180, 2.8798, 3.1416, 3.4034, 3.6652, 3.9270, 4.1888, 4.4506,
4.7124, 4.9742, 5.2360, 5.4978, 5.7596, 6.0214, 6.2832],
requires_grad=True)
接下来,我们将执行一个计算,并根据其输入绘制其输出

[<matplotlib.lines.Line2D object at 0x7febc1ccd4e0>]
让我们仔细看看张量 b
。当我们打印它时,我们会看到一个指示它正在跟踪其计算历史的标志
print(b)
tensor([ 0.0000e+00, 2.5882e-01, 5.0000e-01, 7.0711e-01, 8.6603e-01,
9.6593e-01, 1.0000e+00, 9.6593e-01, 8.6603e-01, 7.0711e-01,
5.0000e-01, 2.5882e-01, -8.7423e-08, -2.5882e-01, -5.0000e-01,
-7.0711e-01, -8.6603e-01, -9.6593e-01, -1.0000e+00, -9.6593e-01,
-8.6603e-01, -7.0711e-01, -5.0000e-01, -2.5882e-01, 1.7485e-07],
grad_fn=<SinBackward0>)
这个 grad_fn
提示我们在执行反向传播步骤并计算梯度时,我们需要计算该张量所有输入的 \(\sin(x)\) 的导数。
让我们进行一些更多的计算
tensor([ 0.0000e+00, 5.1764e-01, 1.0000e+00, 1.4142e+00, 1.7321e+00,
1.9319e+00, 2.0000e+00, 1.9319e+00, 1.7321e+00, 1.4142e+00,
1.0000e+00, 5.1764e-01, -1.7485e-07, -5.1764e-01, -1.0000e+00,
-1.4142e+00, -1.7321e+00, -1.9319e+00, -2.0000e+00, -1.9319e+00,
-1.7321e+00, -1.4142e+00, -1.0000e+00, -5.1764e-01, 3.4969e-07],
grad_fn=<MulBackward0>)
tensor([ 1.0000e+00, 1.5176e+00, 2.0000e+00, 2.4142e+00, 2.7321e+00,
2.9319e+00, 3.0000e+00, 2.9319e+00, 2.7321e+00, 2.4142e+00,
2.0000e+00, 1.5176e+00, 1.0000e+00, 4.8236e-01, -3.5763e-07,
-4.1421e-01, -7.3205e-01, -9.3185e-01, -1.0000e+00, -9.3185e-01,
-7.3205e-01, -4.1421e-01, 4.7684e-07, 4.8236e-01, 1.0000e+00],
grad_fn=<AddBackward0>)
最后,让我们计算一个单元素输出。当您对没有参数的张量调用 .backward()
时,它期望调用张量只包含一个元素,就像计算损失函数一样。
tensor(25., grad_fn=<SumBackward0>)
我们张量中存储的每个 grad_fn
都允许您使用其 next_functions
属性将计算一直追溯到其输入。我们可以看到下面,深入查看 d
的此属性显示了所有先前张量的梯度函数。请注意,a.grad_fn
被报告为 None
,表明这是函数的一个输入,其自身没有历史记录。
print('d:')
print(d.grad_fn)
print(d.grad_fn.next_functions)
print(d.grad_fn.next_functions[0][0].next_functions)
print(d.grad_fn.next_functions[0][0].next_functions[0][0].next_functions)
print(d.grad_fn.next_functions[0][0].next_functions[0][0].next_functions[0][0].next_functions)
print('\nc:')
print(c.grad_fn)
print('\nb:')
print(b.grad_fn)
print('\na:')
print(a.grad_fn)
d:
<AddBackward0 object at 0x7febd1a93ac0>
((<MulBackward0 object at 0x7febd1a937c0>, 0), (None, 0))
((<SinBackward0 object at 0x7febd1a937c0>, 0), (None, 0))
((<AccumulateGrad object at 0x7febd1a93ac0>, 0),)
()
c:
<MulBackward0 object at 0x7febd1a937c0>
b:
<SinBackward0 object at 0x7febd1a937c0>
a:
None
有了所有这些机制,我们如何获取导数?您调用输出上的 backward()
方法,并检查输入的 grad
属性以检查梯度
out.backward()
print(a.grad)
plt.plot(a.detach(), a.grad.detach())

tensor([ 2.0000e+00, 1.9319e+00, 1.7321e+00, 1.4142e+00, 1.0000e+00,
5.1764e-01, -8.7423e-08, -5.1764e-01, -1.0000e+00, -1.4142e+00,
-1.7321e+00, -1.9319e+00, -2.0000e+00, -1.9319e+00, -1.7321e+00,
-1.4142e+00, -1.0000e+00, -5.1764e-01, 2.3850e-08, 5.1764e-01,
1.0000e+00, 1.4142e+00, 1.7321e+00, 1.9319e+00, 2.0000e+00])
[<matplotlib.lines.Line2D object at 0x7fec09924250>]
回想一下我们为达到此处所采取的计算步骤
添加一个常数,就像我们为计算 d
所做的那样,不会改变导数。这样就剩下 \(c = 2 * b = 2 * \sin(a)\),其导数应该是 \(2 * \cos(a)\)。查看上面的图表,这正是我们所看到的。
请注意,只有计算的叶子节点才计算其梯度。如果您尝试例如 print(c.grad)
,您将得到 None
。在这个简单的例子中,只有输入是叶子节点,所以只有它计算了梯度。
Autograd 在训练中#
我们已经简要了解了 autograd 的工作原理,但它在用于其预期目的时是什么样的呢?让我们定义一个小型模型并检查单个训练批次后它如何变化。首先,定义一些常量、我们的模型以及输入和输出的一些占位符
BATCH_SIZE = 16
DIM_IN = 1000
HIDDEN_SIZE = 100
DIM_OUT = 10
class TinyModel(torch.nn.Module):
def __init__(self):
super(TinyModel, self).__init__()
self.layer1 = torch.nn.Linear(DIM_IN, HIDDEN_SIZE)
self.relu = torch.nn.ReLU()
self.layer2 = torch.nn.Linear(HIDDEN_SIZE, DIM_OUT)
def forward(self, x):
x = self.layer1(x)
x = self.relu(x)
x = self.layer2(x)
return x
some_input = torch.randn(BATCH_SIZE, DIM_IN, requires_grad=False)
ideal_output = torch.randn(BATCH_SIZE, DIM_OUT, requires_grad=False)
model = TinyModel()
您可能会注意到的一件事是,我们从未为模型的层指定 requires_grad=True
。在 torch.nn.Module
的子类中,我们假定我们希望跟踪层权重的梯度以进行学习。
如果我们查看模型的层,我们可以检查权重的值,并验证尚未计算任何梯度
print(model.layer2.weight[0][0:10]) # just a small slice
print(model.layer2.weight.grad)
tensor([ 0.0068, -0.0958, 0.0396, 0.0222, 0.0318, -0.0601, 0.0614, 0.0536,
-0.0201, -0.0157], grad_fn=<SliceBackward0>)
None
让我们看看当我们运行一个训练批次时这会如何变化。对于损失函数,我们将使用“预测”和“理想输出”之间的欧几里得距离的平方,并且我们将使用基本的随机梯度下降优化器。
optimizer = torch.optim.SGD(model.parameters(), lr=0.001)
prediction = model(some_input)
loss = (ideal_output - prediction).pow(2).sum()
print(loss)
tensor(167.0624, grad_fn=<SumBackward0>)
现在,让我们调用 loss.backward()
并看看会发生什么
loss.backward()
print(model.layer2.weight[0][0:10])
print(model.layer2.weight.grad[0][0:10])
tensor([ 0.0068, -0.0958, 0.0396, 0.0222, 0.0318, -0.0601, 0.0614, 0.0536,
-0.0201, -0.0157], grad_fn=<SliceBackward0>)
tensor([ 6.3208, 0.3215, 4.9671, 0.8373, -1.1958, -1.8440, -0.6819, 6.1263,
5.2266, 1.7717])
我们可以看到每个学习权重的梯度都已计算,但权重保持不变,因为我们还没有运行优化器。优化器负责根据计算出的梯度更新模型权重。
optimizer.step()
print(model.layer2.weight[0][0:10])
print(model.layer2.weight.grad[0][0:10])
tensor([ 0.0005, -0.0962, 0.0346, 0.0214, 0.0330, -0.0583, 0.0620, 0.0475,
-0.0253, -0.0174], grad_fn=<SliceBackward0>)
tensor([ 6.3208, 0.3215, 4.9671, 0.8373, -1.1958, -1.8440, -0.6819, 6.1263,
5.2266, 1.7717])
您应该看到 layer2
的权重已更改。
关于此过程的一个重要事项:调用 optimizer.step()
后,您需要调用 optimizer.zero_grad()
,否则每次运行 loss.backward()
时,学习权重的梯度都会累积
print(model.layer2.weight.grad[0][0:10])
for i in range(0, 5):
prediction = model(some_input)
loss = (ideal_output - prediction).pow(2).sum()
loss.backward()
print(model.layer2.weight.grad[0][0:10])
optimizer.zero_grad(set_to_none=False)
print(model.layer2.weight.grad[0][0:10])
tensor([ 6.3208, 0.3215, 4.9671, 0.8373, -1.1958, -1.8440, -0.6819, 6.1263,
5.2266, 1.7717])
tensor([ 40.9981, 6.6406, 13.0336, 1.1976, -22.2848, 3.2082, -20.2546,
21.8733, 18.5983, 14.7347])
tensor([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])
运行上面的单元格后,您应该看到,在多次运行 loss.backward()
后,大多数梯度的幅度会大得多。在运行下一个训练批次之前未能清零梯度会导致梯度以这种方式爆炸,从而导致不正确和不可预测的学习结果。
打开和关闭 Autograd#
在某些情况下,您需要精细控制 autograd 是否启用。根据情况,有多种方法可以做到这一点。
最简单的方法是直接更改张量上的 requires_grad
标志
tensor([[1., 1., 1.],
[1., 1., 1.]], requires_grad=True)
tensor([[2., 2., 2.],
[2., 2., 2.]], grad_fn=<MulBackward0>)
tensor([[2., 2., 2.],
[2., 2., 2.]])
在上面的单元格中,我们看到 b1
有一个 grad_fn
(即,跟踪的计算历史),这正是我们所期望的,因为它源自一个 autograd 已启用的张量 a
。当我们显式使用 a.requires_grad = False
关闭 autograd 时,计算历史不再被跟踪,正如我们在计算 b2
时所看到的。
如果您只需要临时关闭 autograd,更好的方法是使用 torch.no_grad()
tensor([[5., 5., 5.],
[5., 5., 5.]], grad_fn=<AddBackward0>)
tensor([[5., 5., 5.],
[5., 5., 5.]])
tensor([[6., 6., 6.],
[6., 6., 6.]], grad_fn=<MulBackward0>)
torch.no_grad()
也可以用作函数或方法装饰器
tensor([[5., 5., 5.],
[5., 5., 5.]], grad_fn=<AddBackward0>)
tensor([[5., 5., 5.],
[5., 5., 5.]])
有一个相应的上下文管理器 torch.enable_grad()
,用于在 autograd 未启用时将其启用。它也可以用作装饰器。
最后,您可能有一个需要梯度跟踪的张量,但您想要一个不需要的副本。为此,我们有 Tensor
对象的 detach()
方法 — 它创建了一个从计算历史中分离的张量副本
tensor([0.5976, 0.3325, 0.9332, 0.3349, 0.2249], requires_grad=True)
tensor([0.5976, 0.3325, 0.9332, 0.3349, 0.2249])
我们在上面想要绘制一些张量时这样做了。这是因为 matplotlib
期望 NumPy 数组作为输入,并且从 PyTorch 张量到 NumPy 数组的隐式转换对于 requires_grad=True 的张量是不启用的。创建分离的副本可以让我们继续。
Autograd 和原地操作#
在此笔记本中的所有示例中,我们都使用了变量来捕获计算的中间值。Autograd 需要这些中间值来执行梯度计算。因此,在使用 autograd 时,您必须小心使用原地操作。这样做可能会破坏您在 backward()
调用中计算导数所需的信息。PyTorch 甚至会阻止您对需要 autograd 的叶子变量进行原地操作,如下所示。
注意
以下代码单元会引发运行时错误。这是预期的。
a = torch.linspace(0., 2. * math.pi, steps=25, requires_grad=True)
torch.sin_(a)
Autograd 性能分析器#
Autograd 详细跟踪您的计算的每一步。这样的计算历史,加上计时信息,将构成一个有用的性能分析器 — autograd 具有此内置功能。这是一个简单的用法示例
device = torch.device('cpu')
run_on_gpu = False
if torch.cuda.is_available():
device = torch.device('cuda')
run_on_gpu = True
x = torch.randn(2, 3, requires_grad=True)
y = torch.rand(2, 3, requires_grad=True)
z = torch.ones(2, 3, requires_grad=True)
with torch.autograd.profiler.profile(use_cuda=run_on_gpu) as prf:
for _ in range(1000):
z = (z / x) * y
print(prf.key_averages().table(sort_by='self_cpu_time_total'))
/var/lib/workspace/beginner_source/introyt/autogradyt_tutorial.py:485: FutureWarning:
The attribute `use_cuda` will be deprecated soon, please use ``use_device = 'cuda'`` instead.
------------------------------------ ------------ ------------ ------------ ------------ ------------ ------------ ------------ ------------ ------------ ------------
Name Self CPU % Self CPU CPU total % CPU total CPU time avg Self CUDA Self CUDA % CUDA total CUDA time avg # of Calls
------------------------------------ ------------ ------------ ------------ ------------ ------------ ------------ ------------ ------------ ------------ ------------
cudaEventRecord 47.12% 8.795ms 47.12% 8.795ms 2.199us 0.000us 0.00% 0.000us 0.000us 4000
aten::div 22.08% 4.122ms 22.08% 4.122ms 4.122us 8.163ms 50.24% 8.163ms 8.163us 1000
aten::mul 21.68% 4.047ms 21.68% 4.047ms 4.047us 8.084ms 49.76% 8.084ms 8.084us 1000
cudaGetDeviceProperties_v2 8.97% 1.674ms 8.97% 1.674ms 1.674ms 0.000us 0.00% 0.000us 0.000us 1
cudaDeviceSynchronize 0.08% 15.810us 0.08% 15.810us 15.810us 0.000us 0.00% 0.000us 0.000us 1
cudaStreamIsCapturing 0.05% 8.890us 0.05% 8.890us 2.963us 0.000us 0.00% 0.000us 0.000us 3
cudaDeviceGetStreamPriorityRange 0.01% 2.750us 0.01% 2.750us 2.750us 0.000us 0.00% 0.000us 0.000us 1
cudaGetDeviceCount 0.00% 0.300us 0.00% 0.300us 0.150us 0.000us 0.00% 0.000us 0.000us 2
------------------------------------ ------------ ------------ ------------ ------------ ------------ ------------ ------------ ------------ ------------ ------------
Self CPU time total: 18.665ms
Self CUDA time total: 16.247ms
性能分析器还可以标记代码的各个子块,按输入张量形状分解数据,并将数据导出为 Chrome 跟踪工具文件。有关 API 的完整详细信息,请参阅文档。
高级主题:更多 Autograd 细节和高级 API#
如果您有一个具有 n 维输入和 m 维输出的函数,\(\vec{y}=f(\vec{x})\),那么完整的梯度是每个输出相对于每个输入的导数矩阵,称为雅可比矩阵:
如果您有一个第二个函数,\(l=g\left(\vec{y}\right)\),它接受 m 维输入(即,与上面输出相同的维度),并返回一个标量输出,您可以将它相对于 \(\vec{y}\) 的梯度表示为列向量,\(\vec{v}=\left(\begin{array}{ccc}\frac{\partial l}{\partial y_{1}} & \cdots & \frac{\partial l}{\partial y_{m}}\end{array}\right)^{T}\) — 这实际上就是一个单列雅可比矩阵。
更具体地说,将第一个函数想象成您的 PyTorch 模型(可能有很多输入和很多输出),将第二个函数想象成一个损失函数(以模型的输出为输入,以损失值为标量输出)。
如果我们乘以第一个函数的雅可比矩阵和第二个函数的梯度,并应用链式法则,我们得到
注意:您也可以使用等效操作 \(v^{T}\cdot J\),并得到一个行向量。
结果的列向量是第二个函数相对于第一个函数输入的梯度 — 或者在我们的模型和损失函数的情况下,是损失相对于模型输入的梯度。
``torch.autograd`` 是计算这些乘积的引擎。这就是我们在反向传播过程中在学习权重上累积梯度的方式。
因此,backward()
调用还可以接受一个可选的向量输入。此向量表示张量上的一组梯度,这些梯度会乘以其之前的 autograd 跟踪张量的雅可比矩阵。让我们用一个小向量尝试一个具体的例子
x = torch.randn(3, requires_grad=True)
y = x * 2
while y.data.norm() < 1000:
y = y * 2
print(y)
tensor([ 312.7838, -953.6111, -476.1293], grad_fn=<MulBackward0>)
如果我们现在尝试调用 y.backward()
,我们将收到一个运行时错误,并提示对于标量输出只能隐式计算梯度。对于多维输出,autograd 希望我们提供可以乘以雅可比矩阵的这三个输出的梯度
v = torch.tensor([0.1, 1.0, 0.0001], dtype=torch.float) # stand-in for gradients
y.backward(v)
print(x.grad)
tensor([1.0240e+02, 1.0240e+03, 1.0240e-01])
(请注意,输出梯度都与 2 的幂有关 — 这正是我们从重复加倍操作中期望的。)
高级 API#
autograd 上有一个 API,可以让你直接访问重要的微分矩阵和向量运算。特别是,它允许你计算给定函数的特定输入的雅可比矩阵和海森矩阵。(海森矩阵类似于雅可比矩阵,但表示所有二阶偏导数。)它还提供了与这些矩阵进行向量乘积的方法。
让我们对一个简单的函数计算雅可比矩阵,该函数针对 2 个单元素输入进行求值
def exp_adder(x, y):
return 2 * x.exp() + 3 * y
inputs = (torch.rand(1), torch.rand(1)) # arguments for the function
print(inputs)
torch.autograd.functional.jacobian(exp_adder, inputs)
(tensor([0.3508]), tensor([0.2433]))
(tensor([[2.8405]]), tensor([[3.]]))
如果您仔细查看,第一个输出应该等于 \(2e^x\)(因为 \(e^x\) 的导数是 \(e^x\)),第二个值应该是 3。
当然,您也可以对更高阶的张量执行此操作
inputs = (torch.rand(3), torch.rand(3)) # arguments for the function
print(inputs)
torch.autograd.functional.jacobian(exp_adder, inputs)
(tensor([0.6825, 0.7577, 0.9291]), tensor([0.5690, 0.6976, 0.5583]))
(tensor([[3.9575, 0.0000, 0.0000],
[0.0000, 4.2666, 0.0000],
[0.0000, 0.0000, 5.0643]]), tensor([[3., 0., 0.],
[0., 3., 0.],
[0., 0., 3.]]))
假设您的函数是二次可微的,torch.autograd.functional.hessian()
方法的工作方式完全相同,但返回一个包含所有二阶导数的矩阵。
还有一个函数可以提供向量来直接计算向量-雅可比矩阵乘积
def do_some_doubling(x):
y = x * 2
while y.data.norm() < 1000:
y = y * 2
return y
inputs = torch.randn(3)
my_gradients = torch.tensor([0.1, 1.0, 0.0001])
torch.autograd.functional.vjp(do_some_doubling, inputs, v=my_gradients)
(tensor([-711.9788, 1335.9364, 1148.7734]), tensor([5.1200e+01, 5.1200e+02, 5.1200e-02]))
torch.autograd.functional.jvp()
方法执行与 vjp()
相同的矩阵乘法,但操作数颠倒。vhp()
和 hvp()
方法对向量-海森乘积执行相同的操作。
有关更多信息,包括有关 功能 API 的文档的性能说明
脚本总运行时间:(0 分 0.780 秒)