评价此页

Per-sample-gradients(逐样本梯度)#

创建于: 2023年3月15日 | 最后更新: 2025年7月30日 | 最后验证: 2024年11月5日

这是什么?#

逐样本梯度计算是指计算数据批次中每个样本的梯度。这在差分隐私、元学习和优化研究中是一个有用的量。

注意

本教程需要 PyTorch 2.0.0 或更高版本。

import torch
import torch.nn as nn
import torch.nn.functional as F
torch.manual_seed(0)

# Here's a simple CNN and loss function:

class SimpleCNN(nn.Module):
    def __init__(self):
        super(SimpleCNN, self).__init__()
        self.conv1 = nn.Conv2d(1, 32, 3, 1)
        self.conv2 = nn.Conv2d(32, 64, 3, 1)
        self.fc1 = nn.Linear(9216, 128)
        self.fc2 = nn.Linear(128, 10)

    def forward(self, x):
        x = self.conv1(x)
        x = F.relu(x)
        x = self.conv2(x)
        x = F.relu(x)
        x = F.max_pool2d(x, 2)
        x = torch.flatten(x, 1)
        x = self.fc1(x)
        x = F.relu(x)
        x = self.fc2(x)
        output = F.log_softmax(x, dim=1)
        return output

def loss_fn(predictions, targets):
    return F.nll_loss(predictions, targets)

让我们生成一个虚拟数据批次,并假装我们在处理 MNIST 数据集。虚拟图像大小为 28x28,我们使用的迷你批次大小为 64。

device = 'cuda'

num_models = 10
batch_size = 64
data = torch.randn(batch_size, 1, 28, 28, device=device)

targets = torch.randint(10, (64,), device=device)

在常规模型训练中,我们会将迷你批次通过模型进行前向传播,然后调用 `.backward()` 来计算梯度。这将生成整个迷你批次的“平均”梯度。

model = SimpleCNN().to(device=device)
predictions = model(data)  # move the entire mini-batch through the model

loss = loss_fn(predictions, targets)
loss.backward()  # back propagate the 'average' gradient of this mini-batch

与上述方法相比,逐样本梯度计算等同于

  • 对数据中的每个单独样本,执行一次前向和后向传播,以获得一个单独的(逐样本)梯度。

def compute_grad(sample, target):
    sample = sample.unsqueeze(0)  # prepend batch dimension for processing
    target = target.unsqueeze(0)

    prediction = model(sample)
    loss = loss_fn(prediction, target)

    return torch.autograd.grad(loss, list(model.parameters()))


def compute_sample_grads(data, targets):
    """ manually process each sample with per sample gradient """
    sample_grads = [compute_grad(data[i], targets[i]) for i in range(batch_size)]
    sample_grads = zip(*sample_grads)
    sample_grads = [torch.stack(shards) for shards in sample_grads]
    return sample_grads

per_sample_grads = compute_sample_grads(data, targets)

sample_grads[0] 是 `model.conv1.weight` 的逐样本梯度。`model.conv1.weight.shape` 是 `[32, 1, 3, 3]`;请注意,对于批次中的每个样本,都有一个梯度,总共 64 个。

print(per_sample_grads[0].shape)
torch.Size([64, 32, 1, 3, 3])

逐样本梯度——高效的方法,使用函数变换#

我们可以通过使用函数变换来高效地计算逐样本梯度。

`torch.func` 函数变换 API 对函数进行变换。我们的策略是定义一个计算损失的函数,然后应用变换来构建一个计算逐样本梯度的函数。

我们将使用 `torch.func.functional_call` 函数来将 `nn.Module` 视为一个函数。

首先,让我们将 `model` 的状态提取到两个字典中:参数和缓冲区。我们将对它们进行分离(detach),因为我们不会使用常规的 PyTorch 自动微分(例如 Tensor.backward(), torch.autograd.grad)。

from torch.func import functional_call, vmap, grad

params = {k: v.detach() for k, v in model.named_parameters()}
buffers = {k: v.detach() for k, v in model.named_buffers()}

接下来,让我们定义一个函数,该函数给定单个输入而不是输入批次来计算模型的损失。重要的是,此函数必须接受参数、输入和目标,因为我们将对它们进行变换。

注意 - 由于模型最初是为处理批次而编写的,我们将使用 `torch.unsqueeze` 添加一个批次维度。

def compute_loss(params, buffers, sample, target):
    batch = sample.unsqueeze(0)
    targets = target.unsqueeze(0)

    predictions = functional_call(model, (params, buffers), (batch,))
    loss = loss_fn(predictions, targets)
    return loss

现在,让我们使用 `grad` 变换来创建一个新的函数,该函数计算相对于 `compute_loss` 第一个参数(即 `params`)的梯度。

ft_compute_grad = grad(compute_loss)

`ft_compute_grad` 函数计算单个(样本,目标)对的梯度。我们可以使用 `vmap` 来使其计算整个样本和目标的批次的梯度。注意 `in_dims=(None, None, 0, 0)`,因为我们希望在数据和目标的第 0 维上映射 `ft_compute_grad`,并且对每个映射使用相同的 `params` 和缓冲区。

ft_compute_sample_grad = vmap(ft_compute_grad, in_dims=(None, None, 0, 0))

最后,让我们使用我们变换后的函数来计算逐样本梯度。

ft_per_sample_grads = ft_compute_sample_grad(params, buffers, data, targets)

我们可以快速检查使用 `grad` 和 `vmap` 的结果是否与单独手动处理每个结果匹配。

for per_sample_grad, ft_per_sample_grad in zip(per_sample_grads, ft_per_sample_grads.values()):
    assert torch.allclose(per_sample_grad, ft_per_sample_grad, atol=1.2e-1, rtol=1e-5)

快速说明:对可以被 `vmap` 变换的函数类型存在一些限制。最适合变换的函数是纯函数:一个输出仅由输入决定且没有副作用(例如突变)的函数。`vmap` 无法处理任意 Python 数据结构的突变,但可以处理许多就地(in-place)的 PyTorch 操作。

性能比较#

想了解 `vmap` 的性能如何?

目前在较新的 GPU(如 A100 (Ampere))上获得了最佳结果,在该示例上我们看到了高达 25 倍的速度提升,但这里是我们构建机器上的一些结果。

def get_perf(first, first_descriptor, second, second_descriptor):
    """takes torch.benchmark objects and compares delta of second vs first."""
    second_res = second.times[0]
    first_res = first.times[0]

    gain = (first_res-second_res)/first_res
    if gain < 0: gain *=-1
    final_gain = gain*100

    print(f"Performance delta: {final_gain:.4f} percent improvement with {first_descriptor} ")

from torch.utils.benchmark import Timer

without_vmap = Timer(stmt="compute_sample_grads(data, targets)", globals=globals())
with_vmap = Timer(stmt="ft_compute_sample_grad(params, buffers, data, targets)",globals=globals())
no_vmap_timing = without_vmap.timeit(100)
with_vmap_timing = with_vmap.timeit(100)

print(f'Per-sample-grads without vmap {no_vmap_timing}')
print(f'Per-sample-grads with vmap {with_vmap_timing}')

get_perf(with_vmap_timing, "vmap", no_vmap_timing, "no vmap")
Per-sample-grads without vmap <torch.utils.benchmark.utils.common.Measurement object at 0x7f1e6ed0f040>
compute_sample_grads(data, targets)
  65.07 ms
  1 measurement, 100 runs , 1 thread
Per-sample-grads with vmap <torch.utils.benchmark.utils.common.Measurement object at 0x7f1e6f5eabf0>
ft_compute_sample_grad(params, buffers, data, targets)
  3.40 ms
  1 measurement, 100 runs , 1 thread
Performance delta: 1815.1264 percent improvement with vmap

还有其他优化的解决方案(例如 pytorch/opacus 中的)用于在 PyTorch 中计算逐样本梯度,这些方案也比朴素方法性能更好。但令人高兴的是,组合使用 `vmap` 和 `grad` 可以带来不错的速度提升。

总的来说,使用 `vmap` 进行向量化应该比在 for 循环中运行函数更快,并且与手动批处理具有竞争力。但也有一些例外,例如如果我们没有为特定操作实现 `vmap` 规则,或者底层内核没有针对旧硬件 (GPU) 进行优化。如果您遇到任何这些情况,请在 GitHub 上提出 issue 告诉我们。

脚本总运行时间: (0 分钟 7.904 秒)