评价此页

分布式自动求导设计#

创建于: 2019年11月12日 | 最后更新于: 2021年09月03日

本文档将详细介绍分布式自动求导的设计并深入探讨其内部机制。在继续阅读之前,请确保您熟悉 自动求导机制分布式 RPC 框架

背景#

假设您有两个节点,并且一个非常简单的模型被划分到这两个节点上。这可以使用 torch.distributed.rpc 来实现,如下所示:

import torch
import torch.distributed.rpc as rpc

def my_add(t1, t2):
  return torch.add(t1, t2)

# On worker 0:
t1 = torch.rand((3, 3), requires_grad=True)
t2 = torch.rand((3, 3), requires_grad=True)

# Perform some computation remotely.
t3 = rpc.rpc_sync("worker1", my_add, args=(t1, t2))

# Perform some computation locally based on remote result.
t4 = torch.rand((3, 3), requires_grad=True)
t5 = torch.mul(t3, t4)

# Compute some loss.
loss = t5.sum()

分布式自动求导的主要动机是能够对这些分布式模型进行反向传播,并使用我们计算出的 loss 来为所有需要梯度的张量记录相应的梯度。

前向传播过程中的自动求导记录#

PyTorch 在前向传播过程中构建自动求导图,然后利用该图执行反向传播。更多细节请参阅 自动求导如何编码历史

对于分布式自动求导,我们需要在前向传播过程中跟踪所有的 RPC 调用,以确保反向传播得到正确执行。为此,我们在执行 RPC 时将 sendrecv 函数附加到自动求导图上。

  • send 函数附加到 RPC 的源头,其输出边指向 RPC 输入张量的自动求导函数。此函数在反向传播过程中的输入来自目标节点作为相应 recv 函数的输出。

  • recv 函数附加到 RPC 的目标节点,其输入通过输入张量从目标节点上执行的操作中检索。此函数的输出梯度在反向传播过程中被发送到源节点,以传递给相应的 send 函数。

  • 每个 send-recv 对都被分配一个全局唯一的 autograd_message_id,以唯一标识该对。这在反向传播过程中查找远程节点上的相应函数时非常有用。

  • 对于 RRef,每当我们调用 torch.distributed.rpc.RRef.to_here() 时,我们都会为涉及的张量附加一个相应的 send-recv 对。

作为示例,上面示例的自动求导图(为简化起见,已排除 t5.sum())将如下所示:

../_images/send_recv_functions.png

分布式自动求导上下文#

每个使用分布式自动求导的前向和反向传播都会被分配一个唯一的 torch.distributed.autograd.context,该上下文有一个全局唯一的 autograd_context_id。此上下文在需要时会在每个节点上创建。

此上下文具有以下作用:

  1. 多个节点运行分布式反向传播可能会在同一张量上累积梯度,因此在有机会运行优化器之前,该张量的 .grad 字段将包含来自各种分布式反向传播的梯度。这类似于在本地多次调用 torch.autograd.backward()。为了能够区分每次反向传播的梯度,梯度是按每次反向传播在 torch.distributed.autograd.context 中累积的。

  2. 在前向传播过程中,我们将每个自动求导过程的 sendrecv 函数存储在此上下文中。这确保我们持有对自动求导图中相应节点的引用,以保持其存活。此外,在反向传播过程中查找相应的 sendrecv 函数也很方便。

  3. 总的来说,我们还使用此上下文来存储每个分布式自动求导过程的一些元数据。


从用户的角度来看,自动求导上下文的设置如下:

import torch.distributed.autograd as dist_autograd
with dist_autograd.context() as context_id:
  loss = model.forward()
  dist_autograd.backward(context_id, loss)

重要的是要注意,模型的正向传播必须在分布式自动求导上下文管理器中调用,因为需要一个有效的上下文来确保所有 sendrecv 函数都被正确存储,以便在所有参与节点上运行反向传播。

分布式反向传播#

本节将概述在分布式反向传播过程中准确计算依赖项的挑战,并描述几种(带有权衡的)执行分布式反向传播的算法。

计算依赖项#

考虑在单台机器上运行的以下代码片段:

import torch
a = torch.rand((3, 3), requires_grad=True)
b = torch.rand((3, 3), requires_grad=True)
c = torch.rand((3, 3), requires_grad=True)
d = a + b
e = b * c
d.sum.().backward()

上面代码的自动求导图将如下所示:

../_images/local_dependencies.png

自动求导引擎在反向传播过程中执行的第一步是计算自动求导图中每个节点的依赖项数量。这有助于自动求导引擎知道图中的节点何时准备好执行。 add(1)mul(0) 的括号中的数字表示依赖项的数量。正如您所见,这意味着在反向传播过程中,add 节点需要 1 个输入,而 mul 节点不需要任何输入(换句话说,不需要执行)。本地自动求导引擎通过从根节点(在本例中为 d)进行遍历来计算这些依赖项。

自动求导图中某些节点可能不在反向传播中执行的事实给分布式自动求导带来了挑战。考虑这段使用 RPC 的代码:

import torch
import torch.distributed.rpc as rpc

a = torch.rand((3, 3), requires_grad=True)
b = torch.rand((3, 3), requires_grad=True)
c = torch.rand((3, 3), requires_grad=True)

d = rpc.rpc_sync("worker1", torch.add, args=(a, b))
e = rpc.rpc_sync("worker1", torch.mul, args=(b, c))
loss = d.sum()

上述代码的相应自动求导图将是:

../_images/distributed_dependencies.png

计算此分布式自动求导图的依赖项更加困难,需要一些开销(无论是计算还是网络通信)。

对于性能敏感的应用,我们可以通过假设每个 sendrecv 函数在反向传播过程中都是有效的(大多数应用程序不会执行未使用的 RPC)来避免大量开销。这简化了分布式自动求导算法,并且效率更高,但代价是应用程序需要了解其局限性。此算法称为 FAST 模式算法,下面将详细介绍。

在一般情况下,并非所有 sendrecv 函数在反向传播过程中都可能是有效的。为了解决这个问题,我们提出了一种 SMART 模式算法,该算法将在后面的章节中介绍。请注意,目前仅实现了 FAST 模式算法。

FAST 模式算法#

该算法的关键假设是,在运行反向传播时,每个 send 函数都有一个依赖项为 1。换句话说,我们假设我们将通过 RPC 从另一个节点接收梯度。

该算法如下:

  1. 我们从拥有反向传播根节点的 worker 开始(所有根节点必须是本地的)。

  2. 查找当前 分布式自动求导上下文 的所有 send 函数。

  3. 从提供的根节点和我们检索到的所有 send 函数开始,在本地计算依赖项。

  4. 计算完依赖项后,使用提供的根节点启动本地自动求导引擎。

  5. 当自动求导引擎执行 recv 函数时,recv 函数通过 RPC 将输入梯度发送到相应的 worker。每个 recv 函数都知道目标 worker ID,因为它是在前向传播过程中记录的。 recv 函数还将 autograd_context_idautograd_message_id 发送到远程主机。

  6. 当远程主机收到此请求时,我们使用 autograd_context_idautograd_message_id 来查找相应的 send 函数。

  7. 如果 worker 第一次收到给定 autograd_context_id 的请求,它将按照上述第 1-3 点所述在本地计算依赖项。

  8. 在 worker 的本地自动求导引擎中,会将步骤 6 中检索到的 send 函数排队等待执行。

  9. 最后,梯度不会累积在张量的 .grad 字段中,而是为每个 分布式自动求导上下文 分开累积梯度。梯度存储在 Dict[Tensor, Tensor] 中,它本质上是一个从张量到其相关梯度的映射,可以使用 get_gradients() API 检索此映射。


作为示例,下面是带有分布式自动求导的完整代码:

import torch
import torch.distributed.autograd as dist_autograd
import torch.distributed.rpc as rpc

def my_add(t1, t2):
  return torch.add(t1, t2)

# On worker 0:

# Setup the autograd context. Computations that take
# part in the distributed backward pass must be within
# the distributed autograd context manager.
with dist_autograd.context() as context_id:
  t1 = torch.rand((3, 3), requires_grad=True)
  t2 = torch.rand((3, 3), requires_grad=True)

  # Perform some computation remotely.
  t3 = rpc.rpc_sync("worker1", my_add, args=(t1, t2))

  # Perform some computation locally based on remote result.
  t4 = torch.rand((3, 3), requires_grad=True)
  t5 = torch.mul(t3, t4)

  # Compute some loss.
  loss = t5.sum()

  # Run the backward pass.
  dist_autograd.backward(context_id, [loss])

  # Retrieve the gradients from the context.
  dist_autograd.get_gradients(context_id)

带有依赖项的分布式自动求导图将如下所示(为简化起见,已排除 t5.sum()):

../_images/distributed_dependencies_computed.png

应用于上述示例的 FAST 模式算法 如下所示:

  1. Worker 0 上,我们从根节点 losssend1 开始计算依赖关系。因此,send1 被标记为具有 1 的依赖关系,而 Worker 0 上的 mul 被标记为具有 1 的依赖关系。

  2. 现在,我们在 Worker 0 上启动本地 autograd 引擎。我们首先执行 mul 函数,将其输出累积到 autograd 上下文中,作为 t4 的梯度。然后,我们执行 recv2,它将梯度发送到 Worker 1

  3. 由于这是 Worker 1 第一次了解到此反向传播,因此它会开始依赖关系计算,并适当地标记 send2addrecv1 的依赖关系。

  4. 接下来,我们在 Worker 1 的本地 autograd 引擎上排队 send2,该引擎随后执行 addrecv1

  5. 当执行 recv1 时,它会将梯度发送到 Worker 0

  6. 由于 Worker 0 已经计算了此反向传播的依赖关系,因此它只需在本地排队并执行 send1

  7. 最后,t1t2t4 的梯度将累积在 分布式 Autograd 上下文 中。

SMART 模式算法#

该算法的完整细节仍在完善中,但有关其总体思路,您可以参考 RFC 中“分布式 Autograd 算法 SMART 模式”部分。

分布式优化器#

DistributedOptimizer 的工作方式如下:

  1. 接收一个要优化的远程参数列表(RRef)。这些也可以是包含在本地 RRef 中的本地参数。

  2. 接收一个 Optimizer 类作为本地优化器,在所有不同的 RRef 所有者上运行。

  3. 分布式优化器在每个工作节点上创建本地 Optimizer 的实例,并持有指向它们的 RRef

  4. 当调用 torch.distributed.optim.DistributedOptimizer.step() 时,分布式优化器使用 RPC 在相应的远程工作节点上远程执行所有本地优化器。必须向 torch.distributed.optim.DistributedOptimizer.step() 提供分布式 autograd context_id。本地优化器使用它来应用存储在相应上下文中的梯度。

  5. 如果多个并发的分布式优化器正在更新同一工作节点上的参数,这些更新将通过锁进行序列化。

简单的端到端示例#

总而言之,以下是使用分布式 autograd 和分布式优化器的简单端到端示例。如果将代码放入名为“dist_autograd_simple.py”的文件中,可以使用命令 MASTER_ADDR="localhost" MASTER_PORT=29500 python dist_autograd_simple.py 来运行。

import torch
import torch.multiprocessing as mp
import torch.distributed.autograd as dist_autograd
from torch.distributed import rpc
from torch import optim
from torch.distributed.optim import DistributedOptimizer

def random_tensor():
    return torch.rand((3, 3), requires_grad=True)

def _run_process(rank, dst_rank, world_size):
    name = "worker{}".format(rank)
    dst_name = "worker{}".format(dst_rank)

    # Initialize RPC.
    rpc.init_rpc(
        name=name,
        rank=rank,
        world_size=world_size
    )

    # Use a distributed autograd context.
    with dist_autograd.context() as context_id:
        # Forward pass (create references on remote nodes).
        rref1 = rpc.remote(dst_name, random_tensor)
        rref2 = rpc.remote(dst_name, random_tensor)
        loss = rref1.to_here() + rref2.to_here()

        # Backward pass (run distributed autograd).
        dist_autograd.backward(context_id, [loss.sum()])

        # Build DistributedOptimizer.
        dist_optim = DistributedOptimizer(
        optim.SGD,
        [rref1, rref2],
        lr=0.05,
        )

        # Run the distributed optimizer step.
        dist_optim.step(context_id)

def run_process(rank, world_size):
    dst_rank = (rank + 1) % world_size
    _run_process(rank, dst_rank, world_size)
    rpc.shutdown()

if __name__ == '__main__':
  # Run world_size workers
  world_size = 2
  mp.spawn(run_process, args=(world_size,), nprocs=world_size)