评价此页

torch.cuda.comm.reduce_add_coalesced#

torch.cuda.comm.reduce_add_coalesced(inputs, destination=None, buffer_size=10485760)[source]#

从多个 GPU 求和张量。

将小张量首先合并到一个缓冲区中,以减少同步次数。

参数
  • inputs (Iterable[Iterable[Tensor]]) – 包含来自单个设备的张量的可迭代对象。

  • destination (int, optional) – 输出将放置的设备(默认:当前设备)。

  • buffer_size (int) – 用于合并的最大缓冲区大小

返回

包含每个输入组的逐元素和的张量元组,放置在 destination 设备上。