评价此页

torch.cuda.comm.reduce_add_coalesced#

torch.cuda.comm.reduce_add_coalesced(inputs, destination=None, buffer_size=10485760)[来源]#

从多个 GPU 求和张量。

将小张量先合并到一个缓冲区中,以减少同步次数。

参数
  • inputs (Iterable[Iterable[Tensor]]) – 包含来自单个设备上的张量的可迭代对象。

  • destination (int, optional) – 输出将被放置的设备(默认为当前设备)。

  • buffer_size (int) – 用于合并的最大缓冲区大小

返回

一个张量元组,其中包含每组输入的逐元素和,放置在 destination 设备上。