评价此页

torch.cuda.comm.reduce_add#

torch.cuda.comm.reduce_add(inputs, destination=None)[source]#

从多个 GPU 求和张量。

所有输入都应具有匹配的形状、dtype 和布局。输出张量将具有相同的形状、dtype 和布局。

参数:
  • inputs (Iterable[Tensor]) – 要相加的张量可迭代对象。

  • destination (int, optional) – 输出张量放置的设备(默认值:当前设备)。

返回:

一个张量,包含所有输入的元素级和,放置在 destination 设备上。