评价此页

torch.cuda.comm.broadcast_coalesced#

torch.cuda.comm.broadcast_coalesced(tensors, devices, buffer_size=10485760)[source]#

将一系列张量广播到指定的 GPU。

较小的张量首先被合并到一个缓冲区中,以减少同步次数。

参数
  • tensors (sequence) – 要广播的张量。必须在同一设备上,CPU 或 GPU。

  • devices (Iterable[torch.device, strint]) – GPU 设备的可迭代对象,在这些设备之间进行广播。

  • buffer_size (int) – 用于合并的缓冲区的最大大小

返回

包含 tensor 副本的元组,放置在 devices 上。