torch.cuda.comm.reduce_add_coalesced#

torch.cuda.comm.reduce_add_coalesced(inputs, destination=None, buffer_size=10485760)[来源]#

从多个 GPU 求和张量。

将小张量先合并到一个缓冲区中，以减少同步次数。

参数

返回

一个张量元组，其中包含每组输入的逐元素和，放置在 destination 设备上。

文档

访问全面的 PyTorch 开发者文档

查看文档

为初学者和高级开发者提供深入的教程

查看教程

查找开发资源并让您的问题得到解答

查看资源