torch.nn.utils.convert_conv3d_weight_memory_format#
- torch.nn.utils.convert_conv3d_weight_memory_format(module, memory_format)[source]#
将
nn.Conv3d.weight
的memory_format
转换为memory_format
。此转换会递归地应用于嵌套的nn.Module
,包括module
本身。请注意,它仅更改 memory_format,而不改变每个维度的语义。此函数用于促进计算采用 NHWC 内核,这为计算能力 >= 7.0 的 CUDA 设备上的 fp16 数据提供了显著的速度提升。注意
调用
model.to(memory_format=torch.channels_last_3d)
比convert_conv3d_weight_memory_format
工具函数更具侵入性。任何具有 4D 权重的层都会受到model.to
的影响,而这些层不一定能从转换为指定的memory_format
中获益。我们确信的一点是,cuDNN 中卷积的 NDHWC (channels_last_3d) 转换是有益的,因为它有利于在 NDHWC 中运行卷积,即使在需要对输入张量进行置换的情况下也是如此。因此,我们的策略是仅将卷积的权重转换为 channels_last_3d。这可以确保:1. 使用快速卷积内核,其优势可以抵消置换的开销(如果输入格式不同)。2. 不会对不受益于 memory_format 转换的层应用不必要的置换。
最佳情况是,卷积层之间的层与 channels last 兼容。当输入张量遇到第一个卷积层时,它将被置换为 channels last 格式,并保持该内存格式。因此,后续的卷积层将不需要置换其输入张量。
如果卷积层之间存在不兼容 channels last 的层,我们需要将输入张量置换回连续格式以供该层使用。输入张量将以连续格式通过剩余的层,并在遇到另一个卷积层时被置换为 channels last 格式。将该置换传播到更早的层是没有意义的,因为大多数层对
memory_format
都相当不敏感。当 PyTorch 支持置换融合时,这一声明可能会发生变化,因为在卷积层之前立即融合置换可能不是最佳位置。
- 参数
module (nn.Module) –
nn.Conv3d
&nn.ConvTranspose3d
或容器nn.Module
memory_format (memory_format) – 用户指定的
memory_format
,例如torch.channels_last
或torch.contiguous_format
- 返回
具有更新的
nn.Conv3d
的原始模块- 返回类型
_M
示例
>>> input = torch.randint( ... 1, 10, (2, 8, 4, 4, 4), dtype=torch.float16, device="cuda" ... ) >>> model = nn.Sequential( >>> nn.Conv3d(8, 4, 3)).cuda().half() >>> # This is identical to: >>> # nn.utils.convert_conv3d_weight_memory_format(model, torch.channels_last_3d) >>> model = nn.utils.convert_conv3d_weight_memory_format( ... model, torch.channels_last_3d ... ) >>> out = model(input)