torch.nn#

创建日期：2016 年 12 月 23 日 | 最后更新日期：2025 年 7 月 25 日

These are the basic building blocks for graphs

torch.nn

`缓冲区`	一种不应被视为模型参数的 Tensor。
`参数`	一种应被视为模块参数的 Tensor。
`未初始化的参数`	未初始化的参数。
`未初始化的缓冲区`	未初始化的缓冲区。

容器 #

`模块`	所有神经网络模块的基类。
`序列`	一个顺序容器。
`模块列表`	以列表形式保存子模块。
`模块字典`	以字典形式保存子模块。
`参数列表`	将参数保存在一个列表中。
`参数字典`	以字典形式保存参数。

模块的全局钩子

`register_module_forward_pre_hook`	为所有模块注册一个前向预钩子。
`register_module_forward_hook`	为所有模块注册一个全局前向钩子。
`register_module_backward_hook`	注册所有模块通用的后向钩子。
`register_module_full_backward_pre_hook`	为所有模块注册一个后向预钩子。
`register_module_full_backward_hook`	注册所有模块通用的后向钩子。
`register_module_buffer_registration_hook`	为所有模块注册一个缓冲区注册钩子。
`register_module_module_registration_hook`	为所有模块注册一个模块注册钩子。
`register_module_parameter_registration_hook`	为所有模块注册一个参数注册钩子。

卷积层 #

`nn.Conv1d`	对由多个输入平面组成的输入信号进行1D卷积操作。
`nn.Conv2d`	在由多个输入平面组成的输入信号上应用二维卷积。
`nn.Conv3d`	对由多个输入平面组成的输入信号应用 3D 卷积。
`nn.ConvTranspose1d`	对由多个输入平面组成的输入图像应用 1D 转置卷积运算符。
`nn.ConvTranspose2d`	对由多个输入平面组成的输入图像应用 2D 转置卷积运算符。
`nn.ConvTranspose3d`	对由多个输入平面组成的输入图像应用 3D 转置卷积算子。
`nn.LazyConv1d`	一个 `torch.nn.Conv1d` 模块，具有 `in_channels` 参数的延迟初始化。
`nn.LazyConv2d`	一个 `torch.nn.Conv2d` 模块，具有 `in_channels` 参数的延迟初始化。
`nn.LazyConv3d`	一个 `torch.nn.Conv3d` 模块，具有 `in_channels` 参数的延迟初始化。
`nn.LazyConvTranspose1d`	一个 `torch.nn.ConvTranspose1d` 模块，具有 `in_channels` 参数的延迟初始化。
`nn.LazyConvTranspose2d`	一个 `torch.nn.ConvTranspose2d` 模块，具有 `in_channels` 参数的延迟初始化。
`nn.LazyConvTranspose3d`	一个 `torch.nn.ConvTranspose3d` 模块，具有 `in_channels` 参数的延迟初始化。
`nn.Unfold`	从批处理的输入 Tensor 中提取滑动局部块。
`nn.Fold`	将一组滑动局部块组合成一个大的包含 Tensor。

池化层 #

`nn.MaxPool1d`	对由多个输入平面组成的输入信号应用 1D 最大池化。
`nn.MaxPool2d`	在由多个输入平面组成的输入信号上应用 2D 最大池化。
`nn.MaxPool3d`	对由多个输入平面组成的输入信号应用 3D 最大池化。
`nn.MaxUnpool1d`	计算 `MaxPool1d` 的部分逆操作。
`nn.MaxUnpool2d`	计算 `MaxPool2d` 的部分逆操作。
`nn.MaxUnpool3d`	计算 `MaxPool3d` 的部分逆操作。
`nn.AvgPool1d`	对由多个输入平面组成的输入信号进行1D平均池化操作。
`nn.AvgPool2d`	对由多个输入平面组成的输入信号应用 2D 平均池化。
`nn.AvgPool3d`	对由多个输入层组成的输入信号应用 3D 平均池化。
`nn.FractionalMaxPool2d`	对由多个输入平面组成的输入信号应用 2D 分数最大池化。
`nn.FractionalMaxPool3d`	对由多个输入平面组成的输入信号应用 3D 分数最大池化。
`nn.LPPool1d`	对由多个输入平面组成的输入信号应用一维 p-范数平均池化。
`nn.LPPool2d`	对由多个输入平面组成的输入信号应用 2D 幂平均池化。
`nn.LPPool3d`	对由多个输入平面组成的输入信号应用 3D 幂平均池化。
`nn.AdaptiveMaxPool1d`	对由多个输入平面组成的输入信号应用 1D 自适应最大池化。
`nn.AdaptiveMaxPool2d`	对由多个输入平面组成的输入信号应用 2D 自适应最大池化。
`nn.AdaptiveMaxPool3d`	对由多个输入平面组成的输入信号应用 3D 自适应最大池化。
`nn.AdaptiveAvgPool1d`	对由多个输入平面组成的输入信号应用 1D 自适应平均池化。
`nn.AdaptiveAvgPool2d`	对由多个输入平面组成的输入信号应用二维自适应平均池化。
`nn.AdaptiveAvgPool3d`	对由多个输入平面组成的输入信号应用 3D 自适应平均池化。

填充层 #

`nn.ReflectionPad1d`	使用输入边界的反射来填充输入张量。
`nn.ReflectionPad2d`	使用输入边界的反射来填充输入张量。
`nn.ReflectionPad3d`	使用输入边界的反射来填充输入张量。
`nn.ReplicationPad1d`	使用输入边界的复制来填充输入张量。
`nn.ReplicationPad2d`	使用输入边界的复制来填充输入张量。
`nn.ReplicationPad3d`	使用输入边界的复制来填充输入张量。
`nn.ZeroPad1d`	用零填充输入张量边界。
`nn.ZeroPad2d`	用零填充输入张量边界。
`nn.ZeroPad3d`	用零填充输入张量边界。
`nn.ConstantPad1d`	用常数值填充输入张量边界。
`nn.ConstantPad2d`	用常数值填充输入张量边界。
`nn.ConstantPad3d`	用常数值填充输入张量边界。
`nn.CircularPad1d`	使用输入边界的循环填充来填充输入张量。
`nn.CircularPad2d`	使用输入边界的循环填充来填充输入张量。
`nn.CircularPad3d`	使用输入边界的循环填充来填充输入张量。

非线性激活（加权和，非线性）#

`nn.ELU`	逐元素应用指数线性单元 (ELU) 函数。
`nn.Hardshrink`	逐元素应用 Hard Shrinkage (Hardshrink) 函数。
`nn.Hardsigmoid`	逐元素应用 Hardsigmoid 函数。
`nn.Hardtanh`	逐元素应用 HardTanh 函数。
`nn.Hardswish`	逐元素应用 Hardswish 函数。
`nn.LeakyReLU`	逐元素应用 LeakyReLU 函数。
`nn.LogSigmoid`	逐元素应用 Logsigmoid 函数。
`nn.MultiheadAttention`	允许模型联合关注来自不同表示子空间的信息。
`nn.PReLU`	应用逐元素的 PReLU 函数。
`nn.ReLU`	逐元素应用线性整流单元函数。
`nn.ReLU6`	逐元素应用 ReLU6 函数。
`nn.RReLU`	逐元素应用随机的 Leaky Rectified Linear Unit 函数。
`nn.SELU`	逐元素应用 SELU 函数。
`nn.CELU`	逐元素应用 CELU 函数。
`nn.GELU`	应用高斯误差线性单元函数。
`nn.Sigmoid`	逐元素应用 Sigmoid 函数。
`nn.SiLU`	逐元素应用 Sigmoid 线性单元 (SiLU) 函数。
`nn.Mish`	逐元素应用 Mish 函数。
`nn.Softplus`	逐元素应用 Softplus 函数。
`nn.Softshrink`	逐元素应用 soft shrinkage 函数。
`nn.Softsign`	逐元素应用 Softsign 函数。
`nn.Tanh`	逐元素应用双曲正切 (Tanh) 函数。
`nn.Tanhshrink`	逐元素应用 Tanhshrink 函数。
`nn.Threshold`	对输入 Tensor 的每个元素进行阈值处理。
`nn.GLU`	应用门控线性单元函数。

非线性激活（其他）#

`nn.Softmin`	对 n 维输入 Tensor 应用 Softmin 函数。
`nn.Softmax`	将 Softmax 函数应用于 n 维输入张量。
`nn.Softmax2d`	对每个空间位置应用特征上的 SoftMax。
`nn.LogSoftmax`	对 n 维输入 Tensor 应用 $\log(\text{Softmax}(x))$ 函数。
`nn.AdaptiveLogSoftmaxWithLoss`	高效的 softmax 近似。

归一化层 #

`nn.BatchNorm1d`	对 2D 或 3D 输入应用批归一化。
`nn.BatchNorm2d`	对 4D 输入应用 Batch Normalization。
`nn.BatchNorm3d`	对 5D 输入应用批归一化。
`nn.LazyBatchNorm1d`	一个具有延迟初始化的 `torch.nn.BatchNorm1d` 模块。
`nn.LazyBatchNorm2d`	一个具有延迟初始化的 `torch.nn.BatchNorm2d` 模块。
`nn.LazyBatchNorm3d`	一个具有延迟初始化的 `torch.nn.BatchNorm3d` 模块。
`nn.GroupNorm`	对输入的小批量应用组归一化。
`nn.SyncBatchNorm`	对 N 维输入应用批归一化。
`nn.InstanceNorm1d`	应用实例归一化。
`nn.InstanceNorm2d`	应用实例归一化。
`nn.InstanceNorm3d`	应用实例归一化。
`nn.LazyInstanceNorm1d`	一个具有 `num_features` 参数延迟初始化的 `torch.nn.InstanceNorm1d` 模块。
`nn.LazyInstanceNorm2d`	一个具有 `num_features` 参数延迟初始化的 `torch.nn.InstanceNorm2d` 模块。
`nn.LazyInstanceNorm3d`	一个具有 `num_features` 参数延迟初始化的 `torch.nn.InstanceNorm3d` 模块。
`nn.LayerNorm`	对输入 mini-batch 应用层归一化。
`nn.LocalResponseNorm`	对输入信号应用局部响应归一化。
`nn.RMSNorm`	对输入的小批量应用均方根层归一化。

循环层 #

`nn.RNNBase`	RNN 模块（RNN、LSTM、GRU）的基类。
`nn.RNN`	对输入序列应用多层 Elman RNN，使用 $\tanh$ 或 $\text{ReLU}$ 非线性。
`nn.LSTM`	对输入序列应用多层长短期记忆 (LSTM) RNN。
`nn.GRU`	对输入序列应用多层门控循环单元 (GRU) RNN。
`nn.RNNCell`	一个具有 tanh 或 ReLU 非线性的 Elman RNN 单元。
`nn.LSTMCell`	一个长短期记忆 (LSTM) 单元。
`nn.GRUCell`	一个门控循环单元 (GRU) 单元。

Transformer 层 #

`nn.Transformer`	一个基本的 Transformer 层。
`nn.TransformerEncoder`	TransformerEncoder 是 N 个编码器层的堆栈。
`nn.TransformerDecoder`	TransformerDecoder 是 N 个解码器层的堆栈。
`nn.TransformerEncoderLayer`	TransformerEncoderLayer 由自注意力机制和前馈网络组成。
`nn.TransformerDecoderLayer`	TransformerDecoderLayer 由自注意力、多头注意力和前馈网络组成。

线性层 #

`nn.Identity`	一个占位符身份算子，对参数不敏感。
`nn.Linear`	对输入数据应用仿射线性变换： $y = xA^T + b$ .
`nn.Bilinear`	对输入数据应用双线性变换： $y = x_1^T A x_2 + b$ .
`nn.LazyLinear`	一个 `torch.nn.Linear` 模块，其中 in_features 被推断。

Dropout 层 #

`nn.Dropout`	在训练期间，以概率 `p` 随机将输入张量中的一些元素归零。
`nn.Dropout1d`	随机将整个通道置零。
`nn.Dropout2d`	随机将整个通道置零。
`nn.Dropout3d`	随机将整个通道置零。
`nn.AlphaDropout`	对输入应用 Alpha Dropout。
`nn.FeatureAlphaDropout`	随机屏蔽整个通道。

稀疏层 #

`nn.Embedding`	一个简单的查找表，存储固定词汇表和大小的嵌入。
`nn.EmbeddingBag`	计算嵌入“包”的总和或平均值，而无需实例化中间嵌入。

距离函数 #

`nn.CosineSimilarity`	计算 $x_1$ 和 $x_2$ 沿 dim 计算的余弦相似度。
`nn.PairwiseDistance`	计算输入向量之间的成对距离，或输入矩阵列之间的成对距离。

损失函数 #

`nn.L1Loss`	创建一个标准，用于衡量输入 $x$ 和目标 $y$ 之间每个元素的平均绝对误差 (MAE)。
`nn.MSELoss`	创建一个标准，用于衡量输入 $x$ 和目标 $y$ 之间每个元素的平均平方误差（平方 L2 范数）。
`nn.CrossEntropyLoss`	此准则计算输入 logits 和 target 之间的交叉熵损失。
`nn.CTCLoss`	连接主义时间分类损失。
`nn.NLLLoss`	负对数似然损失。
`nn.PoissonNLLLoss`	目标为泊松分布时的负对数似然损失。
`nn.GaussianNLLLoss`	高斯负对数似然损失。
`nn.KLDivLoss`	Kullback-Leibler 散度损失。
`nn.BCELoss`	创建一个准则，用于衡量目标值与输入概率之间的二元交叉熵。
`nn.BCEWithLogitsLoss`	此损失结合了 Sigmoid 层和 BCELoss，在一个类中。
`nn.MarginRankingLoss`	创建一个标准，用于衡量输入 $x1$ 、 $x2$ 和标签（包含 1 或 -1）的 1D mini-batch 或 0D Tensors $y$ 之间的损失。
`nn.HingeEmbeddingLoss`	衡量输入 Tensor $x$ 和标签 Tensor $y$ （包含 1 或 -1）之间的损失。
`nn.MultiLabelMarginLoss`	创建一个标准，用于优化输入 $x$ （一个 2D mini-batch Tensor）和输出 $y$ （目标类别索引的 2D Tensor）之间的多类多分类合页损失（基于边距的损失）。
`nn.HuberLoss`	创建一个标准，当元素级绝对误差小于 delta 时使用平方项，否则使用 delta 缩放的 L1 项。
`nn.SmoothL1Loss`	创建一个标准，当元素级绝对误差小于 beta 时使用平方项，否则使用 L1 项。
`nn.SoftMarginLoss`	创建一个标准，用于优化输入 Tensor $x$ 和目标 Tensor $y$ （包含 1 或 -1）之间的二分类逻辑损失。
`nn.MultiLabelSoftMarginLoss`	创建一个标准，用于优化输入 $x$ 和大小为 $(N, C)$ 的目标 $y$ 之间的多标签一对多最大熵损失。
`nn.CosineEmbeddingLoss`	创建一个标准，用于衡量输入 Tensor $x_1$ ， $x_2$ 和值为 1 或 -1 的标签 Tensor $y$ 之间的损失。
`nn.MultiMarginLoss`	创建一个标准，用于优化输入 $x$ （一个 2D mini-batch Tensor）和输出 $y$ （目标类别索引的 1D 传感器， $0 \leq y \leq \text{x.size}(1)-1$ ）之间的多类分类合页损失（基于边距的损失）。
`nn.TripletMarginLoss`	创建一个标准，用于衡量输入 Tensor $x1$ ， $x2$ ， $x3$ 和大于 $0$ 的边距值之间的三元组损失。
`nn.TripletMarginWithDistanceLoss`	创建一个标准，用于衡量输入 Tensor $a$ ， $p$ ，和 $n$ （分别代表锚点、正例和负例），以及一个非负实值函数（“距离函数”），用于计算锚点与正例之间的关系（“正距离”）和锚点与负例之间的关系（“负距离”）的三元组损失。

视觉层 #

`nn.PixelShuffle`	根据上采样因子重新排列张量中的元素。
`nn.PixelUnshuffle`	PixelShuffle 操作的逆操作。
`nn.Upsample`	对给定的多通道一维（时间）、二维（空间）或三维（体积）数据进行上采样。
`nn.UpsamplingNearest2d`	对由多个输入通道组成的输入信号应用 2D 最近邻上采样。
`nn.UpsamplingBilinear2d`	对由多个输入通道组成的输入信号应用 2D 双线性上采样。

Shuffle 层 #

nn.ChannelShuffle

分割并重新排列张量中的通道。

DataParallel 层（多 GPU，分布式）#

`nn.DataParallel`	在模块级别实现数据并行。
`nn.parallel.DistributedDataParallel`	在模块级别实现基于 `torch.distributed` 的分布式数据并行。

实用程序 #

来自 torch.nn.utils 模块

用于裁剪参数梯度的实用函数。

`clip_grad_norm_`	对可迭代参数的梯度范数进行裁剪。
`clip_grad_norm`	对可迭代参数的梯度范数进行裁剪。
`clip_grad_value_`	将参数可迭代对象中的梯度裁剪到指定值。
`get_total_norm`	计算张量可迭代对象的范数。
`clip_grads_with_norm_`	根据预计算的总范数和所需的 max 范数缩放参数可迭代对象中的梯度。

用于将模块参数展平成单个向量以及将单个向量恢复为模块参数的实用函数。

parameters_to_vector

将参数可迭代对象展平成单个向量。

vector_to_parameters

将一个向量的切片复制到参数的可迭代对象中。

用于将模块与 BatchNorm 模块融合的实用函数。

`fuse_conv_bn_eval`	将卷积模块和 BatchNorm 模块融合为一个新的卷积模块。
`fuse_conv_bn_weights`	将卷积模块参数和 BatchNorm 模块参数融合到新的卷积模块参数中。
`fuse_linear_bn_eval`	将线性模块和 BatchNorm 模块融合为一个新的线性模块。
`fuse_linear_bn_weights`	将线性模块参数和 BatchNorm 模块参数融合为新的线性模块参数。

用于转换模块参数内存格式的实用函数。

convert_conv2d_weight_memory_format

将 nn.Conv2d.weight 的 memory_format 转换为指定的 memory_format。

convert_conv3d_weight_memory_format

将 nn.Conv3d.weight 的 memory_format 转换为 memory_format。转换会递归地应用于嵌套的 nn.Module，包括 module。

用于从模块参数应用和移除权重归一化的实用函数。

`weight_norm`	对给定模块中的参数应用权重归一化。
`remove_weight_norm`	从模块中移除权重归一化重参数化。
`spectral_norm`	对给定模块中的参数应用谱归一化。
`remove_spectral_norm`	从模块中移除谱归一化重参数化。

用于初始化模块参数的实用函数。

skip_init

给定一个模块类对象和参数/关键字参数，在不初始化参数/缓冲区的情况下实例化模块。

用于剪枝模块参数的实用类和函数。

`prune.BasePruningMethod`	创建新剪枝技术的抽象基类。
`prune.PruningContainer`	包含一系列剪枝方法的容器，用于迭代剪枝。
`prune.Identity`	实用的剪枝方法，不剪枝任何单元，但生成一个全为 1 的掩码的剪枝参数化。
`prune.RandomUnstructured`	随机剪枝张中（当前未剪枝的）单元。
`prune.L1Unstructured`	通过将 L1 范数最低的单元归零来剪枝张中（当前未剪枝的）单元。
`prune.RandomStructured`	随机剪枝张中（当前未剪枝的）整个通道。
`prune.LnStructured`	根据 L`n`-范数剪枝张中（当前未剪枝的）整个通道。
`prune.CustomFromMask`
`prune.identity`	应用剪枝重参数化而不剪枝任何单元。
`prune.random_unstructured`	通过随机移除（当前未剪枝的）单元来剪枝张。
`prune.l1_unstructured`	通过移除 L1 范数最低的单元来剪枝张。
`prune.random_structured`	沿指定维度随机移除通道来剪枝张。
`prune.ln_structured`	沿指定维度移除 L`n`-范数最低的通道来剪枝张。
`prune.global_unstructured`	通过应用指定的 `pruning_method` 来全局剪枝 `parameters` 中对应所有参数的张量。
`prune.custom_from_mask`	通过应用 `mask` 中的预计算掩码来剪枝 `module` 中名为 `name` 的参数对应的张量。
`prune.remove`	从模块中移除剪枝重参数化，并从前向钩子中移除剪枝方法。
`prune.is_pruned`	通过查找剪枝前向钩子来检查模块是否被剪枝。

使用 torch.nn.utils.parameterize.register_parametrization() 中新参数化功能实现的参数化。

`parametrizations.orthogonal`	对矩阵或矩阵批应用正交或酉参数化。
`parametrizations.weight_norm`	对给定模块中的参数应用权重归一化。
`parametrizations.spectral_norm`	对给定模块中的参数应用谱归一化。

用于对现有模块上的张量进行参数化的实用函数。注意，这些函数可以用于参数化给定的 Parameter 或 Buffer，给定一个将输入空间映射到参数化空间的特定函数。它们不是将对象转换为参数的参数化。有关如何实现自己的参数化的更多信息，请参阅参数化教程。

`parametrize.register_parametrization`	将参数化注册到模块中的张量。
`parametrize.remove_parametrizations`	移除模块中张量上的参数化。
`parametrize.cached`	上下文管理器，它在通过 `register_parametrization()` 注册的参数化内启用缓存系统。
`parametrize.is_parametrized`	确定模块是否具有参数化。
`parametrize.transfer_parametrizations_and_params`	将参数化及其参数从 `from_module` 转移到 `to_module`。
`parametrize.type_before_parametrizations`	返回应用参数化之前的模块类型，如果未应用参数化，则返回模块类型。

parametrize.ParametrizationList

一个顺序容器，用于保存和管理已参数化的 torch.nn.Module 的原始参数或缓冲区。

用于以无状态方式调用给定模块的实用函数。

stateless.functional_call

通过用提供的参数和缓冲区替换模块参数和缓冲区来对模块执行函数式调用。

其他模块中的实用函数

`nn.utils.rnn.PackedSequence`	保存已打包序列的数据和 `batch_sizes` 列表。
`nn.utils.rnn.pack_padded_sequence`	打包包含可变长度填充序列的 Tensor。
`nn.utils.rnn.pad_packed_sequence`	填充已打包的可变长度序列批。
`nn.utils.rnn.pad_sequence`	使用 `padding_value` 填充可变长度 Tensor 列表。
`nn.utils.rnn.pack_sequence`	打包可变长度 Tensor 列表。
`nn.utils.rnn.unpack_sequence`	将 PackedSequence 解包为可变长度 Tensor 列表。
`nn.utils.rnn.unpad_sequence`	将填充的 Tensor 解填充为可变长度 Tensor 列表。
`nn.utils.rnn.invert_permutation`	返回 `permutation` 的逆。
`nn.parameter.is_lazy`	返回 `param` 是否为 `UninitializedParameter` 或 `UninitializedBuffer`。
`nn.factory_kwargs`	返回标准化的 factory kwargs 字典。

`nn.modules.flatten.Flatten`	将连续的维度范围展平成一个张量。
`nn.modules.flatten.Unflatten`	将张量的维度解展平成所需的形状。

量化函数 #

量化指的是执行计算和存储张量时使用低于浮点精度的低位宽的技术。PyTorch 支持每张量和每通道非对称线性量化。要了解更多关于如何在 PyTorch 中使用量化函数的信息，请参考量化文档。

延迟模块初始化 #

nn.modules.lazy.LazyModuleMixin

用于延迟初始化参数的模块的混合类，也称为“延迟模块”。

torch.nn#

文档

教程

资源