torch.nn.functional#
创建日期:2019年6月11日 | 最后更新日期:2025年12月8日
卷积函数#
对由多个输入平面组成的输入信号进行1D卷积操作。 |
|
对由多个输入平面组成的输入图像应用 2D 卷积。 |
|
对由多个输入平面组成的输入图像应用 3D 卷积。 |
|
对由多个输入平面组成的输入信号应用 1D 转置卷积算子,有时也称为“去卷积”。 |
|
对由多个输入平面组成的输入图像应用 2D 转置卷积算子,有时也称为“去卷积”。 |
|
对由多个输入平面组成的输入图像应用 3D 转置卷积算子,有时也称为“去卷积”。 |
|
从批量输入张量中提取滑动局部块。 |
|
将一组滑动局部块组合成一个大的包含张量。 |
池化函数#
对由多个输入平面组成的输入信号进行1D平均池化操作。 |
|
在 区域内,以 为步长应用 2D 平均池化操作。 |
|
在 区域内,以 为步长应用 3D 平均池化操作。 |
|
对由多个输入平面组成的输入信号应用 1D 最大池化。 |
|
在由多个输入平面组成的输入信号上应用 2D 最大池化。 |
|
对由多个输入平面组成的输入信号应用 3D 最大池化。 |
|
计算 |
|
计算 |
|
计算 |
|
对由多个输入平面组成的输入信号应用 1D 幂平均池化。 |
|
对由多个输入平面组成的输入信号应用 2D 幂平均池化。 |
|
对由多个输入平面组成的输入信号应用 3D 幂平均池化。 |
|
对由多个输入平面组成的输入信号应用 1D 自适应最大池化。 |
|
对由多个输入平面组成的输入信号应用 2D 自适应最大池化。 |
|
对由多个输入平面组成的输入信号应用 3D 自适应最大池化。 |
|
对由多个输入平面组成的输入信号应用 1D 自适应平均池化。 |
|
对由多个输入平面组成的输入信号应用 2D 自适应平均池化。 |
|
对由多个输入平面组成的输入信号应用 3D 自适应平均池化。 |
|
对由多个输入平面组成的输入信号应用 2D 分数最大池化。 |
|
对由多个输入平面组成的输入信号应用 3D 分数最大池化。 |
注意力机制#
torch.nn.attention.bias 模块包含专为配合 scaled_dot_product_attention 使用而设计的注意力偏置(attention_biases)。
缩放点积注意力 (query, key, value, attn_mask=None, dropout_p=0.0, |
非线性激活函数#
对输入张量的每个元素应用阈值。 |
|
|
|
逐元素应用线性整流单元函数。 |
|
|
|
逐元素应用 HardTanh 函数。 |
|
|
|
逐元素应用 hardswish 函数。 |
|
应用逐元素函数 。 |
|
逐元素应用指数线性单元(ELU)函数。 |
|
|
|
逐元素应用 ,其中 且 。 |
|
逐元素应用 。 |
|
逐元素应用 |
|
|
|
逐元素应用函数 ,其中 weight 是一个可学习参数。 |
|
随机化 leaky ReLU。 |
|
|
|
门控线性单元(Gated Linear Unit)。 |
|
当 approximate 参数为 'none' 时,它逐元素应用函数 |
|
逐元素应用 |
|
逐元素应用硬收缩函数 |
|
逐元素应用 |
|
逐元素应用函数 |
|
逐元素应用函数 。 |
|
应用 softmin 函数。 |
|
应用 softmax 函数。 |
|
逐元素应用软收缩函数 |
|
应用 softmax,随后取对数。 |
|
逐元素应用 |
|
应用逐元素函数 |
|
逐元素应用 Hardsigmoid 函数。 |
|
逐元素应用 Sigmoid 线性单元(SiLU)函数。 |
|
逐元素应用 Mish 函数。 |
|
对一批数据中的每个通道应用批归一化。 |
|
对最后若干个维度应用组归一化。 |
|
对批次中每个数据样本的每个通道独立应用实例归一化。 |
|
对最后若干个维度应用层归一化。 |
|
对输入信号应用局部响应归一化。 |
|
应用均方根层归一化。 |
|
在指定维度上对输入执行 归一化。 |
线性函数#
Dropout(随机失活)函数#
在训练期间,以概率 |
|
对输入应用 Alpha Dropout。 |
|
随机屏蔽整个通道(通道即特征图)。 |
|
随机将整个通道置零(通道即一维特征图)。 |
|
随机将整个通道置零(通道即二维特征图)。 |
|
随机将整个通道置零(通道即三维特征图)。 |
稀疏函数#
生成一个简单的查找表,用于在固定字典和尺寸中查找嵌入。 |
|
计算嵌入 包(bags) 的总和、平均值或最大值。 |
|
接收形状为 |
距离函数#
返回 |
|
计算输入中每一对行向量之间的 p-范数距离。 |
损失函数#
计算目标值与输入概率之间的二元交叉熵。 |
|
计算目标值与输入 Logits 之间的二元交叉熵。 |
|
计算泊松负对数似然损失。 |
|
计算余弦嵌入损失。 |
|
计算输入 Logits 与目标值之间的交叉熵损失。 |
|
计算联结时序分类(Connectionist Temporal Classification)损失。 |
|
计算高斯负对数似然损失。 |
|
计算 Hinge 嵌入损失。 |
|
计算 KL 散度损失。 |
|
计算 L1 损失(可选加权)。 |
|
计算元素级均方误差(可选加权)。 |
|
计算间隔排序损失。 |
|
计算多标签间隔损失。 |
|
计算多标签软间隔损失。 |
|
计算多重间隔损失(可选加权)。 |
|
计算负对数似然损失。 |
|
计算 Huber 损失(可选加权)。 |
|
计算平滑 L1 损失。 |
|
计算软间隔损失。 |
|
计算给定输入张量之间的三元组损失,且间隔大于 0。 |
|
使用自定义距离函数计算输入张量的三元组间隔损失。 |
视觉函数#
将形状为 的张量元素重排为形状为 的张量,其中 r 为 |
|
通过将形状为 的张量元素重排,来执行与 |
|
填充张量。 |
|
对输入进行下采样/上采样。 |
|
上采样输入。 |
|
使用最近邻像素值对输入进行上采样。 |
|
使用双线性上采样对输入进行上采样。 |
|
计算网格采样(grid sample)。 |
|
给定一批仿射矩阵 |
DataParallel 函数(多 GPU、分布式)#
data_parallel#
|
在 device_ids 指定的多个 GPU 上并行评估 module(input)。 |
低精度函数#
|
|
|
|
计算一种分组矩阵乘法,它在各个专家之间共享权重形状,但允许每个专家有不规则的 token 数量,这在混合专家模型(MoE)层中很常见。 |
|
scaled_mm(mat_a, mat_b, scale_a, scale_recipe_a, scale_b, scale_recipe_b, swizzle_a, swizzle_b, bias, output_dtype, |
|
scaled_grouped_mm(mat_a, mat_b, scale_a, scale_recipe_a, scale_b, scale_recipe_b, swizzle_a, swizzle_b, bias, offs, |