SmoothL1Loss#

class torch.nn.modules.loss.SmoothL1Loss(size_average=None, reduce=None, reduction='mean', beta=1.0)[源代码]#

创建一个标准，当元素级的绝对误差小于 beta 时使用平方项，否则使用 L1 项。它比 torch.nn.MSELoss 对离群点不那么敏感，并且在某些情况下可以防止梯度爆炸（例如，请参阅 Ross Girshick 的论文 Fast R-CNN）。

对于大小为 $N$ 的批次，未约简的损失可以描述为

\ell(x, y) = L = \{l_1, ..., l_N\}^T

替换

l_n = \begin{cases} 0.5 (x_n - y_n)^2 / beta, & \text{if } |x_n - y_n| < beta \\ |x_n - y_n| - 0.5 * beta, & \text{otherwise } \end{cases}

如果 reduction 不是 none，则

\ell(x, y) = \begin{cases} \operatorname{mean}(L), & \text{if reduction} = \text{`mean';}\\ \operatorname{sum}(L), & \text{if reduction} = \text{`sum'.} \end{cases}

注意

Smooth L1 损失可以看作是精确的 L1Loss，但 $|x - y| < beta$ 的部分被替换为二次函数，该函数在 $|x - y| = beta$ 处的斜率为 1。二次项平滑了 L1 损失在 $|x - y| = 0$ 附近的值。

注意

Smooth L1 loss 与 HuberLoss 密切相关，等同于 $huber(x, y) / beta$ （请注意，Smooth L1 的 beta 超参数也称为 Huber 的 delta）。这导致了以下差异：

当 beta -> 0 时，Smooth L1 loss 收敛于 L1Loss，而 HuberLoss 收敛于常数 0 损失。当 beta 为 0 时，Smooth L1 loss 等同于 L1 loss。
当 beta -> $+\infty$ 时，Smooth L1 loss 收敛于常数 0 损失，而 HuberLoss 收敛于 MSELoss。
对于 Smooth L1 loss，随着 beta 的变化，损失的 L1 部分具有恒定的斜率 1。对于 HuberLoss，L1 部分的斜率是 beta。

参数

size_average (bool, optional) – 已弃用 (参见 reduction)。默认情况下，损失值在批次中的每个损失元素上取平均值。请注意，对于某些损失，每个样本有多个元素。如果字段 size_average 设置为 False，则损失值在每个小批次中而是求和。当 reduce 为 False 时忽略。默认值：True
reduce (bool, optional) – 已弃用 (参见 reduction)。默认情况下，损失值在每个小批次中根据 size_average 对观测值进行平均或求和。当 reduce 为 False 时，返回每个批次元素的损失值，并忽略 size_average。默认值：True
reduction (str, optional) – 指定要应用于输出的约简：'none' | 'mean' | 'sum'。'none'：不应用约简，'mean'：输出的总和将除以输出中的元素数量，'sum'：输出将求和。注意：size_average 和 reduce 正在被弃用，在此期间，指定这两个参数中的任何一个都将覆盖 reduction。默认值：'mean'
beta (float, optional) – 指定在 L1 和 L2 损失之间切换的阈值。该值必须是非负的。默认值：1.0

形状

forward(input, target)[源代码]#

执行前向传播。

文档