SmoothL1Loss#

class torch.nn.SmoothL1Loss(size_average=None, reduce=None, reduction='mean', beta=1.0)[源代码]#

创建一个准则，当元素级绝对误差小于 beta 时使用平方项，否则使用 L1 项。它比 torch.nn.MSELoss 对离群点不那么敏感，并且在某些情况下可以防止梯度爆炸（例如，请参阅 Ross Girshick 的论文 Fast R-CNN）。

对于大小为 $N$ 的批次，未约简的损失可以描述为

\ell(x, y) = L = \{l_1, ..., l_N\}^T

替换

l_n = \begin{cases} 0.5 (x_n - y_n)^2 / beta, & \text{if } |x_n - y_n| < beta \\ |x_n - y_n| - 0.5 * beta, & \text{otherwise } \end{cases}

如果 reduction 不是 none，则

\ell(x, y) = \begin{cases} \operatorname{mean}(L), & \text{if reduction} = \text{`mean';}\\ \operatorname{sum}(L), & \text{if reduction} = \text{`sum'.} \end{cases}

注意

Smooth L1 loss 可以看作是 L1Loss 的精确形式，但将 $|x - y| < beta$ 的部分替换为二次函数，使其在 $|x - y| = beta$ 处的斜率为 1。二次函数段平滑了 $|x - y| = 0$ 附近的 L1 损失。

注意

Smooth L1 loss 与 HuberLoss 密切相关，相当于 $huber(x, y) / beta$ （请注意，Smooth L1 的 beta 超参数也称为 Huber 的 delta）。这导致了以下差异：

当 beta -> 0 时，Smooth L1 loss 收敛到 L1Loss，而 HuberLoss 收敛到常数 0 loss。当 beta 为 0 时，Smooth L1 loss 等价于 L1 loss。
当 beta -> $+\infty$ 时，Smooth L1 loss 收敛到常数 0 loss，而 HuberLoss 收敛到 MSELoss。
对于 Smooth L1 loss，当 beta 变化时，loss 的 L1 段具有恒定的斜率 1。对于 HuberLoss，L1 段的斜率是 beta。

参数

size_average (bool, optional) – 已弃用 (参见 reduction)。默认情况下，损失值在批次中的每个损失元素上取平均值。请注意，对于某些损失，每个样本有多个元素。如果字段 size_average 设置为 False，则损失值在每个小批次中而是求和。当 reduce 为 False 时忽略。默认值：True
reduce (bool, optional) – 已弃用 (参见 reduction)。默认情况下，损失值在每个小批次中根据 size_average 对观测值进行平均或求和。当 reduce 为 False 时，返回每个批次元素的损失值，并忽略 size_average。默认值：True
reduction (str, optional) – 指定要应用于输出的归约：'none' | 'mean' | 'sum'。'none'：不进行归约，'mean'：输出的总和将除以输出中的元素数量，'sum'：将输出相加。注意：size_average 和 reduce 正在被弃用，在此期间，指定这两个参数中的任何一个都将覆盖 reduction。默认值：'mean'
beta (float, optional) – 指定在 L1 和 L2 loss 之间切换的阈值。该值必须是非负数。默认值：1.0

形状

forward(input, target)[源代码]#

执行前向传播。

文档