CTCLoss#

class torch.nn.CTCLoss(blank=0, reduction='mean', zero_infinity=False)[源代码]#

连接主义时间分类损失。

计算连续（非分段）时间序列与目标序列之间的损失。CTCLoss 对输入到目标的可能对齐的概率进行求和，生成一个相对于每个输入节点可微分的损失值。输入到目标的对齐被假定为“多对一”，这限制了目标序列的长度，使其必须 $\leq$ 输入长度。

参数

blank (int, optional) – 空白标签。默认值为 $0$ 。
reduction (str, optional) – 指定应用于输出的缩减方式：'none' | 'mean' | 'sum'。'none'：不应用缩减；'mean'：输出的损失值将除以目标长度，然后对批次取平均；'sum'：输出的损失值将进行求和。默认值：'mean'。
zero_infinity (bool, optional) – 是否将无穷损失及其相关梯度归零。默认为 False。无穷损失主要发生在输入太短而无法与目标对齐时。

形状

Log_probs：大小为 $(T, N, C)$ 或 $(T, C)$ 的张量，其中 $T = \text{input length}$ ， $N = \text{batch size}$ ，以及 $C = \text{number of classes (including blank)}$ 。输出的对数概率（例如，通过 torch.nn.functional.log_softmax() 获得）。
Targets：大小为 $(N, S)$ 或 $(\operatorname{sum}(\text{target\_lengths}))$ 的张量，其中 $N = \text{batch size}$ ，且 $S = \text{max target length, if shape is } (N, S)$ 。它表示目标序列。目标序列中的每个元素都是一个类别索引。并且目标索引不能是空白（默认值为 0）。在 $(N, S)$ 形式中，目标会被填充到最长序列的长度，然后堆叠。在 $(\operatorname{sum}(\text{target\_lengths}))$ 形式中，目标被假定为未填充的，并在 1 维内连接。
Input_lengths：大小为 $(N)$ 或 $()$ 的元组或张量，其中 $N = \text{batch size}$ 。它表示输入的长度（每个必须 $\leq T$ ）。长度是为每个序列指定的，以便在序列被填充到相等长度的假设下实现掩码。
Target_lengths：大小为 $(N)$ 或 $()$ 的元组或张量，其中 $N = \text{batch size}$ 。它表示目标的长度。长度是为每个序列指定的，以便在序列被填充到相等长度的假设下实现掩码。如果目标形状为 $(N,S)$ ，则 target_lengths 实际上是每个目标序列的停止索引 $s_n$ ，使得 target_n = targets[n,0:s_n] 对批次中的每个目标都成立。长度必须分别 $\leq S$ 。如果目标以 1D 张量形式给出，该张量是各个目标的串联，则 target_lengths 必须加起来等于张量的总长度。
Output：如果 reduction 是 'mean'（默认）或 'sum'，则为标量。如果 reduction 是 'none'，则为 $(N)$ （如果输入是批处理的）或 $()$ （如果输入不是批处理的），其中 $N = \text{batch size}$ 。

示例

>>> # Target are to be padded
>>> T = 50  # Input sequence length
>>> C = 20  # Number of classes (including blank)
>>> N = 16  # Batch size
>>> S = 30  # Target sequence length of longest target in batch (padding length)
>>> S_min = 10  # Minimum target length, for demonstration purposes
>>>
>>> # Initialize random batch of input vectors, for *size = (T,N,C)
>>> input = torch.randn(T, N, C).log_softmax(2).detach().requires_grad_()
>>>
>>> # Initialize random batch of targets (0 = blank, 1:C = classes)
>>> target = torch.randint(low=1, high=C, size=(N, S), dtype=torch.long)
>>>
>>> input_lengths = torch.full(size=(N,), fill_value=T, dtype=torch.long)
>>> target_lengths = torch.randint(
...     low=S_min,
...     high=S,
...     size=(N,),
...     dtype=torch.long,
... )
>>> ctc_loss = nn.CTCLoss()
>>> loss = ctc_loss(input, target, input_lengths, target_lengths)
>>> loss.backward()
>>>
>>>
>>> # Target are to be un-padded
>>> T = 50  # Input sequence length
>>> C = 20  # Number of classes (including blank)
>>> N = 16  # Batch size
>>>
>>> # Initialize random batch of input vectors, for *size = (T,N,C)
>>> input = torch.randn(T, N, C).log_softmax(2).detach().requires_grad_()
>>> input_lengths = torch.full(size=(N,), fill_value=T, dtype=torch.long)
>>>
>>> # Initialize random batch of targets (0 = blank, 1:C = classes)
>>> target_lengths = torch.randint(low=1, high=T, size=(N,), dtype=torch.long)
>>> target = torch.randint(
...     low=1,
...     high=C,
...     size=(sum(target_lengths),),
...     dtype=torch.long,
... )
>>> ctc_loss = nn.CTCLoss()
>>> loss = ctc_loss(input, target, input_lengths, target_lengths)
>>> loss.backward()
>>>
>>>
>>> # Target are to be un-padded and unbatched (effectively N=1)
>>> T = 50  # Input sequence length
>>> C = 20  # Number of classes (including blank)
>>>
>>> # Initialize random batch of input vectors, for *size = (T,C)
>>> input = torch.randn(T, C).log_softmax(1).detach().requires_grad_()
>>> input_lengths = torch.tensor(T, dtype=torch.long)
>>>
>>> # Initialize random batch of targets (0 = blank, 1:C = classes)
>>> target_lengths = torch.randint(low=1, high=T, size=(), dtype=torch.long)
>>> target = torch.randint(
...     low=1,
...     high=C,
...     size=(target_lengths,),
...     dtype=torch.long,
... )
>>> ctc_loss = nn.CTCLoss()
>>> loss = ctc_loss(input, target, input_lengths, target_lengths)
>>> loss.backward()

参考: A. Graves et al.: Connectionist Temporal Classification: Labelling Unsegmented Sequence Data with Recurrent Neural Networks: https://www.cs.toronto.edu/~graves/icml_2006.pdf

注意

为了使用 CuDNN，必须满足以下条件：targets 必须是串联格式，所有 input_lengths 必须是 T。 $blank=0$ ，target_lengths $\leq 256$ ，整数参数必须是 torch.int32 类型。

常规实现使用的是（在 PyTorch 中更常见的）torch.long 类型。

注意

在某些情况下，当使用带有 CuDNN 的 CUDA 后端时，此运算符可能会选择非确定性算法以提高性能。如果您不希望这样做，可以尝试通过设置 torch.backends.cudnn.deterministic = True 来使操作确定化（可能会牺牲性能）。有关背景信息，请参阅关于可复现性的说明。

forward(log_probs, targets, input_lengths, target_lengths)[源代码]#

执行前向传播。

返回类型: 张量

CTCLoss#

文档

教程

资源