torchaudio.functional.forced_align¶

torchaudio.functional.forced_align(log_probs: Tensor, targets: Tensor, input_lengths: Optional[Tensor] = None, target_lengths: Optional[Tensor] = None, blank: int = 0) → Tuple[Tensor, Tensor][源代码]¶

已弃用

警告

此函数已被弃用。它将在 2.9 版本中被移除。此次弃用是旨在将 TorchAudio 迁移到维护阶段的大规模重构工作的一部分。请参阅 https://github.com/pytorch/audio/issues/3902 获取更多信息。

将 CTC 标签序列对齐到发射。

参数

log_probs (Tensor) – CTC 发射输出的对数概率。形状为 (B, T, C) 的张量。其中 B 是批次大小，T 是输入长度，C 是字母表中字符的数量（包括空白符）。
targets (Tensor) – 目标序列。形状为 (B, L) 的张量，其中 L 是目标长度。
input_lengths (Tensor 或 None, 可选) – 输入的长度（每个最大值必须小于或等于 T）。形状为 (B,) 的一维张量。
target_lengths (Tensor 或 None, 可选) – 目标的长度。形状为 (B,) 的一维张量。
blank_id (int, 可选) – CTC 发射中空白符号的索引。（默认：0）

返回

Tensor: 使用强制对齐计算的对齐路径中每个时间步的标签。

Tensor: 每个时间步的标签的对数概率分数。

返回类型

Tuple(Tensor, Tensor)

注意

log_probs 的序列长度必须满足

\[L_{\text{log\_probs}} \ge L_{\text{label}} + N_{\text{repeat}}\]

其中 \(N_{\text{repeat}}\) 是连续重复的 token 数量。例如，在字符串 “aabbc” 中，重复次数为 2。

注意

当前版本仅支持 batch_size==1。

使用 forced_align 的教程: CTC 强制对齐 API 教程

CTC 强制对齐 API 教程

多语言数据的强制对齐

多语言数据的强制对齐

使用 Wav2Vec2 进行强制对齐

使用 Wav2Vec2 进行强制对齐

文档