快捷方式

torchaudio.functional.forced_align

torchaudio.functional.forced_align(log_probs: Tensor, targets: Tensor, input_lengths: Optional[Tensor] = None, target_lengths: Optional[Tensor] = None, blank: int = 0) Tuple[Tensor, Tensor][源代码]

已弃用

警告

此函数已被弃用。它将在 2.9 版本中被移除。此次弃用是旨在将 TorchAudio 迁移到维护阶段的大规模重构工作的一部分。请参阅 https://github.com/pytorch/audio/issues/3902 获取更多信息。

将 CTC 标签序列对齐到发射。

This feature supports the following devices: CPU, CUDA This API supports the following properties: TorchScript
参数
  • log_probs (Tensor) – CTC 发射输出的对数概率。形状为 (B, T, C) 的张量。其中 B 是批次大小,T 是输入长度,C 是字母表中字符的数量(包括空白符)。

  • targets (Tensor) – 目标序列。形状为 (B, L) 的张量,其中 L 是目标长度。

  • input_lengths (TensorNone, 可选) – 输入的长度(每个最大值必须小于或等于 T)。形状为 (B,) 的一维张量。

  • target_lengths (TensorNone, 可选) – 目标的长度。形状为 (B,) 的一维张量。

  • blank_id (int, 可选) – CTC 发射中空白符号的索引。(默认:0)

返回

Tensor: 使用强制对齐计算的对齐路径中每个时间步的标签。

Tensor: 每个时间步的标签的对数概率分数。

返回类型

Tuple(Tensor, Tensor)

注意

log_probs 的序列长度必须满足

\[L_{\text{log\_probs}} \ge L_{\text{label}} + N_{\text{repeat}}\]

其中 \(N_{\text{repeat}}\) 是连续重复的 token 数量。例如,在字符串 “aabbc” 中,重复次数为 2

注意

当前版本仅支持 batch_size==1

使用 forced_align 的教程
CTC forced alignment API tutorial

CTC 强制对齐 API 教程

CTC 强制对齐 API 教程
Forced alignment for multilingual data

多语言数据的强制对齐

多语言数据的强制对齐
Forced Alignment with Wav2Vec2

使用 Wav2Vec2 进行强制对齐

使用 Wav2Vec2 进行强制对齐

文档

访问全面的 PyTorch 开发者文档

查看文档

教程

为初学者和高级开发者提供深入的教程

查看教程

资源

查找开发资源并让您的问题得到解答

查看资源