RNNTBeamSearch¶

class torchaudio.models.RNNTBeamSearch(model: RNNT, blank: int, temperature: float = 1.0, hypo_sort_key: Optional[Callable[[Tuple[List[int], Tensor, List[List[Tensor]]], float]] = None, step_max_tokens: int = 100)[源代码]¶

RNN-T 模型的束搜索解码器。

另请参阅

参数

model (RNNT) – 要使用的 RNN-T 模型。
blank (int) – 词汇表中空白标记的索引。
temperature (float, 可选) – 应用于联合网络输出的温度。值越大，样本分布越均匀。(默认值：1.0)
hypo_sort_key (Callable[[Hypothesis], float] 或 None, 可选) – 一个可调用对象，用于计算给定假设的分数，以便对假设进行排序。如果为 None，则默认为返回假设分数按 token 序列长度归一化的可调用对象。(默认值：None)
step_max_tokens (int, 可选) – 每个输入时间步发射的最大 token 数。(默认值：100)

方法¶

对给定的输入序列执行束搜索。

T：帧数；D：每帧的特征维度。

参数

返回

束搜索找到的前 beam_width 个假设。

返回类型

List[Hypothesis]

以流式模式对给定的输入序列执行束搜索。

T：帧数；D：每帧的特征维度。

参数

input (torch.Tensor) – 输入帧序列，形状为 (T, D) 或 (1, T, D)。
length (torch.Tensor) – 输入序列中的有效帧数，形状为 () 或 (1,)。
beam_width (int) – 搜索过程中使用的束大小。
state (List[List[torch.Tensor]] 或 None, 可选) – 列表的列表，包含上一次调用生成的转录网络内部状态的张量。(默认值：None)
hypothesis (List[Hypothesis] 或 None) – 上一次调用产生的用于启动搜索的假设。(默认值：None)

返回

返回类型

(List[Hypothesis], List[List[torch.Tensor]])

torchaudio.models.Hypothesis¶

RNN-T 束搜索解码器生成的假设，表示为 (tokens, prediction network output, prediction network state, score) 的元组。