torchaudio.prototype.models.conformer_rnnt_model¶

torchaudio.prototype.models.conformer_rnnt_model(*, input_dim: int, encoding_dim: int, time_reduction_stride: int, conformer_input_dim: int, conformer_ffn_dim: int, conformer_num_layers: int, conformer_num_heads: int, conformer_depthwise_conv_kernel_size: int, conformer_dropout: float, num_symbols: int, symbol_embedding_dim: int, num_lstm_layers: int, lstm_hidden_dim: int, lstm_layer_norm: bool, lstm_layer_norm_epsilon: float, lstm_dropout: float, joiner_activation: str) → RNNT[源代码]¶

已弃用

警告

此函数已被弃用。它将在 2.9 版本中删除。此弃用是作为一项大型重构工作的一部分，旨在将 TorchAudio 转换为维护阶段。有关更多信息，请参阅 https://github.com/pytorch/audio/issues/3902。

构建基于 Conformer 的递归神经网络转换器 (RNN-T) 模型。

参数

input_dim (int) – 传递给转录网络的输入序列帧的维度。
encoding_dim (int) – 传递给联合网络的转录和预测网络生成的编码的维度。
time_reduction_stride (int) – 输入序列长度的缩减因子。
conformer_input_dim (int) – Conformer 输入的维度。
conformer_ffn_dim (int) – 每个 Conformer 层的前馈网络的隐藏层维度。
conformer_num_layers (int) – 要实例化的 Conformer 层数。
conformer_num_heads (int) – 每个 Conformer 层的注意力头数。
conformer_depthwise_conv_kernel_size (int) – 每个 Conformer 层的深度卷积层的核大小。
conformer_dropout (float) – Conformer 的 dropout 概率。
num_symbols (int) – 目标 token 集合的基数。
symbol_embedding_dim (int) – 每个目标 token embedding 的维度。
num_lstm_layers (int) – 要实例化的 LSTM 层数。
lstm_hidden_dim (int) – 每个 LSTM 层的输出维度。
lstm_layer_norm (bool) – 如果为 True，则启用 LSTM 层的层归一化。
lstm_layer_norm_epsilon (float) – 在 LSTM 层归一化层中使用的 epsilon 值。
lstm_dropout (float) – LSTM 的 dropout 概率。
joiner_activation (str) – 在 joiner 中使用的激活函数。必须是以下之一 (“relu”, “tanh”)。(默认值：“relu”)
返回 –

RNNT
Conformer RNN-T 模型。

torchaudio.prototype.models.conformer_rnnt_model¶

文档

教程

资源