torchaudio.prototype.models.conformer_wav2vec2_model¶

torchaudio.prototype.models.conformer_wav2vec2_model(extractor_input_dim: int, extractor_output_dim: int, extractor_stride: int, encoder_embed_dim: int, encoder_projection_dropout: float, encoder_num_layers: int, encoder_num_heads: int, encoder_ff_interm_features: int, encoder_depthwise_conv_kernel_size: Union[int, List[int]], encoder_dropout: float, encoder_convolution_first: bool, encoder_use_group_norm: bool) → Wav2Vec2Model[源代码]¶

已弃用

警告

此函数已被弃用。它将在 2.9 版本中被移除。此弃用是大型重构工作的一部分，旨在将 TorchAudio 转移到维护阶段。有关更多信息，请参阅 https://github.com/pytorch/audio/issues/3902。

构建自定义 Conformer Wav2Vec2Model

参数

extractor_input_dim (int) – 特征的输入维度。
extractor_output_dim (int) – 特征提取后的输出维度。
extractor_stride (int) – 特征提取的时间缩减层中使用的步幅。
encoder_embed_dim (int) – 特征投影中嵌入的维度。
encoder_projection_dropout (float) – 输入特征被投影到 embed_dim 后应用的 dropout 概率。
encoder_num_layers (int) – 编码器中 Conformer 层的数量。
encoder_num_heads (int) – 每个 Conformer 层中的头数。
encoder_ff_interm_features (int) – 每个 Conformer 层中前馈网络的隐藏层维度。
encoder_depthwise_conv_kernel_size (int 或 List[int]) – 对应于每个 Conformer 层的核大小列表。如果提供整数，则所有层都将具有相同的核大小。
encoder_dropout (float) – 每个 Conformer 层中的 dropout 概率。
encoder_convolution_first (bool) – 在每个 Conformer 层中，卷积模块是否应用于注意力模块之前。
encoder_use_group_norm (bool) – 在每个 Conformer 层中的卷积模块中，是否使用 GroupNorm 而不是 BatchNorm1d。

返回

具有 Conformer 编码器的结果 wav2vec2 模型。

返回类型

Wav2Vec2Model

torchaudio.prototype.models.conformer_wav2vec2_model¶

文档

教程

资源