快捷方式

torchaudio.prototype.models.emformer_hubert_model

torchaudio.prototype.models.emformer_hubert_model(extractor_input_dim: int, extractor_output_dim: int, extractor_use_bias: bool, extractor_stride: int, encoder_input_dim: int, encoder_output_dim: int, encoder_num_heads: int, encoder_ffn_dim: int, encoder_num_layers: int, encoder_segment_length: int, encoder_left_context_length: int, encoder_right_context_length: int, encoder_dropout: float, encoder_activation: str, encoder_max_memory_size: int, encoder_weight_init_scale_strategy: Optional[str], encoder_tanh_on_mem: bool, aux_num_out: Optional[int]) Wav2Vec2Model[源代码]

已弃用

警告

此函数已被弃用。它将在 2.9 版本中移除。此弃用是向维护阶段迁移 TorchAudio 的大规模重构工作的一部分。有关更多信息,请参阅 https://github.com/pytorch/audio/issues/3902

构建一个自定义的 Emformer HuBERT 模型。

参数
  • extractor_input_dim (int) – 特征提取器的输入维度。

  • extractor_output_dim (int) – 特征提取后的输出维度。

  • extractor_use_bias (bool) – 如果为 True,则在特征提取器的线性层中启用偏置参数。

  • extractor_stride (int) – 特征提取器中输出帧的合并帧数。

  • encoder_input_dim (int) – Emformer 层的输入维度。

  • encoder_output_dim (int) – EmformerEncoder 后的输出维度。

  • encoder_num_heads (int) – 每个 Emformer 层中的注意力头数。

  • encoder_ffn_dim (int) – Emformer 中前馈网络的隐藏层维度。

  • encoder_num_layers (int) – 要实例化的 Emformer 层数。

  • encoder_segment_length (int) – 每个输入段的长度。

  • encoder_left_context_length (int) – 左侧上下文的长度。

  • encoder_right_context_length (int) – 右侧上下文的长度。

  • encoder_dropout (float) – Dropout 概率。

  • encoder_activation (str) – 在每个 Emformer 层的馈送网络中使用的激活函数。必须是 (“relu”, “gelu”, “silu”) 之一。

  • encoder_max_memory_size (int) – 要使用的最大内存元素数。

  • encoder_weight_init_scale_strategy (strNone) – 每层权重初始化缩放策略。必须是 (“depthwise”, “constant”, None) 之一。

  • encoder_tanh_on_mem (bool) – 如果为 True,则将 tanh 应用于内存元素。

  • aux_num_out (intNone) – 如果提供,则在编码器顶部附加一个额外的线性层,可用于微调。

返回

生成的 torchaudio.models.Wav2Vec2Model 模型,带有 torchaudio.models.Emformer 编码器。

返回类型

Wav2Vec2Model

文档

访问全面的 PyTorch 开发者文档

查看文档

教程

为初学者和高级开发者提供深入的教程

查看教程

资源

查找开发资源并让您的问题得到解答

查看资源