• 文档 >
  • torchaudio.models >
  • 旧版本 (稳定版)
快捷方式

torchaudio.models

torchaudio.models 子包包含用于解决常见音频任务的模型定义。

注意

有关带有预训练参数的模型,请参阅 torchaudio.pipelines 模块。

模型定义负责构建计算图并执行它们。

有些模型具有复杂的结构和变体。对于这些模型,提供了工厂函数。

Conformer

Conformer 架构,在 Conformer: Convolution-augmented Transformer for Speech Recognition [Gulati et al., 2020] 中提出。

ConvTasNet

Conv-TasNet 架构,在 Conv-TasNet: Surpassing Ideal Time–Frequency Magnitude Masking for Speech Separation [Luo and Mesgarani, 2019] 中提出。

DeepSpeech

DeepSpeech 架构,在 Deep Speech: Scaling up end-to-end speech recognition [Hannun et al., 2014] 中提出。

Emformer

Emformer 架构,在 Emformer: Efficient Memory Transformer Based Acoustic Model for Low Latency Streaming Speech Recognition [Shi et al., 2021] 中提出。

HDemucs

Hybrid Demucs 模型,来自 Hybrid Spectrogram and Waveform Source Separation [Défossez, 2021]

HuBERTPretrainModel

HuBERT 模型,用于 HuBERT [Hsu et al., 2021] 中的预训练。

RNNT

循环神经网络换能器 (RNN-T) 模型。

RNNTBeamSearch

用于 RNN-T 模型的束搜索解码器。

SquimObjective

语音质量和可懂度度量 (SQUIM) 模型,该模型预测语音增强的 **客观** 度量分数(例如,STOI、PESQ 和 SI-SDR)。

SquimSubjective

语音质量和可懂度度量 (SQUIM) 模型,该模型预测语音增强的 **主观** 度量分数(例如,平均意见分 (MOS))。

Tacotron2

Tacotron2 模型,来自 Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions [Shen et al., 2018],基于 Nvidia Deep Learning Examples 的实现。

Wav2Letter

Wav2Letter 模型架构,来自 Wav2Letter: an End-to-End ConvNet-based Speech Recognition System [Collobert et al., 2016]

Wav2Vec2Model

wav2vec 2.0 [Baevski et al., 2020] 中使用的声学模型。

WaveRNN

WaveRNN 模型,来自 Efficient Neural Audio Synthesis [Kalchbrenner et al., 2018],基于 fatchord/WaveRNN 的实现。

文档

访问全面的 PyTorch 开发者文档

查看文档

教程

为初学者和高级开发者提供深入的教程

查看教程

资源

查找开发资源并让您的问题得到解答

查看资源