torchaudio.models¶

torchaudio.models 子包包含用于解决常见音频任务的模型定义。

注意

有关带有预训练参数的模型，请参阅 torchaudio.pipelines 模块。

模型定义负责构建计算图并执行它们。

有些模型具有复杂的结构和变体。对于这些模型，提供了工厂函数。

`Conformer`	Conformer 架构，在 Conformer: Convolution-augmented Transformer for Speech Recognition [Gulati et al., 2020] 中提出。
`ConvTasNet`	Conv-TasNet 架构，在 Conv-TasNet: Surpassing Ideal Time–Frequency Magnitude Masking for Speech Separation [Luo and Mesgarani, 2019] 中提出。
`DeepSpeech`	DeepSpeech 架构，在 Deep Speech: Scaling up end-to-end speech recognition [Hannun et al., 2014] 中提出。
`Emformer`	Emformer 架构，在 Emformer: Efficient Memory Transformer Based Acoustic Model for Low Latency Streaming Speech Recognition [Shi et al., 2021] 中提出。
`HDemucs`	Hybrid Demucs 模型，来自 Hybrid Spectrogram and Waveform Source Separation [Défossez, 2021]。
`HuBERTPretrainModel`	HuBERT 模型，用于 HuBERT [Hsu et al., 2021] 中的预训练。
`RNNT`	循环神经网络换能器 (RNN-T) 模型。
`RNNTBeamSearch`	用于 RNN-T 模型的束搜索解码器。
`SquimObjective`	语音质量和可懂度度量 (SQUIM) 模型，该模型预测语音增强的客观度量分数（例如，STOI、PESQ 和 SI-SDR）。
`SquimSubjective`	语音质量和可懂度度量 (SQUIM) 模型，该模型预测语音增强的主观度量分数（例如，平均意见分 (MOS)）。
`Tacotron2`	Tacotron2 模型，来自 Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions [Shen et al., 2018]，基于 Nvidia Deep Learning Examples 的实现。
`Wav2Letter`	Wav2Letter 模型架构，来自 Wav2Letter: an End-to-End ConvNet-based Speech Recognition System [Collobert et al., 2016]。
`Wav2Vec2Model`	在 wav2vec 2.0 [Baevski et al., 2020] 中使用的声学模型。
`WaveRNN`	WaveRNN 模型，来自 Efficient Neural Audio Synthesis [Kalchbrenner et al., 2018]，基于 fatchord/WaveRNN 的实现。

torchaudio.models¶

文档

教程

资源