HIFIGAN_VOCODER_V3_LJSPEECH¶

torchaudio.prototype.pipelines.HIFIGAN_VOCODER_V3_LJSPEECH¶

[已弃用]

警告

此对象已弃用，从版本 2.8 开始已弃用。它将在 2.9 版本中被移除。此弃用是作为将 TorchAudio 转换为维护阶段的大规模重构工作的一部分。有关更多信息，请参阅 https://github.com/pytorch/audio/issues/3902。

HiFiGAN Vocoder 管道，在LJ Speech 数据集上训练

[Ito and Johnson, 2017].

此管道可与生成文本到梅尔频谱图的外部组件一起使用，例如 Tacotron2 - 请参阅 HiFiGANVocoderBundle 中的示例。虽然这适用于现有的 Tacotron2 束，但为了获得最佳结果，需要使用与 HiFiGAN 训练相同的数据预处理管道重新训练 Tacotron2。特别是，原始 HiFiGAN 实现使用了一种从波形生成梅尔频谱图的自定义方法，该方法不同于 torchaudio.transforms.MelSpectrogram。我们已将此变换重新实现为 HiFiGANVocoderBundle.get_mel_transform()，确保它等同于原始 HiFiGAN 代码此处。

底层 vocoder 由 torchaudio.prototype.models.hifigan_vocoder() 构建。权重是从原始论文 [Kong et al., 2020] 使用 MIT 许可证发布的权重转换而来。有关预训练模型的链接，请参阅 GitHub。

有关使用说明，请参阅 HiFiGANVocoderBundle。

HIFIGAN_VOCODER_V3_LJSPEECH¶

文档

教程

资源