快捷方式

HIFIGAN_VOCODER_V3_LJSPEECH

torchaudio.prototype.pipelines.HIFIGAN_VOCODER_V3_LJSPEECH

[已弃用]

警告

此对象已弃用,从版本 2.8 开始已弃用。它将在 2.9 版本中被移除。此弃用是作为将 TorchAudio 转换为维护阶段的大规模重构工作的一部分。有关更多信息,请参阅 https://github.com/pytorch/audio/issues/3902

HiFiGAN Vocoder 管道,在LJ Speech 数据集上训练

[Ito and Johnson, 2017].

此管道可与生成文本到梅尔频谱图的外部组件一起使用,例如 Tacotron2 - 请参阅 HiFiGANVocoderBundle 中的示例。虽然这适用于现有的 Tacotron2 束,但为了获得最佳结果,需要使用与 HiFiGAN 训练相同的数据预处理管道重新训练 Tacotron2。特别是,原始 HiFiGAN 实现使用了一种从波形生成梅尔频谱图的自定义方法,该方法不同于 torchaudio.transforms.MelSpectrogram。我们已将此变换重新实现为 HiFiGANVocoderBundle.get_mel_transform(),确保它等同于原始 HiFiGAN 代码 此处

底层 vocoder 由 torchaudio.prototype.models.hifigan_vocoder() 构建。权重是从原始论文 [Kong et al., 2020] 使用 MIT 许可证 发布的权重转换而来。有关预训练模型的链接,请参阅 GitHub

有关使用说明,请参阅 HiFiGANVocoderBundle

文档

访问全面的 PyTorch 开发者文档

查看文档

教程

为初学者和高级开发者提供深入的教程

查看教程

资源

查找开发资源并让您的问题得到解答

查看资源