HIFIGAN_VOCODER_V3_LJSPEECH¶
- torchaudio.prototype.pipelines.HIFIGAN_VOCODER_V3_LJSPEECH¶
[已弃用]
警告
此对象已弃用,从版本 2.8 开始已弃用。它将在 2.9 版本中被移除。此弃用是作为将 TorchAudio 转换为维护阶段的大规模重构工作的一部分。有关更多信息,请参阅 https://github.com/pytorch/audio/issues/3902。
- HiFiGAN Vocoder 管道,在LJ Speech 数据集上训练
-
此管道可与生成文本到梅尔频谱图的外部组件一起使用,例如 Tacotron2 - 请参阅
HiFiGANVocoderBundle
中的示例。虽然这适用于现有的 Tacotron2 束,但为了获得最佳结果,需要使用与 HiFiGAN 训练相同的数据预处理管道重新训练 Tacotron2。特别是,原始 HiFiGAN 实现使用了一种从波形生成梅尔频谱图的自定义方法,该方法不同于torchaudio.transforms.MelSpectrogram
。我们已将此变换重新实现为HiFiGANVocoderBundle.get_mel_transform()
,确保它等同于原始 HiFiGAN 代码 此处。底层 vocoder 由
torchaudio.prototype.models.hifigan_vocoder()
构建。权重是从原始论文 [Kong et al., 2020] 使用 MIT 许可证 发布的权重转换而来。有关预训练模型的链接,请参阅 GitHub。有关使用说明,请参阅
HiFiGANVocoderBundle
。