Tacotron2¶

class torchaudio.models.Tacotron2(mask_padding: bool = False, n_mels: int = 80, n_symbol: int = 148, n_frames_per_step: int = 1, symbol_embedding_dim: int = 512, encoder_embedding_dim: int = 512, encoder_n_convolution: int = 3, encoder_kernel_size: int = 5, decoder_rnn_dim: int = 1024, decoder_max_step: int = 2000, decoder_dropout: float = 0.1, decoder_early_stopping: bool = True, attention_rnn_dim: int = 1024, attention_hidden_dim: int = 128, attention_location_n_filter: int = 32, attention_location_kernel_size: int = 31, attention_dropout: float = 0.1, prenet_dim: int = 256, postnet_n_convolution: int = 5, postnet_kernel_size: int = 5, postnet_embedding_dim: int = 512, gate_threshold: float = 0.5)[源代码]¶

Tacotron2 模型，出自论文 Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions [Shen et al., 2018]，基于 Nvidia Deep Learning Examples 的实现 Nvidia Deep Learning Examples。

另请参阅

torchaudio.pipelines.Tacotron2TTSBundle：带预训练模型的 TTS 流水线。

参数

mask_padding (bool, optional) – 使用掩码填充（默认：False）。
n_mels (int, optional) – Mel 频段数量（默认：80）。
n_symbol (int, optional) – 输入文本的符号数量（默认：148）。
n_frames_per_step (int, optional) – 每步处理的帧数，仅支持 1（默认：1）。
symbol_embedding_dim (int, optional) – 输入嵌入维度（默认：512）。
encoder_n_convolution (int, optional) – 编码器卷积数量（默认：3）。
encoder_kernel_size (int, optional) – 编码器核大小（默认：5）。
encoder_embedding_dim (int, optional) – 编码器嵌入维度（默认：512）。
decoder_rnn_dim (int, optional) – 解码器 LSTM 的单元数（默认：1024）。
decoder_max_step (int, optional) – 最大输出 Mel 频谱图数量（默认：2000）。
decoder_dropout (float, optional) – 解码器 LSTM 的 Dropout 概率（默认：0.1）。
decoder_early_stopping (bool, optional) – 在所有样本完成后继续解码（默认：True）。
attention_rnn_dim (int, optional) – 注意力 LSTM 的单元数（默认：1024）。
attention_hidden_dim (int, optional) – 注意力隐藏表示的维度（默认：128）。
attention_location_n_filter (int, optional) – 注意力模型的滤波器数量（默认：32）。
attention_location_kernel_size (int, optional) – 注意力模型的核大小（默认：31）。
attention_dropout (float, optional) – 注意力 LSTM 的 Dropout 概率（默认：0.1）。
prenet_dim (int, optional) – prenet 层中的 ReLU 单元数（默认：256）。
postnet_n_convolution (int, optional) – 后处理网络卷积数量（默认：5）。
postnet_kernel_size (int, optional) – 后处理网络核大小（默认：5）。
postnet_embedding_dim (int, optional) – 后处理网络嵌入维度（默认：512）。
gate_threshold (float, optional) – 停止标记的概率阈值（默认：0.5）。

使用 Tacotron2 的教程: 使用 Tacotron2 进行文本到语音转换

使用 Tacotron2 进行文本到语音转换

方法¶

forward¶

Tacotron2.forward(tokens: Tensor, token_lengths: Tensor, mel_specgram: Tensor, mel_specgram_lengths: Tensor) → Tuple[Tensor, Tensor, Tensor, Tensor][源代码]¶

将输入通过 Tacotron2 模型。这是在 teacher forcing 模式下进行的，通常用于训练。

输入 tokens 应该用零填充到 token_lengths 的最大长度。输入 mel_specgram 应该用零填充到 mel_specgram_lengths 的最大长度。

参数

tokens (Tensor) – Tacotron2 的输入 tokens，形状为 (n_batch, max of token_lengths)。
token_lengths (Tensor) – tokens 中每个样本的有效长度，形状为 (n_batch, )。
mel_specgram (Tensor) – 目标 Mel 频谱图，形状为 (n_batch, n_mels, max of mel_specgram_lengths)。
mel_specgram_lengths (Tensor) – 每个 Mel 频谱图的长度，形状为 (n_batch, )。

返回

张量: 后处理网络之前的 Mel 频谱图，形状为 (n_batch, n_mels, max of mel_specgram_lengths)。
张量: 后处理网络之后的 Mel 频谱图，形状为 (n_batch, n_mels, max of mel_specgram_lengths)。
张量: 每个时间步的停止标记输出，形状为 (n_batch, max of mel_specgram_lengths)。
张量: 解码器的注意力权重序列，形状为 (n_batch, max of mel_specgram_lengths, max of token_lengths)。

返回类型

[Tensor, Tensor, Tensor, Tensor]

infer¶

Tacotron2.infer(tokens: Tensor, lengths: Optional[Tensor] = None) → Tuple[Tensor, Tensor, Tensor][源代码]¶

使用 Tacotron2 进行推理。输入是编码后的句子批次（tokens）及其对应的长度（lengths）。输出是生成的 Mel 频谱图、其对应的长度以及解码器的注意力权重。

输入 tokens 应该用零填充到 lengths 的最大长度。

参数

tokens (Tensor) – Tacotron2 的输入 tokens，形状为 (n_batch, max of lengths)。
lengths (Tensor or None, optional) – tokens 中每个样本的有效长度，形状为 (n_batch, )。如果为 None，则假定所有 tokens 都有效。默认为：None

返回

张量: 预测的 Mel 频谱图，形状为 (n_batch, n_mels, max of mel_specgram_lengths)。
张量: 预测的 Mel 频谱图的长度，形状为 (n_batch, )。
张量: 解码器的注意力权重序列，形状为 (n_batch, max of mel_specgram_lengths, max of lengths)。

返回类型

(Tensor, Tensor, Tensor)

Tacotron2¶

方法¶

forward¶

infer¶

文档

教程

资源