ConvTasNet¶

class torchaudio.models.ConvTasNet(num_sources: int = 2, enc_kernel_size: int = 16, enc_num_feats: int = 512, msk_kernel_size: int = 3, msk_num_feats: int = 128, msk_num_hidden_feats: int = 512, msk_num_layers: int = 8, msk_num_stacks: int = 3, msk_activate: str = 'sigmoid')[源代码]¶

Conv-TasNet 架构，在论文 Conv-TasNet: Surpassing Ideal Time–Frequency Magnitude Masking for Speech Separation [Luo and Mesgarani, 2019] 中首次提出。

注意

此实现对应论文中的“非因果”设置。

另请参阅

torchaudio.pipelines.SourceSeparationBundle: 带有预训练模型的源分离管道。

参数

num_sources (int, optional) – 需要分离的源的数量。
enc_kernel_size (int, optional) – 编码器/解码器的卷积核大小，<L>。
enc_num_feats (int, optional) – 传递给掩码生成器的特征维度，<N>。
msk_kernel_size (int, optional) – 掩码生成器的卷积核大小，<P>。
msk_num_feats (int, optional) – 掩码生成器卷积块的输入/输出特征维度，<B, Sc>。
msk_num_hidden_feats (int, optional) – 掩码生成器卷积块的内部特征维度，<H>。
msk_num_layers (int, optional) – 掩码生成器的一个卷积块中的层数，<X>。
msk_num_stacks (int, optional) – 掩码生成器卷积块的数量，<R>。
msk_activate (str, optional) – 掩码输出的激活函数（默认：sigmoid）。

方法¶

forward¶

ConvTasNet.forward(input: Tensor) → Tensor[源代码]¶

执行源分离。生成音频源波形。

参数: input (torch.Tensor) – 形状为 [batch, channel==1, frames] 的 3D 张量
返回: 形状为 [batch, channel==num_sources, frames] 的 3D 张量
返回类型: 张量

工厂函数¶

conv_tasnet_base

构建 ConvTasNet 的非因果版本。

ConvTasNet¶

方法¶

forward¶

工厂函数¶

文档

教程

资源