快捷方式

LFCC

class torchaudio.transforms.LFCC(sample_rate: int = 16000, n_filter: int = 128, f_min: float = 0.0, f_max: Optional[float] = None, n_lfcc: int = 40, dct_type: int = 2, norm: str = 'ortho', log_lf: bool = False, speckwargs: Optional[dict] = None)[源]

从音频信号创建线性频率倒谱系数。

This feature supports the following devices: CPU, CUDA This API supports the following properties: Autograd, TorchScript

默认情况下,此函数在 DB 缩放的线性滤波语谱图上计算 LFCC。这不是教科书式的实现,但为了与 librosa 保持一致而在此实现。

此输出取决于输入语谱图的最大值,因此对于分割成片段的音频剪辑与完整剪辑,可能会返回不同的值。

参数
  • sample_rate (int, optional) – 音频信号的采样率。(默认: 16000)

  • n_filter (int, 可选) – 要应用的线性滤波器数量。(默认值:128)

  • n_lfcc (int, 可选) – 要保留的 LFCC 系数数量。(默认值:40)

  • f_min (float, optional) – 最小频率。(默认: 0.)

  • f_max (floatNone, 可选) – 最大频率。(默认值:None)

  • dct_type (int, 可选) – 要使用的 DCT(离散余弦变换)类型。(默认值:2)

  • norm (str, 可选) – 要使用的范数。(默认值:"ortho")

  • log_lf (bool, 可选) – 是否使用对数 LF 语谱图而不是 DB 缩放的。(默认值:False)

  • speckwargs (dictNone, 可选) – Spectrogram 的参数。(默认值:None)

示例
>>> waveform, sample_rate = torchaudio.load("test.wav", normalize=True)
>>> transform = transforms.LFCC(
>>>     sample_rate=sample_rate,
>>>     n_lfcc=13,
>>>     speckwargs={"n_fft": 400, "hop_length": 160, "center": False},
>>> )
>>> lfcc = transform(waveform)

另请参阅

torchaudio.functional.linear_fbanks() - 用于生成滤波器组的函数。

使用 LFCC 的教程
Audio Feature Extractions

音频特征提取

音频特征提取
forward(waveform: Tensor) Tensor[源]
参数

waveform (Tensor) – 音频张量,维度为 (…, time)。

返回

大小为 (..., n_lfcc, time) 的线性频率倒谱系数。

返回类型

张量

文档

访问全面的 PyTorch 开发者文档

查看文档

教程

为初学者和高级开发者提供深入的教程

查看教程

资源

查找开发资源并让您的问题得到解答

查看资源