快捷方式

Spectrogram

class torchaudio.transforms.Spectrogram(n_fft: int = 400, win_length: ~typing.Optional[int] = None, hop_length: ~typing.Optional[int] = None, pad: int = 0, window_fn: ~typing.Callable[[...], ~torch.Tensor] = <built-in method hann_window of type object>, power: ~typing.Optional[float] = 2.0, normalized: ~typing.Union[bool, str] = False, wkwargs: ~typing.Optional[dict] = None, center: bool = True, pad_mode: str = 'reflect', onesided: bool = True, return_complex: ~typing.Optional[bool] = None)[源码]

从音频信号创建频谱图。

This feature supports the following devices: CPU, CUDA This API supports the following properties: Autograd, TorchScript
参数
  • n_fft (int, 可选) – FFT 的大小,创建 n_fft // 2 + 1 个 bin。 (默认: 400)

  • win_length (intNone, 可选) – 窗口大小。 (默认: n_fft)

  • hop_length (intNone, 可选) – STFT 窗口之间的跳跃长度。 (默认: win_length // 2)

  • pad (int, 可选) – 信号的双边填充。 (默认: 0)

  • window_fn (Callable[..., Tensor], 可选) – 一个用于创建应用于/乘以每个帧/窗口的窗口张量的函数。 (默认: torch.hann_window)

  • power (floatNone, 可选) – 幅值频谱图的指数(必须 > 0),例如 1 用于幅值,2 用于功率等。如果为 None,则返回复数频谱。 (默认: 2)

  • normalized (boolstr, 可选) – STFT 后是否按幅值进行归一化。如果输入是 str,则选项为 "window""frame_length",如果需要特定的归一化类型。True 映射到 "window"。 (默认: False)

  • wkwargs (dictNone, 可选) – 窗口函数的参数。 (默认: None)

  • center (bool, 可选) – 是否对 waveform 的两侧进行填充,以便 \(t\)-th 帧位于时间 \(t \times \text{hop\_length}\) 处。 (默认: True)

  • pad_mode (string, 可选) – 当 centerTrue 时,控制使用的填充方法。 (默认: "reflect")

  • onesided (bool, 可选) – 控制是否返回结果的一半以避免冗余(默认: True

  • return_complex (bool, 可选) – 已弃用且未使用。

示例
>>> waveform, sample_rate = torchaudio.load("test.wav", normalize=True)
>>> transform = torchaudio.transforms.Spectrogram(n_fft=800)
>>> spectrogram = transform(waveform)
使用 Spectrogram 的教程
Audio Feature Augmentation

音频特征增强

音频特征增强
StreamWriter Basic Usage

StreamWriter 基本用法

StreamWriter 基本用法
Music Source Separation with Hybrid Demucs

使用 Hybrid Demucs 进行音乐源分离

使用 Hybrid Demucs 进行音乐源分离
Speech Enhancement with MVDR Beamforming

使用 MVDR 波束成形进行语音增强

使用 MVDR 波束成形进行语音增强
Audio Feature Extractions

音频特征提取

音频特征提取
forward(waveform: Tensor) Tensor[源码]
参数

waveform (Tensor) – 音频张量,维度为 (…, time)。

返回

维度为 (…, freq, time),其中 freq 是 n_fft // 2 + 1n_fft 是傅里叶 bin 的数量,time 是窗口跳跃的数量 (n_frame)。

返回类型

张量

文档

访问全面的 PyTorch 开发者文档

查看文档

教程

为初学者和高级开发者提供深入的教程

查看教程

资源

查找开发资源并让您的问题得到解答

查看资源