快捷方式

Resample

class torchaudio.transforms.Resample(orig_freq: int = 16000, new_freq: int = 16000, resampling_method: str = 'sinc_interp_hann', lowpass_filter_width: int = 6, rolloff: float = 0.99, beta: Optional[float] = None, *, dtype: Optional[dtype] = None)[源代码]

将信号从一个频率重采样到另一个频率。可以指定重采样方法。

This feature supports the following devices: CPU, CUDA This API supports the following properties: Autograd, TorchScript

注意

如果对精度高于 float32 的波形进行重采样,可能会有轻微的精度损失,因为核函数(kernel)被缓存为 float32。如果您的应用程序需要高精度重采样,请使用函数形式,它将保留更高的精度,但运行速度较慢,因为它不缓存核函数。或者,您可以重写一个缓存了更高精度核函数的变换。

参数
  • orig_freq (int, 可选) – 信号的原始频率。(默认:16000

  • new_freq (int, 可选) – 目标频率。(默认:16000

  • resampling_method (str, 可选) – 要使用的重采样方法。选项:[sinc_interp_hann, sinc_interp_kaiser](默认:"sinc_interp_hann"

  • lowpass_filter_width (int, 可选) – 控制滤波器的锐度,越大表示越锐利但效率越低。(默认:6

  • rolloff (float, 可选) – 滤波器滚降频率,作为奈奎斯特频率的分数。较低的值可减少混叠(anti-aliasing),但也会减少一些最高频率。(默认:0.99

  • beta (floatNone, 可选) – 用于凯撒窗(kaiser window)的形状参数。

  • dtype (torch.device, 可选) – 决定重采样核函数的预计算和缓存精度。如果未提供,核函数将使用 torch.float64 计算,然后缓存为 torch.float32。如果您需要更高的精度,请提供 torch.float64,预计算的核函数将以 torch.float64 计算和缓存。如果您使用较低精度的 resample,请不要提供此参数,而是使用 Resample.to(dtype),这样核函数生成仍然在 torch.float64 上执行。

示例
>>> waveform, sample_rate = torchaudio.load("test.wav", normalize=True)
>>> transform = transforms.Resample(sample_rate, sample_rate/10)
>>> waveform = transform(waveform)
使用 Resample 的教程
Speech Recognition with Wav2Vec2

使用 Wav2Vec2 进行语音识别

使用 Wav2Vec2 进行语音识别
Audio Resampling

音频重采样

音频重采样
forward(waveform: Tensor) Tensor[源代码]
参数

waveform (Tensor) – 音频张量,维度为 (…, time)。

返回

输出信号维度为 (..., time)。

返回类型

张量

文档

访问全面的 PyTorch 开发者文档

查看文档

教程

为初学者和高级开发者提供深入的教程

查看教程

资源

查找开发资源并让您的问题得到解答

查看资源