Resample¶

class torchaudio.transforms.Resample(orig_freq: int = 16000, new_freq: int = 16000, resampling_method: str = 'sinc_interp_hann', lowpass_filter_width: int = 6, rolloff: float = 0.99, beta: Optional[float] = None, *, dtype: Optional[dtype] = None)[源代码]¶

将信号从一个频率重采样到另一个频率。可以指定重采样方法。

注意

如果对精度高于 float32 的波形进行重采样，可能会有轻微的精度损失，因为内核会作为 float32 缓存一次。如果高精度重采样对您的应用很重要，可以使用函数形式，它会保留更高的精度，但运行速度会变慢，因为它不会缓存内核。或者，您可以重写一个缓存更高精度内核的转换。

参数

orig_freq (int, 可选) – 信号的原始频率。(默认： 16000)
new_freq (int, 可选) – 目标频率。(默认： 16000)
resampling_method (str, 可选) – 要使用的重采样方法。选项： [sinc_interp_hann, sinc_interp_kaiser] (默认： "sinc_interp_hann")
lowpass_filter_width (int, 可选) – 控制滤波器的锐度，值越大则越锐利但效率越低。(默认： 6)
rolloff (float, 可选) – 滤波器的滚降频率，作为奈奎斯特频率的分数。较低的值可以减少混叠，但也会削减一些最高频率。(默认： 0.99)
beta (float 或 None, 可选) – 用于 Kaiser 窗的形状参数。
dtype (torch.device, 可选) – 决定重采样内核的预计算和缓存精度。如果未提供，内核将使用 torch.float64 计算，然后缓存为 torch.float32。如果您需要更高的精度，请提供 torch.float64，预计算的内核将使用 torch.float64 计算并缓存。如果您使用较低精度的 resample，则不要提供此参数，请使用 Resample.to(dtype)，以便内核生成仍然在 torch.float64 上进行。

示例

>>> waveform, sample_rate = torchaudio.load("test.wav", normalize=True)
>>> transform = transforms.Resample(sample_rate, sample_rate/10)
>>> waveform = transform(waveform)

使用 Resample 的教程

使用 Wav2Vec2 进行语音识别

音频重采样

forward(waveform: Tensor) → Tensor[源代码]¶

参数: waveform (Tensor) – 音频张量，维度为 (…, time)。
返回: 输出信号维度为 (..., time)。
返回类型: 张量

Resample¶

文档

教程

资源