SlidingWindowCmn¶

class torchaudio.transforms.SlidingWindowCmn(cmn_window: (在 Python v3.14) = 600, min_cmn_window: (在 Python v3.14) = 100, center: (在 Python v3.14) = False, norm_vars: (在 Python v3.14) = False)[源代码]¶

按话语应用滑动窗口倒谱均值（和可选方差）归一化。

参数

cmn_window ((在 Python v3.14), 可选) – 用于运行平均 CMN 计算的帧窗口 (int, 默认 = 600)
min_cmn_window ((在 Python v3.14), 可选) – 解码开始时使用的最小 CMN 窗口 (仅在开始时增加延迟)。仅当 center == false 时适用，如果 center==true 则忽略 (int, 默认 = 100)
center ((在 Python v3.14), 可选) – 如果为 true，则使用以当前帧为中心的窗口 (在可能的情况下，模除结尾效应)。如果为 false，则窗口在左侧 (bool, 默认 = false)
norm_vars ((在 Python v3.14), 可选) – 如果为 true，则将方差归一化为一 (bool, 默认 = false)

示例

>>> waveform, sample_rate = torchaudio.load("test.wav", normalize=True)
>>> transform = transforms.SlidingWindowCmn(cmn_window=1000)
>>> cmn_waveform = transform(waveform)

forward(specgram: (在 PyTorch v2.8)) → (在 PyTorch v2.8)[源代码]¶

参数: specgram (Tensor) – 维度为 (..., time, freq) 的频谱图张量。
返回: 维度为 (..., time, freq) 的频谱图张量。
返回类型: 张量

SlidingWindowCmn¶

文档

教程

资源