torchaudio.functional.sliding_window_cmn¶
- torchaudio.functional.sliding_window_cmn(specgram: Tensor, cmn_window: int = 600, min_cmn_window: int = 100, center: bool = False, norm_vars: bool = False) Tensor [源代码]¶
按话语应用滑动窗口倒谱均值(和可选方差)归一化。
- 参数
specgram (Tensor) – 形状为 (..., time, freq) 的频谱图张量
cmn_window (int, 可选) – 用于运行平均 CMN 计算的帧窗口(int,默认值 = 600)
min_cmn_window (int, 可选) – 解码开始时使用的最小 CMN 窗口(仅在开始时增加延迟)。仅当 center == false 时适用,如果 center == true 则忽略(int,默认值 = 100)
center (bool, 可选) – 如果为 True,则使用以当前帧为中心的窗口(在可能的情况下,忽略结尾效应)。如果为 False,则窗口位于左侧(bool,默认值 = False)
norm_vars (bool, 可选) – 如果为 True,则将方差归一化为一(bool,默认值 = False)
- 返回
形状与输入匹配的张量 (..., freq, time)
- 返回类型
张量