快捷方式

torchaudio.compliance.kaldi.fbank

torchaudio.compliance.kaldi.fbank(waveform: Tensor, blackman_coeff: float = 0.42, channel: int = -1, dither: float = 0.0, energy_floor: float = 1.0, frame_length: float = 25.0, frame_shift: float = 10.0, high_freq: float = 0.0, htk_compat: bool = False, low_freq: float = 20.0, min_duration: float = 0.0, num_mel_bins: int = 23, preemphasis_coefficient: float = 0.97, raw_energy: bool = True, remove_dc_offset: bool = True, round_to_power_of_two: bool = True, sample_frequency: float = 16000.0, snip_edges: bool = True, subtract_mean: bool = False, use_energy: bool = False, use_log_fbank: bool = True, use_power: bool = True, vtln_high: float = -500.0, vtln_low: float = 100.0, vtln_warp: float = 1.0, window_type: str = 'povey') Tensor[源]

从原始音频信号创建 fbank。这与 Kaldi 的 compute-fbank-feats 的输入/输出匹配。

参数
  • waveform (Tensor) – 音频的 Tensor,形状为 (c, n),其中 c 的范围是 [0,2)

  • blackman_coeff (float, 可选) – 广义 Blackman 窗口的常数系数。(默认: 0.42)

  • channel (int, 可选) – 要提取的通道 (-1 -> 期望单声道, 0 -> 左声道, 1 -> 右声道) (默认: -1)

  • dither (float, 可选) – 抖动常数 (0.0 表示无抖动)。如果关闭此项,则应设置 energy_floor 选项,例如 1.0 或 0.1 (默认: 0.0)

  • energy_floor (float, 可选) – 谱图计算中的能量底限 (绝对值,非相对值)。注意:此底限应用于代表总信号能量的零分量。各个谱图元素的底限固定为 std::numeric_limits<float>::epsilon()。(默认: 1.0)

  • frame_length (float, 可选) – 帧长(毫秒)(默认: 25.0)

  • frame_shift (float, 可选) – 帧移(毫秒)(默认: 10.0)

  • high_freq (float, 可选) – Мел 滤波器的截止高频 (如果 <= 0,则为奈奎斯特频率的偏移) (默认: 0.0)

  • htk_compat (bool, 可选) – 如果为 true,则将能量放在最后。警告:这不足以获得与 HTK 兼容的特征(需要更改其他参数)。(默认: False)

  • low_freq (float, 可选) – Мел 滤波器的截止低频 (默认: 20.0)

  • min_duration (float, 可选) – 要处理的片段的最小持续时间(秒)。(默认: 0.0)

  • num_mel_bins (int, 可选) – 三角Мел 频率滤波器的数量 (默认: 23)

  • preemphasis_coefficient (float, 可选) – 用于信号预加重的系数 (默认: 0.97)

  • raw_energy (bool, 可选) – 如果为 True,则在预加重和加窗之前计算能量 (默认: True)

  • remove_dc_offset (bool, 可选) – 从每帧的波形中减去均值 (默认: True)

  • round_to_power_of_two (bool, 可选) – 如果为 True,则通过对 FFT 输入进行零填充将窗口大小四舍五入为二的幂。(默认: True)

  • sample_frequency (float, 可选) – 波形数据采样频率(如果指定了,则必须与波形文件匹配)(默认: 16000.0)

  • snip_edges (bool, 可选) – 如果为 True,则通过仅输出完全适合文件的帧来处理边缘效应,并且帧数取决于 frame_length。如果为 False,则帧数仅取决于 frame_shift,并且我们在末端进行反射。(默认: True)

  • subtract_mean (bool, 可选) – 减去每个特征文件的均值 [CMS];不推荐这样做。(默认: False)

  • use_energy (bool, 可选) – 添加一个额外的维度(能量)到 FBANK 输出。(默认: False)

  • use_log_fbank (bool, 可选) – 如果为 true,则生成对数滤波器组,否则生成线性滤波器组。(默认: True)

  • use_power (bool, 可选) – 如果为 true,则使用功率,否则使用幅度。(默认: True)

  • vtln_high (float, 可选) – 分段线性 VTLN 变形函数中的高拐点 (如果为负,则为高Мел频率的偏移) (默认: -500.0)

  • vtln_low (float, 可选) – 分段线性 VTLN 变形函数中的低拐点 (默认: 100.0)

  • vtln_warp (float, 可选) – Vtln 变形因子 (仅当未指定 vtln_map 时适用) (默认: 1.0)

  • window_type (str, 可选) – 窗口类型(‘hamming’|’hanning’|’povey’|’rectangular’|’blackman’)(默认: 'povey')

返回

与 Kaldi 输出相同的 fbank。形状为 (m, num_mel_bins + use_energy),其中 m 在 _get_strided 中计算

返回类型

张量

使用 fbank 的教程
ASR Inference with CUDA CTC Decoder

使用 CUDA CTC 解码器进行 ASR 推理

使用 CUDA CTC 解码器进行 ASR 推理

文档

访问全面的 PyTorch 开发者文档

查看文档

教程

为初学者和高级开发者提供深入的教程

查看教程

资源

查找开发资源并让您的问题得到解答

查看资源