torchaudio.functional.vad¶

torchaudio.functional.vad(waveform: Tensor, sample_rate: int, trigger_level: float = 7.0, trigger_time: float = 0.25, search_time: float = 1.0, allowed_gap: float = 0.25, pre_trigger_time: float = 0.0, boot_time: float = 0.35, noise_up_time: float = 0.1, noise_down_time: float = 0.01, noise_reduction_amount: float = 1.35, measure_freq: float = 20.0, measure_duration: Optional[float] = None, measure_smooth_time: float = 0.4, hp_filter_freq: float = 50.0, lp_filter_freq: float = 6000.0, hp_lifter_freq: float = 150.0, lp_lifter_freq: float = 2000.0) → Tensor[源代码]¶

语音活动检测器。与 SoX 实现类似。

尝试修剪录制的语音末尾的静默和安静的背景声音。该算法目前使用简单的倒谱功率测量来检测语音，因此可能会被其他声音（尤其是音乐）所迷惑。

此效果只能从音频的开头进行修剪，因此要从末尾修剪，还必须使用反向效果。

参数

waveform (Tensor) – 形状为 (channels, time) 或 (time) 的音频张量。形状为 (channels, time) 的张量被视为同一事件的多通道录音，结果将根据任何通道中最早的语音活动进行修剪。
sample_rate (int) – 音频信号的采样率。
trigger_level (float, optional) – 用于触发活动检测的测量级别。根据输入音频的噪声级别、信号级别和其他特性，可能需要更改此值。（默认值：7.0）
trigger_time (float, optional) – 用于忽略短暂声音的事件的时间常数（以秒为单位）。（默认值：0.25）
search_time (float, optional) – 在检测到的触发点之前，搜索较安静/较短声音事件要包含的音频量（以秒为单位）。（默认值：1.0）
allowed_gap (float, optional) – 在检测到的触发点之前，允许的较安静/较短声音事件之间的间隔（以秒为单位）。（默认值：0.25）
pre_trigger_time (float, optional) – 在触发点和任何找到的较安静/较短声音事件之前保留的音频量（以秒为单位）。（默认值：0.0）
boot_time (float, optional) 算法（python:内部) – 估计/减少，以检测所需音频的开始。此选项设置初始噪声估计的时间。（默认值：0.35）
noise_up_time (float, optional) – 当噪声级别上升时。（默认值：0.1）
noise_down_time (float, optional) – 当噪声级别下降时。（默认值：0.01）
noise_reduction_amount (float, optional) – 检测算法（例如 0、0.5，...）。（默认值：1.35）
measure_freq (float, optional) – 处理/测量。（默认值：20.0）
measure_duration – (float, optional) 测量持续时间。（默认值：测量周期的两倍；即，有重叠。）
measure_smooth_time (float, optional) – 频谱测量。（默认值：0.4）
hp_filter_freq (float, optional) – 输入到检测器算法。（默认值：50.0）
lp_filter_freq (float, optional) – 输入到检测器算法。（默认值：6000.0）
hp_lifter_freq (float, optional) – 在检测器算法中。（默认值：150.0）
lp_lifter_freq (float, optional) – 在检测器算法中。（默认值：2000.0）

返回

音频的 Tensor，维度为 (…, time)。

返回类型

张量

参考

http://sox.sourceforge.net/sox.html

torchaudio.functional.vad¶

文档

教程

资源