• 文档 >
  • torchaudio.functional >
  • 旧版本 (稳定版)
快捷方式

torchaudio.functional

执行常见音频操作的函数。

实用程序

amplitude_to_DB

将频谱图从功率/振幅刻度转换为分贝刻度。

DB_to_amplitude

将张量从分贝刻度转换为功率/振幅刻度。

melscale_fbanks

创建频率bin转换矩阵。

linear_fbanks

创建线性三角滤波器组。

create_dct

创建一个形状为 (n_mels, n_mfcc) 的 DCT 变换矩阵,根据范数进行归一化。

mask_along_axis

沿 axis 应用掩码。

mask_along_axis_iid

沿 axis 应用掩码。

mu_law_encoding

基于 mu-law 压扩对信号进行编码。

mu_law_decoding

解码 mu-law 编码信号。

apply_codec

已弃用

resample

使用带限插值以新频率对波形进行重采样。

loudness

根据 ITU-R BS.1770-4 建议测量音频响度。

convolve

使用直接方法沿其最后一个维度对输入进行卷积。

fftconvolve

使用 FFT 沿其最后一个维度对输入进行卷积。

add_noise

根据信噪比缩放波形并添加噪声。

preemphasis

沿其最后一个维度对波形进行预加重,即对于 waveform 中的每个信号 \(x\),计算输出 \(y\) 为。

deemphasis

沿其最后一个维度对波形进行去加重。

speed

调整波形速度。

frechet_distance

计算两个多元正态分布之间的 Fréchet 距离 [Dowson 和 Landau, 1982]

强制对齐

forced_align

已弃用

merge_tokens

从给定的 CTC 令牌序列中删除重复令牌和空白令牌。

TokenSpan

带有时间戳和分数的令牌。

过滤

allpass_biquad

设计二阶全通滤波器。

band_biquad

设计二阶带通滤波器。

bandpass_biquad

设计二阶带通滤波器。

bandreject_biquad

设计二阶带阻滤波器。

bass_biquad

设计低音音调控制效果。

biquad

对输入张量执行双二阶滤波器。

contrast

应用对比度效果。

dcshift

对音频应用直流偏移。

deemph_biquad

应用 ISO 908 CD 去加重 (搁架) IIR 滤波器。

dither

应用抖动

equalizer_biquad

设计双二阶峰值均衡器滤波器并执行滤波。

filtfilt

对波形进行正向和反向 IIR 滤波。

flanger

对音频应用镶边效果。

gain

对整个波形应用放大或衰减。

highpass_biquad

设计双二阶高通滤波器并执行滤波。

lfilter

通过评估差分方程执行 IIR 滤波器,使用 Yu et al. [Yu 和 Fazekas, 2023]Forgione et al. [Forgione 和 Piga, 2021] 单独开发的可微分实现。

lowpass_biquad

设计双二阶低通滤波器并执行滤波。

overdrive

对音频应用过载效果。

phaser

对音频应用移相效果。

riaa_biquad

应用 RIAA 乙烯基播放均衡。

treble_biquad

设计高音音调控制效果。

特征提取

vad

语音活动检测器。

spectrogram

从原始音频信号创建频谱图或一批频谱图。

inverse_spectrogram

从提供的复数值频谱图创建逆频谱图或一批逆频谱图。

griffinlim

使用 Griffin-Lim 变换从线性幅度频谱图计算波形。

phase_vocoder

给定一个 STFT 张量,通过 rate 倍的速度加快时间而不改变音高。

pitch_shift

将波形的音高移动 n_steps 步。

compute_deltas

计算张量(通常是频谱图)的 delta 系数

detect_pitch_frequency

检测基频。

sliding_window_cmn

按话语应用滑动窗口倒谱均值(和可选方差)归一化。

spectral_centroid

沿时间轴计算每个通道的谱质心。

多通道

psd

计算跨通道功率谱密度 (PSD) 矩阵。

mvdr_weights_souden

通过 Souden et, al. [Capon, 1969] 提出的方法计算最小方差无畸变响应 (MVDR) [Souden et al., 2009] 波束成形权重。

mvdr_weights_rtf

基于相对传递函数 (RTF) 和噪声的功率谱密度 (PSD) 矩阵计算最小方差无畸变响应 (MVDR [Capon, 1969]) 波束成形权重。

rtf_evd

通过特征值分解估计相对传递函数 (RTF) 或转向矢量。

rtf_power

通过幂方法估计相对传递函数 (RTF) 或转向矢量。

apply_beamforming

将波束成形权重应用于多通道噪声频谱,以获得单通道增强频谱。

损失

rnnt_loss

已弃用

度量

edit_distance

计算两个序列之间的单词级编辑 (Levenshtein) 距离。

文档

访问全面的 PyTorch 开发者文档

查看文档

教程

为初学者和高级开发者提供深入的教程

查看教程

资源

查找开发资源并让您的问题得到解答

查看资源