快捷方式

torchaudio.load

torchaudio.load(uri: Union[BinaryIO, str, PathLike], frame_offset: int = 0, num_frames: int = -1, normalize: bool = True, channels_first: bool = True, format: Optional[str] = None, buffer_size: int = 4096, backend: Optional[str] = None) Tuple[Tensor, int][源代码]

使用 TorchCodec 的 AudioDecoder 从源加载音频数据。

注意

在 TorchAudio 2.9 中,此函数在底层依赖 TorchCodec 的解码功能。它提供是为了方便,但我们仍建议您将代码移植到直接使用 torchcodecAudioDecoder 类,以获得更好的性能: https://docs.pytorch.ac.cn/torchcodec/stable/generated/torchcodec.decoders.AudioDecoder。由于依赖 Torchcodec,参数 normalizebuffer_sizebackend 会被忽略,仅为向后兼容而接受。要安装 torchcodec,请按照 https://github.com/pytorch/torchcodec#installing-torchcodec 上的说明进行操作。

参数
  • uri (类路径对象文件类对象) –

    音频数据源。接受以下类型:

    • 类路径: 文件路径或 URL。

    • 文件类: 具有 read(size: int) -> bytes 方法的对象。

  • frame_offset (int, 可选) – 在开始读取数据之前要跳过的帧数。

  • num_frames (int, 可选) – 要读取的最大帧数。-1 表示读取从 frame_offset 开始的所有剩余帧。

  • normalize (bool, 可选) – TorchCodec 始终返回归一化的 float32 样本。如果设置为 False,则忽略此参数并发出警告。默认值:True

  • channels_first (bool, 可选) – 如果为 True,则返回的 Tensor 的维度为 [通道, 时间]。否则,返回的 Tensor 的维度为 [时间, 通道]

  • format (strNone, 可选) – 解码器的格式提示。并非所有 TorchCodec 解码器都支持此选项。(默认值:None

  • buffer_size (int, 可选) – TorchCodec AudioDecoder 不使用。为了 API 兼容性而提供。

  • backend (strNone, 可选) – TorchCodec AudioDecoder 不使用。为了 API 兼容性而提供。

返回

返回的 Tensor 和采样率。始终返回 float32 Tensor。如果 channels_first=True,形状为 [通道, 时间],否则为 [时间, 通道]

返回类型

(torch.Tensor, int)

引发

注意

  • TorchCodec 始终返回归一化的 float32 样本,因此 normalize

参数没有效果。- buffer_sizebackend 参数已被忽略。- 并非所有 torchaudio 后端支持的音频格式都可能被 TorchCodec 支持。

使用 load 的教程
Speech Recognition with Wav2Vec2

使用 Wav2Vec2 进行语音识别

使用 Wav2Vec2 进行语音识别
Audio Feature Augmentation

音频特征增强

音频特征增强
Audio Data Augmentation

音频数据增强

音频数据增强
Torchaudio-Squim: Non-intrusive Speech Assessment in TorchAudio

Torchaudio-Squim:TorchAudio 中的非侵入式语音评估

Torchaudio-Squim:TorchAudio 中的非侵入式语音评估
Audio Feature Extractions

音频特征提取

音频特征提取
Music Source Separation with Hybrid Demucs

使用 Hybrid Demucs 进行音乐源分离

使用 Hybrid Demucs 进行音乐源分离
Speech Enhancement with MVDR Beamforming

使用 MVDR 波束成形进行语音增强

使用 MVDR 波束成形进行语音增强
CTC forced alignment API tutorial

CTC 强制对齐 API 教程

CTC 强制对齐 API 教程
Forced alignment for multilingual data

多语言数据的强制对齐

多语言数据的强制对齐
Forced Alignment with Wav2Vec2

使用 Wav2Vec2 进行强制对齐

使用 Wav2Vec2 进行强制对齐

文档

访问全面的 PyTorch 开发者文档

查看文档

教程

为初学者和高级开发者提供深入的教程

查看教程

资源

查找开发资源并让您的问题得到解答

查看资源