快捷方式

VCTK_092

class torchaudio.datasets.VCTK_092(root: str, mic_id: str = 'mic2', download: bool = False, url: str = 'https://datashare.is.ed.ac.uk/bitstream/handle/10283/3443/VCTK-Corpus-0.92.zip', audio_ext='.flac')[source]

VCTK 0.92 [Yamagishi et al., 2019] 数据集

参数
  • root (str) – 数据集顶层目录所在根目录。

  • mic_id (str, optional) – 麦克风 ID。可以是 "mic1""mic2"。 (默认为 "mic2"

  • download (bool, optional) – 如果在 root 路径未找到数据集,是否下载。 (默认为 False)。

  • url (str, optional) – 下载数据集的 URL。 (默认为 "https://datashare.is.ed.ac.uk/bitstream/handle/10283/3443/VCTK-Corpus-0.92.zip"

  • audio_ext (str, optional) – 如果数据集被转换为非默认音频格式,则使用自定义音频扩展名。

注意

  • 由于缺少相应的文本文件,说话人 p315 的所有语音将被跳过。

  • 由于缺少音频文件,对于 mic_id="mic2",说话人 p280 的所有语音将被跳过。

  • 由于缺少音频文件,说话人 p362 的部分语音将被跳过。

  • 另请参阅: https://datashare.is.ed.ac.uk/handle/10283/3443

__getitem__

VCTK_092.__getitem__(n: int) Tuple[Tensor, int, str, str, str][source]

加载数据集中的第 n 个样本。

参数

n (int) – 要加载的样本的索引

返回

元组包含以下项:

张量

波形

int

采样率

str

语音内容

str

说话人 ID

std

发音单元 ID

文档

访问全面的 PyTorch 开发者文档

查看文档

教程

为初学者和高级开发者提供深入的教程

查看教程

资源

查找开发资源并让您的问题得到解答

查看资源