快捷方式

数据集

Torchvision 在 torchvision.datasets 模块中提供了许多内置数据集,以及用于构建自定义数据集的实用类。

内置数据集

所有数据集都是 torch.utils.data.Dataset 的子类,即它们实现了 __getitem____len__ 方法。因此,它们都可以被传递给 torch.utils.data.DataLoader,后者可以使用 torch.multiprocessing 工作进程并行加载多个样本。例如

imagenet_data = torchvision.datasets.ImageNet('path/to/imagenet_root/')
data_loader = torch.utils.data.DataLoader(imagenet_data,
                                          batch_size=4,
                                          shuffle=True,
                                          num_workers=args.nThreads)

所有数据集的 API 都几乎相同。它们都具有两个通用参数:transformtarget_transform,分别用于转换输入和目标。您也可以使用提供的 基类 来创建自己的数据集。

警告

当使用 download=True 创建数据集对象时,文件将首先在根目录中下载和提取。此下载逻辑不适用于多进程安全,因此如果在分布式环境中运行,可能会导致冲突/竞态条件。在分布式模式下,我们建议在设置分布式模式之前创建一个虚拟数据集对象来触发下载逻辑。

图像分类

Caltech101(root[, target_type, transform, ...])

Caltech 101 数据集。

Caltech256(root[, transform, ...])

Caltech 256 数据集。

CelebA(root[, split, target_type, ...])

大规模 CelebFaces 属性 (CelebA) 数据集。

CIFAR10(root[, train, transform, ...])

CIFAR10 数据集。

CIFAR100(root[, train, transform, ...])

CIFAR100 数据集。

Country211(root, ~pathlib.Path], split, ...)

来自 OpenAI 的 Country211 数据集。

DTD(root, ~pathlib.Path], split, partition, ...)

可描述纹理数据集 (DTD).

EMNIST(root, split, **kwargs)

EMNIST 数据集。

EuroSAT(root, ~pathlib.Path], transform, ...)

RGB 版本的 EuroSAT 数据集。

FakeData([size, image_size, num_classes, ...])

一个返回随机生成图像并将其作为 PIL 图像的虚假数据集

FashionMNIST(root[, train, transform, ...])

Fashion-MNIST 数据集。

FER2013(root[, split, transform, ...])

FER2013 数据集。

FGVCAircraft(root, split, annotation_level, ...)

FGVC Aircraft 数据集。

Flickr8k(root, ~pathlib.Path], ann_file, ...)

Flickr8k Entities 数据集。

Flickr30k(root, ann_file, transform, ...)

Flickr30k Entities 数据集。

Flowers102(root, ~pathlib.Path], split, ...)

牛津 102 花卉数据集。

Food101(root, ~pathlib.Path], split, ...)

Food-101 数据集.

GTSRB(root[, split, transform, ...])

德国交通标志识别基准 (GTSRB) 数据集。

INaturalist(root[, version, target_type, ...])

iNaturalist 数据集。

ImageNet(root[, split])

ImageNet 2012 分类数据集。

Imagenette(root, ~pathlib.Path], split, size)

Imagenette 图像分类数据集。

KMNIST(root[, train, transform, ...])

Kuzushiji-MNIST 数据集。

LFWPeople(root, split, image_set, transform, ...)

LFW 数据集。

LSUN(root[, classes, transform, ...])

LSUN 数据集。

MNIST(root[, train, transform, ...])

MNIST 数据集。

Omniglot(root[, background, transform, ...])

Omniglot 数据集。

OxfordIIITPet(root[, split, target_types, ...])

牛津-IIIT 宠物数据集.

Places365(root, ~pathlib.Path], split, ...)

Places365 分类数据集。

PCAM(root[, split, transform, ...])

PCAM 数据集.

QMNIST(root[, what, compat, train])

QMNIST 数据集。

RenderedSST2(root, ~pathlib.Path], split, ...)

Rendered SST2 数据集.

SEMEION(root[, transform, target_transform, ...])

SEMEION 数据集。

SBU(root, ~pathlib.Path], transform, ...)

SBU 带字幕照片 数据集。

StanfordCars(root, ~pathlib.Path], split, ...)

斯坦福汽车数据集

STL10(root[, split, folds, transform, ...])

STL10 数据集。

SUN397(root, ~pathlib.Path], transform, ...)

SUN397 数据集.

SVHN(root[, split, transform, ...])

SVHN 数据集。

USPS(root[, train, transform, ...])

USPS 数据集。

图像检测或分割

CocoDetection(root, annFile[, transform, ...])

MS Coco Detection 数据集。

CelebA(root[, split, target_type, ...])

大规模 CelebFaces 属性 (CelebA) 数据集。

Cityscapes(root[, split, mode, target_type, ...])

Cityscapes 数据集。

Kitti(root[, train, transform, ...])

KITTI 数据集。

OxfordIIITPet(root[, split, target_types, ...])

牛津-IIIT 宠物数据集.

SBDataset(root[, image_set, mode, download, ...])

语义边界数据集

VOCSegmentation(root[, year, image_set, ...])

Pascal VOC 分割数据集。

VOCDetection(root[, year, image_set, ...])

Pascal VOC 检测数据集。

WIDERFace(root[, split, transform, ...])

WIDERFace 数据集。

光流

FlyingChairs(root[, split, transforms])

用于光流的 FlyingChairs 数据集。

FlyingThings3D(root, ~pathlib.Path], split, ...)

用于光流的 FlyingThings3D 数据集。

HD1K(root, ~pathlib.Path], split, ...)

用于光流的 HD1K 数据集。

KittiFlow(root, ~pathlib.Path], split, ...)

用于光流的 KITTI 数据集 (2015)。

Sintel(root, ~pathlib.Path], split, ...)

用于光流的 Sintel 数据集。

立体匹配

CarlaStereo(root[, transforms])

Carla 模拟器数据,链接在 CREStereo github 仓库

Kitti2012Stereo(root[, split, transforms])

来自 2012 立体评估基准 的 KITTI 数据集。

Kitti2015Stereo(root[, split, transforms])

来自 2015 立体评估基准 的 KITTI 数据集。

CREStereo(root[, transforms])

用于训练 CREStereo 架构的合成数据集。

FallingThingsStereo(root[, variant, transforms])

FallingThings 数据集。

SceneFlowStereo(root[, variant, pass_name, ...])

场景流数据集的接口。

SintelStereo(root[, pass_name, transforms])

Sintel 立体数据集

InStereo2k(root[, split, transforms])

InStereo2k 数据集。

ETH3DStereo(root[, split, transforms])

ETH3D 低分辨率双视图数据集。

Middlebury2014Stereo(root[, split, ...])

Middlebury 数据集 (2014 版本) 的公开可用场景。

图像对

LFWPairs(root, split, image_set, transform, ...)

LFW 数据集。

PhotoTour(root, name[, train, transform, ...])

多视图立体匹配 数据集。

图像字幕

CocoCaptions(root, annFile[, transform, ...])

MS Coco Captions 数据集。

视频分类

HMDB51(root, annotation_path, frames_per_clip)

HMDB51 数据集。

Kinetics(root, frames_per_clip[, ...])

通用 Kinetics 数据集。

UCF101(root, annotation_path, frames_per_clip)

UCF101 数据集。

视频预测

MovingMNIST(root[, split, split_ratio, ...])

MovingMNIST 数据集。

自定义数据集的基类

DatasetFolder(root, loader[, extensions, ...])

一个通用数据加载器。

ImageFolder(root, ~pathlib.Path], transform, ...)

一个通用数据加载器,默认情况下图像按以下方式排列:.

VisionDataset([root, transforms, transform, ...])

用于创建与 torchvision 兼容的数据集的基类。

Transforms v2

wrap_dataset_for_transforms_v2(dataset[, ...])

包装一个 torchvision.dataset 以便与 torchvision.transforms.v2 一起使用。

文档

访问全面的 PyTorch 开发者文档

查看文档

教程

为初学者和高级开发者提供深入的教程

查看教程

资源

查找开发资源并让您的问题得到解答

查看资源