注意
转到 末尾 下载完整的示例代码。
引言 || 张量 || 自动微分 || 构建模型 || TensorBoard 支持 || 训练模型 || 模型理解
PyTorch 入门#
创建日期:2021 年 11 月 30 日 | 最后更新:2025 年 6 月 5 日 | 最后验证:2024 年 11 月 5 日
请观看下面的视频或在 YouTube 上观看。
PyTorch 张量#
请观看视频从 03:50 开始。
首先,我们将导入 pytorch。
import torch
让我们来看一些基本的张量操作。首先,只是创建张量的几种方法
z = torch.zeros(5, 3)
print(z)
print(z.dtype)
tensor([[0., 0., 0.],
[0., 0., 0.],
[0., 0., 0.],
[0., 0., 0.],
[0., 0., 0.]])
torch.float32
上面,我们创建了一个填充有零的 5x3 矩阵,并查询其数据类型,以了解这些零是 32 位浮点数,这是 PyTorch 的默认设置。
如果您想要整数怎么办?您可以随时覆盖默认设置
i = torch.ones((5, 3), dtype=torch.int16)
print(i)
tensor([[1, 1, 1],
[1, 1, 1],
[1, 1, 1],
[1, 1, 1],
[1, 1, 1]], dtype=torch.int16)
您可以看到,当我们更改默认设置时,张量在打印时会很有帮助地报告这一点。
初始化学习权重以随机方式进行是很常见的,通常会为 PRNG 设置特定的种子以实现结果的可复现性
torch.manual_seed(1729)
r1 = torch.rand(2, 2)
print('A random tensor:')
print(r1)
r2 = torch.rand(2, 2)
print('\nA different random tensor:')
print(r2) # new values
torch.manual_seed(1729)
r3 = torch.rand(2, 2)
print('\nShould match r1:')
print(r3) # repeats values of r1 because of re-seed
A random tensor:
tensor([[0.3126, 0.3791],
[0.3087, 0.0736]])
A different random tensor:
tensor([[0.4216, 0.0691],
[0.2332, 0.4047]])
Should match r1:
tensor([[0.3126, 0.3791],
[0.3087, 0.0736]])
PyTorch 张量直观地执行算术运算。形状相似的张量可以相加、相乘等。与标量进行运算会分布到整个张量中
ones = torch.ones(2, 3)
print(ones)
twos = torch.ones(2, 3) * 2 # every element is multiplied by 2
print(twos)
threes = ones + twos # addition allowed because shapes are similar
print(threes) # tensors are added element-wise
print(threes.shape) # this has the same dimensions as input tensors
r1 = torch.rand(2, 3)
r2 = torch.rand(3, 2)
# uncomment this line to get a runtime error
# r3 = r1 + r2
tensor([[1., 1., 1.],
[1., 1., 1.]])
tensor([[2., 2., 2.],
[2., 2., 2.]])
tensor([[3., 3., 3.],
[3., 3., 3.]])
torch.Size([2, 3])
这里是可用的数学运算中的一小部分示例
r = (torch.rand(2, 2) - 0.5) * 2 # values between -1 and 1
print('A random matrix, r:')
print(r)
# Common mathematical operations are supported:
print('\nAbsolute value of r:')
print(torch.abs(r))
# ...as are trigonometric functions:
print('\nInverse sine of r:')
print(torch.asin(r))
# ...and linear algebra operations like determinant and singular value decomposition
print('\nDeterminant of r:')
print(torch.det(r))
print('\nSingular value decomposition of r:')
print(torch.svd(r))
# ...and statistical and aggregate operations:
print('\nAverage and standard deviation of r:')
print(torch.std_mean(r))
print('\nMaximum value of r:')
print(torch.max(r))
A random matrix, r:
tensor([[ 0.9956, -0.2232],
[ 0.3858, -0.6593]])
Absolute value of r:
tensor([[0.9956, 0.2232],
[0.3858, 0.6593]])
Inverse sine of r:
tensor([[ 1.4775, -0.2251],
[ 0.3961, -0.7199]])
Determinant of r:
tensor(-0.5703)
Singular value decomposition of r:
torch.return_types.svd(
U=tensor([[-0.8353, -0.5497],
[-0.5497, 0.8353]]),
S=tensor([1.1793, 0.4836]),
V=tensor([[-0.8851, -0.4654],
[ 0.4654, -0.8851]]))
Average and standard deviation of r:
(tensor(0.7217), tensor(0.1247))
Maximum value of r:
tensor(0.9956)
关于 PyTorch 张量的强大功能还有很多需要了解的,包括如何为 GPU 上的并行计算进行设置——我们将在另一个视频中更深入地介绍。
PyTorch 模型#
请观看视频从 10:00 开始。
让我们谈谈如何在 PyTorch 中表达模型
import torch # for all things PyTorch
import torch.nn as nn # for torch.nn.Module, the parent object for PyTorch models
import torch.nn.functional as F # for the activation function

图:LeNet-5
上面是 LeNet-5 的图,它是最早的卷积神经网络之一,也是深度学习爆炸式发展的主要驱动力之一。它被构建用于读取手写数字的小图像(MNIST 数据集),并正确地对图像中表示的数字进行分类。
这是它工作原理的简化版
C1 层是卷积层,意味着它扫描输入图像以查找在训练期间学习到的特征。它输出一个图,显示它在图像中看到每个已学习特征的位置。这个“激活图”在 S2 层被下采样。
C3 层是另一个卷积层,这次扫描 C1 的激活图以查找特征的组合。它还输出一个描述这些特征组合空间位置的激活图,该图在 S4 层被下采样。
最后,末尾的全连接层 F5、F6 和 OUTPUT 是一个分类器,它接收最终的激活图,并将其分类到代表 10 个数字的 10 个 bin 中。
我们如何在代码中表达这个简单的神经网络?
class LeNet(nn.Module):
def __init__(self):
super(LeNet, self).__init__()
# 1 input image channel (black & white), 6 output channels, 5x5 square convolution
# kernel
self.conv1 = nn.Conv2d(1, 6, 5)
self.conv2 = nn.Conv2d(6, 16, 5)
# an affine operation: y = Wx + b
self.fc1 = nn.Linear(16 * 5 * 5, 120) # 5*5 from image dimension
self.fc2 = nn.Linear(120, 84)
self.fc3 = nn.Linear(84, 10)
def forward(self, x):
# Max pooling over a (2, 2) window
x = F.max_pool2d(F.relu(self.conv1(x)), (2, 2))
# If the size is a square you can only specify a single number
x = F.max_pool2d(F.relu(self.conv2(x)), 2)
x = x.view(-1, self.num_flat_features(x))
x = F.relu(self.fc1(x))
x = F.relu(self.fc2(x))
x = self.fc3(x)
return x
def num_flat_features(self, x):
size = x.size()[1:] # all dimensions except the batch dimension
num_features = 1
for s in size:
num_features *= s
return num_features
纵观这段代码,您应该能发现与上面图示的一些结构相似之处。
这演示了典型 PyTorch 模型的结构
它继承自
torch.nn.Module
- 模块可以嵌套 - 事实上,即使是Conv2d
和Linear
层类也继承自torch.nn.Module
。模型将有一个
__init__()
函数,它会实例化其层,并加载可能需要的任何数据伪像(例如,NLP 模型可能会加载词汇表)。模型将有一个
forward()
函数。这就是实际计算发生的地方:输入通过网络层和各种函数生成输出。除此之外,您可以像任何其他 Python 类一样构建您的模型类,添加支持您的模型计算所需的任何属性和方法。
让我们实例化这个对象,并运行一个样本输入。
net = LeNet()
print(net) # what does the object tell us about itself?
input = torch.rand(1, 1, 32, 32) # stand-in for a 32x32 black & white image
print('\nImage batch shape:')
print(input.shape)
output = net(input) # we don't call forward() directly
print('\nRaw output:')
print(output)
print(output.shape)
LeNet(
(conv1): Conv2d(1, 6, kernel_size=(5, 5), stride=(1, 1))
(conv2): Conv2d(6, 16, kernel_size=(5, 5), stride=(1, 1))
(fc1): Linear(in_features=400, out_features=120, bias=True)
(fc2): Linear(in_features=120, out_features=84, bias=True)
(fc3): Linear(in_features=84, out_features=10, bias=True)
)
Image batch shape:
torch.Size([1, 1, 32, 32])
Raw output:
tensor([[ 0.0898, 0.0318, 0.1485, 0.0301, -0.0085, -0.1135, -0.0296, 0.0164,
0.0039, 0.0616]], grad_fn=<AddmmBackward0>)
torch.Size([1, 10])
上面有几件重要的事情
首先,我们实例化 LeNet
类,并打印 net
对象。 torch.nn.Module
的子类将报告其创建的层以及它们的形状和参数。如果您想了解模型的处理流程,这可以提供一个方便的概览。
在下方,我们创建了一个代表 32x32 图像、具有 1 个颜色通道的虚拟输入。通常,您会加载一个图像块并将其转换为此形状的张量。
您可能注意到我们的张量多了一个维度——批量维度。 PyTorch 模型假定它们正在处理数据的批次——例如,我们 16 个图像块的批次将具有形状 (16, 1, 32, 32)
。由于我们只使用一张图像,因此我们创建了一个大小为 1 的批次,形状为 (1, 1, 32, 32)
。
我们通过像调用函数一样调用模型来请求推断:net(input)
。此调用的输出代表模型对其输入代表特定数字的信心。(由于此模型实例尚未学习任何内容,因此我们不应期望在输出中看到任何信号。)查看 output
的形状,我们可以看到它也有一个批量维度,其大小应始终与输入批量维度匹配。如果我们传入一个包含 16 个实例的输入批次,output
的形状将是 (16, 10)
。
数据集和 DataLoader#
请观看视频从 14:00 开始。
下面,我们将演示如何使用 TorchVision 中一个可供下载的现成开放访问数据集,如何转换图像以供模型使用,以及如何使用 DataLoader 将数据批次馈送给模型。
我们需要做的第一件事是将传入的图像转换为 PyTorch 张量。
#%matplotlib inline
import torch
import torchvision
import torchvision.transforms as transforms
transform = transforms.Compose(
[transforms.ToTensor(),
transforms.Normalize((0.4914, 0.4822, 0.4465), (0.2470, 0.2435, 0.2616))])
在这里,我们为输入指定了两个转换
transforms.ToTensor()
将 Pillow 加载的图像转换为 PyTorch 张量。transforms.Normalize()
调整张量的值,使其平均值为零,标准差为 1.0。大多数激活函数在 x = 0 附近具有最强的梯度,因此将数据居中可以加速学习。传递给转换的值是数据集中图像的 rgb 值的均值(第一个元组)和标准差(第二个元组)。您可以通过运行以下几行代码来计算这些值:from torch.utils.data import ConcatDataset transform = transforms.Compose([transforms.ToTensor()]) trainset = torchvision.datasets.CIFAR10(root='./data', train=True, download=True, transform=transform) # stack all train images together into a tensor of shape # (50000, 3, 32, 32) x = torch.stack([sample[0] for sample in ConcatDataset([trainset])]) # get the mean of each channel mean = torch.mean(x, dim=(0,2,3)) # tensor([0.4914, 0.4822, 0.4465]) std = torch.std(x, dim=(0,2,3)) # tensor([0.2470, 0.2435, 0.2616])
还有更多可用的转换,包括裁剪、居中、旋转和翻转。
接下来,我们将创建 CIFAR10 数据集的一个实例。这是一组 32x32 的彩色图像块,代表 10 种对象类别:6 种动物(鸟、猫、鹿、狗、青蛙、马)和 4 种车辆(飞机、汽车、船、卡车)。
trainset = torchvision.datasets.CIFAR10(root='./data', train=True,
download=True, transform=transform)
0%| | 0.00/170M [00:00<?, ?B/s]
0%| | 426k/170M [00:00<00:40, 4.21MB/s]
2%|▏ | 3.67M/170M [00:00<00:08, 20.7MB/s]
4%|▍ | 7.57M/170M [00:00<00:05, 29.0MB/s]
7%|▋ | 11.4M/170M [00:00<00:04, 32.6MB/s]
9%|▉ | 15.2M/170M [00:00<00:04, 34.4MB/s]
11%|█ | 19.1M/170M [00:00<00:04, 36.0MB/s]
13%|█▎ | 22.8M/170M [00:00<00:04, 36.3MB/s]
16%|█▌ | 26.6M/170M [00:00<00:03, 36.8MB/s]
18%|█▊ | 30.4M/170M [00:00<00:03, 37.1MB/s]
20%|██ | 34.2M/170M [00:01<00:03, 36.9MB/s]
22%|██▏ | 38.0M/170M [00:01<00:03, 37.3MB/s]
24%|██▍ | 41.7M/170M [00:01<00:03, 37.0MB/s]
27%|██▋ | 45.5M/170M [00:01<00:03, 35.8MB/s]
29%|██▉ | 49.1M/170M [00:01<00:03, 34.0MB/s]
31%|███ | 52.7M/170M [00:01<00:03, 34.5MB/s]
33%|███▎ | 56.6M/170M [00:01<00:03, 35.7MB/s]
35%|███▌ | 60.5M/170M [00:01<00:03, 36.6MB/s]
38%|███▊ | 64.4M/170M [00:01<00:02, 37.2MB/s]
40%|████ | 68.3M/170M [00:01<00:02, 37.6MB/s]
42%|████▏ | 72.2M/170M [00:02<00:02, 37.9MB/s]
45%|████▌ | 76.9M/170M [00:02<00:02, 40.8MB/s]
49%|████▊ | 83.0M/170M [00:02<00:01, 46.8MB/s]
53%|█████▎ | 90.8M/170M [00:02<00:01, 55.8MB/s]
59%|█████▉ | 101M/170M [00:02<00:01, 68.9MB/s]
66%|██████▌ | 112M/170M [00:02<00:00, 82.9MB/s]
73%|███████▎ | 124M/170M [00:02<00:00, 92.9MB/s]
79%|███████▉ | 136M/170M [00:02<00:00, 99.7MB/s]
86%|████████▋ | 147M/170M [00:02<00:00, 105MB/s]
93%|█████████▎| 159M/170M [00:02<00:00, 108MB/s]
100%|█████████▉| 170M/170M [00:03<00:00, 110MB/s]
100%|██████████| 170M/170M [00:03<00:00, 55.9MB/s]
注意
当您运行上面的单元格时,数据集下载可能需要一些时间。
这是创建 PyTorch 中数据集对象的示例。可下载的数据集(如上面的 CIFAR-10)是 torch.utils.data.Dataset
的子类。PyTorch 中的 Dataset
类包括 TorchVision、Torchtext 和 TorchAudio 中的可下载数据集,以及像 torchvision.datasets.ImageFolder
这样的实用数据集类,它将读取一个标记图像的文件夹。您还可以创建自己的 Dataset
子类。
当我们实例化数据集时,我们需要告诉它几件事
数据要存放的文件系统路径。
我们是否正在使用此集合进行训练;大多数数据集将分为训练和测试子集。
如果我们还没有下载数据集,我们是否希望下载它。
我们要应用于数据的转换。
一旦数据集准备就绪,您就可以将其提供给 DataLoader
trainloader = torch.utils.data.DataLoader(trainset, batch_size=4,
shuffle=True, num_workers=2)
Dataset
子类封装了对数据的访问,并且针对它所服务的数据类型进行了专门化。 DataLoader
对数据一无所知,但会根据您指定的参数将 Dataset
提供给它的输入张量组织成批次。
在上面的示例中,我们要求 DataLoader
提供来自 trainset
的 4 张图像的批次,随机化它们的顺序(shuffle=True
),并告诉它启动两个工作进程从磁盘加载数据。
可视化 DataLoader
提供的批次是一个好习惯
import matplotlib.pyplot as plt
import numpy as np
classes = ('plane', 'car', 'bird', 'cat',
'deer', 'dog', 'frog', 'horse', 'ship', 'truck')
def imshow(img):
img = img / 2 + 0.5 # unnormalize
npimg = img.numpy()
plt.imshow(np.transpose(npimg, (1, 2, 0)))
# get some random training images
dataiter = iter(trainloader)
images, labels = next(dataiter)
# show images
imshow(torchvision.utils.make_grid(images))
# print labels
print(' '.join('%5s' % classes[labels[j]] for j in range(4)))

Clipping input data to the valid range for imshow with RGB data ([0..1] for floats or [0..255] for integers). Got range [-0.49473685..1.5632443].
ship car horse ship
运行上面的单元格应该会向您显示四张图像的条带,以及每张图像的正确标签。
训练您的 PyTorch 模型#
请观看视频从 17:10 开始。
让我们将所有部分组合在一起,训练一个模型
#%matplotlib inline
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
import torchvision
import torchvision.transforms as transforms
import matplotlib
import matplotlib.pyplot as plt
import numpy as np
首先,我们需要训练和测试数据集。如果您还没有,请运行下面的单元格以确保数据集已下载。(可能需要一分钟。)
transform = transforms.Compose(
[transforms.ToTensor(),
transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))])
trainset = torchvision.datasets.CIFAR10(root='./data', train=True,
download=True, transform=transform)
trainloader = torch.utils.data.DataLoader(trainset, batch_size=4,
shuffle=True, num_workers=2)
testset = torchvision.datasets.CIFAR10(root='./data', train=False,
download=True, transform=transform)
testloader = torch.utils.data.DataLoader(testset, batch_size=4,
shuffle=False, num_workers=2)
classes = ('plane', 'car', 'bird', 'cat',
'deer', 'dog', 'frog', 'horse', 'ship', 'truck')
我们将对 DataLoader
的输出进行检查
import matplotlib.pyplot as plt
import numpy as np
# functions to show an image
def imshow(img):
img = img / 2 + 0.5 # unnormalize
npimg = img.numpy()
plt.imshow(np.transpose(npimg, (1, 2, 0)))
# get some random training images
dataiter = iter(trainloader)
images, labels = next(dataiter)
# show images
imshow(torchvision.utils.make_grid(images))
# print labels
print(' '.join('%5s' % classes[labels[j]] for j in range(4)))

cat cat deer frog
这就是我们将要训练的模型。如果看起来很熟悉,那是因为它是 LeNet 的一个变体——之前在本视频中讨论过——它针对 3 色图像进行了调整。
class Net(nn.Module):
def __init__(self):
super(Net, self).__init__()
self.conv1 = nn.Conv2d(3, 6, 5)
self.pool = nn.MaxPool2d(2, 2)
self.conv2 = nn.Conv2d(6, 16, 5)
self.fc1 = nn.Linear(16 * 5 * 5, 120)
self.fc2 = nn.Linear(120, 84)
self.fc3 = nn.Linear(84, 10)
def forward(self, x):
x = self.pool(F.relu(self.conv1(x)))
x = self.pool(F.relu(self.conv2(x)))
x = x.view(-1, 16 * 5 * 5)
x = F.relu(self.fc1(x))
x = F.relu(self.fc2(x))
x = self.fc3(x)
return x
net = Net()
我们需要添加的最后两个配料是一个损失函数和一个优化器
criterion = nn.CrossEntropyLoss()
optimizer = optim.SGD(net.parameters(), lr=0.001, momentum=0.9)
正如本视频前面所讨论的,损失函数是衡量模型预测与理想输出之间的差距。交叉熵损失是我们模型之类的分类模型的典型损失函数。
优化器是驱动学习的因素。在这里,我们创建了一个实现了随机梯度下降的优化器,这是更直接的优化算法之一。除了算法的参数,如学习率(lr
)和动量,我们还传入了 net.parameters()
,它是一个包含模型中所有学习权重的集合——这是优化器要调整的。
最后,所有这些都组装到训练循环中。请继续运行此单元格,因为它可能需要几分钟才能执行
for epoch in range(2): # loop over the dataset multiple times
running_loss = 0.0
for i, data in enumerate(trainloader, 0):
# get the inputs
inputs, labels = data
# zero the parameter gradients
optimizer.zero_grad()
# forward + backward + optimize
outputs = net(inputs)
loss = criterion(outputs, labels)
loss.backward()
optimizer.step()
# print statistics
running_loss += loss.item()
if i % 2000 == 1999: # print every 2000 mini-batches
print('[%d, %5d] loss: %.3f' %
(epoch + 1, i + 1, running_loss / 2000))
running_loss = 0.0
print('Finished Training')
[1, 2000] loss: 2.195
[1, 4000] loss: 1.879
[1, 6000] loss: 1.656
[1, 8000] loss: 1.576
[1, 10000] loss: 1.517
[1, 12000] loss: 1.461
[2, 2000] loss: 1.415
[2, 4000] loss: 1.368
[2, 6000] loss: 1.334
[2, 8000] loss: 1.327
[2, 10000] loss: 1.318
[2, 12000] loss: 1.261
Finished Training
在这里,我们只进行2 个训练轮次(第 1 行)——也就是对训练数据集进行两次遍历。每次遍历都有一个内部循环,该循环迭代训练数据(第 4 行),提供转换后的输入图像及其正确标签的批次。
清零梯度(第 9 行)是一个重要的步骤。梯度会在一个批次上累积;如果我们不为每个批次重置它们,它们将继续累积,这将提供不正确的梯度值,使学习变得不可能。
在第 12 行,我们请求模型进行预测。在下一行(13),我们计算损失——outputs
(模型预测)和 labels
(正确输出)之间的差值。
在第 14 行,我们执行 backward()
传播,并计算将指导学习的梯度。
在第 15 行,优化器执行一次学习步骤——它使用来自 backward()
调用的梯度来微调学习权重,以期望的方向移动,认为这将减少损失。
循环的其余部分对轮次编号、已完成的训练实例数量以及训练循环中收集到的损失进行少量报告。
运行上面的单元格时,您应该会看到类似这样的内容
[1, 2000] loss: 2.235
[1, 4000] loss: 1.940
[1, 6000] loss: 1.713
[1, 8000] loss: 1.573
[1, 10000] loss: 1.507
[1, 12000] loss: 1.442
[2, 2000] loss: 1.378
[2, 4000] loss: 1.364
[2, 6000] loss: 1.349
[2, 8000] loss: 1.319
[2, 10000] loss: 1.284
[2, 12000] loss: 1.267
Finished Training
请注意,损失是单调下降的,这表明我们的模型在训练数据集上的性能正在持续提高。
作为最后一步,我们应该检查模型是否真的在进行通用学习,而不仅仅是“记住”数据集。这称为过拟合,通常表明数据集太小(用于通用学习的示例不足),或者模型拥有的学习参数比正确建模数据集所需的要多。
这就是为什么数据集被分成训练集和测试集的原因——为了测试模型的泛化能力,我们要求它对它尚未训练过的数据进行预测
correct = 0
total = 0
with torch.no_grad():
for data in testloader:
images, labels = data
outputs = net(images)
_, predicted = torch.max(outputs.data, 1)
total += labels.size(0)
correct += (predicted == labels).sum().item()
print('Accuracy of the network on the 10000 test images: %d %%' % (
100 * correct / total))
Accuracy of the network on the 10000 test images: 54 %
如果您跟随操作,您应该会看到模型此时的准确率约为 50%。这不算是最先进的,但它远比我们从随机输出中预期的 10% 准确率要好。这表明模型确实进行了一些通用学习。
脚本的总运行时间:(1 分钟 22.580 秒)