索引

在 Google Colab 中运行

Colab

欢迎来到 PyTorch 教程#

PyTorch 教程有什么新内容？

学习基础知识

熟悉 PyTorch 的概念和模块。在本快速入门指南中，了解如何加载数据、构建深度神经网络、训练和保存模型。

开始使用 PyTorch

PyTorch 食谱

小巧、即用的 PyTorch 代码示例。

探索食谱

学习基础知识

使用 PyTorch 构建完整机器学习工作流的分步指南。

入门

YouTube 上的 PyTorch 入门介绍

介绍如何使用 PyTorch 构建完整的机器学习工作流。遵循 YouTube 上的 PyTorch 初学者系列。

入门

通过示例学习 PyTorch

本教程通过自包含的示例介绍 PyTorch 的基本概念。

入门

torch.nn 到底是什么？

使用 torch.nn 创建和训练神经网络。

入门

使用 TensorBoard 可视化模型、数据和训练

学习使用 TensorBoard 可视化数据和模型训练。

可解释性,入门,TensorBoard

良好使用 PyTorch 中的 `non_blocking` 和 `pin_memory()`

有关将数据从 CPU 复制到 GPU 的最佳实践指南。

入门

理解 requires_grad、retain_grad、Leaf 和 Non-leaf Tensor

学习 requires_grad、retain_grad、叶子节点和非叶子节点的细微差别

入门

在 PyTorch 中可视化梯度

可视化网络的梯度流。

入门

TorchVision 目标检测微调教程

微调预训练的 Mask R-CNN 模型。

图像/视频

计算机视觉迁移学习教程

使用迁移学习训练用于图像分类的卷积神经网络。

图像/视频

对抗样本生成

使用迁移学习训练用于图像分类的卷积神经网络。

图像/视频

DCGAN 教程

训练生成对抗网络 (GAN) 以生成新的名人。

图像/视频

空间变换网络教程

学习如何使用视觉注意力机制来增强网络。

图像/视频

基于 USB 的半监督学习教程

学习如何使用 USB 和 PyTorch 训练半监督学习算法（在自定义数据上）。

图像/视频

音频 IO

学习使用 torchaudio 加载数据。

音频

音频重采样

学习使用 torchaudio 重采样音频波形。

音频

音频数据增强

学习使用 torchaudio 应用数据增强。

音频

音频特征提取

学习使用 torchaudio 提取特征。

音频

音频特征增强

学习使用 torchaudio 增强特征。

音频

音频数据集

学习使用 torchaudio 数据集。

音频

在 torchaudio 中使用 Wav2Vec2 进行自动语音识别

了解如何使用 torchaudio 的预训练模型来构建语音识别应用程序。

音频

语音命令分类

学习如何正确格式化音频数据集，然后在数据集上训练/测试音频分类网络。

音频

使用 torchaudio 进行文本到语音转换

了解如何使用 torchaudio 的预训练模型来构建文本到语音应用程序。

音频

在 torchaudio 中使用 Wav2Vec2 进行强制对齐

了解如何使用 torchaudio 的 Wav2Vec2 预训练模型来对齐文本和语音

音频

从头开始进行 NLP：使用字符级 RNN 对姓名进行分类

构建和训练一个基本的字符级 RNN，在不使用 torchtext 的情况下对单词进行分类。此系列三篇教程中的第一篇。

NLP

从头开始进行 NLP：使用字符级 RNN 生成姓名

在用字符级 RNN 对姓名进行分类后，学习如何从语言生成姓名。此系列三篇教程中的第二篇。

NLP

从头开始进行 NLP：使用序列到序列网络和注意力进行翻译

这是关于“从头开始进行 NLP”的第三篇也是最后一篇教程，我们将编写自己的类和函数来预处理数据，以完成我们的 NLP 建模任务。

NLP

使用 TorchDynamo 后端将 PyTorch 模型导出到 ONNX，并使用 ONNX Runtime 运行它

在 PyTorch 中构建图像分类模型，并将其转换为 ONNX，然后使用 ONNX Runtime 进行部署。

生产,ONNX,后端

扩展 ONNX 导出器运算符支持

演示如何端到端地处理 ONNX 中不受支持的运算符。

生产,ONNX,后端

将带有控制流的模型导出到 ONNX

演示在将 PyTorch 模型导出到 ONNX 时如何处理控制流逻辑。

生产,ONNX,后端

强化学习 (DQN)

学习如何使用 PyTorch 在 OpenAI Gym 的 CartPole-v0 任务上训练深度 Q 网络 (DQN) 代理。

强化学习

使用 TorchRL 进行强化学习 (PPO)

学习如何使用 PyTorch 和 TorchRL 在 Gym 的倒立摆任务上训练近端策略优化代理。

强化学习

训练一个玩马里奥的强化学习智能体

使用 PyTorch 训练双 Q 学习代理以玩马里奥。

强化学习

循环 DQN

使用 TorchRL 训练循环策略

强化学习

编码 DDPG 损失

使用 TorchRL 编码 DDPG 损失

强化学习

编写环境和变换

使用 TorchRL 编码 Pendulum

强化学习

分析 PyTorch 性能

了解如何分析 PyTorch 应用程序

性能分析

分析 PyTorch 性能

整体跟踪分析简介

性能分析

_static/img/thumbnails/default.png

分析 PyTorch 性能

使用整体跟踪分析进行跟踪差异比较

性能分析

_static/img/thumbnails/default.png

使用 FX 构建简单的性能分析器

构建一个简单的 FX 解释器来记录 op、模块和函数调用的运行时，并报告统计信息

FX

(beta) PyTorch 中的 Channels Last 内存格式

概述 Channels Last 内存格式，并了解如何使用它来按顺序排列内存中的 NCHW 张量，同时保持维度。

内存格式,最佳实践,前端 API

使用 PyTorch C++ 前端

通过训练 DCGAN（一种生成模型）来生成 MNIST 数字图像，演示使用 C++ 前端训练模型的端到端示例。

前端 API,C++

PyTorch 自定义算子主页

这是 PyTorch 自定义运算符相关所有内容的登录页。

扩展 PyTorch,前端 API,C++,CUDA

自定义 Python 算子

在 Python 中创建自定义运算符。可用于将 Python 函数黑盒化以与 torch.compile 一起使用。

扩展 PyTorch,前端 API,C++,CUDA

编译的自动微分：为 ``torch.compile`` 捕获更大的后向图

了解如何使用编译的自动微分来捕获更大的后向图。

模型优化,CUDA

自定义 C++ 和 CUDA 算子

如何使用自定义 C++ 和 CUDA 运算符扩展 PyTorch。

扩展 PyTorch,前端 API,C++,CUDA

C++ 前端中的 Autograd

autograd 包有助于构建灵活且动态的神经网络。在本教程中，探索 PyTorch C++ 前端中进行 autograd 的几个示例

前端 API,C++

在 C++ 中注册一个分发算子

分发器是 PyTorch 的内部组件，负责确定调用 torch::add 等函数时实际应运行哪些代码。

扩展 PyTorch,前端 API,C++

为 C++ 中的新后端扩展分发器

了解如何扩展分发器以添加位于 pytorch/pytorch 存储库之外的新设备，并保持其与原生 PyTorch 设备同步。

扩展 PyTorch,前端 API,C++

通过 PrivateUse1 促进新后端集成

了解如何集成位于 pytorch/pytorch 存储库之外的新后端，并保持其与原生 PyTorch 后端同步。

扩展 PyTorch,前端 API,C++

自定义函数教程：双反向传播

了解如何编写支持双反向传播的自定义 autograd 函数。

扩展 PyTorch,前端 API

自定义函数教程：融合卷积和批量归一化

了解如何创建自定义 autograd 函数，该函数将批量归一化融合到卷积中以提高内存利用率。

扩展 PyTorch,前端 API

前向模式自动微分

了解如何使用前向模式自动微分。

前端 API

雅可比矩阵、海森矩阵、hvp、vhp 等

学习如何使用 torch.func 计算高级自动微分量

前端 API

模型集成

学习如何使用 torch.vmap 集成模型

前端 API

每个样本的梯度

学习如何使用 torch.func 计算每个样本的梯度

前端 API

神经正切核

学习如何使用 torch.func 计算神经切线核

前端 API

PyTorch 中的性能分析

了解如何使用 PyTorch Profiler 来基准测试模块的性能。

模型优化,最佳实践,性能分析

TensorBoard 中的性能分析

了解如何使用 TensorBoard 插件来分析模型的性能。

模型优化,最佳实践,性能分析,TensorBoard

超参数调整教程

了解如何使用 Ray Tune 为模型找到最佳性能的超参数集。

模型优化,最佳实践

参数化教程

了解如何使用 torch.nn.utils.parametrize 对参数施加约束（例如，使其正交、对称正定、低秩...）

模型优化,最佳实践

剪枝教程

了解如何使用 torch.nn.utils.prune 来稀疏化神经网络，以及如何扩展它来实现自己的自定义剪枝技术。

模型优化,最佳实践

如何通过将优化器步骤融合到反向传播过程中来节省内存

了解一种通过使用内存快照将优化器步骤融合到反向传播过程中来节省内存的技术。

模型优化,最佳实践,CUDA,前端 API

(beta) 使用半结构化稀疏性加速 BERT

训练 BERT，将其剪枝为 2:4 稀疏，然后使用半结构化稀疏性和 torch.compile 加速其推理速度 2 倍。

文本,模型优化

使用 Ax 进行多目标神经架构搜索

了解如何使用 Ax 在架构上进行搜索，找到准确性和延迟之间的最佳权衡。

模型优化,最佳实践,Ax,TorchX

torch.compile 教程

使用最新的 PyTorch 编译器解决方案 torch.compile，以最少的代码更改来加速模型。

模型优化

torch.compile 端到端教程

将 torch.compile 应用于真实模型的示例，演示速度提升。

模型优化

在 torch.compile 中构建卷积/批量归一化融合器

构建一个简单的模式匹配器传递，该传递将批量归一化融合到卷积中，以提高推理性能。

模型优化

Inductor CPU 后端调试和性能分析

学习 ``torch.compile`` 与 Inductor CPU 后端的使用、调试和性能分析。

模型优化

(beta) 使用 SCALED DOT PRODUCT ATTENTION 实现高性能 Transformer

本教程探讨新的 torch.nn.functional.scaled_dot_product_attention 以及如何使用它来构建 Transformer 组件。

模型优化,注意力,Transformer

卷积神经网络中的知识蒸馏

了解如何使用更强大的模型作为教师来提高轻量级模型的准确性。

模型优化,图像/视频

通过用嵌套张量和 torch.compile() 替换 nn.Transformer 来加速 PyTorch Transformer

本教程将介绍使用原生 PyTorch 实现 Transformer 的推荐最佳实践。

Transformer

PyTorch 分布式概述

简要介绍分布式包中的所有概念和功能。使用本文档查找最适合您应用程序的分布式训练技术。

并行与分布式训练

PyTorch 中的分布式数据并行 - 视频教程

本系列视频教程将通过 DDP 向您介绍 PyTorch 中的分布式训练。

并行与分布式训练

单机模型并行最佳实践

学习如何实现模型并行，这是一种将单个模型分割到不同 GPU 上的分布式训练技术，而不是在每个 GPU 上复制整个模型。

并行与分布式训练

分布式数据并行入门

学习在何时使用分布式数据并行与数据并行，并通过一个示例进行设置。

并行与分布式训练

使用 PyTorch 编写分布式应用程序

设置 PyTorch 的分布式包，使用不同的通信策略，并回顾一些包的内部工作原理。

并行与分布式训练

使用张量并行训练大规模 Transformer 模型

了解如何使用张量并行包训练大型模型。

并行与分布式训练

使用 Cpp 扩展自定义进程组后端

使用自定义集合通信实现扩展 ProcessGroup。

并行与分布式训练

分布式 RPC 框架入门

了解如何使用 torch.distributed.rpc 包构建分布式训练。

并行与分布式训练

使用分布式 RPC 框架实现参数服务器

通过一个简单的示例，演示如何使用 PyTorch 的分布式 RPC 框架实现参数服务器。

并行与分布式训练

分布式流水线并行简介

演示如何使用 torch.distributed.pipelining 实现流水线并行

并行与分布式训练

使用异步执行实现批处理 RPC

了解如何使用 rpc.functions.async_execution 实现批量 RPC

并行与分布式训练

结合 Distributed DataParallel 和分布式 RPC 框架

通过一个简单的示例，演示如何将分布式数据并行与分布式模型并行相结合。

并行与分布式训练

完全分片数据并行 (FSDP2) 入门

了解如何使用 Fully Sharded Data Parallel (fully_shard) 包训练模型。

并行与分布式训练

Libuv TCPStore 后端简介

TCPStore 现在使用新的服务器后端以实现更快的连接和更好的可伸缩性。

并行与分布式训练

使用 Monarch 进行交互式分布式应用程序

了解如何使用 Monarch 的单个控制器模型启动分布式应用程序

并行与分布式训练

导出到 ExecuTorch 教程

了解如何使用 ExecuTorch，这是一个统一的 ML 堆栈，用于将 PyTorch 模型降低到边缘设备。

边缘

在 C++ 中运行 ExecuTorch 模型教程

了解如何使用 C++ 加载和执行 ExecuTorch 模型

边缘

使用 ExecuTorch SDK 分析模型

探索如何使用 ExecuTorch SDK 来分析、调试和可视化 ExecuTorch 模型

边缘

构建 ExecuTorch iOS 演示应用程序

探索如何设置 ExecuTorch iOS Demo App，该应用使用 MobileNet v3 模型处理实时相机图像，利用三种不同的后端：XNNPACK、Core ML 和 Metal Performance Shaders (MPS)。

边缘

构建 ExecuTorch Android 演示应用程序

了解如何设置 ExecuTorch Android Demo App，用于图像分割任务，使用 DeepLab v3 模型和 XNNPACK FP32 后端。

边缘

将模型作为代理降低

通过三种方法（降低整个模块、将其与其他模块组合以及划分模块部分）来应用代理，了解如何使用 ExecuTorch 来加速您的程序。

边缘

TorchRec 简介

TorchRec 是一个 PyTorch 领域库，旨在为大型推荐系统提供常见的稀疏性和并行性原语。

TorchRec,推荐系统

探索 TorchRec 分片

本教程介绍了如何使用 `EmbeddingPlanner` 和 `DistributedModelParallel` API 对嵌入表进行分片。

TorchRec,推荐系统

附加资源#

PyTorch 示例

一套围绕 PyTorch 的视觉、文本、强化学习方面的示例，您可以将其集成到您现有的工作中。

查看示例

在 Google Colab 上运行教程

了解如何将教程数据复制到 Google Drive，以便您可以在 Google Colab 上运行教程。

打开