评价此页

★ ★ ★ ★ ★

beginner/ddp_series_intro

在 Google Colab 中运行

下载 Notebook

在 GitHub 上查看

简介 || 什么是 DDP || 单节点多 GPU 训练 || 容错 || 多节点训练 || minGPT 训练

PyTorch 分布式数据并行 - 视频教程#

创建于：2022 年 9 月 27 日 | 最后更新：2024 年 11 月 15 日 | 最后验证：2024 年 11 月 5 日

作者： Suraj Subramanian

跟随下面的视频或在 YouTube 上观看。

本系列视频教程将通过 DDP 带您了解 PyTorch 中的分布式训练。

本系列从一个简单的非分布式训练任务开始，最终结束于在集群中的多台机器上部署训练任务。在此过程中，您还将了解用于容错分布式训练的 torchrun。

本教程假定您对 PyTorch 中的模型训练有基本了解。

运行代码#

您需要多个 CUDA GPU 才能运行教程代码。通常，这可以在具有多个 GPU 的云实例上完成（教程使用了具有 4 个 GPU 的 Amazon EC2 P3 实例）。

教程代码托管在此 GitHub 仓库中。克隆仓库并跟着学习！

教程章节#

简介（本页）
什么是 DDP？温和地介绍 DDP 的内部工作原理
单节点多 GPU 训练使用单个机器上的多个 GPU 训练模型
容错分布式训练使用 torchrun 使您的分布式训练任务更具鲁棒性
多节点训练使用多个机器上的多个 GPU 训练模型
使用 DDP 训练 GPT 模型使用 DDP 训练 minGPT 模型的“真实世界”示例

文档

访问全面的 PyTorch 开发者文档

教程

为初学者和高级开发者提供深入的教程

资源

查找开发资源并让您的问题得到解答