评价此页

简介 || 什么是 DDP || 单节点多 GPU 训练 || 容错性 || 多节点训练 || minGPT 训练

PyTorch 中的分布式数据并行 - 视频教程#

创建于:2022年9月27日 | 最后更新:2024年11月15日 | 最后验证:2024年11月5日

作者: Suraj Subramanian

请跟随下面的视频或在 youtube 上观看。

这一系列的视频教程将引导您通过 DDP 在 PyTorch 中进行分布式训练。

该系列从一个简单的非分布式训练任务开始,到在一个集群中的多台机器上部署训练任务结束。在此过程中,您还将学习如何使用 torchrun 进行容错的分布式训练。

本教程假定您对 PyTorch 中的模型训练有基本的了解。

运行代码#

您将需要多个 CUDA GPU 来运行本教程的代码。通常,这可以在具有多个 GPU 的云实例上完成(本教程使用一个配备 4 个 GPU 的 Amazon EC2 P3 实例)。

教程代码托管在这个 github 仓库中。请克隆该仓库并跟随教程操作!

教程章节#

  1. 简介(本页)

  2. 什么是 DDP? 温和地介绍 DDP 在底层的工作原理

  3. 单节点多 GPU 训练 在单台机器上使用多个 GPU 训练模型

  4. 容错分布式训练 使用 torchrun 使您的分布式训练任务更加稳健

  5. 多节点训练 在多台机器上使用多个 GPU 训练模型

  6. 使用 DDP 训练 GPT 模型 使用 DDP 训练 minGPT 模型的“真实世界”示例