评价此页

简介 || 什么是 DDP || 单节点多 GPU 训练 || 容错性 || 多节点训练 || minGPT 训练

PyTorch 中的分布式数据并行 - 视频教程#

创建日期:2022 年 9 月 27 日 | 最后更新:2024 年 11 月 15 日 | 最后验证:2024 年 11 月 5 日

作者: Suraj Subramanian

请在下方或 youtube 上观看视频。

本系列视频教程将指导您通过 DDP 在 PyTorch 中进行分布式训练。

本系列从一个简单的非分布式训练任务开始,最终在集群中的多台机器上部署训练任务。在此过程中,您还将学习 torchrun,用于容错分布式训练。

本教程假定您对 PyTorch 中的模型训练有基本的了解。

运行代码#

要运行教程代码,您需要多个 CUDA GPU。通常,这可以在具有多个 GPU 的云实例上完成(教程使用具有 4 个 GPU 的 Amazon EC2 P3 实例)。

教程代码托管在此 github 仓库 中。克隆仓库并跟随学习!

教程章节#

  1. 简介(此页面)

  2. 什么是 DDP? 深入浅出地介绍 DDP 的底层原理

  3. 单节点多 GPU 训练 使用单台机器上的多个 GPU 训练模型

  4. 容错分布式训练 使用 torchrun 使您的分布式训练任务更具鲁棒性

  5. 多节点训练 使用多台机器上的多个 GPU 训练模型

  6. 使用 DDP 训练 GPT 模型 使用 DDP 训练 minGPT 模型的“实际”示例