评价此页

简介 || 什么是 DDP || 单节点多 GPU 训练 || 容错 || 多节点训练 || minGPT 训练

PyTorch 分布式数据并行 - 视频教程#

创建于:2022 年 9 月 27 日 | 最后更新:2024 年 11 月 15 日 | 最后验证:2024 年 11 月 5 日

作者: Suraj Subramanian

跟随下面的视频或在 YouTube 上观看。

本系列视频教程将通过 DDP 带您了解 PyTorch 中的分布式训练。

本系列从一个简单的非分布式训练任务开始,最终结束于在集群中的多台机器上部署训练任务。在此过程中,您还将了解用于容错分布式训练的 torchrun

本教程假定您对 PyTorch 中的模型训练有基本了解。

运行代码#

您需要多个 CUDA GPU 才能运行教程代码。通常,这可以在具有多个 GPU 的云实例上完成(教程使用了具有 4 个 GPU 的 Amazon EC2 P3 实例)。

教程代码托管在此 GitHub 仓库 中。克隆仓库并跟着学习!

教程章节#

  1. 简介(本页)

  2. 什么是 DDP? 温和地介绍 DDP 的内部工作原理

  3. 单节点多 GPU 训练 使用单个机器上的多个 GPU 训练模型

  4. 容错分布式训练 使用 torchrun 使您的分布式训练任务更具鲁棒性

  5. 多节点训练 使用多个机器上的多个 GPU 训练模型

  6. 使用 DDP 训练 GPT 模型 使用 DDP 训练 minGPT 模型的“真实世界”示例