评价此页

简介 || 什么是 DDP || 单节点多 GPU 训练 || 容错机制 || 多节点训练 || minGPT 训练

PyTorch 中的分布式数据并行 - 视频教程#

创建日期:2022年9月27日 | 最后更新:2024年11月15日 | 最后验证:2024年11月5日

作者: Suraj Subramanian

请观看下方视频或在 youtube 上学习。

本系列视频教程将引导您通过 DDP 在 PyTorch 中实现分布式训练。

本系列从一个简单的非分布式训练任务开始,最后以在集群中的多台机器上部署训练任务结束。在此过程中,您还将学习使用 torchrun 进行容错分布式训练。

本教程假设您已基本熟悉 PyTorch 的模型训练。

运行代码#

您需要多个 CUDA GPU 才能运行教程代码。通常,这可以在具有多个 GPU 的云实例上完成(本教程使用的是具有 4 个 GPU 的 Amazon EC2 P3 实例)。

教程代码托管在这个 github 仓库中。请克隆该仓库并跟随学习!

教程章节#

  1. 简介(本页)

  2. 什么是 DDP? 浅显易懂地介绍 DDP 在底层是如何工作的

  3. 单节点多 GPU 训练 在单台机器上使用多个 GPU 训练模型

  4. 容错分布式训练 使用 torchrun 增强分布式训练任务的鲁棒性

  5. 多节点训练 在多台机器上使用多个 GPU 训练模型

  6. 使用 DDP 训练 GPT 模型 使用 DDP 训练 minGPT 模型的“实战”案例