简介 || 什么是 DDP || 单节点多 GPU 训练 || 容错 || 多节点训练 || minGPT 训练
PyTorch 分布式数据并行 - 视频教程#
创建于:2022 年 9 月 27 日 | 最后更新:2024 年 11 月 15 日 | 最后验证:2024 年 11 月 5 日
跟随下面的视频或在 YouTube 上观看。
本系列视频教程将通过 DDP 带您了解 PyTorch 中的分布式训练。
本系列从一个简单的非分布式训练任务开始,最终结束于在集群中的多台机器上部署训练任务。在此过程中,您还将了解用于容错分布式训练的 torchrun。
本教程假定您对 PyTorch 中的模型训练有基本了解。
运行代码#
您需要多个 CUDA GPU 才能运行教程代码。通常,这可以在具有多个 GPU 的云实例上完成(教程使用了具有 4 个 GPU 的 Amazon EC2 P3 实例)。
教程代码托管在此 GitHub 仓库 中。克隆仓库并跟着学习!
教程章节#
简介(本页)
什么是 DDP? 温和地介绍 DDP 的内部工作原理
单节点多 GPU 训练 使用单个机器上的多个 GPU 训练模型
容错分布式训练 使用 torchrun 使您的分布式训练任务更具鲁棒性
多节点训练 使用多个机器上的多个 GPU 训练模型
使用 DDP 训练 GPT 模型 使用 DDP 训练 minGPT 模型的“真实世界”示例