简介 || 什么是 DDP || 单节点多 GPU 训练 || 容错机制 || 多节点训练 || minGPT 训练
PyTorch 中的分布式数据并行 - 视频教程#
创建日期:2022年9月27日 | 最后更新:2024年11月15日 | 最后验证:2024年11月5日
请观看下方视频或在 youtube 上学习。
本系列视频教程将引导您通过 DDP 在 PyTorch 中实现分布式训练。
本系列从一个简单的非分布式训练任务开始,最后以在集群中的多台机器上部署训练任务结束。在此过程中,您还将学习使用 torchrun 进行容错分布式训练。
本教程假设您已基本熟悉 PyTorch 的模型训练。
运行代码#
您需要多个 CUDA GPU 才能运行教程代码。通常,这可以在具有多个 GPU 的云实例上完成(本教程使用的是具有 4 个 GPU 的 Amazon EC2 P3 实例)。
教程代码托管在这个 github 仓库中。请克隆该仓库并跟随学习!
教程章节#
简介(本页)
什么是 DDP? 浅显易懂地介绍 DDP 在底层是如何工作的
单节点多 GPU 训练 在单台机器上使用多个 GPU 训练模型
容错分布式训练 使用 torchrun 增强分布式训练任务的鲁棒性
多节点训练 在多台机器上使用多个 GPU 训练模型
使用 DDP 训练 GPT 模型 使用 DDP 训练 minGPT 模型的“实战”案例