简介 || 什么是 DDP || 单节点多 GPU 训练 || 容错 || 多节点训练 || minGPT 训练
使用 DDP 训练“真实世界”模型#
创建日期:2022 年 9 月 27 日 | 最后更新日期:2025 年 7 月 9 日 | 最后验证日期:2024 年 11 月 5 日
请观看下面的视频或在 youtube 上观看。
在本视频中,我们将回顾在多节点 DDP 中训练 GPT 模型的过程。我们首先克隆 minGPT 仓库,并重构 Trainer 以便与本系列中使用的结构相匹配。观看视频了解这些更改的详细信息。
我们使用 hydra 来集中管理我们训练运行的所有配置。代码重构完成后,我们首先在具有 4 个 GPU 的单节点上运行它,然后在 slurm 集群上运行。
用于训练的文件#
trainer.py 包含 Trainer 类,该类使用提供的数据集在模型上运行分布式训练迭代。
model.py 定义了模型架构。
char_dataset.py 包含用于字符级数据集的
Dataset
类。gpt2_train_cfg.yaml 包含数据、模型、优化器和训练运行的配置。
main.py 是训练作业的入口点。它设置 DDP 进程组,读取所有配置并运行训练作业。
从云保存和加载#
在上面的视频中,我们将训练快照直接保存到云中。这使我们能够灵活地从任何可以访问云存储桶的节点继续训练。
使用混合精度#
为了加快速度,您可能可以使用 混合精度 来训练模型。在混合精度中,训练过程的某些部分以降低的精度执行,而对精度下降更敏感的其他步骤则保持在 FP32 精度。
何时 DDP 不够用?#
典型的训练运行的内存占用包括模型权重、激活、梯度、输入批次和优化器状态。由于 DDP 在每个 GPU 上复制模型,因此它仅在 GPU 具有足够的容量来容纳完整内存占用时才有效。当模型变得更大时,更激进的技术可能很有用。
激活检查点:在前向传播过程中不保存中间激活,而是在后向传播过程中重新计算激活。在此方法中,我们进行更多计算,但节省了内存占用。
Fully-Sharded Data Parallel:这里模型不会被复制,而是“分片”到所有 GPU 上,并且计算在前向和后向传播过程中与通信重叠。阅读我们的 博客,了解我们如何使用 FSDP 训练一个 1 万亿参数的模型。