torchft#
本仓库实现了按步容错的原始功能和端到端解决方案,以便在发生错误时可以继续训练,而不会中断整个训练作业。
开始使用? 请参阅 README 中的安装与使用。
API 参考
- API 参考
- 进程组
ErrorSwallowingProcessGroupWrapper
FakeProcessGroupWrapper
ManagedProcessGroup
ProcessGroup
ProcessGroupBaby
ProcessGroupBabyGloo
ProcessGroupBabyNCCL
ProcessGroupDummy
ProcessGroupGloo
ProcessGroupNCCL
ProcessGroupWrapper
create_store_client()
- Manager
ExceptionWithTraceback
Manager
WorldSizeMode
get_timeout()
- 优化器
OptimizerWrapper
- 分布式数据并行
DistributedDataParallel
PureDistributedDataParallel
- LocalSGD
DiLoCo
LocalSGD
extract_local_tensor()
- 数据
DistributedSampler
- 检查点
CheckpointTransport
HTTPTransport
- 参数服务器
ParameterServer
- 协调(低级 API)
LighthouseClient
LighthouseServer
ManagerClient
ManagerServer
Quorum
QuorumMember