stateless_init_process_group¶
- class torchrl.modules.llm.stateless_init_process_group(master_address: str | None, master_port: str | None, rank, world_size, device)[source]¶
初始化一个无状态进程组,用于分布式通信。
创建一个 StatelessProcessGroup 实例,而不依赖于 torch.distributed 中的全局进程组。此方法推荐用于初始化外部进程(例如,训练进程)和 vLLM 工作进程之间的数据平面通信(NCCL)。
- 参数:
master_address (str | None) – 主节点的地址。如果未指定,则默认为“localhost”。
master_port (str | None) – 主节点使用的端口。如果未指定,则自动分配一个开放端口。
rank (int) – 当前进程的 rank。
world_size (int) – 分布式组中的总进程数。
device – 用于通信的设备。
- 返回:
一个使用创建的 StatelessProcessGroup 初始化的 PyNcclCommunicator 实例。
- 返回类型:
PyNcclCommunicator