PYTORCH ProcessGroupNCCL 环境变量#
创建于: 2025 年 6 月 10 日 | 最后更新于: 2025 年 6 月 10 日
有关环境变量的更多信息,请参阅 ProcessGroupNCCL 环境变量。
变量 |
描述 |
---|---|
|
控制我们在监视器中遇到异常时如何对 NCCL 执行异步错误处理。如果设置为 0,则不处理异步 NCCL 错误。如果设置为 1,则中止 NCCL 通信器并关闭进程。如果设置为 2,则仅中止 NCCL 通信器。如果设置为 3,则仅关闭进程而不中止 NCCL 通信器。默认值为 3。 |
|
控制 NCCL 通信器是否使用高优先级流。 |
|
控制 wait() 是阻塞还是非阻塞。 |
|
控制在检测到监视器超时或异常时是否转储调试信息。此变量必须与 TORCH_NCCL_TRACE_BUFFER_SIZE 大于 0 一起设置。 |
|
控制是否启用 Desync 调试。这有助于确定集合同步的罪魁祸首级别。 |
|
如果设置为 |
|
如果设置为 |
|
控制监视线程中止进程之前的看门狗心跳超时周期。 |
|
我们存储在飞行记录仪的环形缓冲区中的事件的最大数量。一个事件可以是集合体的开始或结束,例如。设置为 0 可禁用跟踪缓冲区和调试信息转储。 |
|
是否为飞行记录仪收集 cpp 堆栈跟踪。默认值为 False。 |
|
控制监视线程中检查来自其他级别的协调信号的间隔,例如,用于转储调试信息。默认值为 1000 毫秒。 |
|
控制在退出并抛出超时异常之前,我们将额外等待多长时间来转储调试信息。 |
|
将转储调试信息的文件的名称。 |
|
用于手动触发调试转储的管道文件,向管道写入任何内容都将触发转储。 |
|
控制是否为输入启用 NAN 检查,如果检测到 NAN,则会引发错误。 |