Multiprocessing#

创建于：2021年5月4日 | 最后更新于：2024年2月29日

用于启动和管理 n 个工作子进程的库，这些子进程可由函数或二进制文件指定。

对于函数，它使用 torch.multiprocessing（因此也包括 Python 的 multiprocessing）来创建/分叉工作进程。对于二进制文件，它使用 Python 的 subprocess.Popen 来创建工作进程。

用法 1：以函数形式启动两个训练器

from torch.distributed.elastic.multiprocessing import Std, start_processes


def trainer(a, b, c):
    pass  # train


# runs two trainers
# LOCAL_RANK=0 trainer(1,2,3)
# LOCAL_RANK=1 trainer(4,5,6)
ctx = start_processes(
    name="trainer",
    entrypoint=trainer,
    args={0: (1, 2, 3), 1: (4, 5, 6)},
    envs={0: {"LOCAL_RANK": 0}, 1: {"LOCAL_RANK": 1}},
    log_dir="/tmp/foobar",
    redirects=Std.ALL,  # write all worker stdout/stderr to a log file
    tee={0: Std.ERR},  # tee only local rank 0's stderr to console
)

# waits for all copies of trainer to finish
ctx.wait()

用法 2：以二进制形式启动 2 个 echo 工作进程

# same as invoking
# echo hello
# echo world > stdout.log
ctx = start_processes(
        name="echo"
        entrypoint="echo",
        log_dir="/tmp/foobar",
        args={0: "hello", 1: "world"},
        redirects={1: Std.OUT},
       )

与 torch.multiprocessing 类似，函数 start_processes() 的返回值是一个进程上下文（api.PContext）。如果启动的是函数，则返回 api.MultiprocessContext，如果启动的是二进制文件，则返回 api.SubprocessContext。两者都是父类 api.PContext 类的特定实现。

启动多个工作进程#

torch.distributed.elastic.multiprocessing.start_processes(name, entrypoint, args, envs, logs_specs, log_line_prefixes=None, start_method='spawn', numa_options=None)[source]#

使用提供的选项启动 n 个 entrypoint 进程的副本。

entrypoint 可以是 Callable（函数）或 str（二进制文件）。副本数量由 args 和 envs 参数的条目数量决定，这些参数需要具有相同的键集。

args 和 env 参数是传递给入口点的参数和环境变量，它们由副本索引（本地秩）映射。必须包含所有本地秩。也就是说，键集应为 {0,1,...,(nprocs-1)}。

注意

当 entrypoint 是二进制文件（str）时，args 只能是字符串。如果提供了任何其他类型，则会将其转换为字符串表示形式（例如 str(arg1)）。此外，二进制文件失败仅在主函数被注释为 torch.distributed.elastic.multiprocessing.errors.record 时才会写入 error.json 错误文件。对于函数启动，这是默认行为，无需手动注释 @record 注解。

redirects 和 tee 是位掩码，指定要重定向到 log_dir 中的日志文件的标准流（stdout/stderr）。有效掩码值定义在 Std 中。要仅重定向/分发特定本地秩的日志，请将 redirects 作为字典传递，其中键是本地秩，用于指定该秩的重定向行为。任何缺失的本地秩将默认为 Std.NONE。

tee 的作用类似于 Unix 的“tee”命令，它重定向 + 打印到控制台。要避免工作进程的 stdout/stderr 打印到控制台，请使用 redirects 参数。

对于每个进程，log_dir 将包含：

{local_rank}/error.json：如果进程失败，则包含错误信息的⽂件
{local_rank}/stdout.log：如果 redirect & STDOUT == STDOUT
{local_rank}/stderr.log：如果 redirect & STDERR == STDERR

注意

预期 log_dir 存在、为空且为一个目录。

示例

log_dir = "/tmp/test"

# ok; two copies of foo: foo("bar0"), foo("bar1")
start_processes(
   name="trainer",
   entrypoint=foo,
   args:{0:("bar0",), 1:("bar1",),
   envs:{0:{}, 1:{}},
   log_dir=log_dir
)

# invalid; envs missing for local rank 1
start_processes(
   name="trainer",
   entrypoint=foo,
   args:{0:("bar0",), 1:("bar1",),
   envs:{0:{}},
   log_dir=log_dir
)

# ok; two copies of /usr/bin/touch: touch file1, touch file2
start_processes(
   name="trainer",
   entrypoint="/usr/bin/touch",
   args:{0:("file1",), 1:("file2",),
   envs:{0:{}, 1:{}},
   log_dir=log_dir
 )

# caution; arguments casted to string, runs:
# echo "1" "2" "3" and echo "[1, 2, 3]"
start_processes(
   name="trainer",
   entrypoint="/usr/bin/echo",
   args:{0:(1,2,3), 1:([1,2,3],),
   envs:{0:{}, 1:{}},
   log_dir=log_dir
 )

参数

name (str) – 一个人类可读的简短名称，描述进程的用途（在分发 stdout/stderr 输出时用作标题）
entrypoint (Union[Callable, str]) – 要么是 Callable（函数），要么是 cmd（二进制文件）
args (dict[int, tuple]) – 传递给每个副本的参数
envs (dict[int, dict[str, str]]) – 传递给每个副本的环境变量
log_dir – 用于写入日志文件的目录
start_method (str) – 多进程启动方法（spawn, fork, forkserver），对二进制文件无效
redirects – 要重定向到日志文件的标准流
tee – 要重定向到控制台的标准流
local_ranks_filter – 要打印到控制台的日志所在的本地秩

返回类型

PContext

进程上下文#

class torch.distributed.elastic.multiprocessing.api.PContext(name, entrypoint, args, envs, logs_specs, log_line_prefixes=None)[source]#

通过不同机制启动的一组进程的标准化操作的基类。

名称 PContext 的目的是为了区分 torch.multiprocessing.ProcessContext。

警告

stdout 和 stderr 应该始终是 tee_stdout 和 tee_stderr（分别）的超集，这是因为 tee 是通过重定向 + tail -f <stdout/stderr.log> 实现的。

class torch.distributed.elastic.multiprocessing.api.MultiprocessContext(name, entrypoint, args, envs, start_method, logs_specs, log_line_prefixes=None, numa_options=None)[source]#

作为函数调用的工作进程的 PContext。

class torch.distributed.elastic.multiprocessing.api.SubprocessContext(name, entrypoint, args, envs, logs_specs, log_line_prefixes=None, numa_options=None)[source]#

作为二进制文件调用的工作进程的 PContext。

class torch.distributed.elastic.multiprocessing.api.RunProcsResult(return_values=<factory>, failures=<factory>, stdouts=<factory>, stderrs=<factory>)[source]#

通过 start_processes() 启动的进程完成运行的结果。由 PContext 返回。

请注意以下几点：

所有字段都由本地秩映射
return_values - 仅针对函数（而不是二进制文件）填充。
stdouts - stdout.log 的路径（如果没有重定向则为空字符串）
stderrs - stderr.log 的路径（如果没有重定向则为空字符串）

class torch.distributed.elastic.multiprocessing.api.DefaultLogsSpecs(log_dir=None, redirects=Std.NONE, tee=Std.NONE, local_ranks_filter=None)[source]#

默认的 LogsSpecs 实现

log_dir 如果不存在将被创建
为每次尝试和每个秩生成嵌套文件夹。

reify(envs)[source]#

使用以下方案构建日志⽂件⽬录：

<log_dir>/<rdzv_run_id>/attempt_<attempt>/<rank>/stdout.log
<log_dir>/<rdzv_run_id>/attempt_<attempt>/<rank>/stderr.log
<log_dir>/<rdzv_run_id>/attempt_<attempt>/<rank>/error.json

返回类型: LogsDest

class torch.distributed.elastic.multiprocessing.api.LogsDest(stdouts=<factory>, stderrs=<factory>, tee_stdouts=<factory>, tee_stderrs=<factory>, error_files=<factory>)[source]#

对于每种日志类型，都包含本地秩 ID 到⽂件路径的映射。

class torch.distributed.elastic.multiprocessing.api.LogsSpecs(log_dir=None, redirects=Std.NONE, tee=Std.NONE, local_ranks_filter=None)[source]#

为每个工作进程定义日志处理和重定向。

参数

log_dir (Optional[str]) – 将写入日志的基目录。
redirects (Union[Std, dict[int, torch.distributed.elastic.multiprocessing.api.Std]]) – 重定向到⽂件的流。传递单个 Std 枚举以重定向所有工作进程，或传递按 local_rank 键控的字典以选择性重定向。
tee (Union[Std, dict[int, torch.distributed.elastic.multiprocessing.api.Std]]) – 要复制到 stdout/stderr 的流。传递单个 Std 枚举以复制所有工作进程的流，或传递按 local_rank 键控的字典以选择性复制。

abstract reify(envs)[source]#

给定环境变量，为每个本地秩构建日志⽂件的⽬录。

Envs 参数包含每个本地秩的环境变量字典，其中条目定义在：_start_workers()。

返回类型: LogsDest

Multiprocessing#

启动多个工作进程#

进程上下文#

文档

教程

资源