评价此页

CPU 线程和 TorchScript 推理#

创建日期:2019 年 7 月 29 日 | 最后更新日期:2020 年 3 月 26 日

PyTorch 允许在 TorchScript 模型推理期间使用多个 CPU 线程。下图显示了典型应用程序中可以找到的不同级别的并行性

../_images/cpu_threading_torchscript_inference.svg

一个或多个推理线程对给定输入执行模型的正向传播。每个推理线程调用一个 JIT 解释器,该解释器内联地逐个执行模型的操作。模型可以使用 fork TorchScript 原语启动异步任务。同时分叉多个操作会产生并行执行的任务。fork 运算符返回一个 Future 对象,该对象可以稍后用于同步,例如

@torch.jit.script
def compute_z(x):
    return torch.mm(x, self.w_z)

@torch.jit.script
def forward(x):
    # launch compute_z asynchronously:
    fut = torch.jit._fork(compute_z, x)
    # execute the next operation in parallel to compute_z:
    y = torch.mm(x, self.w_y)
    # wait for the result of compute_z:
    z = torch.jit._wait(fut)
    return y + z

PyTorch 为操作间并行性使用一个单一的线程池,该线程池由应用程序进程内分叉的所有推理任务共享。

除了操作间并行性,PyTorch 还可以在操作内部利用多个线程(“操作内并行性”)。这在许多情况下都很有用,包括大型张量上的逐元素操作、卷积、GEMM、嵌入查找等。

构建选项#

PyTorch 使用内部 ATen 库来实现操作。除此之外,PyTorch 还可以构建以支持外部库,如 MKLMKL-DNN,以加速 CPU 上的计算。

ATen、MKL 和 MKL-DNN 支持操作内并行性,并依赖以下并行化库来实现:

  • OpenMP - 一种标准(和库,通常随编译器一起提供),广泛用于外部库;

  • TBB - 一种较新的并行化库,针对基于任务的并行性和并发环境进行了优化。

OpenMP 历史上已被大量库使用。它以相对易用和支持基于循环的并行性及其他原语而闻名。

TBB 在外部库中的使用程度较低,但同时针对并发环境进行了优化。PyTorch 的 TBB 后端保证应用程序中运行的所有操作都使用一个单独的、单一的、每个进程的操作内线程池。

根据用例,人们可能会发现一种或另一种并行化库在其应用程序中是更好的选择。

PyTorch 允许在构建时通过以下构建选项选择 ATen 和其他库使用的并行化后端:

构建选项

注意事项

ATen

ATEN_THREADING

OMP(默认),TBB

MKL

MKL_THREADING

(同上)

要启用 MKL,请使用 BLAS=MKL

MKL-DNN

MKLDNN_CPU_RUNTIME

(同上)

要启用 MKL-DNN,请使用 USE_MKLDNN=1

建议不要在一次构建中混合使用 OpenMP 和 TBB。

上述任何 TBB 值都需要 USE_TBB=1 构建设置(默认:OFF)。OpenMP 并行性需要单独的设置 USE_OPENMP=1(默认:ON)。

运行时 API#

以下 API 用于控制线程设置

并行类型

设置

注意事项

操作间并行性

at::set_num_interop_threads, at::get_num_interop_threads (C++)

set_num_interop_threads, get_num_interop_threads (Python, torch 模块)

默认线程数:CPU 核心数。

操作内并行性

at::set_num_threads, at::get_num_threads (C++) set_num_threads, get_num_threads (Python, torch 模块)

环境变量:OMP_NUM_THREADSMKL_NUM_THREADS

对于操作内并行性设置,at::set_num_threadstorch.set_num_threads 总是优先于环境变量,MKL_NUM_THREADS 变量优先于 OMP_NUM_THREADS

调整线程数#

以下简单脚本显示了矩阵乘法的运行时随线程数的变化情况

import timeit
runtimes = []
threads = [1] + [t for t in range(2, 49, 2)]
for t in threads:
    torch.set_num_threads(t)
    r = timeit.timeit(setup = "import torch; x = torch.randn(1024, 1024); y = torch.randn(1024, 1024)", stmt="torch.mm(x, y)", number=100)
    runtimes.append(r)
# ... plotting (threads, runtimes) ...

在具有 24 个物理 CPU 核心的系统(Xeon E5-2680,基于 MKL 和 OpenMP 构建)上运行脚本会得到以下运行时:

../_images/cpu_threading_runtimes.svg

调整操作内和操作间线程数时,应考虑以下因素:

  • 选择线程数时,需要避免“过度订阅”(使用过多线程,导致性能下降)。例如,在一个使用大型应用程序线程池或严重依赖操作间并行性的应用程序中,可能会发现禁用操作内并行性是一个可能的选择(即,通过调用 set_num_threads(1));

  • 在典型的应用程序中,可能会遇到“延迟”(处理推理请求所花费的时间)和“吞吐量”(单位时间内完成的工作量)之间的权衡。调整线程数可以是调整这种权衡的有用工具。例如,在对延迟敏感的应用程序中,可能希望增加操作内线程数以尽快处理每个请求。同时,操作的并行实现可能会增加额外的开销,从而增加每个请求完成的工作量,进而降低整体吞吐量。

警告

OpenMP 不保证应用程序中会使用一个单一的每进程操作内线程池。相反,两个不同的应用程序或操作间线程可能会对操作内工作使用不同的 OpenMP 线程池。这可能导致应用程序使用大量线程。在 OpenMP 的多线程应用程序中,需要额外注意调整线程数,以避免过度订阅。

注意

预构建的 PyTorch 版本使用 OpenMP 支持进行编译。

注意

parallel_info 实用程序打印线程设置信息,可用于调试。类似输出也可以通过调用 Python 中的 torch.__config__.parallel_info() 获得。