通过 PrivateUse1 促进新的后端集成#
创建日期:2023年10月03日 | 最后更新:2026年05月14日 | 最后验证:2024年11月05日
在本教程中,我们将介绍通过 PrivateUse1 集成位于 pytorch/pytorch 仓库之外的新后端的必要步骤。请注意,本教程假设您已经具备 PyTorch 的基础知识。
注意
本教程仅涉及与促进新设备集成的 PrivateUse1 机制相关的部分,其他部分将不做介绍。同时,本教程中涉及的模块并非全部必需,您可以根据实际需求选择对您有用的模块。
什么是 PrivateUse1?#
在 PyTorch 2.0 之前,PyTorch 提供了三个预留的分发键(及其对应的 Autograd 键),用于原型化树外(out-of-tree)后端扩展。这三个分发键如下:
PrivateUse1/AutogradPrivateUse1PrivateUse2/AutogradPrivateUse2PrivateUse3/AutogradPrivateUse3
原型验证通过后,您可以为新后端申请一个私有键,例如 CUDA、XLA、MPS 等。
然而,随着 PyTorch 的快速发展,越来越多的硬件制造商尝试将其后端集成到 PyTorch 中,这可能会导致以下问题:
每一次新后端的集成都涉及大量的文件修改。
目前分发键(Dispatch Keys)的数量存在硬性限制(
DispatchKeySet64 位限制)。
注意
通过 PrivateUse1 键将新后端集成到 PyTorch 中也存在一个问题,即不可能同时集成多个后端。幸运的是,这些树外后端很少会同时被使用。
鉴于上述原因,社区开始推荐通过 PrivateUse1 将新后端集成到 PyTorch 中。
然而,之前的 PrivateUse1 机制并不完全具备集成新后端的能力,因为它在某些模块中缺乏相关支持,例如 Storage、AMP、Distributed 等。
随着 PyTorch 2.1.0 的到来,PrivateUse1 在新后端集成方面进行了一系列优化和增强,现在可以快速高效地支持新设备的集成。
如何通过 PrivateUse1 集成新后端#
在本节中,我们将讨论通过 PrivateUse1 将新后端集成到 PyTorch 的细节,主要包括以下几个部分:
为新后端注册算子(Kernels)。
为新后端注册生成器(Generator)。
为新后端注册设备守卫(Device Guard)。
为新后端元数据注册序列化和反序列化函数。
其他模块。
为新后端注册算子#
新后端可能拥有某些高性能的算子实现,可以通过 在 C++ 中注册分发算子 所述的 TORCH_LIBRARY_IMPL API 将其注册到分发器(Dispatcher)中。这涉及几种情况:
将新后端支持的所有前向算子注册到分发器,并同时注册回退(fallback)机制,以便在新后端不支持某些算子时,这些算子可以回退到 CPU 执行,从而保证功能的可用性。
at::Tensor wrapper_Custom_Tensor_add(const at::Tensor & self, const at::Tensor & other, const at::Scalar & alpha) {
// Implementation of add kernel in new backend
...
}
TORCH_LIBRARY_IMPL(aten, PrivateUse1, m) {
...
m.impl("add.Tensor", TORCH_FN(wrapper_Custom_Tensor_add));
...
}
void custom_cpu_fallback(const c10::OperatorHandle& op, torch::jit::Stack* stack) {
// Add some hints about new devices that do not support and need to fall back to cpu
at::native::cpu_fallback(op, stack);
}
TORCH_LIBRARY_IMPL(_, PrivateUse1, m) {
m.fallback(torch::CppFunction::makeFromBoxedFunction<&custom_cpu_fallback>());
}
如果新后端需要重写
PyTorch Autograd 层,则通过AutogradPrivateUse1将torch::autograd::Function的算子注册到分发器,分发器和自动求导系统将自动调用这些算子的前向和反向实现。
class CumtomSeluFunction : public torch::autograd::Function<CumtomSeluFunction> {
// Implementation of selu kernel in new backend
}
at::Tensor wrapper_AutogradCumstom__selu(const at::Tensor & self) {
return CumtomSeluFunction::apply(self);
}
TORCH_LIBRARY_IMPL(aten, AutogradPrivateUse1, m) {
...
m.impl("selu", TORCH_FN(wrapper_AutogradCustom__selu));
...
}
通过
AutocastPrivateUse1将想要支持 自动混合精度(AMP) 和回退机制的算子注册到分发器,自动混合精度系统将在需要时自动调用这些算子。
TORCH_LIBRARY_IMPL(aten, AutocastPrivateUse1, m) {
...
KERNEL_PRIVATEUSEONE(<operator>, <policy>)
...
}
TORCH_LIBRARY_IMPL(_, AutocastPrivateUse1, m) {
m.fallback(torch::CppFunction::makeFallthrough());
}
需要补充的是,如果您想在新后端中支持 AMP,则需要通过 torch._register_device_module("backend_name", BackendModule) 注册一个新的 BackendModule,并且该 BackendModule 需要具备以下 API:
get_amp_supported_dtype() -> List[torch.dtype]获取新后端在 AMP 中支持的数据类型,可能支持更多数据类型。
is_autocast_enabled() -> bool检查新后端是否启用了 AMP。
get_autocast_dtype() -> torch.dtype获取新后端在 AMP 中支持的
dtype,该类型通过set_autocast_dtype设置或默认为torch.float16。
set_autocast_enabled(bool) -> None在新后端启用或禁用 AMP。
set_autocast_dtype(dtype) -> None在新后端设置 AMP 支持的
dtype,且该dtype必须包含在从get_amp_supported_dtype获取的dtypes中。
为新后端注册生成器#
必须支持对应于新设备的生成器。目前,PrivateUse1 可以动态注册自定义生成器,主要分为以下步骤:
继承
GeneratorImpl类以实现对应于新后端的生成器类,并实现各种通用方法。定义一个仅包含一个参数(
device index)的新后端builder。调用
REGISTER_GENERATOR_PRIVATEUSE1宏完成动态注册。
struct CustomGeneratorImpl : public c10::GeneratorImpl {
// Implementation of generator in new backend
}
at::Generator make_custom_generator(c10::DeviceIndex device_index) {
return at::make_generator<CustomGeneratorImpl>(device_index);
}
REGISTER_GENERATOR_PRIVATEUSE1(make_cumstom_generator)
为新后端注册设备守卫#
PyTorch 通过 DeviceGuard 提供与设备、流(stream)和事件(event)切换相关的功能。此功能也适用于 PrivateUse1 键。
继承
DeviceGuardImplInterface类以实现对应于新后端的各种通用方法。调用
C10_REGISTER_GUARD_IMPL宏完成动态注册。
struct CustomGuardImpl final : public c10::impl::DeviceGuardImplInterface {
// Implementation of guard in new backend
}
C10_REGISTER_GUARD_IMPL(PrivateUse1, CustomGuardImpl);
为新后端元数据注册序列化和反序列化函数#
PyTorch 目前能够动态注册序列化/反序列化函数,以支持类 TensorImpl.ExtraMeta 中名为 backend_meta_ 的新后端额外元数据的序列化和反序列化。您可以参考以下步骤:
继承
BackendMeta类以实现对应于新后端的CustomBackendMetadata,并在类中自定义新后端的各个字段。实现新后端的序列化和反序列化函数,函数签名为
void(const at::Tensor&, std::unordered_map<std::string, bool>&)。调用
TensorBackendMetaRegistry宏完成动态注册。
struct CustomBackendMetadata : public c10::BackendMeta {
// Implementation of backend metadata in new backend
}
void for_serialization(const at::Tensor& t, std::unordered_map<std::string, bool>& m) {
// Implementation of serialization
}
void for_deserialization(const at::Tensor& t, std::unordered_map<std::string, bool>& m) {
// Implementation of deserialization
}
TensorBackendMetaRegistry(c10::DeviceType::PrivateUse1, &for_serialization, &for_deserialization);
其他模块#
除了上述部分外,还有一些其他模块可以通过 PrivateUse1 进行扩展,例如 分布式集合通信、benchmark timer 等,这些将在未来添加。关于 PrivateUse1 集成的一个例子是 Ascend NPU。
如何利用 PrivateUse1 改善用户体验#
通过 PrivateUse1 集成新设备的主要目标是满足基本功能需求,接下来要做的是提高可用性,这主要涉及以下几个方面:
向 PyTorch 注册新后端模块。
将 PrivateUse1 重命名为新后端的自定义名称。
生成与新后端相关的方法和属性。
向 PyTorch 注册新后端模块#
PyTorch 中一些与 CUDA 相关的接口可以通过以下形式调用:torch.cuda.xxx。因此,为了符合用户习惯,通过 PrivateUse1 机制实现的新后端也应提供类似的接口。
例如,使用 Ascend NPU:
torch._register_device_module('npu', torch_npu.npu)
执行上述操作后,用户可以通过 torch.npu.xxx 调用 Ascend NPU 的独占 API。
将 PrivateUse1 重命名为新后端的自定义名称#
PrivateUse1 键是集成到 PyTorch 中的新后端的内部机制。对于用户而言,相比 PrivateUse1,与新后端强关联的自定义名称应该更友好。
以 Ascend NPU 为例,第一种用法会更用户友好。
torch.rand((2,2),device='npu:0')
torch.rand((2,2),device='privateuse1:0')
现在,PyTorch 为自命名的 PrivateUse1 后端提供了一个新的 C++/Python API,使用非常简单。
torch.rename_privateuse1_backend("npu")
c10::register_privateuse1_backend("npu")
未来工作#
PrivateUse1 机制的改进仍在进行中,因此新模块的 PrivateUse1 集成方法将依次添加。以下是我们正在积极开发的几个项目:
添加
分布式集合通信的集成方法。添加
benchmark timer的集成方法。
结论#
本教程指导您完成了通过 PrivateUse1 将新后端集成到 PyTorch 的过程,包括但不限于算子注册、生成器注册、设备守卫注册等。同时,还介绍了一些改善用户体验的方法。