torch_tensorrt¶

函数¶

torch_tensorrt.compile(module: Any, ir: str = 'default', inputs: Optional[Sequence[Union[Input, Tensor, InputTensorSpec]]] = None, arg_inputs: Optional[Sequence[Sequence[Any]]] = None, kwarg_inputs: Optional[dict[Any, Any]] = None, enabled_precisions: Optional[Set[Union[dtype, dtype]]] = None, **kwargs: Any) → Union[Module, ScriptModule, GraphModule, Callable[[...], Any]][source]¶

使用 TensorRT 为 NVIDIA GPU 编译 PyTorch 模块

接受现有的 PyTorch 模块和一组配置编译器设置，并使用 ir 中指定的路径进行下推和编译模块到 TensorRT，返回一个 PyTorch 模块

专门转换模块的 forward 方法

参数

module (Union(torch.nn.Module,torch.jit.ScriptModule) – 源模块

关键字参数

inputs (List[Union(Input, torch.Tensor)]) –

必需模块输入的形状、数据类型和内存布局的规范列表。此参数是必需的。输入大小可以指定为 torch sizes、tuples 或 lists。数据类型可以使用 torch 数据类型或 torch_tensorrt 数据类型指定，并且您可以使用 torch 设备或 torch_tensorrt 设备类型枚举来选择设备类型。

inputs=[
    torch_tensorrt.Input((1, 3, 224, 224)), # Static NCHW input shape for input #1
    torch_tensorrt.Input(
        min_shape=(1, 224, 224, 3),
        opt_shape=(1, 512, 512, 3),
        max_shape=(1, 1024, 1024, 3),
        dtype=torch.int32
        format=torch.channel_last
    ), # Dynamic input shape for input #2
    torch.randn((1, 3, 224, 244)) # Use an example tensor and let torch_tensorrt infer settings
]

arg_inputs (Tuple[Any, ...]) – 与 inputs 相同。别名，以便更好地理解 kwarg_inputs。
kwarg_inputs (dict[Any, ...]) – 可选，模块 forward 函数的关键字参数输入。
enabled_precision (Set(Union(torch.dpython:type, torch_tensorrt.dpython:type))) – TensorRT 在选择内核时可以使用的数据类型集合
ir (str) – 请求的编译策略。（选项：default - 让 Torch-TensorRT 决定，ts - TorchScript，使用脚本路径）
**kwargs – 特定请求策略的附加设置（有关更多信息，请参阅子模块）

返回

编译后的模块，运行时将通过 TensorRT 执行

返回类型

torch.nn.Module

torch_tensorrt.convert_method_to_trt_engine(module: Any, method_name: str = 'forward', inputs: Optional[Sequence[Input | torch.Tensor]] = None, arg_inputs: Optional[Sequence[Sequence[Any]]] = None, kwarg_inputs: Optional[dict[Any, Any]] = None, ir: str = 'default', enabled_precisions: Optional[Set[Union[dtype, dtype]]] = None, **kwargs: Any) → bytes[source]¶

将 TorchScript 模块方法转换为序列化的 TensorRT 引擎

给定转换设置的字典，将模块的指定方法转换为序列化的 TensorRT 引擎

参数

module (Union(torch.nn.Module,torch.jit.ScriptModule) – 源模块

关键字参数

inputs (List[Union(Input, torch.Tensor)]) –

必需模块输入的形状、数据类型和内存布局的规范列表。此参数是必需的。输入大小可以指定为 torch sizes、tuples 或 lists。数据类型可以使用 torch 数据类型或 torch_tensorrt 数据类型指定，并且您可以使用 torch 设备或 torch_tensorrt 设备类型枚举来选择设备类型。

input=[
    torch_tensorrt.Input((1, 3, 224, 224)), # Static NCHW input shape for input #1
    torch_tensorrt.Input(
        min_shape=(1, 224, 224, 3),
        opt_shape=(1, 512, 512, 3),
        max_shape=(1, 1024, 1024, 3),
        dtype=torch.int32
        format=torch.channel_last
    ), # Dynamic input shape for input #2
    torch.randn((1, 3, 224, 244)) # Use an example tensor and let torch_tensorrt infer settings
]

arg_inputs (Tuple[Any, ...]) – 与 inputs 相同。别名，以便更好地理解 kwarg_inputs。
kwarg_inputs (dict[Any, ...]) – 可选，模块 forward 函数的关键字参数输入。
enabled_precision (Set(Union(torch.dpython:type, torch_tensorrt.dpython:type))) – TensorRT 在选择内核时可以使用的数据类型集合
ir (str) – 请求的编译策略。（选项：default - 让 Torch-TensorRT 决定，ts - TorchScript，使用脚本路径）
**kwargs – 特定请求策略的附加设置（有关更多信息，请参阅子模块）

返回

序列化的 TensorRT 引擎，可以保存到文件或通过 TensorRT API 进行反序列化

返回类型

字节

torch_tensorrt.cross_compile_for_windows(*args: List[Any], **kwargs: Dict[str, Any]) → Any¶

torch_tensorrt.load_cross_compiled_exported_program(file_path: str = '') → Any[source]¶

在 Windows 中加载先前在 Linux 中交叉编译的 ExportedProgram 文件

参数: file_path (str) – 文件在磁盘上的路径
引发: ValueError – 如果 API 不是在 Windows 中调用，或者没有文件，或者文件不是有效的 ExportedProgram 文件

torch_tensorrt.save(module: Any, file_path: str = '', *, output_format: str = 'exported_program', inputs: Optional[Sequence[Tensor]] = None, arg_inputs: Optional[Sequence[Tensor]] = None, kwarg_inputs: Optional[dict[str, Any]] = None, retrace: bool = False, pickle_protocol: int = 2, **kwargs: Any) → None[source]¶

将模型以指定的输出格式保存到磁盘。

参数

module (Optional(torch.jit.ScriptModule | torch.export.ExportedProgram | torch.fx.GraphModule | CudaGraphsTorchTensorRTModule)) – 编译后的 Torch-TensorRT 模块
inputs (torch.Tensor) – Torch 输入张量
arg_inputs (Tuple[Any, ...]) – 与 inputs 相同。别名，以便更好地理解 kwarg_inputs。
kwarg_inputs (dict[Any, ...]) – 可选，模块 forward 函数的关键字参数输入。
output_format (str) – 保存模型的格式。选项包括 exported_program | torchscript | aot_inductor。
retrace (bool) – 当模块类型为 fx.GraphModule 时，此选项将使用 torch.export.export(strict=False) 重新导出图以进行保存。此标志目前处于实验阶段。
pickle_protocol (python:int) – 用于保存模型的 pickle 协议。默认为 2。对于大型模型，将其提高到 4 或更高

torch_tensorrt.load(file_path: str = '') → Any[source]¶

加载 Torchscript 模型或 ExportedProgram。

从磁盘加载 TorchScript 或 ExportedProgram 文件。文件类型将使用 try, except 来检测。

参数: file_path (str) – 文件在磁盘上的路径
引发: ValueError – 如果没有文件，或者文件既不是 TorchScript 文件也不是 ExportedProgram 文件

类¶

class torch_tensorrt.MutableTorchTensorRTModule(pytorch_model: Module, *, device: Optional[Union[Device, device, str]] = None, use_python_runtime: bool = False, immutable_weights: bool = False, strict: bool = True, prefer_deferred_runtime_asserts_over_guards: bool = False, weight_streaming_budget: Optional[int] = None, enabled_precisions: Union[Set[Union[dtype, dtype]], Tuple[Union[dtype, dtype]]] = {dtype.f32}, **kwargs: Any)[source]¶

初始化 MutableTorchTensorRTModule，以便像普通 PyTorch 模块一样无缝地操纵它。所有 TensorRT 编译和重拟合过程都会在您使用该模块时自动处理。对其属性的任何更改或加载不同的 state_dict 都将触发重拟合或重新编译，这些将在下一次前向传递期间进行管理。

MutableTorchTensorRTModule 接受一个 PyTorch 模块以及一组用于编译器的配置设置。编译完成后，该模块将维护 TensorRT 图模块与原始 PyTorch 模块之间的连接。对 MutableTorchTensorRTModule 所做的任何修改都将反映在 TensorRT 图模块和原始 PyTorch 模块中。

__init__(pytorch_model: Module, *, device: Optional[Union[Device, device, str]] = None, use_python_runtime: bool = False, immutable_weights: bool = False, strict: bool = True, prefer_deferred_runtime_asserts_over_guards: bool = False, weight_streaming_budget: Optional[int] = None, enabled_precisions: Union[Set[Union[dtype, dtype]], Tuple[Union[dtype, dtype]]] = {dtype.f32}, **kwargs: Any) → None[source]¶

参数

pytorch_model (torch.nn.module) – 需要加速的源模块

关键字参数

device (Union(Device, torch.device, dict)) –
TensorRT 引擎运行的目标设备
```
device=torch_tensorrt.Device("dla:1", allow_gpu_fallback=True)
```
disable_tf32 (bool) – 强制 FP32 层使用传统的 FP32 格式，而不是默认行为，即在相乘前将输入四舍五入到 10 位尾数，但使用 23 位尾数累加求和
assume_dynamic_shape_support (bool) – 将此设置为 true 可使转换器适用于动态和静态形状。默认值：False
sparse_weights (bool) – 为卷积层和全连接层启用稀疏性。
enabled_precision (Set(Union(torch.dpython:type, torch_tensorrt.dpython:type))) – TensorRT 在选择内核时可以使用的数据类型集合
immutable_weights (bool) – 构建不可重拟合的引擎。这对于一些不可重拟合的层很有用。
capability (EngineCapability) – 将内核选择限制为安全的 GPU 内核或安全的 DLA 内核
num_avg_timing_iters (python:int) – 用于选择内核的平均计时迭代次数
workspace_size (python:int) – 分配给 TensorRT 的最大工作空间大小
dla_sram_size (python:int) – DLA 用于在层内通信的快速软件管理 RAM。
dla_local_dram_size (python:int) – DLA 用于在操作间共享中间张量数据的主机 RAM
dla_global_dram_size (python:int) – DLA 用于存储权重和元数据以供执行的主机 RAM
truncate_double (bool) – 将双精度（float64）提供的权重截断为 float32
require_full_compilation (bool) – 要求模块端到端编译，否则返回错误，而不是返回一个混合图，其中无法在 TensorRT 中运行的操作在 PyTorch 中运行
min_block_size (python:int) – 为了在 TensorRT 中运行一组操作，连续的可转换 TensorRT 操作的最小数量
torch_executed_ops (Collection[Target]) – 必须在 PyTorch 中运行的 aten 运算符集合。如果此集合不为空但 require_full_compilation 为 True，则会引发错误
torch_executed_modules (List[str]) – 必须在 PyTorch 中运行的模块列表。如果此列表不为空但 require_full_compilation 为 True，则会引发错误
pass_through_build_failures (bool) – 如果在编译过程中出现问题，则会出错（仅适用于 torch.compile 工作流）
max_aux_stream (Optional[python:int]) – 引擎中的最大流数
version_compatible (bool) – 构建与 TensorRT 未来版本兼容的 TensorRT 引擎（限制为精简运行时运算符，以为引擎提供版本前向兼容性）
optimization_level – (Optional[int]): 设置更高的优化级别允许 TensorRT 花费更长的引擎构建时间来搜索更多优化选项。生成的引擎可能比使用较低优化级别构建的引擎性能更好。默认优化级别为 3。有效值包括从 0 到当前最大优化级别（目前为 5）的整数。将其设置为大于最大级别将产生与最大级别相同的行为。
use_python_runtime – (bool): 返回一个使用纯 Python 运行时的图，减少序列化的选项
use_fast_partitioner – (bool): 使用基于邻接的划分方案而不是全局划分器。邻接划分速度更快，但可能不是最优的。如果追求最佳性能，请使用全局划分器（False）。
enable_experimental_decompositions (bool) – 使用完整的运算符分解集。这些分解可能未经测试，但有助于使图更易于转换为 TensorRT，从而可能增加在 TensorRT 中运行的图的数量。
dryrun (bool) – “Dryrun”模式的切换，执行除转换为 TRT 和记录输出之外的所有操作
hardware_compatible (bool) – 构建与构建引擎的 GPU 之外的 GPU 架构兼容的 TensorRT 引擎（目前适用于 NVIDIA Ampere 及更新版本）
timing_cache_path (str) – 计时缓存的路径（如果存在）或编译后将保存到的位置
lazy_engine_init (bool) – 延迟设置引擎直到所有引擎的编译完成。可以允许更大的具有多个图中断的模型进行编译，但可能导致运行时 GPU 内存过载。
enabled_precisions (Set(Union(torch.dpython:type, torch_tensorrt.dpython:type))) – TensorRT 在选择内核时可以使用的数据类型集合
**kwargs – Any,

返回

MutableTorchTensorRTModule

compile() → None[source]¶: (重新)编译 TRT 图模块使用 PyTorch 模块。只要权重结构发生更改（形状、更多层…），就应该调用此函数。MutableTorchTensorRTModule 会自动捕获权重值更新并调用此函数来重新编译。如果无法捕获更改，请手动调用此函数来重新编译 TRT 图模块。

refit_gm() → None[source]¶: 使用任何更新重拟合 TRT 图模块。只要权重值发生更改但权重结构保持不变，就应调用此函数。MutableTorchTensorRTModule 会自动捕获权重值更新并调用此函数来重拟合模块。如果无法捕获更改，请手动调用此函数来更新 TRT 图模块。

set_expected_dynamic_shape_range(args_dynamic_shape: tuple[dict[Any, Any]], kwargs_dynamic_shape: dict[str, Any]) → None[source]¶

设置动态形状范围。形状提示应严格遵循传递给 forward 函数的 arg_inputs 和 kwarg_inputs，并且不应省略任何条目（除了 kwarg_inputs 中的 None）。如果输入中存在嵌套字典/列表，则该条目的动态形状也应为嵌套字典/列表。如果某个输入的动态形状不是必需的，则应为该输入提供一个空字典作为形状提示。请注意，您应该排除值为 None 的关键字参数，因为它们将被过滤掉。

示例： def forward(a, b, c=0, d=0)

pass

seq_len = torch.export.Dim(“seq_len”, min=1, max=10) args_dynamic_shape = ({0: seq_len}, {}) # b 没有动态形状 kwargs_dynamic_shape = {‘c’: {0, seq_len}, ‘d’: {}} # d 没有动态形状 set_expected_dynamic_shape_range(args_dynamic_shape, kwargs_dynamic_shape) # 稍后当您调用函数 forward(*(a, b), **{c:…, d:…})

参考： https://pytorch.ac.cn/docs/stable/export.html#expressing-dynamism :param args_dynamic_shape: arg_inputs 的动态形状提示，:type args_dynamic_shape: tuple[dict[Any, Any]] :param kwargs_dynamic_shape: (dict[str, Any]): kwarg_inputs 的动态形状提示

set_weight_streaming_ctx(requested_budget: Optional[int] = None) → None[source]¶: 设置权重流预算。如果未设置预算，则使用自动权重流预算。

class torch_tensorrt.Input(*args: Any, **kwargs: Any)[source]¶

定义模块的输入，包括预期的形状、数据类型和张量格式。

变量

shape_mode (torch_tensorrt.Input._ShapeMode) – 输入是静态形状还是动态形状
shape (Tuple or Dict) –
单个元组或元组字典，用于定义输入形状。静态形状的输入将具有单个元组。动态输入的格式为
```
{"min_shape": Tuple, "opt_shape": Tuple, "max_shape": Tuple}
```
dtype (torch_tensorrt.dpython:type) – 输入张量的预期数据类型（默认：torch_tensorrt.dtype.float32）
format (torch_tensorrt.TensorFormat) – 输入张量的预期格式（默认：torch_tensorrt.TensorFormat.NCHW）

__init__(*args: Any, **kwargs: Any) → None[source]¶

torch_tensorrt.Input 的 __init__ 方法

Input 接受几种构造模式中的一种

参数

shape (Tuple or List, optional) – 输入张量的静态形状

关键字参数

shape (Tuple or List, optional) – 输入张量的静态形状
min_shape (Tuple or List, optional) – 输入张量形状范围的最小尺寸注意：min_shape、opt_shape、max_shape 这三个参数必须都提供，不能有位置参数，shape 不能被定义，并且隐式地将 Input 的 shape_mode 设置为 DYNAMIC
opt_shape (Tuple or List, optional) – 输入张量形状范围的最优尺寸注意：min_shape、opt_shape、max_shape 这三个参数必须都提供，不能有位置参数，shape 不能被定义，并且隐式地将 Input 的 shape_mode 设置为 DYNAMIC
max_shape (Tuple or List, optional) – 输入张量形状范围的最大尺寸注意：min_shape、opt_shape、max_shape 这三个参数必须都提供，不能有位置参数，shape 不能被定义，并且隐式地将 Input 的 shape_mode 设置为 DYNAMIC
dtype (torch.dpython:type or torch_tensorrt.dpython:type) – 输入张量的预期数据类型（默认为 torch_tensorrt.dtype.float32）
format (torch.memory_format or torch_tensorrt.TensorFormat) – 输入张量的预期格式（默认为 torch_tensorrt.TensorFormat.NCHW）
tensor_domain (Tuple(python:float, python:float), optional) – 张量允许值的域，表示为区间符号：[tensor_domain[0], tensor_domain[1])。注意：输入“None”（或不指定）将边界设置为 [0, 2)
torch_tensor (torch.Tensor) – 包含与此 Input 对应的 torch 张量。
name (str, optional) – 在输入 nn.Module 的 forward 函数中此输入的名称。用于在 dynamo tracer 中指定相应输入的动态形状。

示例

Input([1,3,32,32], dtype=torch.float32, format=torch.channel_last)
Input(shape=(1,3,32,32), dtype=torch_tensorrt.dtype.int32, format=torch_tensorrt.TensorFormat.NCHW)
Input(min_shape=(1,3,32,32), opt_shape=[2,3,32,32], max_shape=(3,3,32,32)) #隐式 dtype=torch_tensorrt.dtype.float32, format=torch_tensorrt.TensorFormat.NCHW

example_tensor(optimization_profile_field: Optional[str] = None) → Tensor[source]¶

获取 Input 对象指定的形状的示例张量

参数: optimization_profile_field (Optional(str)) – 在 Input 是动态形状的情况下，用于形状的字段名称
返回: 一个 PyTorch 张量

classmethod from_tensor(t: Tensor, disable_memory_format_check: bool = False) → Input[source]¶

生成一个包含给定 PyTorch 张量信息的 Input 对象。

参数

tensor (torch.Tensor) – 一个 PyTorch 张量。
disable_memory_format_check (bool) – 是否验证输入张量的内存格式

返回

一个 Input 对象。

classmethod from_tensors(ts: Sequence[Tensor], disable_memory_format_check: bool = False) → List[Input][source]¶

生成一个包含所有给定 PyTorch 张量信息的 Input 列表。

参数

tensors (Iterable[torch.Tensor]) – 一个 PyTorch 张量列表。
disable_memory_format_check (bool) – 是否验证输入张量的内存格式

返回

一个 Input 对象列表。

dtype: dtype = 1¶

torch_tensorrt.dtype.float32)

类型: 输入张量的预期数据类型（默认为

format: memory_format = 1¶

torch_tensorrt.memory_format.linear)

类型: 输入张量的预期格式（默认为

class torch_tensorrt.Device(*args: Any, **kwargs: Any)[source]¶

定义可用于指定引擎目标设备的设备。

变量

device_type (DeviceType) – 目标设备类型（GPU 或 DLA）。如果指定了 dla_core，则隐式设置。
gpu_id (python:int) – 目标 GPU 的设备 ID
dla_core (python:int) – 目标 DLA 核的核 ID
allow_gpu_fallback (bool) – 如果 DLA 不支持某个操作，是否允许回退到 GPU

__init__(*args: Any, **kwargs: Any)[source]¶

torch_tensorrt.Device 的 __init__ 方法

Device 接受几种构造模式中的一种

参数

spec (str) – 设备规范字符串，例如“dla:0”表示 dla，核心 ID 为 0

关键字参数

gpu_id (python:int) – 目标 GPU 的 ID（如果指定了 dla_core，则会被覆盖，该 GPU 管理 DLA）。如果指定，则不应提供位置参数
dla_core (python:int) – 目标 DLA 核的 ID。如果指定，则不应提供位置参数。
allow_gpu_fallback (bool) – 允许 TensorRT 将操作调度到 GPU，如果它们不支持 DLA（如果设备类型不是 DLA，则忽略）

示例

Device(“gpu:1”)
Device(“cuda:1”)
Device(“dla:0”, allow_gpu_fallback=True)
Device(gpu_id=0, dla_core=0, allow_gpu_fallback=True)
Device(dla_core=0, allow_gpu_fallback=True)
Device(gpu_id=1)

device_type: DeviceType = 1¶: 目标设备类型（GPU 或 DLA）。如果指定了 dla_core，则隐式设置。

dla_core: int = -1¶: 目标 DLA 核的核 ID

gpu_id: int = -1¶: 目标 GPU 的设备 ID

枚举¶

class torch_tensorrt.dtype(value, names=None, *, module=None, qualname=None, type=None, start=1, boundary=None)[source]¶

描述数据类型的枚举，与 torch、tensorrt 和 numpy 的数据类型兼容

to(t: Union[Type[dtype], Type[DataType], Type[dtype], Type[dtype]], use_default: bool = False) → Union[dtype, DataType, dtype, dtype][source]¶

将 dtype 转换为 [torch, numpy, tensorrt] 中的等效类型

将 self 转换为 numpy、torch 和 tensorrt 等效数据类型之一。如果 self 在目标库中不受支持，则会引发异常。因此，不建议直接使用此方法。

或者使用 torch_tensorrt.dtype.try_to()

参数

t (Union(Type(torch.dpython:type), Type(tensorrt.DataType), Type(numpy.dpython:type), Type(dpython:type))) – 要转换到的其他库的数据类型枚举
use_default (bool) – 在某些情况下，一个通用的类型（例如 torch.float）就足够了，因此，而不是抛出异常，而是返回默认值。

返回

来自库枚举 t 的 torch_tensorrt.dtype 等效数据类型

返回类型

Union(torch.dtype, tensorrt.DataType, numpy.dtype, dtype)

引发

TypeError – 不支持的数据类型或未知目标

示例

# Succeeds
float_dtype = torch_tensorrt.dtype.f32.to(torch.dtype) # Returns torch.float

# Failure
float_dtype = torch_tensorrt.dtype.bf16.to(numpy.dtype) # Throws exception

classmethod try_from(t: Union[dtype, DataType, dtype, dtype], use_default: bool = False) → Optional[dtype][source]¶

从其他库的数据类型系统中创建 Torch-TensorRT 数据类型。

接受来自 numpy、torch 和 tensorrt 的数据类型枚举，并创建 torch_tensorrt.dtype。如果源数据类型系统不受支持或 Torch-TensorRT 中不支持该类型，则返回 None。

参数

t (Union(torch.dpython:type, tensorrt.DataType, numpy.dpython:type, dpython:type)) – 其他库的数据类型枚举
use_default (bool) – 在某些情况下，一个通用的类型（例如 torch_tensorrt.dtype.f32）就足够了，因此，而不是抛出异常，而是返回默认值。

返回

等效的 torch_tensorrt.dtype 到 t 或 None

返回类型

Optional(dtype)

示例

# Succeeds
float_dtype = torch_tensorrt.dtype.try_from(torch.float) # Returns torch_tensorrt.dtype.f32

# Unsupported type
float_dtype = torch_tensorrt.dtype.try_from(torch.complex128) # Returns None

try_to(t: Union[Type[dtype], Type[DataType], Type[dtype], Type[dtype]], use_default: bool) → Optional[Union[dtype, DataType, dtype, dtype]][source]¶

将 dtype 转换为 [torch, numpy, tensorrt] 中的等效类型

将 self 转换为 numpy、torch 和 tensorrt 等效数据类型之一。如果 self 在目标库中不受支持，则返回 None。

参数

t (Union(Type(torch.dpython:type), Type(tensorrt.DataType), Type(numpy.dpython:type), Type(dpython:type))) – 要转换到的其他库的数据类型枚举
use_default (bool) – 在某些情况下，一个通用的类型（例如 torch.float）就足够了，因此，而不是抛出异常，而是返回默认值。

返回

来自库枚举 t 的 torch_tensorrt.dtype 等效数据类型

返回类型

Optional(Union(torch.dtype, tensorrt.DataType, numpy.dtype, dtype))

示例

# Succeeds
float_dtype = torch_tensorrt.dtype.f32.to(torch.dtype) # Returns torch.float

# Failure
float_dtype = torch_tensorrt.dtype.bf16.to(numpy.dtype) # Returns None

b¶

布尔值，等同于 dtype.bool

bf16¶

16 位“Brain”浮点数，等同于 dtype.bfloat16

f16¶

16 位浮点数，等同于 dtype.half、dtype.fp16 和 dtype.float16

f32¶

32 位浮点数，等同于 dtype.float、dtype.fp32 和 dtype.float32

f4¶

4 位浮点数，等同于 dtype.fp4 和 dtype.float4

f64¶

64 位浮点数，等同于 dtype.double、dtype.fp64 和 dtype.float64

f8¶

8 位浮点数，等同于 dtype.fp8 和 dtype.float8

i32¶

32 位有符号整数，等同于 dtype.int32 和 dtype.int

i64¶

64 位有符号整数，等同于 dtype.int64 和 dtype.long

i8¶

8 位有符号整数，等同于 dtype.int8，当启用为内核精度时，通常需要模型支持量化

u8¶

8 位无符号整数，等同于 dtype.uint8

unknown¶

哨兵值

class torch_tensorrt.DeviceType(value, names=None, *, module=None, qualname=None, type=None, start=1, boundary=None)[source]¶

TensorRT 将要定位的设备类型

to(t: Union[Type[DeviceType], Type[DeviceType]], use_default: bool = False) → Union[DeviceType, DeviceType][source]¶

将 DeviceType 转换为 tensorrt 中的等效类型

将 self 转换为 torch 或 tensorrt 等效设备类型之一。如果 self 在目标库中不受支持，则会引发异常。因此，不建议直接使用此方法。

或者使用 torch_tensorrt.DeviceType.try_to()

参数: t (Union(Type(tensorrt.DeviceType), Type(DeviceType))) – 要转换到的其他设备类型枚举
返回: t 枚举中的 torch_tensorrt.DeviceType 等效设备类型
返回类型: Union(tensorrt.DeviceType, DeviceType)
引发: TypeError – 未知目标类型或不支持的设备类型

示例

# Succeeds
trt_dla = torch_tensorrt.DeviceType.DLA.to(tensorrt.DeviceType) # Returns tensorrt.DeviceType.DLA

classmethod try_from(d: Union[DeviceType, DeviceType]) → Optional[DeviceType][source]¶

从 TensorRT 设备类型枚举创建 Torch-TensorRT 设备类型枚举。

接受来自 tensorrt 的设备类型枚举，并创建 torch_tensorrt.DeviceType。如果源不受支持或 Torch-TensorRT 中不支持该设备类型，则会引发异常。因此，不建议直接使用此方法。

或者使用 torch_tensorrt.DeviceType.try_from()

参数: d (Union(tensorrt.DeviceType, DeviceType)) – 其他设备类型的枚举
返回: 等效的 torch_tensorrt.DeviceType 到 d
返回类型: DeviceType

示例

torchtrt_dla = torch_tensorrt.DeviceType._from(tensorrt.DeviceType.DLA)

try_to(t: Union[Type[DeviceType], Type[DeviceType]], use_default: bool = False) → Optional[Union[DeviceType, DeviceType]][source]¶

将 DeviceType 转换为 tensorrt 中的等效类型

将 self 转换为 torch 或 tensorrt 等效的内存格式。如果 self 在目标库中不受支持，则返回 None。

参数: t (Union(Type(tensorrt.DeviceType), Type(DeviceType))) – 要转换到的其他设备类型枚举
返回: t 枚举中的 torch_tensorrt.DeviceType 等效设备类型
返回类型: 可选（Union(tensorrt.DeviceType, DeviceType)）

示例

# Succeeds
trt_dla = torch_tensorrt.DeviceType.DLA.to(tensorrt.DeviceType) # Returns tensorrt.DeviceType.DLA

DLA¶

目标是 DLA 核心

GPU¶

目标是 GPU

UNKNOWN¶

哨兵值

class torch_tensorrt.EngineCapability(value, names=None, *, module=None, qualname=None, type=None, start=1, boundary=None)[source]¶

EngineCapability 确定了网络在构建时的限制以及其目标运行时。

to(t: Union[Type[EngineCapability], Type[EngineCapability]]) → Union[EngineCapability, EngineCapability][source]¶

将 EngineCapability 转换为 tensorrt 中的等效类型。

将 self 转换为 torch 或 tensorrt 等效的引擎能力。如果 self 在目标库中不受支持，则将引发异常。因此，不建议直接使用此方法。

或者使用 torch_tensorrt.EngineCapability.try_to()

参数: t (Union(Type(tensorrt.EngineCapability), Type(EngineCapability))) – 要转换为的另一个库的引擎能力枚举
返回: 对应于 t 的 torch_tensorrt.EngineCapability 引擎能力。
返回类型: Union(tensorrt.EngineCapability, EngineCapability)
引发: TypeError – 未知目标类型或不支持的引擎能力。

示例

# Succeeds
torchtrt_dla_ec = torch_tensorrt.EngineCapability.DLA_STANDALONE.to(tensorrt.EngineCapability) # Returns tensorrt.EngineCapability.DLA

classmethod try_from() → Optional[EngineCapability][source]¶

从 TensorRT 引擎能力枚举创建 Torch-TensorRT 引擎能力枚举。

采用来自 tensorrt 的设备类型枚举，并创建 torch_tensorrt.EngineCapability。如果源不受支持或引擎能力级别在 Torch-TensorRT 中不受支持，则将引发异常。因此，不建议直接使用此方法。

或者使用 torch_tensorrt.EngineCapability.try_from()

参数: c (Union(tensorrt.EngineCapability, EngineCapability)) – 来自另一个库的引擎能力枚举
返回: 对应于 c 的 torch_tensorrt.EngineCapability。
返回类型: EngineCapability

示例

torchtrt_safety_ec = torch_tensorrt.EngineCapability._from(tensorrt.EngineCapability.SAEFTY)

try_to(t: Union[Type[EngineCapability], Type[EngineCapability]]) → Optional[Union[EngineCapability, EngineCapability]][source]¶

将 EngineCapability 转换为 tensorrt 中的等效类型。

将 self 转换为 torch 或 tensorrt 等效的引擎能力。如果 self 在目标库中不受支持，则返回 None。

参数: t (Union(Type(tensorrt.EngineCapability), Type(EngineCapability))) – 要转换为的另一个库的引擎能力枚举
返回: 对应于 t 的 torch_tensorrt.EngineCapability 引擎能力。
返回类型: 可选（Union(tensorrt.EngineCapability, EngineCapability)）

示例

# Succeeds
trt_dla_ec = torch_tensorrt.EngineCapability.DLA.to(tensorrt.EngineCapability) # Returns tensorrt.EngineCapability.DLA_STANDALONE

DLA_STANDALONE¶

EngineCapability.DLA_STANDALONE 提供了一组受限的网络操作，这些操作兼容 DLA，并且生成的序列化引擎可以使用独立的 DLA 运行时 API 执行。

SAFETY¶

EngineCapability.SAFETY 提供了一组受限的网络操作，这些操作经过安全认证，并且生成的序列化引擎可以在 tensorrt.safe 命名空间中使用 TensorRT 的安全运行时 API 执行。

STANDARD¶

EngineCapability.STANDARD 对功能没有任何限制，并且生成的序列化引擎可以使用 TensorRT 的标准运行时 API 执行。

class torch_tensorrt.memory_format(value, names=None, *, module=None, qualname=None, type=None, start=1, boundary=None)[source]¶

to(t: Union[Type[memory_format], Type[TensorFormat], Type[memory_format]]) → Union[memory_format, TensorFormat, memory_format][source]¶

将 memory_format 转换为 torch 或 tensorrt 中的等效类型。

将 self 转换为 torch 或 tensorrt 等效的内存格式。如果 self 在目标库中不受支持，则将引发异常。因此，不建议直接使用此方法。

或者使用 torch_tensorrt.memory_format.try_to()

参数: t (Union(Type(torch.memory_format), Type(tensorrt.TensorFormat), Type(memory_format))) – 要转换为的另一个库的内存格式类型枚举
返回: 对应于 t 的 torch_tensorrt.memory_format 内存格式。
返回类型: Union(torch.memory_format, tensorrt.TensorFormat, memory_format)
引发: TypeError – 未知目标类型或不支持的内存格式。

示例

# Succeeds
tf = torch_tensorrt.memory_format.linear.to(torch.dtype) # Returns torch.contiguous

classmethod try_from(f: Union[memory_format, TensorFormat, memory_format]) → Optional[memory_format][source]¶

从另一个库的内存格式枚举创建 Torch-TensorRT 内存格式枚举。

采用来自 torch 或 tensorrt 的内存格式枚举，并创建 torch_tensorrt.memory_format。如果源不受支持或内存格式在 Torch-TensorRT 中不受支持，则将返回 None。

参数: f (Union(torch.memory_format, tensorrt.TensorFormat, memory_format)) – 来自另一个库的内存格式枚举
返回: 对应于 f 的 torch_tensorrt.memory_format。
返回类型: Optional(memory_format)

示例

torchtrt_linear = torch_tensorrt.memory_format.try_from(torch.contiguous)

try_to(t: Union[Type[memory_format], Type[TensorFormat], Type[memory_format]]) → Optional[Union[memory_format, TensorFormat, memory_format]][source]¶

将 memory_format 转换为 torch 或 tensorrt 中的等效类型。

将 self 转换为 torch 或 tensorrt 等效的内存格式。如果 self 在目标库中不受支持，则返回 None。

参数: t (Union(Type(torch.memory_format), Type(tensorrt.TensorFormat), Type(memory_format))) – 要转换为的另一个库的内存格式类型枚举
返回: 对应于 t 的 torch_tensorrt.memory_format 内存格式。
返回类型: 可选（Union(torch.memory_format, tensorrt.TensorFormat, memory_format)）

示例

# Succeeds
tf = torch_tensorrt.memory_format.linear.to(torch.dtype) # Returns torch.contiguous

cdhw32¶

三十通道的宽通道向量化行主格式，具有 3 个空间维度。

此格式绑定到 FP16 和 INT8。它仅适用于维度 >= 4 的情况。

对于具有维度 {N, C, D, H, W} 的张量，内存布局等效于维度为 [N][(C+31)/32][D][H][W][32] 的 C 数组，其中张量坐标 (n, d, c, h, w) 映射到数组下标 [n][c/32][d][h][w][c%32]。

chw16¶

十六通道的宽通道向量化行主格式。

此格式绑定到 FP16。它仅适用于维度 >= 3 的情况。

对于具有维度 {N, C, H, W} 的张量，内存布局等效于维度为 [N][(C+15)/16][H][W][16] 的 C 数组，其中张量坐标 (n, c, h, w) 映射到数组下标 [n][c/16][h][w][c%16]。

chw2¶

双通道的宽通道向量化行主格式。

此格式在 TensorRT 中绑定到 FP16。它仅适用于维度 >= 3 的情况。

对于具有维度 {N, C, H, W} 的张量，内存布局等效于维度为 [N][(C+1)/2][H][W][2] 的 C 数组，其中张量坐标 (n, c, h, w) 映射到数组下标 [n][c/2][h][w][c%2]。

chw32¶

三十二通道的宽通道向量化行主格式。

此格式仅适用于维度 >= 3 的情况。

对于具有维度 {N, C, H, W} 的张量，内存布局等效于维度为 [N][(C+31)/32][H][W][32] 的 C 数组，其中张量坐标 (n, c, h, w) 映射到数组下标 [n][c/32][h][w][c%32]。

chw4¶

四通道的宽通道向量化行主格式。此格式绑定到 INT8。它仅适用于维度 >= 3 的情况。

对于具有维度 {N, C, H, W} 的张量，内存布局等效于维度为 [N][(C+3)/4][H][W][4] 的 C 数组，其中张量坐标 (n, c, h, w) 映射到数组下标 [n][c/4][h][w][c%4]。

dhwc¶

非向量化的通道后格式。此格式绑定到 FP32。它仅适用于维度 >= 4 的情况。

等效于 memory_format.channels_last_3d。

dhwc8¶

八通道格式，其中 C 被填充到 8 的倍数。

此格式绑定到 FP16，并且仅适用于维度 >= 4 的情况。

对于具有维度 {N, C, D, H, W} 的张量，内存布局等效于维度为 [N][D][H][W][(C+7)/8*8] 的数组，其中张量坐标 (n, c, d, h, w) 映射到数组下标 [n][d][h][w][c]。

dla_hwc4¶

DLA 图像格式。通道后格式。C 只能是 1、3、4。如果 C == 3，它将被舍入为 4。H 轴步进的步幅向上舍入到 32 字节。

此格式绑定到 FP16/Int8，并且仅适用于维度 >= 3 的情况。

对于具有维度 {N, C, H, W} 的张量，其中 C' 在 C 为 1、3、4 时分别为 1、4、4，内存布局等效于维度为 [N][H][roundUp(W, 32/C’/elementSize)][C’] 的 C 数组，其中 elementSize 对于 FP16 为 2，对于 Int8 为 1，C' 是舍入后的 C。张量坐标 (n, c, h, w) 映射到数组下标 [n][h][w][c]。

dla_linear¶

DLA 平面格式。行主格式。H 轴步进的步幅向上舍入到 64 字节。

此格式绑定到 FP16/Int8，并且仅适用于维度 >= 3 的情况。

对于具有维度 {N, C, H, W} 的张量，内存布局等效于维度为 [N][C][H][roundUp(W, 64/elementSize)] 的 C 数组，其中 elementSize 对于 FP16 为 2，对于 Int8 为 1，张量坐标 (n, c, h, w) 映射到数组下标 [n][c][h][w]。

hwc¶

非向量化的通道后格式。此格式绑定到 FP32，并且仅适用于维度 >= 3 的情况。

等效于 memory_format.channels_last。

hwc16¶

十六通道格式，其中 C 被填充到 16 的倍数。此格式绑定到 FP16。它仅适用于维度 >= 3 的情况。

对于具有维度 {N, C, H, W} 的张量，内存布局等效于维度为 [N][H][W][(C+15)/16*16] 的数组，其中张量坐标 (n, c, h, w) 映射到数组下标 [n][h][w][c]。

hwc8¶

八通道格式，其中 C 被填充到 8 的倍数。

此格式绑定到 FP16。它仅适用于维度 >= 3 的情况。

对于具有维度 {N, C, H, W} 的张量，内存布局等效于维度为 [N][H][W][(C+7)/8*8] 的数组，其中张量坐标 (n, c, h, w) 映射到数组下标 [n][h][w][c]。

linear¶

行主线性格式。

对于具有维度 {N, C, H, W} 的张量，W 轴始终具有单位步幅，并且其他轴的步幅至少为下一个维度乘以下一个步幅的乘积。步幅与维度为 [N][C][H][W] 的 C 数组相同。

等效于 memory_format.contiguous。

torch_tensorrt¶

函数¶

类¶

枚举¶

子模块¶

文档

教程

资源