量化 API 参考 — PyTorch 2.9 文档

torch.ao.quantization#

该模块包含 Eager 模式下的量化 API。

顶级 API#

`quantize`	使用训练后静态量化对输入浮点模型进行量化。
`quantize_dynamic`	将浮点模型转换为动态（即
`quantize_qat`	进行量化感知训练并输出量化模型
`prepare`	准备模型副本以进行量化校准或量化感知训练。
`prepare_qat`	准备模型副本以进行量化校准或量化感知训练，并将其转换为量化版本。
`convert`	根据 mapping，通过调用目标模块类的 from_float 方法，将输入模块中的子模块转换为不同的模块。

准备模型以进行量化#

`fuse_modules.fuse_modules`	将模块列表融合成一个单一的模块。
`QuantStub`	量化存根模块，在校准之前，它与观察器相同，将在 convert 中被替换为 nnq.Quantize。
`DeQuantStub`	反量化存根模块，在校准之前，它与恒等函数相同，将在 convert 中被替换为 nnq.DeQuantize。
`QuantWrapper`	一个包装类，用于包装输入模块，添加 QuantStub 和 DeQuantStub，并将模块的调用围绕量化和反量化模块的调用。
`add_quant_dequant`	如果叶子子模块具有有效的 qconfig，则将其包装在 QuantWrapper 中。请注意，此函数将就地修改模块的子模块，并且还可以返回一个包装输入模块的新模块。

实用函数#

swap_module

如果模块具有量化对应项并且附加了 observer，则替换该模块。

propagate_qconfig_

通过模块层级结构传播 qconfig，并在每个叶子模块上分配 qconfig 属性。

default_eval_fn

定义默认的评估函数。

torch.ao.quantization.quantize_fx#

该模块包含 FX 图模式量化的 API（原型）。

`prepare_fx`	准备模型以进行训练后量化。
`prepare_qat_fx`	准备模型以进行量化感知训练。
`convert_fx`	将已校准或训练过的模型转换为量化模型。
`fuse_fx`	融合模块，如 conv+bn、conv+bn+relu 等。模型必须处于 eval 模式。

torch.ao.quantization.qconfig_mapping#

该模块包含 QConfigMapping，用于配置 FX 图模式量化。

QConfigMapping

模型操作到 torch.ao.quantization.QConfig 的映射。

get_default_qconfig_mapping

返回用于训练后量化的默认 QConfigMapping。

get_default_qat_qconfig_mapping

返回用于量化感知训练的默认 QConfigMapping。

torch.ao.quantization.backend_config#

该模块包含 BackendConfig，一个配置对象，用于定义量化在后端中如何被支持。目前仅由 FX 图模式量化使用，但我们可能会扩展 Eager 模式量化以使其也能工作。

`BackendConfig`	定义给定后端可以量化的模式集，以及如何从这些模式生成参考量化模型的配置。
`BackendPatternConfig`	指定给定运算符模式的量化行为的配置对象。
`DTypeConfig`	指定参考模型规范中用于量化操作的激活、权重和偏置的输入和输出数据的支持数据类型的配置对象。
`DTypeWithConstraints`	用于指定给定 dtype 的附加约束的配置，例如量化值范围、比例值范围和固定量化参数，用于 `DTypeConfig`。
`ObservationType`	一个枚举，表示运算符/运算符模式应如何被观察的各种方式。

torch.ao.quantization.fx.custom_config#

该模块包含一些 CustomConfig 类，它们同时用于 eager 模式和 FX 图模式量化。

`FuseCustomConfig`	用于 `fuse_fx()` 的自定义配置。
`PrepareCustomConfig`	用于 `prepare_fx()` 和 `prepare_qat_fx()` 的自定义配置。
`ConvertCustomConfig`	用于 `convert_fx()` 的自定义配置。
`StandaloneModuleConfigEntry`

torch.ao.quantization.quantizer#

torch.ao.quantization.pt2e (PyTorch 2.0 导出实现中的量化)#

torch.ao.quantization.pt2e.export_utils#

model_is_exported

如果 torch.nn.Module 已导出，则返回 True，否则返回 False（例如。

torch.ao.quantization.pt2e.lowering#

lower_pt2e_quantized_to_x86

将 PT2E 量化的模型降低到 x86 后端。

PT2 导出 (pt2e) 数值调试器#

`generate_numeric_debug_handle`	为给定 ExportedProgram 的图模块中的所有节点（如 conv2d、squeeze、conv1d 等）附加 numeric_debug_handle_id，占位符除外。
`CUSTOM_KEY`	str(object='') -> str str(bytes_or_buffer[, encoding[, errors]]) -> str
`NUMERIC_DEBUG_HANDLE_KEY`	str(object='') -> str str(bytes_or_buffer[, encoding[, errors]]) -> str
`prepare_for_propagation_comparison`	为具有 numeric_debug_handle 的节点添加输出记录器。
`extract_results_from_loggers`	对于给定模型，提取每个调试句柄的张量统计信息及相关信息。
`compare_results`	给定两个从 debug_handle_id（整数）到张量列表的映射，返回一个从 debug_handle_id 到 NodeAccuracySummary 的映射，其中包含 SQNR、MSE 等比较信息。

torch（与量化相关的函数）#

这描述了 torch 命名空间中与量化相关的函数。

quantize_per_tensor

将浮点张量转换为具有给定缩放和零点的量化张量。

quantize_per_channel

将浮点张量转换为具有给定缩放和零点的逐通道量化张量。

dequantize

通过对量化张量进行反量化，返回一个fp32张量。

torch.Tensor（与量化相关的元组）#

量化张量支持常规全精度张量有限的数据操作方法子集。

`view`	返回一个与 `self` 张量具有相同数据但具有不同 `shape` 的新张量。
`as_strided`	参见 `torch.as_strided()`。
`expand`	返回 `self` 张量的新视图，其中单例维度已扩展到更大的大小。
`flatten`	参见 `torch.flatten()`。
`select`	参见 `torch.select()`。
`ne`	参见 `torch.ne()`。
`eq`	参见 `torch.eq()`。
`ge`	参见 `torch.ge()`。
`le`	参见 `torch.le()`。
`gt`	参见 `torch.gt()`。
`lt`	参见 `torch.lt()`。
`copy_`	将 `src` 的元素复制到 `self` 张量中，并返回 `self`。
`clone`	参见 `torch.clone()`。
`dequantize`	给定一个量化张量，对其进行去量化并返回去量化的浮点张量。
`equal`	参见 `torch.equal()`。
`int_repr`	给定一个量化张量，`self.int_repr()` 返回一个 CPU 张量，其数据类型为 uint8_t，用于存储给定张量的底层 uint8_t 值。
`max`	参见 `torch.max()`。
`mean`	参见 `torch.mean()`。
`min`	参见 `torch.min()`。
`q_scale`	给定一个通过线性（仿射）量化量化的张量，返回底层量化器() 的尺度。
`q_zero_point`	给定一个通过线性（仿射）量化量化的张量，返回底层量化器() 的零点。
`q_per_channel_scales`	给定一个通过线性（仿射）逐通道量化量化的张量，返回底层量化器的比例（scale）张量。
`q_per_channel_zero_points`	给定一个通过线性（仿射）逐通道量化量化的张量，返回底层量化器的零点（zero_point）张量。
`q_per_channel_axis`	给定一个通过线性（仿射）逐通道量化量化的张量，返回应用逐通道量化的维度的索引。
`resize_`	将 `self` 张量调整为指定大小。
`sort`	参见 `torch.sort()`。
`topk`	参见 `torch.topk()`。

torch.ao.quantization.observer#

该模块包含观察器，用于在校准（PTQ）或训练（QAT）期间收集值的统计信息。

`ObserverBase`	基础观察器模块。
`MinMaxObserver`	基于运行的 min 和 max 值计算量化参数的观察器模块。
`MovingAverageMinMaxObserver`	基于 min 和 max 值的移动平均值计算量化参数的观察器模块。
`PerChannelMinMaxObserver`	用于基于运行时的逐通道最小/最大值计算量化参数的观察者模块。
`MovingAveragePerChannelMinMaxObserver`	用于基于运行时的逐通道最小/最大值计算量化参数的观察者模块。
`HistogramObserver`	该模块记录张量值的运行直方图以及 min/max 值。
`PlaceholderObserver`	一个不执行任何操作的观察器，仅将其配置传递给量化模块的 `.from_float()`。
`RecordingObserver`	该模块主要用于调试，并记录运行时张量值。
`NoopObserver`	一个不执行任何操作的观察器，仅将其配置传递给量化模块的 `.from_float()`。
`get_observer_state_dict`	返回对应于观察器统计信息的 state dict。
`load_observer_state_dict`	给定输入模型和包含模型观察器统计信息的 state_dict，将统计信息加载回模型。
`default_observer`	静态量化的默认观察器，通常用于调试。
`default_placeholder_observer`	默认占位符观察器，通常用于量化到 torch.float16。
`default_debug_observer`	默认仅用于调试的观察器。
`default_weight_observer`	默认权重观察器。
`default_histogram_observer`	默认直方图观察器，通常用于 PTQ。
`default_per_channel_weight_observer`	默认逐通道权重观察器，通常用于支持逐通道权重量化的后端，例如 fbgemm。
`default_dynamic_quant_observer`	动态量化的默认观察器。
`default_float_qparams_observer`	浮点零点的默认观察器。
`AffineQuantizedObserverBase`	仿射量化的观察器模块（pytorch/ao）。
`Granularity`	表示量化粒度的基类。
`MappingType`	浮点数如何映射到整数
`PerAxis`	表示量化中的逐轴粒度。
`PerBlock`	表示量化中的逐块粒度。
`PerGroup`	表示量化中的逐通道组粒度。
`PerRow`	表示量化中的逐行粒度。
`PerTensor`	表示量化中的逐张量粒度。
`PerToken`	表示量化中的逐 token 粒度。
`TorchAODType`	PyTorch 核心中尚不存在的数据类型的占位符。
`ZeroPointDomain`	枚举，指示零点是在整数域还是浮点域
`get_block_size`	根据输入形状和粒度类型获取块大小。

torch.ao.quantization.fake_quantize#

该模块实现了在 QAT 期间用于执行虚假量化的模块。

`FakeQuantizeBase`	基础虚假量化模块。
`FakeQuantize`	在训练时模拟量化和反量化操作。
`FixedQParamsFakeQuantize`	在训练时模拟量化和反量化。
`FusedMovingAvgObsFakeQuantize`	定义一个用于观察张量的融合模块。
`default_fake_quant`	激活的默认虚假量化。
`default_weight_fake_quant`	权重的默认虚假量化。
`default_per_channel_weight_fake_quant`	逐通道权重的默认虚假量化。
`default_histogram_fake_quant`	使用直方图的激活的虚假量化。
`default_fused_act_fake_quant`	默认 default_fake_quant 的融合版本，性能更佳。
`default_fused_wt_fake_quant`	默认 default_weight_fake_quant 的融合版本，性能更佳。
`default_fused_per_channel_wt_fake_quant`	默认 default_per_channel_weight_fake_quant 的融合版本，性能更佳。
`disable_fake_quant`	禁用模块的虚假量化。
`enable_fake_quant`	启用模块的虚假量化。
`disable_observer`	禁用此模块的观察。
`enable_observer`	启用此模块的观察。

torch.ao.quantization.qconfig#

该模块定义了 QConfig 对象，用于配置单个操作的量化设置。

`QConfig`	通过为激活和权重分别提供设置（观察器类），描述了如何量化一个层或网络的一部分。
`default_qconfig`	默认 qconfig 配置。
`default_debug_qconfig`	用于调试的默认 qconfig 配置。
`default_per_channel_qconfig`	用于逐通道权重量化的默认 qconfig 配置。
`default_dynamic_qconfig`	默认动态 qconfig。
`float16_dynamic_qconfig`	权重量化为 torch.float16 的动态 qconfig。
`float16_static_qconfig`	激活和权重都量化为 torch.float16 的动态 qconfig。
`per_channel_dynamic_qconfig`	权重逐通道量化的动态 qconfig。
`float_qparams_weight_only_qconfig`	具有浮点零点的动态 qconfig。
`default_qat_qconfig`	QAT 的默认 qconfig。
`default_weight_only_qconfig`	仅量化权重的默认 qconfig。
`default_activation_only_qconfig`	仅量化激活的默认 qconfig。
`default_qat_qconfig_v2`	默认 default_qat_config 的融合版本，具有性能优势。

torch.ao.nn.intrinsic#

该模块实现了可量化的组合（融合）模块 conv + relu。

`ConvReLU1d`	这是一个顺序容器，它调用 Conv1d 和 ReLU 模块。
`ConvReLU2d`	这是一个顺序容器，它调用 Conv2d 和 ReLU 模块。
`ConvReLU3d`	这是一个顺序容器，它调用 Conv3d 和 ReLU 模块。
`LinearReLU`	这是一个顺序容器，它调用 Linear 和 ReLU 模块。
`ConvBn1d`	这是一个顺序容器，它调用 Conv 1d 和 Batch Norm 1d 模块。
`ConvBn2d`	这是一个顺序容器，它调用 Conv 2d 和 Batch Norm 2d 模块。
`ConvBn3d`	这是一个顺序容器，它调用 Conv 3d 和 Batch Norm 3d 模块。
`ConvBnReLU1d`	这是一个顺序容器，它调用 Conv 1d、Batch Norm 1d 和 ReLU 模块。
`ConvBnReLU2d`	这是一个顺序容器，它调用 Conv 2d、Batch Norm 2d 和 ReLU 模块。
`ConvBnReLU3d`	这是一个顺序容器，它调用 Conv 3d、Batch Norm 3d 和 ReLU 模块。
`BNReLU2d`	这是一个顺序容器，它调用 BatchNorm 2d 和 ReLU 模块。
`BNReLU3d`	这是一个顺序容器，它调用 BatchNorm 3d 和 ReLU 模块。

torch.ao.nn.intrinsic.qat#

该模块实现了量化感知训练所需的那些融合操作的版本。

`LinearReLU`	一个由 Linear 和 ReLU 模块融合的 LinearReLU 模块，附加了用于权重的 FakeQuantize 模块，用于量化感知训练。
`ConvBn1d`	ConvBn1d 模块是由 Conv1d 和 BatchNorm1d 融合的模块，附加了用于权重的 FakeQuantize 模块，用于量化感知训练。
`ConvBnReLU1d`	ConvBnReLU1d 模块是由 Conv1d、BatchNorm1d 和 ReLU 融合的模块，附加了用于权重的 FakeQuantize 模块，用于量化感知训练。
`ConvBn2d`	ConvBn2d 模块是由 Conv2d 和 BatchNorm2d 融合的模块，附加了用于权重的 FakeQuantize 模块，用于量化感知训练。
`ConvBnReLU2d`	ConvBnReLU2d 模块是由 Conv2d、BatchNorm2d 和 ReLU 融合的模块，附加了用于权重的 FakeQuantize 模块，用于量化感知训练。
`ConvReLU2d`	ConvReLU2d 模块是 Conv2d 和 ReLU 的融合模块，附加了用于量化感知训练的权重的 FakeQuantize 模块。
`ConvBn3d`	ConvBn3d 模块是由 Conv3d 和 BatchNorm3d 融合的模块，附加了用于权重的 FakeQuantize 模块，用于量化感知训练。
`ConvBnReLU3d`	ConvBnReLU3d 模块是由 Conv3d、BatchNorm3d 和 ReLU 融合的模块，附加了用于权重的 FakeQuantize 模块，用于量化感知训练。
`ConvReLU3d`	ConvReLU3d 模块是 Conv3d 和 ReLU 的融合模块，附加了用于量化感知训练的权重的 FakeQuantize 模块。
`update_bn_stats`
`freeze_bn_stats`

torch.ao.nn.intrinsic.quantized#

该模块实现了融合操作（如 conv + relu）的量化版本。没有 BatchNorm 变体，因为它们通常在推理时折叠到卷积中。

`BNReLU2d`	BNReLU2d 模块是 BatchNorm2d 和 ReLU 的融合模块。
`BNReLU3d`	BNReLU3d 模块是 BatchNorm3d 和 ReLU 的融合模块。
`ConvReLU1d`	ConvReLU1d 模块是 Conv1d 和 ReLU 的融合模块。
`ConvReLU2d`	ConvReLU2d 模块是 Conv2d 和 ReLU 的融合模块。
`ConvReLU3d`	ConvReLU3d 模块是 Conv3d 和 ReLU 的融合模块。
`LinearReLU`	LinearReLU 模块由 Linear 和 ReLU 模块融合而成。

torch.ao.nn.intrinsic.quantized.dynamic#

该模块实现了融合操作（如 linear + relu）的量化动态实现。

LinearReLU

由 Linear 和 ReLU 模块融合的 LinearReLU 模块，可用于动态量化。

torch.ao.nn.qat#

该模块实现了关键 nn 模块 **Conv2d()** 和 **Linear()** 的版本，它们在 FP32 下运行，但应用了舍入以模拟 INT8 量化的效果。

Conv2d

附加了用于权重的 FakeQuantize 模块的 Conv2d 模块，用于量化感知训练。

Conv3d

附加了用于权重的 FakeQuantize 模块的 Conv3d 模块，用于量化感知训练。

Linear

附加了用于权重的 FakeQuantize 模块的线性模块，用于量化感知训练。

torch.ao.nn.qat.dynamic#

该模块实现了关键 nn 模块（如 **Linear()**）的版本，它们在 FP32 下运行，但应用了舍入以模拟 INT8 量化的效果，并在推理时进行动态量化。

Linear

附加了用于权重的 FakeQuantize 模块的线性模块，用于动态量化感知训练。

torch.ao.nn.quantized#

该模块实现了 nn 层（如 ~torch.nn.Conv2d 和 torch.nn.ReLU）的量化版本。

`ReLU6`	逐元素应用函数。
`Hardswish`	这是 `Hardswish` 的量化版本。
`ELU`	这是 `ELU` 的量化等效版本。
`LeakyReLU`	这是 `LeakyReLU` 的量化等效版本。
`Sigmoid`	这是 `Sigmoid` 的量化等效版本。
`BatchNorm2d`	这是 `BatchNorm2d` 的量化版本。
`BatchNorm3d`	这是 `BatchNorm3d` 的量化版本。
`Conv1d`	对由多个量化输入平面组成的量化输入信号应用一维卷积。
`Conv2d`	对由多个量化输入平面组成的量化输入信号应用二维卷积。
`Conv3d`	对由多个量化输入平面组成的量化输入信号应用三维卷积。
`ConvTranspose1d`	对由多个输入平面组成的输入图像应用 1D 转置卷积运算符。
`ConvTranspose2d`	对由多个输入平面组成的输入图像应用 2D 转置卷积运算符。
`ConvTranspose3d`	对由多个输入平面组成的输入图像应用 3D 转置卷积算子。
`Embedding`	一个量化的 Embedding 模块，具有量化的打包权重作为输入。
`EmbeddingBag`	一个量化的 EmbeddingBag 模块，具有量化的打包权重作为输入。
`FloatFunctional`	浮点操作的状态收集器类。
`FXFloatFunctional`	在 FX 图模式量化之前替换 FloatFunctional 模块的模块，因为 activation_post_process 将直接插入到顶级模块中。
`QFunctional`	量化操作的包装类。
`Linear`	一个量化的线性模块，具有量化张量作为输入和输出。
`LayerNorm`	这是 `LayerNorm` 的量化等效版本。
`GroupNorm`	这是 `GroupNorm` 的量化等效版本。
`InstanceNorm1d`	这是 `InstanceNorm1d` 的量化等效版本。
`InstanceNorm2d`	这是 `InstanceNorm2d` 的量化等效版本。
`InstanceNorm3d`	这是 `InstanceNorm3d` 的量化等效版本。

torch.ao.nn.quantized.functional#

函数接口（量化）。

该模块实现了函数式层（如 ~torch.nn.functional.conv2d 和 torch.nn.functional.relu）的量化版本。注意： $~torch.nn.functional.relu$ 支持量化输入。

`avg_pool2d`	$kH \times kW$ 区域上的二维平均池化操作，步长为 $sH \times sW$ 。
`avg_pool3d`	在 $kD \ times kH \times kW$ 区域上的三维平均池化操作，步长为 $sD \times sH \times sW$ 。
`adaptive_avg_pool2d`	对由多个量化输入平面组成的量化输入信号应用二维自适应平均池化。
`adaptive_avg_pool3d`	对由多个量化输入平面组成的量化输入信号应用三维自适应平均池化。
`conv1d`	对量化一维输入（由多个输入平面组成）应用一维卷积。
`conv2d`	对量化二维输入（由多个输入平面组成）应用二维卷积。
`conv3d`	对量化三维输入（由多个输入平面组成）应用三维卷积。
`interpolate`	将输入下/上采样到给定的 `size` 或给定的 `scale_factor`。
`linear`	对传入的量化数据应用线性变换： $y = xA^T + b$ 。
`max_pool1d`	对量化输入信号（由多个量化输入平面组成）应用一维最大池化。
`max_pool2d`	对量化输入信号（由多个量化输入平面组成）应用二维最大池化。
`celu`	逐元素应用量化的 CELU 函数。
`leaky_relu`	的量化版本。
`hardtanh`	这是 `hardtanh()` 的量化版本。
`hardswish`	这是 `hardswish()` 的量化版本。
`threshold`	逐元素应用阈值函数的量化版本。
`elu`	这是 `elu()` 的量化版本。
`hardsigmoid`	这是 `hardsigmoid()` 的量化版本。
`clamp`	float(input, min_, max_) -> Tensor
`upsample`	将输入上采样到给定的 `size` 或给定的 `scale_factor`。
`upsample_bilinear`	使用双线性上采样对输入进行上采样。
`upsample_nearest`	使用最近邻像素值对输入进行上采样。

torch.ao.nn.quantizable#

该模块实现了某些 nn 层（如 LSTM）的可量化版本。这些模块可以与自定义模块机制结合使用，通过向 prepare 和 convert 参数提供 custom_module_config 来实现。

LSTM

可量化的长短期记忆（LSTM）。

MultiheadAttention

torch.ao.nn.quantized.dynamic#

动态量化的 Linear、LSTM、LSTMCell、GRUCell 和 RNNCell。

`Linear`	具有浮点张量作为输入和输出的动态量化线性模块。
`LSTM`	具有浮点张量作为输入和输出的动态量化 LSTM 模块。
`GRU`	对输入序列应用多层门控循环单元（GRU）RNN。
`RNNCell`	一个具有 tanh 或 ReLU 非线性的 Elman RNN 单元。
`LSTMCell`	一个长短期记忆 (LSTM) 单元。
`GRUCell`	门控循环单元（GRU）单元。

量化数据类型和量化方案#

请注意，运算符实现目前仅支持 **conv** 和 **linear** 运算符权重的逐通道量化。此外，输入数据以线性方式映射到量化数据，反之亦然，如下所示：

$\begin{aligned} \text{Quantization:}&\\ &Q_\text{out} = \text{clamp}(x_\text{input}/s+z, Q_\text{min}, Q_\text{max})\\ \text{Dequantization:}&\\ &x_\text{out} = (Q_\text{input}-z)*s \end{aligned}$

其中 :math:clamp 与 clamp() 相同，而比例 $s$ 和零点 $z$ 的计算方法如 MinMaxObserver 中所述，具体为：

$\begin{aligned} \text{if Symmetric:}&\\ &s = 2 \max(|x_\text{min}|, x_\text{max}) / \left( Q_\text{max} - Q_\text{min} \right) \\ &z = \begin{cases} 0 & \text{if dtype is qint8} \\ 128 & \text{otherwise} \end{cases}\\ \text{Otherwise:}&\\ &s = \left( x_\text{max} - x_\text{min} \right ) / \left( Q_\text{max} - Q_\text{min} \right ) \\ &z = Q_\text{min} - \text{round}(x_\text{min} / s) \end{aligned}$

其中 :math:[x_\text{min}, x_\text{max}] 表示输入数据的范围，而 :math:Q_\text{min} 和 :math:Q_\text{max} 分别是量化数据类型的最小值和最大值。

请注意，:math:s 和 :math:z 的选择意味着，只要零点在输入数据范围内或使用对称量化时，零点都不会产生量化误差。

可以通过 自定义运算符机制 <https://pytorch.ac.cn/tutorials/advanced/torch_script_custom_ops.html>_ 实现其他数据类型和量化方案。

torch.qscheme — 用于描述张量量化方案的类型。支持的类型：
- torch.per_tensor_affine — 逐张量，非对称。
- torch.per_channel_affine — 逐通道，非对称。
- torch.per_tensor_symmetric — 逐张量，对称。
- torch.per_channel_symmetric — 逐通道，对称。
torch.dtype — 用于描述数据的类型。支持的类型：
- torch.quint8 — 8 位无符号整数。
- torch.qint8 — 8 位有符号整数。
- torch.qint32 — 32 位有符号整数。

QAT 模块。

该软件包正在被弃用。请使用 torch.ao.nn.qat.modules。

QAT 动态模块。

该软件包正在被弃用。请使用 torch.ao.nn.qat.dynamic。

该文件正在迁移到 torch/ao/quantization，并在迁移过程中保留以兼容。如果您正在添加新的条目/功能，请将其添加到 torch/ao/quantization/fx/ 下的相应文件中，同时在此处添加导入语句。