torchao.quantization.qat¶

主要 `quantize_` 配置¶

有关如何使用我们主要的 quantize_ API 进行 QAT 的完整示例，请参阅 QAT README。

`QATConfig`	用于将量化感知训练 (QAT) 应用于 torch.nn.Module 的配置，将与 `quantize_()` 一起使用。
`QATStep`	QATConfig 中 step 字段的枚举值。

`FakeQuantizeConfigBase`	表示伪量化配置的基类。
`IntxFakeQuantizeConfig`	关于如何伪量化权重或激活的配置，目标是高达 torch.int8 的整数数据类型。
`Float8FakeQuantizeConfig`	关于 float8 伪量化的配置，目标是 `Float8Tensor`。
`FakeQuantizedLinear`	具有伪量化权重和激活的通用线性层。
`FakeQuantizedEmbedding`	具有伪量化权重的通用嵌入层。
`FakeQuantizerBase`	通用模块，用于按照配置应用伪量化到张量。
`IntxFakeQuantizer`	通用模块，用于按照配置应用整数伪量化到张量。
`Float8FakeQuantizer`	通用模块，用于按照配置应用 float8 伪量化到张量。
`linear.enable_linear_fake_quant`	用于在 FakeQuantizedLinear 中启用伪量化的辅助函数。
`linear.disable_linear_fake_quant`	用于在 FakeQuantizedLinear 中禁用伪量化的辅助函数。

`IntXQuantizationAwareTrainingConfig`	(已弃用) 请改用 `QATConfig`。
`FromIntXQuantizationAwareTrainingConfig`	(已弃用) 请改用 `QATConfig`。
`Int4WeightOnlyQATQuantizer`	用于对模型执行 QAT 的量化器，其中线性层具有按通道伪量化的 int4 权重。
`linear.Int4WeightOnlyQATLinear`	此模块实现了具有按通道伪量化 int4 权重的线性层，其前向数值与 WeightOnlyInt4Linear 匹配，后者使用高效的 int4 tinygemm 内核。
`Int8DynActInt4WeightQATQuantizer`	用于对模型执行 QAT 的量化器，其中线性层具有按 token 动态伪量化的 int8 激活和按通道伪量化的 int4 权重。
`linear.Int8DynActInt4WeightQATLinear`	此模块实现了具有按通道伪量化 int4 权重的按 token 动态伪量化 int8 激活的线性层。
`Int4WeightOnlyEmbeddingQATQuantizer`	用于对模型执行 QAT 的量化器，其中嵌入层具有按通道伪量化的 int4 权重。
`embedding.Int4WeightOnlyQATEmbedding`	此模块实现了具有按通道伪量化 int4 权重的嵌入层。
`embedding.Int4WeightOnlyEmbedding`	此模块实现了一个具有按通道量化 int4 权重的嵌入层。
`Float8ActInt4WeightQATQuantizer`	QAT 量化器，用于将动态行式 float8 激活 + 按通道/组对称 int4 权重伪量化应用于模型中的线性层。
`ComposableQATQuantizer`	用户可以轻松应用多个 QAT 量化器的可组合量化器。

(原型) 根据提供的示例输入，在模型的所有 IntxFakeQuantizerBase 上初始化 scales 和 zero points。