• 文档 >
  • torchao.quantization.qat
快捷方式

torchao.quantization.qat

主要 quantize_ 配置

有关如何使用我们主要的 quantize_ API 进行 QAT 的完整示例,请参阅 QAT README

QATConfig

用于将量化感知训练 (QAT) 应用于 torch.nn.Module 的配置,将与 quantize_() 一起使用。

QATStep

QATConfigstep 字段的枚举值。

自定义 QAT API

FakeQuantizeConfigBase

表示伪量化配置的基类。

IntxFakeQuantizeConfig

关于如何伪量化权重或激活的配置,目标是高达 torch.int8 的整数数据类型。

Float8FakeQuantizeConfig

关于 float8 伪量化的配置,目标是 Float8Tensor

FakeQuantizedLinear

具有伪量化权重和激活的通用线性层。

FakeQuantizedEmbedding

具有伪量化权重的通用嵌入层。

FakeQuantizerBase

通用模块,用于按照配置应用伪量化到张量。

IntxFakeQuantizer

通用模块,用于按照配置应用整数伪量化到张量。

Float8FakeQuantizer

通用模块,用于按照配置应用 float8 伪量化到张量。

linear.enable_linear_fake_quant

用于在 FakeQuantizedLinear 中启用伪量化的辅助函数。

linear.disable_linear_fake_quant

用于在 FakeQuantizedLinear 中禁用伪量化的辅助函数。

旧版 QAT API

IntXQuantizationAwareTrainingConfig

(已弃用) 请改用 QATConfig

FromIntXQuantizationAwareTrainingConfig

(已弃用) 请改用 QATConfig

Int4WeightOnlyQATQuantizer

用于对模型执行 QAT 的量化器,其中线性层具有按通道伪量化的 int4 权重。

linear.Int4WeightOnlyQATLinear

此模块实现了具有按通道伪量化 int4 权重的线性层,其前向数值与 WeightOnlyInt4Linear 匹配,后者使用高效的 int4 tinygemm 内核。

Int8DynActInt4WeightQATQuantizer

用于对模型执行 QAT 的量化器,其中线性层具有按 token 动态伪量化的 int8 激活和按通道伪量化的 int4 权重。

linear.Int8DynActInt4WeightQATLinear

此模块实现了具有按通道伪量化 int4 权重的按 token 动态伪量化 int8 激活的线性层。

Int4WeightOnlyEmbeddingQATQuantizer

用于对模型执行 QAT 的量化器,其中嵌入层具有按通道伪量化的 int4 权重。

embedding.Int4WeightOnlyQATEmbedding

此模块实现了具有按通道伪量化 int4 权重的嵌入层。

embedding.Int4WeightOnlyEmbedding

此模块实现了一个具有按通道量化 int4 权重的嵌入层。

Float8ActInt4WeightQATQuantizer

QAT 量化器,用于将动态行式 float8 激活 + 按通道/组对称 int4 权重伪量化应用于模型中的线性层。

ComposableQATQuantizer

用户可以轻松应用多个 QAT 量化器的可组合量化器。

原型

initialize_fake_quantizers

(原型) 根据提供的示例输入,在模型的所有 IntxFakeQuantizerBase 上初始化 scales 和 zero points。

文档

访问全面的 PyTorch 开发者文档

查看文档

教程

为初学者和高级开发者提供深入的教程

查看教程

资源

查找开发资源并让您的问题得到解答

查看资源