• 文档 >
  • torchao.quantization
快捷方式

torchao.quantization

主要量化 API

quantize_

使用config转换模型中线性模块的权重,模型会就地修改

autoquant

自动量化是一个过程,它在一组潜在的qtensor子类中识别出量化模型每一层的最快方法。

quantize_的推理 API

Int4WeightOnlyConfig

用于对线性层应用uint4仅权重非对称逐组量化的配置,使用“tensor_core_tiled”布局以通过tinygemm内核加速

Float8DynamicActivationFloat8WeightConfig

用于对线性层的激活和权重应用float8动态对称量化的配置。

Float8WeightOnlyConfig

用于对线性层应用float8仅权重对称逐通道量化的配置。

Float8StaticActivationFloat8WeightConfig

用于应用float8静态对称量化的配置

Int8DynamicActivationInt4WeightConfig

用于对线性层应用int8动态逐token非对称激活量化和int4逐组权重对称量化的配置。这用于为executorch后端生成模型,但目前executorch尚未支持从此流程量化模型的下层处理

GemliteUIntXWeightOnlyConfig

应用仅权重4或8位整数量化,并利用gemlite triton内核及其相关的权重打包格式。

Int8WeightOnlyConfig

用于对线性层应用int8仅权重对称逐通道量化的配置。

Int8DynamicActivationInt8WeightConfig

用于对线性层应用int8动态对称逐token激活和int8逐通道权重量化的配置。

UIntXWeightOnlyConfig

用于对线性层应用uintx仅权重非对称逐组量化的配置,使用uintx量化,其中x是dtype指定的位数

FPXWeightOnlyConfig

ebits:指数位和mbits:尾数位定义的子字节浮点数据类型,例如

QAT API

IntXQuantizationAwareTrainingConfig

用于对torch.nn.Module应用伪量化的配置。

FromIntXQuantizationAwareTrainingConfig

用于将带有伪量化模块(例如FakeQuantizedLinear()FakeQuantizedEmbedding())的模型转换回原始对应模块的模型,而不进行伪量化。

FakeQuantizeConfig

用于如何对权重或激活进行伪量化的配置。

Int4WeightOnlyQATQuantizer

用于对模型执行QAT的量化器,其中线性层具有int4伪量化分组逐通道权重。

Int8DynActInt4WeightQATQuantizer

用于对模型执行QAT的量化器,其中线性层具有int8动态逐token伪量化激活和int4伪量化分组逐通道权重。

Int4WeightOnlyEmbeddingQATQuantizer

用于对模型执行QAT的量化器,其中嵌入层具有int4伪量化分组逐通道权重。

ComposableQATQuantizer

可组合的量化器,用户可以轻松地使用它来应用多个QAT量化器。

initialize_fake_quantizers

(原型) 根据提供的示例输入初始化模型中所有FakeQuantizer的标度和零点。

量化原语

choose_qparams_affine

参数输入:

fp32、bf16、fp16输入张量

choose_qparams_affine_with_min_max

choose_qparams_affine()操作符的变体,直接传入min_val和max_val,而不是从单个输入中推导出来。

quantize_affine

参数输入:

原始的float32、float16或bfloat16张量

dequantize_affine

参数输入:

量化张量,应与dtypedtype参数匹配

safe_int_mm

执行安全的整数矩阵乘法,考虑torch.compile、cublas和回退情况的不同路径。

int_scaled_matmul

执行缩放整数矩阵乘法。

MappingType

浮点数如何映射到整数

ZeroPointDomain

枚举,指示零点是在整数域还是浮点域

TorchAODType

PyTorch 核心中尚不存在的数据类型的占位符。

其他

to_linear_activation_quantized

swap_linear_with_smooth_fq_linear

用SmoothFakeDynamicallyQuantizedLinear等效项替换模型中的线性层。

smooth_fq_linear_to_inference

通过为每个SmoothFakeDynamicallyQuantizedLinear层计算SmoothQuant标度来准备模型进行推理。

文档

访问全面的 PyTorch 开发者文档

查看文档

教程

为初学者和高级开发者提供深入的教程

查看教程

资源

查找开发资源并让您的问题得到解答

查看资源