torchao.quantization¶
主要量化 API¶
使用config转换模型中线性模块的权重,模型会就地修改 |
|
自动量化是一个过程,它在一组潜在的qtensor子类中识别出量化模型每一层的最快方法。 |
quantize_的推理 API¶
用于对线性层应用uint4仅权重非对称逐组量化的配置,使用“tensor_core_tiled”布局以通过tinygemm内核加速 |
|
用于对线性层的激活和权重应用float8动态对称量化的配置。 |
|
用于对线性层应用float8仅权重对称逐通道量化的配置。 |
|
用于应用float8静态对称量化的配置 |
|
用于对线性层应用int8动态逐token非对称激活量化和int4逐组权重对称量化的配置。这用于为executorch后端生成模型,但目前executorch尚未支持从此流程量化模型的下层处理 |
|
应用仅权重4或8位整数量化,并利用gemlite triton内核及其相关的权重打包格式。 |
|
用于对线性层应用int8仅权重对称逐通道量化的配置。 |
|
用于对线性层应用int8动态对称逐token激活和int8逐通道权重量化的配置。 |
|
用于对线性层应用uintx仅权重非对称逐组量化的配置,使用uintx量化,其中x是dtype指定的位数 |
|
由ebits:指数位和mbits:尾数位定义的子字节浮点数据类型,例如 |
QAT API¶
用于对torch.nn.Module应用伪量化的配置。 |
|
用于将带有伪量化模块(例如 |
|
用于如何对权重或激活进行伪量化的配置。 |
|
用于对模型执行QAT的量化器,其中线性层具有int4伪量化分组逐通道权重。 |
|
用于对模型执行QAT的量化器,其中线性层具有int8动态逐token伪量化激活和int4伪量化分组逐通道权重。 |
|
用于对模型执行QAT的量化器,其中嵌入层具有int4伪量化分组逐通道权重。 |
|
可组合的量化器,用户可以轻松地使用它来应用多个QAT量化器。 |
|
(原型) 根据提供的示例输入初始化模型中所有 |
量化原语¶
|
|
|
|
|
|
|
|
执行安全的整数矩阵乘法,考虑torch.compile、cublas和回退情况的不同路径。 |
|
执行缩放整数矩阵乘法。 |
|
浮点数如何映射到整数 |
|
枚举,指示零点是在整数域还是浮点域 |
|
PyTorch 核心中尚不存在的数据类型的占位符。 |
其他¶
用SmoothFakeDynamicallyQuantizedLinear等效项替换模型中的线性层。 |
|
通过为每个SmoothFakeDynamicallyQuantizedLinear层计算SmoothQuant标度来准备模型进行推理。 |