torchao.quantization.qat¶
主要 quantize_
配置¶
有关如何使用我们主要的 quantize_ API 进行 QAT 的完整示例,请参阅 QAT README。
用于将量化感知训练 (QAT) 应用于 torch.nn.Module 的配置,将与 |
|
QATConfig 中 step 字段的枚举值。 |
自定义 QAT API¶
表示伪量化配置的基类。 |
|
关于如何伪量化权重或激活的配置,目标是高达 torch.int8 的整数数据类型。 |
|
关于 float8 伪量化的配置,目标是 |
|
具有伪量化权重和激活的通用线性层。 |
|
具有伪量化权重的通用嵌入层。 |
|
通用模块,用于按照配置应用伪量化到张量。 |
|
通用模块,用于按照配置应用整数伪量化到张量。 |
|
通用模块,用于按照配置应用 float8 伪量化到张量。 |
|
用于在 FakeQuantizedLinear 中启用伪量化的辅助函数。 |
|
用于在 FakeQuantizedLinear 中禁用伪量化的辅助函数。 |
旧版 QAT API¶
(已弃用) 请改用 |
|
(已弃用) 请改用 |
|
用于对模型执行 QAT 的量化器,其中线性层具有按通道伪量化的 int4 权重。 |
|
此模块实现了具有按通道伪量化 int4 权重的线性层,其前向数值与 WeightOnlyInt4Linear 匹配,后者使用高效的 int4 tinygemm 内核。 |
|
用于对模型执行 QAT 的量化器,其中线性层具有按 token 动态伪量化的 int8 激活和按通道伪量化的 int4 权重。 |
|
此模块实现了具有按通道伪量化 int4 权重的按 token 动态伪量化 int8 激活的线性层。 |
|
用于对模型执行 QAT 的量化器,其中嵌入层具有按通道伪量化的 int4 权重。 |
|
此模块实现了具有按通道伪量化 int4 权重的嵌入层。 |
|
此模块实现了一个具有按通道量化 int4 权重的嵌入层。 |
|
QAT 量化器,用于将动态行式 float8 激活 + 按通道/组对称 int4 权重伪量化应用于模型中的线性层。 |
|
用户可以轻松应用多个 QAT 量化器的可组合量化器。 |
原型¶
(原型) 根据提供的示例输入,在模型的所有 |