GemliteUIntXWeightOnlyConfig¶
- class torchao.quantization.GemliteUIntXWeightOnlyConfig(group_size: Optional[int] = 128, bit_width: int = 4, packing_bitwidth: Optional[int] = None, mode: Optional[str] = 'weight_only', set_inductor_config: bool = True)[源代码]¶
应用权重仅 4 位或 8 位整数量化,并利用 gemlite triton 内核及其关联的权重打包格式。这仅适用于 fp16 模型。8 位量化是对称的,4 位量化是不对称的。
- 参数:
group_size – 量化参数,控制量化的粒度,尺寸越小粒度越细
bit_width – 量化权重的位宽。
packing_bitwidth – 打包权重的位宽,应为 8 或 32。根据硬件可能会影响性能。
mode – 如果设置为“dynamic”,则在运行时量化激活;默认值为“weight_only”(仅权重量化)。
set_inductor_config – 如果为 True,则将 torchinductor 设置调整为推荐值。