GemliteUIntXWeightOnlyConfig¶

class torchao.quantization.GemliteUIntXWeightOnlyConfig(group_size: Optional[int] = 128, bit_width: int = 4, packing_bitwidth: Optional[int] = None, mode: Optional[str] = 'weight_only', set_inductor_config: bool = True)[源代码]¶

应用权重仅 4 位或 8 位整数量化，并利用 gemlite triton 内核及其相关的权重打包格式。这仅适用于 fp16 模型。8 位量化是对称的，4 位量化是不对称的。

参数: