快捷方式

GemliteUIntXWeightOnlyConfig

class torchao.quantization.GemliteUIntXWeightOnlyConfig(group_size: Optional[int] = 128, bit_width: int = 4, packing_bitwidth: Optional[int] = None, mode: Optional[str] = 'weight_only', set_inductor_config: bool = True)[源代码]

应用权重仅 4 位或 8 位整数量化,并利用 gemlite triton 内核及其关联的权重打包格式。这仅适用于 fp16 模型。8 位量化是对称的,4 位量化是不对称的。

参数:
  • group_size – 量化参数,控制量化的粒度,尺寸越小粒度越细

  • bit_width – 量化权重的位宽。

  • packing_bitwidth – 打包权重的位宽,应为 8 或 32。根据硬件可能会影响性能。

  • mode – 如果设置为“dynamic”,则在运行时量化激活;默认值为“weight_only”(仅权重量化)。

  • set_inductor_config – 如果为 True,则将 torchinductor 设置调整为推荐值。

文档

访问全面的 PyTorch 开发者文档

查看文档

教程

为初学者和高级开发者提供深入的教程

查看教程

资源

查找开发资源并让您的问题得到解答

查看资源