Int8DynamicActivationInt4WeightConfig¶
- class torchao.quantization.Int8DynamicActivationInt4WeightConfig(group_size: int = 32, layout: Layout = PlainLayout(), mapping_type: MappingType = MappingType.SYMMETRIC, act_mapping_type: MappingType = MappingType.ASYMMETRIC, set_inductor_config: bool = True)[源代码]¶
用于将 int8 动态每 token 非对称激活量化和 int4 每组权重对称量化应用于线性层的配置。这用于为 executorch 后端生成模型,但目前 executorch 尚不支持对此流程产生的量化模型的降低。
- 参数:
group_size – 量化的参数,控制量化的粒度,值越小,粒度越细。
layout – 量化权重张量的布局类型,目前仅支持 MarlinQQQLayout() 和 CutlassInt4PackedLayout()。
mapping_type – 权重的量化类型,控制权重量化是对称还是非对称。
act_mapping_type – 激活的量化类型,控制激活量化是对称还是非对称。
set_inductor_config – 如果为 True,则将 torchinductor 设置调整为推荐值。