choose_qparams_affine¶

torchao.quantization.choose_qparams_affine(input: Tensor, mapping_type: MappingType, block_size: Tuple[int], target_dtype: dtype, quant_min: Optional[Union[int, float]] = None, quant_max: Optional[Union[int, float]] = None, eps: Optional[float] = None, scale_dtype: Optional[dtype] = None, zero_point_dtype: Optional[dtype] = torch.int32) → Tuple[Tensor, Tensor][源代码]¶

参数:

input (torch.Tensor) – fp32, bf16, fp16 输入 Tensor
mapping_type (MappingType) – 确定 qparams 的计算方式，对称或非对称
block_size – (Tuple[int]): 量化的粒度，这表示共享同一 qparam 的张量元素的尺寸，例如，当尺寸与输入张量维度相同时，我们使用每张量量化
target_dtype (torch.dtype) – 目标量化 Tensor 的 dtype
quant_min (Optional[int]) – 目标量化 Tensor 的最小量化值
quant_max (Optioanl[int]) – 目标量化 Tensor 的最大量化值
eps (Optional[float]) – 最小尺度，如果未提供，则默认为 input.dtype 的 eps
scale_dtype (torch.dtype) – scale Tensor 的 dtype
zero_point_dtype (torch.dtype) – zero_point Tensor 的 dtype，默认为 torch.int32
params (现已移除) – zero_point_domain (ZeroPointDomain): zero_point 所在的域，默认为 Integer 或 None preserve_zero (bool): 是否在量化 Tensor 中保留零，默认为 True

文档