欢迎来到 torchao 文档#

创建于:2026年2月5日 | 最后更新于:2026年2月5日

PyTorch 原生训练到部署模型优化#

  • 使用 float8 训练预训练 Llama-3.1-70B 速度提升 1.5 倍

  • 使用 QAT 在 Gemma3-4B 上恢复 67% 的量化精度损失

  • 将 Llama-3-8B 量化为 int4,推理速度提升 1.89 倍,内存减少 58%

torchao 是一个用于自定义数据类型和优化的库。使用原生 PyTorch 量化和稀疏化权重、梯度、优化器和激活值,用于推理和训练。请查看 torchao README,以获取有关库的总体介绍以及最新的亮点和更新。

快速入门#

首先,安装 TorchAO。我们建议安装最新稳定版本

pip install torchao

将您的模型权重量化为 int4!

import torch
from torchao.quantization import Int4WeightOnlyConfig, quantize_
if torch.cuda.is_available():
  # quantize on CUDA
  quantize_(model, Int4WeightOnlyConfig(group_size=32, int4_packing_format="tile_packed_to_4d", int4_choose_qparams_algorithm="hqq"))
elif torch.xpu.is_available():
  # quantize on XPU
  quantize_(model, Int4WeightOnlyConfig(group_size=32, int4_packing_format="plain_int32"))

有关更多详细信息,请参阅我们的 第一个量化示例

安装#

要安装最新稳定版本

pip install torchao

其他安装选项

# Nightly
pip install --pre torchao --index-url https://download.pytorch.org/whl/nightly/cu128

# Different CUDA versions
pip install torchao --index-url https://download.pytorch.org/whl/cu126  # CUDA 12.6
pip install torchao --index-url https://download.pytorch.org/whl/cu129  # CUDA 12.9
pip install torchao --index-url https://download.pytorch.org/whl/xpu    # XPU
pip install torchao --index-url https://download.pytorch.org/whl/cpu    # CPU only

# For developers
# Note: the --no-build-isolation flag is required.
USE_CUDA=1 pip install -e . --no-build-isolation
USE_XPU=1 pip install -e . --no-build-isolation
USE_CPP=0 pip install -e . --no-build-isolation

请参阅 torchao 兼容性表,了解依赖项的版本要求。

工作流程

API 参考

教程

贡献

PT2E 量化