快捷方式

make_async_vllm_engine

class torchrl.modules.llm.make_async_vllm_engine(model_name: str, num_devices: int | None = None, num_replicas: int = 1, verbose: bool = True, compile: bool = True, **kwargs)[源代码]

创建一个异步 vLLM 引擎服务。

参数:
  • model_name (str) – 要传递给 vLLM 的模型名称。

  • num_devices (int, optional) – 要使用的设备数量,每个副本一个。

  • num_replicas (int) – 要创建的引擎副本数量。

  • verbose (bool, optional) – 是否启用带有吞吐量统计信息的详细日志记录。默认为 True。

  • compile (bool, optional) – 是否启用模型编译以获得更好的性能。默认为 True。

  • **kwargs – 传递给 AsyncEngineArgs 的其他参数。

返回:

已启动的引擎服务。

返回类型:

AsyncVLLM

抛出:
  • RuntimeError – 如果没有可用的 CUDA 设备。

  • ValueError – 如果提供了无效的设备配置。

示例

>>> # Create a single-GPU async engine
>>> service = make_async_vllm_engine("Qwen/Qwen2.5-3B")
>>>
>>> # Create a 2-GPU tensor parallel async engine with 2 replicas
>>> service = make_async_vllm_engine("Qwen/Qwen2.5-3B", num_devices=2, num_replicas=2)
>>> # Generate text
>>> result = service.generate("Hello, world!", sampling_params)

文档

访问全面的 PyTorch 开发者文档

查看文档

教程

为初学者和高级开发者提供深入的教程

查看教程

资源

查找开发资源并让您的问题得到解答

查看资源