make_vllm_worker¶
- class torchrl.modules.llm.make_vllm_worker(*, model_name: str, devices: list[torch.device | int] | None = None, num_devices: int | None = None, make_ray_worker: bool = True, enforce_eager: bool = False, **kwargs)[源代码]¶
创建支持张量并行化的 vLLM 推理引擎。
- 参数:
model_name (str) – 要传递给 vLLM.LLM 的模型名称。
devices (list[torch.device | int], optional) – 要使用的设备列表。与 num_devices 互斥。
num_devices (int, optional) – 要使用的设备数量。与 devices 互斥。
make_ray_worker (bool, optional) – 是否创建 Ray actor。默认为 True。
enforce_eager (bool, optional) – 是否强制使用 eager 执行。默认为 False。
**kwargs – 传递给 vLLM.LLM.__init__ 的附加参数。
- 返回:
本地 vLLM LLM 实例或 Ray actor 句柄。
- 返回类型:
LLM | ray.actor.ActorClass
示例
>>> # Create a 2-GPU tensor parallel worker with Ray >>> worker = make_vllm_worker("Qwen/Qwen2.5-3B", num_devices=2) >>> # Create a local LLM instance on GPU 1 >>> llm = make_vllm_worker("Qwen/Qwen2.5-3B", devices=[1], make_ray_worker=False)