make_mlgym¶
- class torchrl.envs.llm.make_mlgym(*, task: Literal['prisonersDilemma'] | None = None, tasks: list[Literal['prisonersDilemma']] | None = None, tokenizer: transformers.AutoTokenizer | str | None = None, device='cpu', reward_wrong_format: float | None = None)[源代码]¶
将 MLGymEnv 包装成一个 TorchRL 环境。
附加的转换将确保数据在 LLM 的输出(对于 env.step 的输出)和 MLGym API 的输入(对于 env.step 的输入)格式正确。
- 关键字参数:
task (str) –
要包装的任务。与 tasks 参数互斥。
注意
正确的格式只是任务名称,例如 “prisonersDilemma”。
tasks (List[str]) –
该环境可用的任务。与 task 参数互斥。
注意
正确的格式只是任务名称,例如 “prisonersDilemma”。
tokenizer (transformers.AutoTokenizer 或 str, optional) – 用于标记化数据的转换器。如果传入字符串,它将被转换为 transformers.AutoTokenizer。
device (str, optional) – 要设置为环境的设备。默认为“cpu”。
reward_wrong_format (float, optional) – 错误格式动作的奖励(负罚款)。默认为 None(无罚款)。