make_mlgym¶
- class torchrl.envs.llm.make_mlgym(*, task: Literal['prisonersDilemma'] | None = None, tasks: list[Literal['prisonersDilemma']] | None = None, tokenizer: transformers.AutoTokenizer | str | None = None, device='cpu', reward_wrong_format: float | None = None)[源代码]¶
将 MLGymEnv 包装到 TorchRL 环境中。
附加的转换将确保数据在 LLM 期间(对于 env.step 的输出)和 MLGym API(对于 env.step 的输入)中格式正确。
- 关键字参数:
task (str) –
要包装的任务。与 tasks 参数互斥。
注意
正确格式就是任务名称,例如 “prisonersDilemma”。
tasks (List[str]) –
环境中可用的任务。与 task 参数互斥。
注意
正确格式就是任务名称,例如 “prisonersDilemma”。
tokenizer (transformers.AutoTokenizer 或 str, 可选) – 用于标记化数据的 transformer。如果传入字符串,它将被转换为 transformers.AutoTokenizer。
device (str, 可选) – 要设置到环境的设备。默认为“cpu”。
reward_wrong_format (float, 可选) – 格式错误的动作的奖励(负罚款)。默认为 None(无罚款)。