make_mlgym¶

class torchrl.envs.llm.make_mlgym(*, task: Literal['prisonersDilemma'] | None = None, tasks: list[Literal['prisonersDilemma']] | None = None, tokenizer: transformers.AutoTokenizer | str | None = None, device='cpu', reward_wrong_format: float | None = None)[源代码]¶

将 MLGymEnv 包装成一个 TorchRL 环境。

附加的转换将确保数据在 LLM 的输出（对于 env.step 的输出）和 MLGym API 的输入（对于 env.step 的输入）格式正确。

关键字参数:

task (str) –
要包装的任务。与 tasks 参数互斥。

注意

正确的格式只是任务名称，例如 “prisonersDilemma”。
tasks (List[str]) –
该环境可用的任务。与 task 参数互斥。

注意

正确的格式只是任务名称，例如 “prisonersDilemma”。
tokenizer (transformers.AutoTokenizer 或 str, optional) – 用于标记化数据的转换器。如果传入字符串，它将被转换为 transformers.AutoTokenizer。
device (str, optional) – 要设置为环境的设备。默认为“cpu”。
reward_wrong_format (float, optional) – 错误格式动作的奖励（负罚款）。默认为 None（无罚款）。

make_mlgym¶

文档

教程

资源