快捷方式

make_mlgym

class torchrl.envs.llm.make_mlgym(*, task: Literal['prisonersDilemma'] | None = None, tasks: list[Literal['prisonersDilemma']] | None = None, tokenizer: transformers.AutoTokenizer | str | None = None, device='cpu', reward_wrong_format: float | None = None)[源代码]

将 MLGymEnv 包装到 TorchRL 环境中。

附加的转换将确保数据在 LLM 期间(对于 env.step 的输出)和 MLGym API(对于 env.step 的输入)中格式正确。

关键字参数:
  • task (str) –

    要包装的任务。与 tasks 参数互斥。

    注意

    正确格式就是任务名称,例如 “prisonersDilemma”

  • tasks (List[str]) –

    环境中可用的任务。与 task 参数互斥。

    注意

    正确格式就是任务名称,例如 “prisonersDilemma”

  • tokenizer (transformers.AutoTokenizerstr, 可选) – 用于标记化数据的 transformer。如果传入字符串,它将被转换为 transformers.AutoTokenizer

  • device (str, 可选) – 要设置到环境的设备。默认为“cpu”。

  • reward_wrong_format (float, 可选) – 格式错误的动作的奖励(负罚款)。默认为 None(无罚款)。

文档

访问全面的 PyTorch 开发者文档

查看文档

教程

为初学者和高级开发者提供深入的教程

查看教程

资源

查找开发资源并让您的问题得到解答

查看资源