快捷方式

AdditiveGaussianModule

class torchrl.modules.AdditiveGaussianModule(*args, **kwargs)[来源]

加性高斯 PO 模块。

参数:
  • spec (TensorSpec) – 用于采样动作的 spec。采样到的动作将在探索后投影到有效的动作空间。

  • sigma_init (scalar, optional) – 初始 epsilon 值。默认值:1.0

  • sigma_end (scalar, optional) – 最终 epsilon 值。默认值:0.1

  • annealing_num_steps (int, optional) – sigma 值达到 sigma_end 值所需的步数。默认值:1000

  • mean (float, optional) – 每个输出元素的正态分布的均值。默认值:0.0

  • std (float, optional) – 每个输出元素的正态分布的标准差。默认值:1.0

关键字参数:
  • action_key (NestedKey, optional) – 如果策略模块有多个输出键,其输出 spec 将是 Composite 类型。需要知道在哪里找到动作 spec。默认值:“action”

  • safe (bool) – 如果为 True,则给出动作空间限制的超出范围的动作将根据 TensorSpec.project 的启发式方法进行投影。默认值:False

  • device (torch.device, optional) – 必须存储 buffer 的设备。

注意

务必在训练循环中调用 step() 来更新探索因子。由于很难捕获此遗漏,如果遗漏此调用将不会发出任何警告或异常!

forward(tensordict: TensorDictBase) TensorDictBase[来源]

定义每次调用时执行的计算。

所有子类都应重写此方法。

注意

虽然前向传播的实现需要在该函数内定义,但之后应调用 Module 实例而不是此函数,因为前者会处理已注册的钩子,而后者会默默地忽略它们。

step(frames: int = 1) None[来源]

sigma 衰减的一步。

在调用此方法 self.annealing_num_steps 次后,后续调用将不再执行任何操作。

参数:

frames (int) – 自上次调用以来的帧数。默认为 1

文档

访问全面的 PyTorch 开发者文档

查看文档

教程

为初学者和高级开发者提供深入的教程

查看教程

资源

查找开发资源并让您的问题得到解答

查看资源