快捷方式

ReplayBufferTrainer

class torchrl.trainers.ReplayBufferTrainer(replay_buffer: TensorDictReplayBuffer, batch_size: int | None = None, memmap: bool = False, device: DEVICE_TYPING | None = None, flatten_tensordicts: bool = False, max_dims: Sequence[int] | None = None)[来源]

Replay buffer 钩子提供程序。

参数:
  • replay_buffer (TensorDictReplayBuffer) – 要使用的回放缓冲区。

  • batch_size (int, optional) – 从最新收集或回放缓冲区采样数据时的批次大小。如果未提供,将使用回放缓冲区的批次大小(未更改批次大小的首选选项)。

  • memmap (bool, optional) – 如果为 True,则会创建一个 memmap tensordict。默认为 False

  • device (device, optional) – 必须放置样本的设备。默认为 None

  • flatten_tensordicts (bool, optional) – 如果为 True,则在将 tensordicts 传递给回放缓冲区之前,会对其进行展平(或等效地使用从 collector 获得的有效掩码)。否则,除了填充外,不会进行任何转换(请参见下面的 max_dims 参数)。默认为 False

  • max_dims (sequence of int, optional) – 如果 flatten_tensordicts 设置为 False,这将是提供的 tensordicts 的 batch_size 长度列表,表示每个 tensordict 的最大大小。如果提供,此大小列表将用于填充 tensordict 并使其形状匹配,然后再将其传递给回放缓冲区。如果没有最大值,则应提供 -1 值。

示例

>>> rb_trainer = ReplayBufferTrainer(replay_buffer=replay_buffer, batch_size=N)
>>> trainer.register_op("batch_process", rb_trainer.extend)
>>> trainer.register_op("process_optim_batch", rb_trainer.sample)
>>> trainer.register_op("post_loss", rb_trainer.update_priority)
register(trainer: Trainer, name: str = 'replay_buffer')[来源]

在训练器中注册钩子,位于默认位置。

参数:
  • trainer (Trainer) – 必须注册钩子的训练器。

  • name (str) – 钩子的名称。

注意

要将钩子注册到默认位置以外的其他位置,请使用 register_op()

文档

访问全面的 PyTorch 开发者文档

查看文档

教程

为初学者和高级开发者提供深入的教程

查看教程

资源

查找开发资源并让您的问题得到解答

查看资源