RewardNormalizer¶

class torchrl.trainers.RewardNormalizer(decay: float = 0.999, scale: float = 1.0, eps: float | None = None, log_pbar: bool = False, reward_key=None)[源代码]¶

奖励归一化器钩子。

参数:

decay (float, 可选) – 指数移动平均衰减参数。默认为 0.999
scale (float, 可选) – 归一化后的奖励用于相乘的缩放因子。默认为 1.0。
eps (float, 可选) – 用于防止数值下溢的 epsilon 抖动。默认为 torch.finfo(DEFAULT_DTYPE).eps，其中 DEFAULT_DTYPE=torch.get_default_dtype()。
reward_key (str 或 tuple, 可选) – 在输入批次中查找奖励的键。默认为 ("next", "reward")

示例

>>> reward_normalizer = RewardNormalizer()
>>> trainer.register_op("batch_process", reward_normalizer.update_reward_stats)
>>> trainer.register_op("process_optim_batch", reward_normalizer.normalize_reward)

register(trainer: Trainer, name: str = 'reward_normalizer')[源代码]¶

Registers the hook in the trainer at a default location.

参数:

trainer (Trainer) – the trainer where the hook must be registered.
name (str) – the name of the hook.

注意

To register the hook at another location than the default, use register_op().

RewardNormalizer¶

文档

教程

资源