LineariseRewards¶
- class torchrl.envs.transforms.LineariseRewards(in_keys: Sequence[NestedKey], out_keys: Sequence[NestedKey] | None = None, *, weights: Sequence[float] | Tensor | None = None)[源]¶
通过加权求和将多目标奖励信号转换为单目标奖励信号。
- 参数:
in_keys (List[NestedKey]) – 包含多目标奖励的键。
out_keys (List[NestedKey], optional) – 单目标奖励应写入的键。默认为
in_keys
。weights (List[float], Tensor, optional) – 指示在求和时如何加权每个奖励。默认为 [1.0, 1.0, …]。
警告
如果传递的 in_keys 序列的长度严格大于一(例如,为多代理设置中的每个代理提供一组),则每个条目将应用相同的权重。如果您需要为每个组以不同的方式聚合奖励,请连续使用多个
LineariseRewards
。示例
>>> import mo_gymnasium as mo_gym >>> from torchrl.envs import MOGymWrapper >>> mo_env = MOGymWrapper(mo_gym.make("deep-sea-treasure-v0")) >>> mo_env.reward_spec BoundedContinuous( shape=torch.Size([2]), space=ContinuousBox( low=Tensor(shape=torch.Size([2]), device=cpu, dtype=torch.float32, contiguous=True), high=Tensor(shape=torch.Size([2]), device=cpu, dtype=torch.float32, contiguous=True)), ...) >>> so_env = TransformedEnv(mo_env, LineariseRewards(in_keys=("reward",))) >>> so_env.reward_spec BoundedContinuous( shape=torch.Size([1]), space=ContinuousBox( low=Tensor(shape=torch.Size([1]), device=cpu, dtype=torch.float32, contiguous=True), high=Tensor(shape=torch.Size([1]), device=cpu, dtype=torch.float32, contiguous=True)), ...) >>> td = so_env.rollout(5) >>> td["next", "reward"].shape torch.Size([5, 1])
- transform_reward_spec(reward_spec: TensorSpec) TensorSpec [源]¶
转换奖励的 spec,使其与变换映射匹配。
- 参数:
reward_spec (TensorSpec) – 变换前的 spec
- 返回:
转换后的预期规范