ObservationNorm¶

观测仿射变换层。

根据以下公式对观测进行归一化：

\[obs = obs * scale + loc\]

参数:

loc (数字或张量) – 仿射变换的中心点。
scale (数字或张量) – 仿射变换的尺度。
in_keys (NestedKey 序列, 可选) – 需要归一化的条目。默认为 [“observation”, “pixels”]。所有条目将使用相同的值进行归一化：如果需要不同的行为（例如，像素和状态的归一化不同），则应使用不同的 ObservationNorm 对象。
out_keys (NestedKey 序列, 可选) – 输出条目。默认为 in_keys 的值。
in_keys_inv (NestedKey 序列, 可选) – ObservationNorm 也支持逆变换。只有当为 in_keys_inv 提供一个键列表时，才会发生这种情况。如果未提供，则只调用前向变换。
out_keys_inv (NestedKey 序列, 可选) – 逆变换的输出条目。默认为 in_keys_inv 的值。
standard_normal (bool, 可选) –
如果为 True，则变换将为

\[obs = (obs-loc)/scale\]

如同标准化一样。默认值为 False。
eps (float, 可选) – 在 standard_normal 情况下的尺度增量。如果无法直接从尺度数据类型中恢复，则默认为 1e-6。

示例

>>> torch.set_default_tensor_type(torch.DoubleTensor)
>>> r = torch.randn(100, 3)*torch.randn(3) + torch.randn(3)
>>> td = TensorDict({'obs': r}, [100])
>>> transform = ObservationNorm(
...     loc = td.get('obs').mean(0),
...     scale = td.get('obs').std(0),
...     in_keys=["obs"],
...     standard_normal=True)
>>> _ = transform(td)
>>> print(torch.isclose(td.get('obs').mean(0),
...     torch.zeros(3)).all())
tensor(True)
>>> print(torch.isclose(td.get('next_obs').std(0),
...     torch.ones(3)).all())
tensor(True)

归一化统计量可以自动计算： .. rubric:: 示例

>>> from torchrl.envs.libs.gym import GymEnv
>>> torch.manual_seed(0)
>>> env = GymEnv("Pendulum-v1")
>>> env = TransformedEnv(env, ObservationNorm(in_keys=["observation"]))
>>> env.set_seed(0)
>>> env.transform.init_stats(100)
>>> print(env.transform.loc, env.transform.scale)
tensor([-1.3752e+01, -6.5087e-03,  2.9294e-03], dtype=torch.float32) tensor([14.9636,  2.5608,  0.6408], dtype=torch.float32)

init_stats(num_iter: int, reduce_dim: int | tuple[int] = 0, cat_dim: int | None = None, key: NestedKey | None = None, keep_dims: tuple[int] | None = None) → None[源代码]¶

初始化父环境的中心点和尺度统计量。

归一化常数理想情况下应该使观测统计量接近标准高斯分布的统计量。此方法计算一个中心点和尺度张量，该张量将经验性地计算高斯分布的均值和标准差，该分布拟合在从父环境随机生成的数据上，经过给定步数。

参数:

num_iter (int) – 在环境中运行的随机迭代次数。
reduce_dim (int或int 元组, 可选) – 计算均值和标准差的维度。默认为 0。
cat_dim (int, 可选) – 收集的批次将被连接的维度。它必须是 reduce_dim（如果是整数）的一部分，或者属于 reduce_dim 元组。默认为与 reduce_dim 相同的值。
key (NestedKey, 可选) – 如果提供，将从结果张量字典的该键中检索摘要统计信息。否则，将使用 ObservationNorm.in_keys 中的第一个键。
keep_dims (int 元组, 可选) – loc 和 scale 中要保留的维度。例如，当对最后一个维度为 3D 的张量进行归一化时，可能希望中心点和尺度具有形状 [C, 1, 1]，但不是第三个维度。默认为 None。

transform_action_spec(action_spec: TensorSpec) → TensorSpec[源代码]¶

转换动作规范，使结果规范与变换映射匹配。

参数:: action_spec (TensorSpec) – 变换前的规范
返回:: 转换后的预期规范

transform_observation_spec(observation_spec: TensorSpec) → TensorSpec[源代码]¶

ObservationNorm¶

文档

教程

资源