DreamerModelLoss¶

class torchrl.objectives.DreamerModelLoss(*args, **kwargs)[source]¶

Dreamer 模型损失。

计算 Dreamer 世界模型的损失。该损失由 RSSM 的先验和后验之间的 KL 散度、重构观察值的重构损失以及预测奖励的奖励损失组成。

参数:

world_model (TensorDictModule) – 世界模型。
lambda_kl (float, optional) – KL 散度损失的权重。默认为：1.0。
lambda_reco (float, optional) – 重构损失的权重。默认为：1.0。
lambda_reward (float, optional) – 奖励损失的权重。默认为：1.0。
reco_loss (str, optional) – 重构损失。默认为：“l2”。
reward_loss (str, optional) – 奖励损失。默认为：“l2”。
free_nats (int, optional) – free nats。默认为：3。
delayed_clamp (bool, optional) – 如果为 True，则 KL 钳位在平均之后进行。如果为 False（默认值），则 KL 散度首先钳位到 free nats 值，然后进行平均。
global_average (bool, optional) – 如果为 True，则损失将针对所有维度进行平均。否则，将对所有非批处理/时间维度进行求和，然后对批处理和时间进行平均。默认为：False。

forward(tensordict: TensorDict) → Tensor[source]¶

它旨在读取一个输入的 TensorDict 并返回另一个包含名为“loss*”的损失键的 tensordict。

将损失分解为其组成部分可以被训练器用于在训练过程中记录各种损失值。输出 tensordict 中存在的其他标量也将被记录。

参数:: tensordict – 一个输入的 tensordict，包含计算损失所需的值。
返回:: 一个没有批处理维度的新 tensordict，其中包含各种损失标量，这些标量将被命名为“loss*”。重要的是，损失必须以这个名称返回，因为它们将在反向传播之前被训练器读取。

文档