常见 PyTorch 错误及解决方案¶

与梯度相关的错误 [新手]¶

新手在从头开始编写强化学习算法时，经常会遇到与梯度相关的问题。典型的训练循环通常可以勾勒如下

obs = env.reset()

for _ in range(n_training_steps):
    # STEP 1: data collection
    # Get a new datapoint "online"
    observations = []
    actions = []
    others = []
    for _ in range(n_data_per_training):
        with torch.no_grad():
            action = policy(obs)
        obs, *other = env.step(action)
        observations.append(obs)
        actions.append(action)
        others.append(other)
    replay_buffer.extend(observations, actions, others)

    # STEP 2: loss and optimization
    # => compute loss "offline"
    loss = loss_fn(replay_buffer.sample(batch_size))

    loss.backward()
    optim.step()
    optim.zero_grad()

一系列错误源于希望通过由 no_grad() 上下文管理器修饰的策略操作进行反向传播。事实上，在大多数情况下，这个操作不应该成为任何计算图的一部分。取而代之的是，所有可微操作都应该在 loss_fn(...) 抽象中执行。一般来说，强化学习是一个需要密切关注的领域，需要充分理解哪些应该被视为不可微“数据”（例如，环境交互、优势和回报计算、PPO 中的“分母”对数概率），哪些应该被视为可微损失伪影（例如，值误差、PPO 中的“分子”对数概率）。

需要注意的与此误解相关的错误如下：

RuntimeError: Trying to backward through the graph a second time (or directly access saved tensors after they have already been freed). 这个错误通常是在计算图的一部分数据点在损失函数中被使用了两次之后出现的。一些用户尝试通过调用 loss.backward(retain_graph=True) 来修复，但这将导致列表中的下一个错误。相关的 PyTorch 错误讨论
- 此处
- 此处
RuntimeError: one of the variables needed for gradient computation has been modified by an inplace operation 这通常发生在用 retain_graph=True 标志修复第一个错误之后。相反，应该在 loss_fn 中重新计算要进行微分的操作。另一个常见的原因是两个模块通过共享的计算图进行更新（例如，策略和评论员）。在这种情况下，应该使用 retain_graph=True 标志，尽管要注意这可能会将一个损失的梯度累加到另一个损失上。总的来说，更好的做法是为每个损失单独重新计算每个中间值，同时排除特定图中不需要的参数，即使某些子模块的前向调用匹配。
- 此处
- 此处
算法没有学习 / param.grad 为 0 或 None。算法不学习可能有多种原因。首先要看的是参数梯度的值，其范数应该严格非负。相关的 PyTorch 错误讨论
- 此处

我的训练太慢 [新手 / 中级]¶

在某些情况下，强化学习以 CPU 密集型著称。即使在并行运行少量环境时，通过为群集请求比正在处理的环境数量更多的核心（例如，两倍），也可以看到显著的速度提升。对于渲染的环境（即使在 GPU 上渲染）尤其如此。
训练速度取决于多种因素，没有一种万能的解决方案。常见的瓶颈是
- 数据收集：模拟器的速度以及随后的数据转换可能会影响性能。加速环境交互通常通过向量化（如果模拟器支持，例如 Brax 和其他基于 Jax 的模拟器）或并行化（在 gym 和其他库中被不恰当地称为向量化环境）来实现。在 TorchRL 中，转换通常可以在设备上执行。
- 回放缓冲区存储和采样：将项存储在回放缓冲区中可能需要时间，如果底层操作需要繁重的内存操作或繁琐的索引（例如，使用优先回放缓冲区）。如果数据不是连续存储的，或者执行了代价高昂的堆叠或连接操作，采样也可能花费相当多的时间。TorchRL 在这些情况下提供了高效的连续存储解决方案以及高效的写入和采样解决方案。
- 优势计算：优势函数的计算也可能构成计算瓶颈，因为它们通常使用纯粹的 for 循环进行编码。如果性能分析表明此操作花费了大量时间，请考虑使用我们完全向量化的解决方案。
- 损失计算：损失计算和优化步骤经常占compute time 的重要份额。一些技术可以加速。例如，如果使用了多个目标网络，使用向量化映射和函数式编程（通过 functorch）而不是遍历模型配置可以提供显著的加速。

常见错误¶

对于与 mujoco（包括 DeepMind Control suite 和其他库）相关的错误，请参阅 MUJOCO_INSTALLATION 文件。
ValueError: bad value(s) in fds_to_keep：这可能有多种原因。在 torchrl 中常见的一种原因是，您试图在进程之间发送一个张量的视图。例如，当在进程之间发送张量 b = tensor.expand(new_shape) 时，将丢失对原始内容的引用（因为 expand 操作会保留对原始张量的引用）。要调试此问题，请查找此类操作（view、permute、expand 等）并在调用函数后调用 clone() 或 contiguous()。

常见 PyTorch 错误及解决方案¶

我的训练太慢 [新手 / 中级]¶

常见错误¶

文档

教程

资源