PPOTrainer¶

class torchrl.trainers.algorithms.PPOTrainer(*args, **kwargs)[源代码]¶

PPO（Proximal Policy Optimization，近端策略优化）训练器实现。

警告

这是一个实验性/原型功能。API 在未来版本中可能会发生变化。请报告任何问题或反馈，以帮助改进此实现。

此训练器实现了 PPO 算法来训练强化学习代理。它通过 PPO 特有的功能（包括策略优化、价值函数学习和熵正则化）扩展了基础的 Trainer 类。

PPO 通常会在同一批数据上进行多个 epoch 的优化。此训练器默认设置为 4 个 epoch，这是 PPO 实现中的常见选择。

该训练器包括全面的日志记录功能，用于监控训练进度：- 训练奖励（平均值、标准差、最大值、总值）- 动作统计（范数）- 剧集完成率- 观测统计（可选）

可以通过构造函数参数配置日志记录，以启用/禁用特定指标。

示例

>>> # Basic usage with manual configuration
>>> from torchrl.trainers.algorithms.ppo import PPOTrainer
>>> from torchrl.trainers.algorithms.configs import PPOTrainerConfig
>>> from hydra import instantiate
>>> config = PPOTrainerConfig(...)  # Configure with required parameters
>>> trainer = instantiate(config)
>>> trainer.train()

注意

此训练器需要可配置的环境设置。有关配置选项，请参阅 configs 模块。

警告

这是一个实验性功能。API 在未来版本中可能会发生变化。我们欢迎反馈和贡献，以帮助改进此实现！

load_from_file(file: str | pathlib.Path, **kwargs) → Trainer¶

加载文件及其 state-dict 到训练器中。

关键字参数将传递给 load() 函数。

PPOTrainer¶

文档

教程

资源