快捷方式

PPOTrainer

class torchrl.trainers.algorithms.PPOTrainer(*args, **kwargs)[源代码]

PPO(Proximal Policy Optimization,近端策略优化)训练器实现。

警告

这是一个实验性/原型功能。API 在未来版本中可能会发生变化。请报告任何问题或反馈,以帮助改进此实现。

此训练器实现了 PPO 算法来训练强化学习代理。它通过 PPO 特有的功能(包括策略优化、价值函数学习和熵正则化)扩展了基础的 Trainer 类。

PPO 通常会在同一批数据上进行多个 epoch 的优化。此训练器默认设置为 4 个 epoch,这是 PPO 实现中的常见选择。

该训练器包括全面的日志记录功能,用于监控训练进度:- 训练奖励(平均值、标准差、最大值、总值)- 动作统计(范数)- 剧集完成率- 观测统计(可选)

可以通过构造函数参数配置日志记录,以启用/禁用特定指标。

示例

>>> # Basic usage with manual configuration
>>> from torchrl.trainers.algorithms.ppo import PPOTrainer
>>> from torchrl.trainers.algorithms.configs import PPOTrainerConfig
>>> from hydra import instantiate
>>> config = PPOTrainerConfig(...)  # Configure with required parameters
>>> trainer = instantiate(config)
>>> trainer.train()

注意

此训练器需要可配置的环境设置。有关配置选项,请参阅 configs 模块。

警告

这是一个实验性功能。API 在未来版本中可能会发生变化。我们欢迎反馈和贡献,以帮助改进此实现!

load_from_file(file: str | pathlib.Path, **kwargs) Trainer

加载文件及其 state-dict 到训练器中。

关键字参数将传递给 load() 函数。

文档

访问全面的 PyTorch 开发者文档

查看文档

教程

为初学者和高级开发者提供深入的教程

查看教程

资源

查找开发资源并让您的问题得到解答

查看资源