快捷方式

torchrl.trainers.algorithms.configs.trainers.PPOTrainerConfig

class torchrl.trainers.algorithms.configs.trainers.PPOTrainerConfig(collector: Any, total_frames: int, optim_steps_per_batch: int | None, loss_module: Any, optimizer: Any, logger: Any, save_trainer_file: Any, replay_buffer: Any, frame_skip: int = 1, clip_grad_norm: bool = True, clip_norm: float | None = None, progress_bar: bool = True, seed: int | None = None, save_trainer_interval: int = 10000, log_interval: int = 10000, create_env_fn: Any = None, actor_network: Any = None, critic_network: Any = None, num_epochs: int = 4, _target_: str = 'torchrl.trainers.algorithms.configs.trainers._make_ppo_trainer')[源代码]

PPO(Proximal Policy Optimization,近端策略优化)训练器的配置类。

此类定义了用于创建 PPO 训练器的配置参数,包括必需字段和具有合理默认值的可选字段。

文档

访问全面的 PyTorch 开发者文档

查看文档

教程

为初学者和高级开发者提供深入的教程

查看教程

资源

查找开发资源并让您的问题得到解答

查看资源