Trainer¶

class torchrl.trainers.Trainer(*args, **kwargs)[source]¶

一个通用的 Trainer 类。

Trainer 负责收集数据和训练模型。为了使该类尽可能通用，Trainer 不会构建任何特定操作：所有操作都必须在训练循环的特定点进行钩接。

要构建一个 Trainer，需要一个可迭代的数据源（一个 collector），一个损失模块和一个优化器。

参数:

collector (Sequence[TensorDictBase]) – 一个返回 TensorDict 格式数据批次的迭代器，形状为 [batch x time steps]。
total_frames (int) – 训练期间要收集的总帧数。
loss_module (LossModule) – 一个读取 TensorDict 批次（可能从回放缓冲区采样）并返回损失 TensorDict 的模块，其中每个键都指向不同的损失组件。
optimizer (optim.Optimizer) – 一个用于训练模型参数的优化器。
logger (Logger, optional) – 一个将处理日志记录的 Logger。
optim_steps_per_batch (int, optional) – 每个数据收集批次的优化步数。Trainer 的工作原理如下：主循环收集数据批次（epoch loop），子循环（training loop）在两次数据收集之间执行模型更新。如果为 None，则 trainer 将使用 worker 的数量作为优化步数。
clip_grad_norm (bool, optional) – 如果为 True，则梯度将根据模型参数的总范数进行裁剪。如果为 False，则所有偏导数都将被限制在 (-clip_norm, clip_norm) 范围内。默认为 True。
clip_norm (Number, optional) – 用于裁剪梯度的值。默认为 None（无裁剪范数）。
progress_bar (bool, optional) – 如果为 True，将使用 tqdm 显示进度条。如果未安装 tqdm，则此选项无效。默认为 True
seed (int, optional) – 将用于 collector、pytorch 和 numpy 的种子。默认为 None。
save_trainer_interval (int, optional) – Trainer 保存到磁盘的频率，以帧数计。默认为 10000。
log_interval (int, optional) – 值记录的频率，以帧数计。默认为 10000。
save_trainer_file (path, optional) – 保存 trainer 的路径。默认为 None（不保存）

load_from_file(file: str | pathlib.Path, **kwargs) → Trainer[source]¶

加载文件及其 state-dict 到 trainer 中。

关键字参数将传递给 load() 函数。

Trainer¶

文档

教程

资源