RayWeightUpdater¶

class torchrl.collectors.RayWeightUpdater(policy_weights: TensorDictBase, remote_collectors: list, max_interval: int = 0)[源代码]¶

一个远程权重更新器，用于使用 Ray 在远程工作者之间同步策略权重。

RayWeightUpdater 类提供了一种机制，用于在 Ray 管理的远程推理工作者之间更新策略的权重。它利用 Ray 的分布式计算能力，有效地将策略权重分发给远程收集器。此类通常用于分布式数据收集器，其中每个远程工作者都需要一份最新的策略权重副本。

参数:

policy_weights (TensorDictBase) – 需要分发给远程工作者的策略的当前权重。
remote_collectors (List) – 将接收更新的策略权重的远程收集器列表。
max_interval (int, optional) – 每个工作者权重更新之间的最大批次数量。默认为 0，表示每批次更新权重。

all_worker_ids()[源代码]¶: 返回所有工作者标识符（远程收集器的索引）的列表。

_get_server_weights()[源代码]¶: 从服务器检索最新权重并将其存储在 Ray 的对象存储中。

_maybe_map_weights()[源代码]¶: 在分发之前可选地映射服务器权重（此实现中为无操作）。

_sync_weights_with_worker()[源代码]¶: 使用 Ray 将服务器权重与特定远程工作者同步。

_skip_update()[源代码]¶: 根据间隔确定是否跳过特定工作者的权重更新。

注意

此类假定服务器权重可以直接应用于远程工作者，无需任何额外处理。如果您的用例需要更复杂的权重映射或同步逻辑，请考虑通过自定义实现来扩展 WeightUpdaterBase。

另请参阅

WeightUpdaterBase 和 RayCollector。

all_worker_ids() → list[int] | list[torch.device][源代码]¶

获取所有工作进程 ID 的列表。

默认返回 None。子类应覆盖以返回实际的工作进程 ID。

返回:: 工作进程 ID 列表或 None。
返回类型:: list[int] | list[torch.device] | None

property collector: Any | None¶

接收器的收集器或容器。

如果容器超出范围或未设置，则返回None。

property collectors: list[Any] | None¶: 收集器或接收者容器。

classmethod from_policy(policy: TensorDictModuleBase) → WeightUpdaterBase | None¶

可选的类方法，用于从策略创建权重更新器实例。

子类可以实现此方法以提供基于策略的自定义初始化逻辑。如果实现，将在收集器中初始化权重更新器时调用此方法，然后再回退到默认构造函数。

参数:

policy (TensorDictModuleBase) – 要从中创建权重更新器的策略。

返回:

权重更新器的实例，或者如果策略无法创建实例则为 None。: 无法用于创建实例的实例。

返回类型:

WeightUpdaterBase | None

increment_version()¶: 增加策略版本。

init(*args, **kwargs)¶

使用自定义参数初始化权重更新器。

子类可以覆盖此方法以处理自定义初始化。默认情况下，这是一个无操作。

参数:

*args – 初始化位置参数
**kwargs – 初始化关键字参数

property post_hooks: list[collections.abc.Callable[[], None]]¶: 注册到权重更新器的后置钩子列表。

更新策略的权重，或在指定/所有远程工作进程上更新。

参数:

policy_or_weights – 从中获取权重的来源。可以是： - TensorDictModuleBase：将提取权重的策略模块 - TensorDictBase：包含权重的 TensorDict - dict：一个包含权重的普通字典 - None：将尝试使用 _get_server_weights() 从服务器获取权重。
worker_ids – 要更新的工作进程的可选列表。

返回：无。

register_collector(collector)¶

在更新器中注册一个收集器。

注册后，更新器将不再接受另一个收集器。

参数:: collector (DataCollectorBase) – 要注册的 collector。

register_post_hook(hook: Callable[[], None])¶

注册一个后置钩子，在权重更新后调用。

参数:: hook (Callable[[], None]) – 要注册的后置钩子。

RayWeightUpdater¶

文档

教程

资源