memmap¶

class tensordict.memmap(data: TensorCollection, prefix: Optional[str] = None, copy_existing: bool = False, *, num_threads: int = 0, return_early: bool = False, share_non_tensor: bool = False)¶

将所有张量写入内存映射的 Tensor 中，并放入新的 tensordict。

参数:

data (TensorDictBase) – 要保存的数据结构。
prefix (str) – 内存映射张量将存储的目录前缀。目录树结构将模仿 tensordict 的结构。
copy_existing (bool) – 如果为 False（默认值），并且 tensordict 中某项已是存储在磁盘上的张量且关联了文件，但未按 prefix 保存到正确位置，则会引发异常。如果为 True，则任何现有张量都将被复制到新位置。

关键字参数:

num_threads (int, 可选) – 用于写入 memmap 张量的线程数。默认为 0。
return_early (bool, 可选) – 如果设置为 True 且 num_threads>0，则该方法将返回 tensordict 的一个 future。
share_non_tensor (bool, 可选) – 如果设置为 True，则非张量数据将在进程之间共享，并且在单个节点内的任何工作者上进行的写入操作（例如就地更新或设置）将更新所有其他工作者上的值。如果非张量叶子节点数量很多（例如，共享大量非张量数据），这可能会导致 OOM 或类似错误。默认为 False。

然后，Tensordict 被锁定，这意味着任何非就地写入操作（例如重命名、设置或删除条目）都将引发异常。一旦 tensordict 被解锁，内存映射属性将变为 False，因为不能保证跨进程身份。

返回:: 返回一个新的 tensordict，其中张量存储在磁盘上（如果 return_early=False），否则返回一个 TensorDictFuture 实例。

注意

以这种方式序列化对于深度嵌套的 tensordicts 来说可能很慢，因此不建议在训练循环中调用此方法。

memmap¶

文档

教程

资源