torch.cuda.memory.memory_stats#

torch.cuda.memory.memory_stats(device=None)[source]#

返回给定设备的 CUDA 内存分配器统计信息的字典。

此函数的返回值是一个统计字典，其中每个统计项都是一个非负整数。

核心统计信息

"allocated.{all,large_pool,small_pool}.{current,peak,allocated,freed}"：内存分配器接收到的分配请求数量。
"allocated_bytes.{all,large_pool,small_pool}.{current,peak,allocated,freed}": 已分配内存的大小。
"segment.{all,large_pool,small_pool}.{current,peak,allocated,freed}"：从 cudaMalloc() 预留的段的数量。
"reserved_bytes.{all,large_pool,small_pool}.{current,peak,allocated,freed}": 已预留内存的大小。
"active.{all,large_pool,small_pool}.{current,peak,allocated,freed}"：活动内存块的数量。
"active_bytes.{all,large_pool,small_pool}.{current,peak,allocated,freed}": 活动内存的大小。
"inactive_split.{all,large_pool,small_pool}.{current,peak,allocated,freed}"：不活动、不可释放的内存块的数量。
"inactive_split_bytes.{all,large_pool,small_pool}.{current,peak,allocated,freed}"：不活动、不可释放的内存量。

对于这些核心统计信息，值按以下方式细分。

内存池类型

指标类型

除了核心统计数据外，我们还提供了一些简单的事件计数器

缓存分配器可以通过环境变量进行配置，使其不分割大于定义大小的块（请参阅 CUDA 语义文档的内存管理部分）。这有助于避免内存碎片，但可能会带来性能损失。其他输出有助于调整和评估影响。

缓存分配器可以通过环境变量进行配置，以四舍五入内存分配以减少碎片。有时四舍五入的开销可能高于其帮助减少的碎片。以下统计信息可用于检查四舍五入是否增加了过多开销。

"requested_bytes.{all,large_pool,small_pool}.{current,peak,allocated,freed}"：客户端代码请求的内存，与 allocated_bytes 进行比较，以检查分配四舍五入是否增加了过多开销。

参数: device (torch.device 或 int, 可选) – 选定的设备。如果 device 为 None（默认），则返回当前设备（由 current_device() 指定）的统计信息。
返回类型: dict[str, Any]

注意

有关 GPU 内存管理的更多详细信息，请参阅内存管理。

注意

在使用 backend:cudaMallocAsync 时，某些统计信息无意义，始终报告为零。

文档