torch.monitor#

创建于：2022年1月12日 | 最后更新于：2025年6月11日

警告

此模块为原型发布，其接口和功能在未来的 PyTorch 版本中可能会在未通知的情况下发生更改。

torch.monitor 提供了一个从 PyTorch 记录事件和计数器的接口。

统计接口旨在用于跟踪高级指标，这些指标会定期记录下来以用于监控系统性能。由于统计数据以特定的窗口大小进行聚合，因此您可以从关键循环中向它们记录数据，从而对性能影响最小。

对于损失、准确率、使用情况跟踪等不频繁的事件或值，可以直接使用事件接口。

可以注册事件处理程序来处理事件并将它们传递给外部事件接收器。

API 参考#

class torch.monitor.Aggregation#

这些是可用于累积统计数据的聚合类型。

成员

VALUE
VALUE 返回最后添加的值。

MEAN
MEAN 计算所有添加值的算术平均值。

COUNT
COUNT 返回添加值的总数。

SUM
SUM 返回添加值的总和。

MAX
MAX 返回添加值中的最大值。

MIN
MIN 返回添加值中的最小值。

property name#

class torch.monitor.Stat#

Stat 用于在固定时间间隔内以高性能的方式计算摘要统计信息。Stat 每隔 window_size 持续时间将统计数据记录为 Event。当窗口关闭时，统计数据将通过事件处理程序记录为 torch.monitor.Stat 事件。

window_size 应设置为相对较大的值，以避免记录大量事件。例如：60 秒。Stat 使用毫秒精度。

如果设置了 max_samples，则统计数据将通过在发生 max_samples 次添加调用后丢弃 add 调用来限制每个窗口的样本数量。如果未设置，则将包含窗口期间的所有 add 调用。这是一个可选字段，用于使跨窗口的聚合更直接可比，因为样本数量可能会有所不同。

当 Stat 被销毁时，它将记录任何剩余数据，即使窗口尚未经过。

__init__(self: torch._C._monitor.Stat, name: str, aggregations: collections.abc.Sequence[torch._C._monitor.Aggregation], window_size: datetime.timedelta, max_samples: SupportsInt = 9223372036854775807) → None#: 构造 Stat。

add(self: torch._C._monitor.Stat, v: SupportsFloat) → None#: 将值添加到统计数据中，以根据配置的统计类型和聚合进行聚合。

property count#: 当前已收集的数据点数。事件记录后重置。

get(self: torch._C._monitor.Stat) → dict[torch._C._monitor.Aggregation, float]#: 返回统计数据的当前值，主要用于测试目的。如果统计数据已记录并且没有添加其他值，则此值为零。

property name#: 创建时设置的统计数据的名称。

class torch.monitor.data_value_t#: data_value_t 是 str、float、int、bool 之一。

class torch.monitor.Event#

Event 代表一个要记录的特定类型事件。这可以代表每轮的损失或准确率等高级数据点，也可以代表通过本库提供的 Stats 进行的更低级聚合。

同一类型的所有事件都应具有相同的名称，以便下游处理程序能够正确处理它们。

__init__(self: torch._C._monitor.Event, name: str, timestamp: datetime.datetime, data: collections.abc.Mapping[str, data_value_t]) → None#: 构造 Event。

property data#: Event 中包含的结构化数据。

property name#: Event 的名称。

property timestamp#: Event 发生的 timestamp。

class torch.monitor.EventHandlerHandle#: EventHandlerHandle 是 register_event_handler 返回的包装类型，用于通过 unregister_event_handler 取消注册处理程序。此类型无法直接初始化。

torch.monitor.log_event(event: torch._C._monitor.Event) → None#

log_event 将指定的事件记录到所有已注册的事件处理程序。由事件处理程序负责将事件记录到相应的事件接收器。

如果没有注册事件处理程序，此方法将不执行任何操作。

torch.monitor.register_event_handler(callback: collections.abc.Callable[[torch._C._monitor.Event], None]) → torch._C._monitor.EventHandlerHandle#: register_event_handler 注册一个回调函数，当通过 log_event 记录事件时，将调用该函数。这些处理程序应避免阻塞主线程，因为它们在 log_event 调用期间运行，可能会干扰训练。

torch.monitor.unregister_event_handler(handler: torch._C._monitor.EventHandlerHandle) → None#: unregister_event_handler 取消注册调用 register_event_handler 后返回的 EventHandlerHandle。返回后，事件处理程序将不再接收事件。

class torch.monitor.TensorboardEventHandler(writer)[source]#

TensorboardEventHandler 是一个事件处理程序，它会将已知的事件写入提供的 SummaryWriter。

目前仅支持将 torch.monitor.Stat 事件记录为标量。

示例

>>> from torch.utils.tensorboard import SummaryWriter
>>> from torch.monitor import TensorboardEventHandler, register_event_handler
>>> writer = SummaryWriter("log_dir")
>>> register_event_handler(TensorboardEventHandler(writer))

__init__(writer)[source]#

构造 TensorboardEventHandler。

torch.monitor#

API 参考#

文档

教程

资源