如何编写自定义 TVTensor 类¶
本指南面向高级用户和下游库维护者。我们将介绍如何编写自定义 TVTensor 类,以及如何使其与内置的 Torchvision v2 变换兼容。在继续之前,请确保您已阅读 TVTensors FAQ。
import torch
from torchvision import tv_tensors
from torchvision.transforms import v2
我们将创建一个非常简单的类,它仅继承自基础的 TVTensor
类。这足以涵盖您需要了解的以实现更复杂的用例。如果您需要创建一个携带元数据的类,请查看 BoundingBoxes
类的 实现 方式。
class MyTVTensor(tv_tensors.TVTensor):
pass
my_dp = MyTVTensor([1, 2, 3])
my_dp
MyTVTensor([1., 2., 3.])
现在我们已经定义了自定义 TVTensor 类,我们希望它与内置的 torchvision 变换和函数式 API 兼容。为此,我们需要实现一个执行变换核心操作的内核,然后通过 register_kernel()
将其“挂钩”到我们想要支持的函数式 API 上。
我们将在下面说明这个过程:为我们的 MyTVTensor 类创建“水平翻转”操作的内核,并将其注册到函数式 API。
from torchvision.transforms.v2 import functional as F
@F.register_kernel(functional="hflip", tv_tensor_cls=MyTVTensor)
def hflip_my_tv_tensor(my_dp, *args, **kwargs):
print("Flipping!")
out = my_dp.flip(-1)
return tv_tensors.wrap(out, like=my_dp)
要理解为什么使用 wrap()
,请参阅 我有一个 TVTensor,但现在我只有一个 Tensor。救命!。暂时忽略 *args, **kwargs
,我们将在下面的 参数转发,以及确保内核的未来兼容性 中进行解释。
注意
在我们上面的 register_kernel
调用中,我们使用了字符串 functional="hflip"
来引用我们想要挂钩的函数式 API。我们也可以使用函数式 API *本身*,即 @register_kernel(functional=F.hflip, ...)
。
现在我们已经注册了内核,就可以在 MyTVTensor
实例上调用函数式 API 了。
my_dp = MyTVTensor(torch.rand(3, 256, 256))
_ = F.hflip(my_dp)
Flipping!
我们也可以使用 RandomHorizontalFlip
变换,因为它在内部依赖于 hflip()
。
t = v2.RandomHorizontalFlip(p=1)
_ = t(my_dp)
Flipping!
注意
我们不能为变换类注册内核,只能为**函数式 API** 注册内核。我们不能为变换类注册内核的原因是,一个变换可能在内部依赖于多个函数式 API,因此通常我们不能为给定的类注册单个内核。
参数转发,以及确保内核的未来兼容性¶
您正在挂钩的函数式 API 是公共的,因此具有**向后**兼容性:我们保证这些函数式 API 的参数不会在没有适当弃用周期的情况下被删除或重命名。但是,我们**不**保证**向前**兼容性,并且将来可能会添加新参数。
设想在未来的版本中,Torchvision 为其 hflip()
函数式 API 添加了一个新的 inplace
参数。如果您已经定义并注册了自己的内核,如:
def hflip_my_tv_tensor(my_dp): # noqa
print("Flipping!")
out = my_dp.flip(-1)
return tv_tensors.wrap(out, like=my_dp)
那么调用 F.hflip(my_dp)
将会**失败**,因为 hflip
将尝试将新的 inplace
参数传递给您的内核,但您的内核不接受它。
因此,我们建议始终在内核签名中定义 *args, **kwargs
,如上所示。这样,您的内核就能接受我们将来可能添加的任何新参数。(技术上讲,只添加 **kwargs 应该就足够了)。
脚本总运行时间: (0 分 0.003 秒)