torch.nn.utils.parametrizations.orthogonal#

torch.nn.utils.parametrizations.orthogonal(module, name='weight', orthogonal_map=None, *, use_trivialization=True)[source]#

将矩阵或矩阵批次应用正交或酉参数化。

令 $\mathbb{K}$ 为 $\mathbb{R}$ 或 $\mathbb{C}$ ，参数化矩阵 $Q \in \mathbb{K}^{m \times n}$ 是**正交**的，具体定义如下：

\begin{align*} Q^{\text{H}}Q &= \mathrm{I}_n \mathrlap{\qquad \text{if }m \geq n}\\ QQ^{\text{H}} &= \mathrm{I}_m \mathrlap{\qquad \text{if }m < n} \end{align*}

其中 $Q^{\text{H}}$ 是 $Q$ 为复数时的共轭转置，为实数时的转置，而 $\mathrm{I}_n$ 是 n 维单位矩阵。通俗地说，当 $m \geq n$ 时， $Q$ 的列是正交的，否则行是正交的。

如果张量有多个维度，我们将其视为形状为 (…, m, n) 的矩阵批次。

矩阵 $Q$ 可以通过三种不同的 orthogonal_map 来参数化，这些映射作用于原始张量：

"matrix_exp"/"cayley"：matrix_exp() $Q = \exp(A)$ 和 Cayley 变换 $Q = (\mathrm{I}_n + A/2)(\mathrm{I}_n - A/2)^{-1}$ 作用于一个斜对称矩阵 $A$ 以得到一个正交矩阵。
"householder"：计算 Householder 反射的乘积（householder_product()）。

"matrix_exp"/"cayley" 通常比 "householder" 能更快地使参数化权重收敛，但对于非常瘦或非常宽的矩阵计算速度较慢。

如果 use_trivialization=True（默认值），则参数化实现“动态平凡化框架”，其中一个额外的矩阵 $B \in \mathbb{K}^{n \times n}$ 存储在 module.parametrizations.weight[0].base 下。这有助于参数化层的收敛，但会消耗一些额外的内存。请参阅 Trivializations for Gradient-Based Optimization on Manifolds。

$Q$ 的初始值：如果原始张量未参数化且 use_trivialization=True（默认值），则 $Q$ 的初始值是原始张量本身（如果它已经是正交的，或者在复数情况下是酉的），否则通过 QR 分解进行正交化（参见 torch.linalg.qr()）。如果它未参数化且 orthogonal_map="householder"，即使 use_trivialization=False，情况也相同。否则，初始值是应用于原始张量的所有已注册参数化的组合结果。

注意

此函数使用 register_parametrization() 中的参数化功能实现。

参数

module (nn.Module) – 要注册参数化的模块。
name (str, optional) – 要使其正交的张量名称。默认为 "weight"。
orthogonal_map (str, optional) – 以下之一：“matrix_exp”、“cayley” 或 “householder”。默认为，当矩阵为方阵或复数时为 "matrix_exp"，否则为 "householder"。
use_trivialization (bool, optional) – 是否使用动态平凡化框架。默认为 True。

返回

具有已向指定权重注册正交参数化的原始模块

返回类型

模块

示例

>>> orth_linear = orthogonal(nn.Linear(20, 40))
>>> orth_linear
ParametrizedLinear(
in_features=20, out_features=40, bias=True
(parametrizations): ModuleDict(
    (weight): ParametrizationList(
    (0): _Orthogonal()
    )
)
)
>>> Q = orth_linear.weight
>>> torch.dist(Q.T @ Q, torch.eye(20))
tensor(4.9332e-07)

torch.nn.utils.parametrizations.orthogonal#

文档

教程

资源