评价此页

torch.linalg.eigh#

torch.linalg.eigh(A, UPLO='L', *, out=None)#

计算复共轭厄米特矩阵或实对称矩阵的特征值分解。

K\mathbb{K}R\mathbb{R}C\mathbb{C},复共轭厄米特矩阵或实对称矩阵 AKn×nA \in \mathbb{K}^{n \times n} 的**特征值分解**定义为

A=Qdiag(Λ)QHQKn×n,ΛRnA = Q \operatorname{diag}(\Lambda) Q^{\text{H}}\mathrlap{\qquad Q \in \mathbb{K}^{n \times n}, \Lambda \in \mathbb{R}^n}

其中,当 QQ 是复数时,QHQ^{\text{H}} 是共轭转置;当 QQ 是实数时,QHQ^{\text{H}} 是转置。QQ 在实数情况下是正交的,在复数情况下是酉的。

支持浮点 (float)、双精度浮点 (double)、复数浮点 (cfloat) 和复数双精度浮点 (cdouble) 数据类型。还支持矩阵批处理,如果 `A` 是一个矩阵批处理,则输出具有相同的批处理维度。

假定 A 是厄米特(或对称)的,但内部不进行检查,而是

  • 如果 UPLO= ‘L’(默认),则计算中仅使用矩阵的下三角部分。

  • 如果 UPLO= ‘U’,则仅使用矩阵的上三角部分。

特征值按升序返回。

注意

当输入在 CUDA 设备上时,此函数会使该设备与 CPU 同步。

注意

实对称或复共轭厄米特矩阵的特征值始终是实数。

警告

对称矩阵的特征向量不是唯一的,也不是相对于 A 连续的。由于这种不唯一性,不同的硬件和软件可能会计算出不同的特征向量。

这种不唯一性是由以下事实引起的:在实数情况下将特征向量乘以 -1,或在复数情况下乘以 eiϕ,ϕRe^{i \phi}, \phi \in \mathbb{R} 会产生另一组有效的矩阵特征向量。因此,损失函数不应依赖于特征向量的相位,因为该量没有明确定义。在计算此函数的梯度时,会对复数输入进行检查。因此,当输入为复数且位于 CUDA 设备上时,此函数的梯度计算会将该设备与 CPU 同步。

警告

使用 eigenvectors 张量计算的梯度仅在 A 具有不同特征值时才是有限的。此外,如果任何两个特征值之间的距离接近零,梯度将变得数值不稳定,因为它取决于通过 1minijλiλj\frac{1}{\min_{i \neq j} \lambda_i - \lambda_j} 的计算 λi\lambda_i 得到的。

警告

用户可能会遇到 PyTorch 在使用 CUDA 版本早于 12.1 Update 1 的 CUDA 设备上处理大型病态输入矩阵时崩溃。更多详细信息请参阅 线性代数数值稳定性。如果发生这种情况,用户可以(1)调整输入矩阵使其病态程度降低,或者(2)使用 torch.backends.cuda.preferred_linalg_library() 来尝试其他支持的后端。

另请参阅

torch.linalg.eigvalsh() 仅计算厄米特矩阵的特征值。与 torch.linalg.eigh() 不同,eigvalsh() 的梯度始终是数值稳定的。

torch.linalg.cholesky() 用于厄米特矩阵的不同分解。Cholesky 分解比特征值分解提供的信息少,但计算速度快得多。

torch.linalg.eig() 用于(较慢的)计算非厄米特方阵特征值分解的函数。

torch.linalg.svd() 用于(较慢的)计算任意形状矩阵的更一般的 SVD 分解的函数。

torch.linalg.qr() 用于另一种(速度快得多)适用于通用矩阵的分解。

参数
  • A (Tensor) – 形状为 (*, n, n) 的张量,其中 * 是零个或多个批次维度,由对称或埃尔米特矩阵组成。

  • UPLO (‘L’, ‘U’, optional) – 控制在计算中是使用 A 的上三角部分还是下三角部分。默认值:‘L’

关键字参数

out (tuple, optional) – 包含两个张量的输出元组。如果为 None 则忽略。默认为 None

返回

一个命名元组 (eigenvalues, eigenvectors),对应于上面的 Λ\LambdaQQ

eigenvalues 始终是实数值,即使 A 是复数。它们也将按升序排列。

eigenvectorsAdtype 相同,并且将包含作为其列的特征向量。

示例:
>>> A = torch.randn(2, 2, dtype=torch.complex128)
>>> A = A + A.T.conj()  # creates a Hermitian matrix
>>> A
tensor([[2.9228+0.0000j, 0.2029-0.0862j],
        [0.2029+0.0862j, 0.3464+0.0000j]], dtype=torch.complex128)
>>> L, Q = torch.linalg.eigh(A)
>>> L
tensor([0.3277, 2.9415], dtype=torch.float64)
>>> Q
tensor([[-0.0846+-0.0000j, -0.9964+0.0000j],
        [ 0.9170+0.3898j, -0.0779-0.0331j]], dtype=torch.complex128)
>>> torch.dist(Q @ torch.diag(L.cdouble()) @ Q.T.conj(), A)
tensor(6.1062e-16, dtype=torch.float64)
>>> A = torch.randn(3, 2, 2, dtype=torch.float64)
>>> A = A + A.mT  # creates a batch of symmetric matrices
>>> L, Q = torch.linalg.eigh(A)
>>> torch.dist(Q @ torch.diag_embed(L) @ Q.mH, A)
tensor(1.5423e-15, dtype=torch.float64)