评价此页

torch.linalg.lstsq#

torch.linalg.lstsq(A, B, rcond=None, *, driver=None)#

计算线性方程组的最小二乘解。

K\mathbb{K}R\mathbb{R}C\mathbb{C},对于线性系统 AX=BAX = B,其中 AKm×n,BKm×kA \in \mathbb{K}^{m \times n}, B \in \mathbb{K}^{m \times k}最小二乘问题 定义为

minXKn×kAXBF\min_{X \in \mathbb{K}^{n \times k}} \|AX - B\|_F

其中 F\|-\|_F 表示Frobenius范数。

支持float、double、cfloat和cdouble数据类型的输入。也支持矩阵的批次,如果输入是矩阵的批次,则输出具有相同的批次维度。

driver 选择将要使用的后端函数。对于CPU输入,有效值为 ‘gels’‘gelsy’‘gelsd’‘gelss’。要为CPU选择最佳驱动程序,请考虑:

  • 如果 A 是良态的(其 条件数 不是太大),或者您不介意丢失一些精度。

    • 对于一般矩阵:‘gelsy’(带枢轴的QR)(默认)

    • 如果 A 是满秩的:‘gels’(QR)

  • 如果 A 不是良态的。

    • ‘gelsd’(三对角线约化和SVD)

    • 但是,如果您遇到内存问题:‘gelss’(全SVD)。

对于CUDA输入,唯一有效的驱动程序是 ‘gels’,它假定 A 是满秩的。

还可以参阅 这些驱动程序的完整描述

rcond 用于在 driver 是 (‘gelsy’‘gelsd’‘gelss’) 之一时,确定 A 中矩阵的有效秩。在这种情况下,如果 σi\sigma_iA 的降序奇异值,如果 σircondσ1\sigma_i \leq \text{rcond} \cdot \sigma_1σi\sigma_i 将向下舍入为零。如果 rcond = None(默认值),则 rcond 设置为 A 的 dtype 的机器精度乘以 max(m, n)

此函数以比单独计算更快、更数值稳定的方式返回问题的解以及命名元组 (solution, residuals, rank, singular_values) 中的一些额外信息。对于形状分别为 (*, m, n)(*, m, k) 的输入 AB,它包含:

  • solution:最小二乘解。其形状为 (*, n, k)

  • residuals:解的平方残差,即 AXBF2\|AX - B\|_F^2。其形状为 (*, k)。当 m > nA 中的每个矩阵都满秩时,它会被计算出来,否则它是一个空张量。如果 A 是一个矩阵批次,并且批次中的任何矩阵都不是满秩,则会返回一个空张量。此行为在未来的 PyTorch 版本中可能会发生更改。

  • rankA 中矩阵的秩的张量。其形状等于 A 的批次维度。当 driver 是 (‘gelsy’‘gelsd’‘gelss’) 之一时,它会被计算出来,否则它是一个空张量。

  • singular_valuesA 中矩阵的奇异值的张量。其形状为 (*, min(m, n))。当 driver 是 (‘gelsd’‘gelss’) 之一时,它会被计算出来,否则它是一个空张量。

注意

此函数以比单独计算更快、更数值稳定的方式计算 X = A.pinverse() @ B

警告

rcond 的默认值可能会在未来的 PyTorch 版本中发生变化。因此,建议使用固定值以避免潜在的破坏性更改。

参数
  • A (Tensor) – lhs 张量,形状为 (*, m, n),其中 * 是零个或多个批次维度。

  • B (Tensor) – rhs 张量,形状为 (*, m, k),其中 * 是零个或多个批次维度。

  • rcond (float, optional) – 用于确定 A 的有效秩。如果 rcond = None,则 rcond 设置为 A 的 dtype 的机器精度乘以 max(m, n)。默认值:None

关键字参数

driver (str, optional) – 要使用的 LAPACK/MAGMA 方法的名称。如果 None,则对 CPU 输入使用 ‘gelsy’,对 CUDA 输入使用 ‘gels’。默认值:None

返回

一个命名元组 (solution, residuals, rank, singular_values)

示例

>>> A = torch.randn(1,3,3)
>>> A
tensor([[[-1.0838,  0.0225,  0.2275],
     [ 0.2438,  0.3844,  0.5499],
     [ 0.1175, -0.9102,  2.0870]]])
>>> B = torch.randn(2,3,3)
>>> B
tensor([[[-0.6772,  0.7758,  0.5109],
     [-1.4382,  1.3769,  1.1818],
     [-0.3450,  0.0806,  0.3967]],
    [[-1.3994, -0.1521, -0.1473],
     [ 1.9194,  1.0458,  0.6705],
     [-1.1802, -0.9796,  1.4086]]])
>>> X = torch.linalg.lstsq(A, B).solution # A is broadcasted to shape (2, 3, 3)
>>> torch.dist(X, torch.linalg.pinv(A) @ B)
tensor(1.5152e-06)

>>> S = torch.linalg.lstsq(A, B, driver='gelsd').singular_values
>>> torch.dist(S, torch.linalg.svdvals(A))
tensor(2.3842e-07)

>>> A[:, 0].zero_()  # Decrease the rank of A
>>> rank = torch.linalg.lstsq(A, B).rank
>>> rank
tensor([2])