评价此页

torch.nn.init#

创建日期:2019 年 6 月 11 日 | 最后更新日期:2022 年 7 月 7 日

警告

此模块中的所有函数都旨在用于初始化神经网络参数,因此它们都在 torch.no_grad() 模式下运行,并且不会被自动求导所考虑。

torch.nn.init.calculate_gain(nonlinearity, param=None)[来源]#

返回给定非线性函数的推荐增益值。

值如下:

非线性

增益

线性 / 恒等

11

Conv{1,2,3}D

11

Sigmoid

11

Tanh

53\frac{5}{3}

ReLU

2\sqrt{2}

Leaky Relu

21+negative_slope2\sqrt{\frac{2}{1 + \text{negative\_slope}^2}}

SELU

34\frac{3}{4}

警告

为了实现自归一化神经网络,您应该使用nonlinearity='linear'而不是nonlinearity='selu'。这使初始权重具有1 / N的方差,这对于在前向传播中产生稳定的不动点是必要的。相比之下,SELU的默认增益牺牲了归一化效果,以换取矩形层中更稳定的梯度流。

参数
  • nonlinearity (Literal['linear', 'conv1d', 'conv2d', 'conv3d', 'conv_transpose1d', 'conv_transpose2d', 'conv_transpose3d', 'sigmoid', 'tanh', 'relu', 'leaky_relu', 'selu']) – 非线性函数(nn.functional 名称)

  • param (Optional[Union[int, float]]) – 非线性函数的可选参数

返回类型

浮点数

示例

>>> gain = nn.init.calculate_gain(
...     "leaky_relu", 0.2
... )  # leaky_relu with negative_slope=0.2
torch.nn.init.uniform_(tensor, a=0.0, b=1.0, generator=None)[source]#

用均匀分布中抽取的值填充输入张量。

U(a,b)\mathcal{U}(a, b).

参数
  • tensor (Tensor) – 一个 n 维 torch.Tensor

  • a (float) – 均匀分布的下限

  • b (float) – 均匀分布的上限

  • generator (Optional[Generator]) – 用于采样的 torch 生成器(默认值:None)

返回类型

张量

示例

>>> w = torch.empty(3, 5)
>>> nn.init.uniform_(w)
torch.nn.init.normal_(tensor, mean=0.0, std=1.0, generator=None)[source]#

用正态分布中抽取的值填充输入张量。

N(mean,std2)\mathcal{N}(\text{mean}, \text{std}^2).

参数
  • tensor (Tensor) – 一个 n 维 torch.Tensor

  • mean (float) – 正态分布的均值

  • std (float) – 正态分布的标准差

  • generator (Optional[Generator]) – 用于采样的 torch 生成器(默认值:None)

返回类型

张量

示例

>>> w = torch.empty(3, 5)
>>> nn.init.normal_(w)
torch.nn.init.constant_(tensor, val)[source]#

用值val\text{val}填充输入张量。

参数
  • tensor (Tensor) – 一个 n 维 torch.Tensor

  • val (float) – 用于填充张量的值

返回类型

张量

示例

>>> w = torch.empty(3, 5)
>>> nn.init.constant_(w, 0.3)
torch.nn.init.ones_(tensor)[source]#

用标量值1填充输入张量。

参数

tensor (Tensor) – 一个 n 维 torch.Tensor

返回类型

张量

示例

>>> w = torch.empty(3, 5)
>>> nn.init.ones_(w)
torch.nn.init.zeros_(tensor)[source]#

用标量值0填充输入张量。

参数

tensor (Tensor) – 一个 n 维 torch.Tensor

返回类型

张量

示例

>>> w = torch.empty(3, 5)
>>> nn.init.zeros_(w)
torch.nn.init.eye_(tensor)[source]#

用单位矩阵填充二维输入Tensor

Linear层中,尽可能多地保留输入以保持其恒等性。

参数

tensor (Tensor) – 一个二维 torch.Tensor

返回类型

张量

示例

>>> w = torch.empty(3, 5)
>>> nn.init.eye_(w)
torch.nn.init.dirac_(tensor, groups=1)[source]#

用狄拉克δ函数填充 {3, 4, 5} 维输入Tensor

卷积层中,尽可能多地保留输入通道以保持其恒等性。如果 groups > 1,则每个通道组保持恒等性。

参数
  • tensor (Tensor) – 一个 {3, 4, 5} 维 torch.Tensor

  • groups (int, optional) – 卷积层中的组数(默认值:1)

返回类型

张量

示例

>>> w = torch.empty(3, 16, 5, 5)
>>> nn.init.dirac_(w)
>>> w = torch.empty(3, 24, 5, 5)
>>> nn.init.dirac_(w, 3)
torch.nn.init.xavier_uniform_(tensor, gain=1.0, generator=None)[source]#

使用 Xavier 均匀分布填充输入Tensor

该方法在 Glorot, X. & Bengio, Y. (2010) 的《理解深度前馈神经网络训练的难度》中描述。生成的张量将从 U(a,a)\mathcal{U}(-a, a) 中采样,其中

a=gain×6fan_in+fan_outa = \text{gain} \times \sqrt{\frac{6}{\text{fan\_in} + \text{fan\_out}}}

也称为 Glorot 初始化。

参数
  • tensor (Tensor) – 一个 n 维 torch.Tensor

  • gain (float) – 可选的缩放因子

  • generator (Optional[Generator]) – 用于采样的 torch 生成器(默认值:None)

返回类型

张量

示例

>>> w = torch.empty(3, 5)
>>> nn.init.xavier_uniform_(w, gain=nn.init.calculate_gain("relu"))

注意

请注意,fan_infan_out 是假设权重矩阵以转置方式使用而计算的(即,在 Linear 层中为 x @ w.T,其中 w.shape = [fan_out, fan_in])。这对于正确的初始化很重要。如果您打算使用 x @ w,其中 w.shape = [fan_in, fan_out],请传入转置的权重矩阵,即 nn.init.xavier_uniform_(w.T, ...)

torch.nn.init.xavier_normal_(tensor, gain=1.0, generator=None)[source]#

使用 Xavier 正态分布填充输入Tensor

该方法在 Glorot, X. & Bengio, Y. (2010) 的《理解深度前馈神经网络训练的难度》中描述。生成的张量将从 N(0,std2)\mathcal{N}(0, \text{std}^2) 中采样,其中

std=gain×2fan_in+fan_out\text{std} = \text{gain} \times \sqrt{\frac{2}{\text{fan\_in} + \text{fan\_out}}}

也称为 Glorot 初始化。

参数
  • tensor (Tensor) – 一个 n 维 torch.Tensor

  • gain (float) – 可选的缩放因子

  • generator (Optional[Generator]) – 用于采样的 torch 生成器(默认值:None)

返回类型

张量

示例

>>> w = torch.empty(3, 5)
>>> nn.init.xavier_normal_(w)

注意

请注意,fan_infan_out 是假设权重矩阵以转置方式使用而计算的(即,在 Linear 层中为 x @ w.T,其中 w.shape = [fan_out, fan_in])。这对于正确的初始化很重要。如果您打算使用 x @ w,其中 w.shape = [fan_in, fan_out],请传入转置的权重矩阵,即 nn.init.xavier_normal_(w.T, ...)

torch.nn.init.kaiming_uniform_(tensor, a=0, mode='fan_in', nonlinearity='leaky_relu', generator=None)[source]#

使用 Kaiming 均匀分布填充输入Tensor

该方法在 He, K. 等人 (2015) 的《深入研究整流器:超越 ImageNet 分类的人类水平性能》中描述。生成的张量将从 U(bound,bound)\mathcal{U}(-\text{bound}, \text{bound}) 中采样,其中

bound=gain×3fan_mode\text{bound} = \text{gain} \times \sqrt{\frac{3}{\text{fan\_mode}}}

也称为 He 初始化。

参数
  • tensor (Tensor) – 一个 n 维 torch.Tensor

  • a (float) – 此层后使用的整流器的负斜率(仅与 'leaky_relu' 一起使用)

  • mode (Literal['fan_in', 'fan_out']) – 'fan_in'(默认)或 'fan_out'。选择 'fan_in' 在前向传播中保留权重的方差大小。选择 'fan_out' 在反向传播中保留大小。

  • nonlinearity (Literal['linear', 'conv1d', 'conv2d', 'conv3d', 'conv_transpose1d', 'conv_transpose2d', 'conv_transpose3d', 'sigmoid', 'tanh', 'relu', 'leaky_relu', 'selu']) – 非线性函数(nn.functional 名称),建议仅与 'relu''leaky_relu'(默认)一起使用。

  • generator (Optional[Generator]) – 用于采样的 torch 生成器(默认值:None)

返回类型

张量

示例

>>> w = torch.empty(3, 5)
>>> nn.init.kaiming_uniform_(w, mode="fan_in", nonlinearity="relu")

注意

请注意,fan_infan_out 是假设权重矩阵以转置方式使用而计算的(即,在 Linear 层中为 x @ w.T,其中 w.shape = [fan_out, fan_in])。这对于正确的初始化很重要。如果您打算使用 x @ w,其中 w.shape = [fan_in, fan_out],请传入转置的权重矩阵,即 nn.init.kaiming_uniform_(w.T, ...)

torch.nn.init.kaiming_normal_(tensor, a=0, mode='fan_in', nonlinearity='leaky_relu', generator=None)[source]#

使用 Kaiming 正态分布填充输入Tensor

该方法在 He, K. 等人 (2015) 的《深入研究整流器:超越 ImageNet 分类的人类水平性能》中描述。生成的张量将从 N(0,std2)\mathcal{N}(0, \text{std}^2) 中采样,其中

std=gainfan_mode\text{std} = \frac{\text{gain}}{\sqrt{\text{fan\_mode}}}

也称为 He 初始化。

参数
  • tensor (Tensor) – 一个 n 维 torch.Tensor

  • a (float) – 此层后使用的整流器的负斜率(仅与 'leaky_relu' 一起使用)

  • mode (Literal['fan_in', 'fan_out']) – 'fan_in'(默认)或 'fan_out'。选择 'fan_in' 在前向传播中保留权重的方差大小。选择 'fan_out' 在反向传播中保留大小。

  • nonlinearity (Literal['linear', 'conv1d', 'conv2d', 'conv3d', 'conv_transpose1d', 'conv_transpose2d', 'conv_transpose3d', 'sigmoid', 'tanh', 'relu', 'leaky_relu', 'selu']) – 非线性函数(nn.functional 名称),建议仅与 'relu''leaky_relu'(默认)一起使用。

  • generator (Optional[Generator]) – 用于采样的 torch 生成器(默认值:None)

返回类型

张量

示例

>>> w = torch.empty(3, 5)
>>> nn.init.kaiming_normal_(w, mode="fan_out", nonlinearity="relu")

注意

请注意,fan_infan_out 是假设权重矩阵以转置方式使用而计算的(即,在 Linear 层中为 x @ w.T,其中 w.shape = [fan_out, fan_in])。这对于正确的初始化很重要。如果您打算使用 x @ w,其中 w.shape = [fan_in, fan_out],请传入转置的权重矩阵,即 nn.init.kaiming_normal_(w.T, ...)

torch.nn.init.trunc_normal_(tensor, mean=0.0, std=1.0, a=-2.0, b=2.0, generator=None)[source]#

用截断正态分布中抽取的值填充输入张量。

这些值有效地从正态分布 N(mean,std2)\mathcal{N}(\text{mean}, \text{std}^2) 中抽取,超出 [a,b][a, b] 的值将被重新抽取,直到它们在范围内。用于生成随机值的方法在 ameanba \leq \text{mean} \leq b 时效果最佳。

参数
  • tensor (Tensor) – 一个 n 维 torch.Tensor

  • mean (float) – 正态分布的均值

  • std (float) – 正态分布的标准差

  • a (float) – 最小截断值

  • b (float) – 最大截断值

  • generator (Optional[Generator]) – 用于采样的 torch 生成器(默认值:None)

返回类型

张量

示例

>>> w = torch.empty(3, 5)
>>> nn.init.trunc_normal_(w)
torch.nn.init.orthogonal_(tensor, gain=1, generator=None)[source]#

用(半)正交矩阵填充输入Tensor

该方法在 Saxe, A. 等人 (2013) 的《深度线性神经网络中学习非线性动力学的精确解》中描述。输入张量必须至少有 2 个维度,对于超过 2 个维度的张量,尾部维度会被展平。

参数
  • tensor (Tensor) – 一个 n 维 torch.Tensor,其中 n2n \geq 2

  • gain (float) – 可选的缩放因子

  • generator (Optional[Generator]) – 用于采样的 torch 生成器(默认值:None)

返回类型

张量

示例

>>> w = torch.empty(3, 5)
>>> nn.init.orthogonal_(w)
torch.nn.init.sparse_(tensor, sparsity, std=0.01, generator=None)[source]#

将二维输入Tensor填充为稀疏矩阵。

非零元素将从正态分布 N(0,0.01)\mathcal{N}(0, 0.01) 中抽取,如 Martens, J. (2010) 的《通过 Hessian-free 优化进行深度学习》中所述。

参数
  • tensor (Tensor) – 一个 n 维 torch.Tensor

  • sparsity (float) – 每列中设置为零的元素比例

  • std (float) – 用于生成非零值的正态分布的标准差

  • generator (Optional[Generator]) – 用于采样的 torch 生成器(默认值:None)

返回类型

张量

示例

>>> w = torch.empty(3, 5)
>>> nn.init.sparse_(w, sparsity=0.1)