Transformer#

class torch.nn.modules.transformer.Transformer(d_model=512, nhead=8, num_encoder_layers=6, num_decoder_layers=6, dim_feedforward=2048, dropout=0.1, activation=<function relu>, custom_encoder=None, custom_decoder=None, layer_norm_eps=1e-05, batch_first=False, norm_first=False, bias=True, device=None, dtype=None)[源码]#

一个基本的 Transformer 层。

此 Transformer 层实现了《Attention Is All You Need》论文中描述的原始 Transformer 架构。本层的目的是作为基础理解的参考实现，因此与较新的 Transformer 架构相比，其功能有限。鉴于 Transformer 类架构的快速创新步伐，我们建议参考此教程，从核心构建块中构建一个高效的 Transformer 层，或使用 PyTorch 生态系统的更高级别库。

参数

d_model (int) – 编码器/解码器输入中预期的特征数量（默认值=512）。
nhead (int) – 多头注意力模型中的头数（默认值=8）。
num_encoder_layers (int) – 编码器中的子编码器层数（默认值=6）。
num_decoder_layers (int) – 解码器中的子解码器层数（默认值=6）。
dim_feedforward (int) – 前馈网络模型的维度（默认值=2048）。
dropout (float) – dropout 值（默认值=0.1）。
activation (Union[str, Callable[[Tensor], Tensor]]) – 编码器/解码器中间层的激活函数，可以是字符串（“relu” 或 “gelu”）或一元可调用对象。默认值：relu
custom_encoder (Optional[Any]) – 自定义编码器（默认值：None）。
custom_decoder (Optional[Any]) – 自定义解码器（默认值：None）。
layer_norm_eps (float) – 层归一化组件中的 eps 值（默认值=1e-5）。
batch_first (bool) – 如果为 True，则输入和输出张量为 (batch, seq, feature)。默认值：False (seq, batch, feature)。
norm_first (bool) – 如果为 True，则编码器和解码器层将在其他注意力操作和前馈操作之前执行 LayerNorm，否则在之后执行。默认值：False（在之后）。
bias (bool) – 如果设置为 False，则 Linear 和 LayerNorm 层将不会学习加性偏置。默认值：True。

示例

>>> transformer_model = nn.Transformer(nhead=16, num_encoder_layers=12)
>>> src = torch.rand((10, 32, 512))
>>> tgt = torch.rand((20, 32, 512))
>>> out = transformer_model(src, tgt)

注意：在 pytorch/examples 中提供了一个使用 nn.Transformer 模块进行词语言模型的完整示例。

forward(src, tgt, src_mask=None, tgt_mask=None, memory_mask=None, src_key_padding_mask=None, tgt_key_padding_mask=None, memory_key_padding_mask=None, src_is_causal=None, tgt_is_causal=None, memory_is_causal=False)[源码]#

处理并输入带掩码的源/目标序列。

注意

如果为 [src/tgt/memory]_mask 参数提供了布尔张量，则值为 True 的位置不允许参与注意力计算，这与 torch.nn.functional.scaled_dot_product_attention() 中 attn_mask 的定义相反。

参数

src (Tensor) – 到编码器的序列（必需）。
tgt (Tensor) – 到解码器的序列（必需）。
src_mask (Optional[Tensor]) – 源序列的加性掩码（可选）。
tgt_mask (Optional[Tensor]) – 目标序列的加性掩码（可选）。
memory_mask (Optional[Tensor]) – 编码器输出的加性掩码（可选）。
src_key_padding_mask (Optional[Tensor]) – 源键的批次掩码张量（可选）。
tgt_key_padding_mask (Optional[Tensor]) – 目标键的批次掩码张量（可选）。
memory_key_padding_mask (Optional[Tensor]) – 内存键的批次掩码张量（可选）。
src_is_causal (Optional[bool]) – 如果指定，则将因果掩码应用于 src_mask。默认值：None；尝试检测因果掩码。警告：src_is_causal 提示 src_mask 是因果掩码。提供错误的提示可能导致执行不正确，包括前向和向后兼容性问题。
tgt_is_causal (Optional[bool]) – 如果指定，则将因果掩码应用于 tgt_mask。默认值：None；尝试检测因果掩码。警告：tgt_is_causal 提示 tgt_mask 是因果掩码。提供错误的提示可能导致执行不正确，包括前向和向后兼容性问题。
memory_is_causal (bool) – 如果指定，则将因果掩码应用于 memory_mask。默认值：False。警告：memory_is_causal 提示 memory_mask 是因果掩码。提供错误的提示可能导致执行不正确，包括前向和向后兼容性问题。

返回类型

张量

形状

src: 未批次输入的形状为 $(S, E)$ ，如果 batch_first=False 则形状为 $(S, N, E)$ ，如果 batch_first=True 则形状为 $(N, S, E)$ 。
tgt: 未批次输入的形状为 $(T, E)$ ，如果 batch_first=False 则形状为 $(T, N, E)$ ，如果 batch_first=True 则形状为 $(N, T, E)$ 。
src_mask: 形状为 $(S, S)$ 或 $(N\cdot\text{num\_heads}, S, S)$ 。
tgt_mask: 形状为 $(T, T)$ 或 $(N\cdot\text{num\_heads}, T, T)$ 。
memory_mask: 形状为 $(T, S)$ 。
src_key_padding_mask: 未批次输入的形状为 $(S)$ ，否则形状为 $(N, S)$ 。
tgt_key_padding_mask: 未批次输入的形状为 $(T)$ ，否则形状为 $(N, T)$ 。
memory_key_padding_mask: 未批次输入的形状为 $(S)$ ，否则形状为 $(N, S)$ 。

注意：[src/tgt/memory]_mask 确保位置 $i$ 可以注意力地访问未掩码的位置。如果提供了 BoolTensor，值为 True 的位置不允许注意力访问，而值为 False 的位置将保持不变。如果提供了 FloatTensor，它将被加到注意力权重上。[src/tgt/memory]_key_padding_mask 提供了要被注意力忽略的键中的特定元素。如果提供了 BoolTensor，值为 True 的位置将被忽略，而值为 False 的位置将保持不变。

output: 未批次输出的形状为 $(T, E)$ ，如果 batch_first=False 则形状为 $(T, N, E)$ ，如果 batch_first=True 则形状为 $(N, T, E)$ 。

注意：由于 Transformer 模型中的多头注意力架构，Transformer 的输出序列长度与解码器的输入序列（即目标）长度相同。

其中 $S$ 是源序列长度， $T$ 是目标序列长度， $N$ 是批次大小， $E$ 是特征数。

示例

>>> output = transformer_model(
...     src, tgt, src_mask=src_mask, tgt_mask=tgt_mask
... )

static generate_square_subsequent_mask(sz, device=None, dtype=None)[源码]#

生成序列的方形因果掩码。

掩码位置填充为 float(‘-inf’)。未掩码位置填充为 float(0.0)。

返回类型: 张量

Transformer#

文档

教程

资源