Transformer#

class torch.nn.Transformer(d_model=512, nhead=8, num_encoder_layers=6, num_decoder_layers=6, dim_feedforward=2048, dropout=0.1, activation=<function relu>, custom_encoder=None, custom_decoder=None, layer_norm_eps=1e-05, batch_first=False, norm_first=False, bias=True, device=None, dtype=None)[源代码]#

一个基本的 Transformer 层。

此 Transformer 层实现了《Attention Is All You Need》论文中描述的原始 Transformer 架构。该层的目的是作为基础理解的参考实现，因此与较新的 Transformer 架构相比，它仅包含有限的功能。鉴于 Transformer 类架构的快速创新步伐，我们建议探索此教程，以使用核心构建块或 PyTorch 生态系统中的高级库来构建高效的 Transformer 层。

参数

d_model (int) – 编码器/解码器输入中预期的特征数量（默认为 512）。
nhead (int) – 多头注意力模型中的头数（默认为 8）。
num_encoder_layers (int) – 编码器中的子编码器层数（默认为 6）。
num_decoder_layers (int) – 解码器中的子解码器层数（默认为 6）。
dim_feedforward (int) – 前馈网络模型的维度（默认值=2048）。
dropout (float) – dropout 值（默认值=0.1）。
activation (Union[str, Callable[[Tensor], Tensor]]) – 编码器/解码器中间层的激活函数，可以是字符串（“relu”或“gelu”）或一元可调用对象。默认值：relu
custom_encoder (Optional[Any]) – 自定义编码器（默认为 None）。
custom_decoder (Optional[Any]) – 自定义解码器（默认为 None）。
layer_norm_eps (float) – 层归一化组件中的 eps 值（默认值=1e-5）。
batch_first (bool) – 如果为 True，则输入和输出张量为 (batch, seq, feature)。默认值：False (seq, batch, feature)。
norm_first (bool) – 如果为 True，则编码器和解码器层将在其他注意力层和前馈操作之前执行 LayerNorm，否则在之后执行。默认值：False（之后）。
bias (bool) – 如果设置为 False，则 Linear 和 LayerNorm 层将不会学习加性偏置。默认值：True。

示例

>>> transformer_model = nn.Transformer(nhead=16, num_encoder_layers=12)
>>> src = torch.rand((10, 32, 512))
>>> tgt = torch.rand((20, 32, 512))
>>> out = transformer_model(src, tgt)

注意：有关将 nn.Transformer 模块应用于词语言模型的完整示例，请参阅 pytorch/examples

forward(src, tgt, src_mask=None, tgt_mask=None, memory_mask=None, src_key_padding_mask=None, tgt_key_padding_mask=None, memory_key_padding_mask=None, src_is_causal=None, tgt_is_causal=None, memory_is_causal=False)[源代码]#

处理并输入带掩码的源/目标序列。

注意

如果为 [src/tgt/memory]_mask 参数之一提供了布尔张量，则值为 True 的位置不允许参与注意力，这与 torch.nn.functional.scaled_dot_product_attention() 中 attn_mask 的定义相反。

参数

src (Tensor) – 到编码器的序列（必需）。
tgt (Tensor) – 到解码器的序列（必需）。
src_mask (Optional[Tensor]) – 源序列的加法掩码（可选）。
tgt_mask (Optional[Tensor]) – 目标序列的加法掩码（可选）。
memory_mask (Optional[Tensor]) – 编码器输出的加法掩码（可选）。
src_key_padding_mask (Optional[Tensor]) – 每个批次源键的张量掩码（可选）。
tgt_key_padding_mask (Optional[Tensor]) – 每个批次目标键的张量掩码（可选）。
memory_key_padding_mask (Optional[Tensor]) – 每个批次内存键的张量掩码（可选）。
src_is_causal (Optional[bool]) – 如果指定，则将因果掩码应用于 src_mask。默认值：None；尝试检测因果掩码。警告：src_is_causal 提供了一个提示，即 src_mask 是因果掩码。提供不正确的提示可能导致执行不正确，包括向前和向后兼容性。
tgt_is_causal (Optional[bool]) – 如果指定，则将因果掩码应用于 tgt_mask。默认值：None；尝试检测因果掩码。警告：tgt_is_causal 提供了一个提示，即 tgt_mask 是因果掩码。提供不正确的提示可能导致执行不正确，包括向前和向后兼容性。
memory_is_causal (bool) – 如果指定，则将因果掩码应用于 memory_mask。默认值：False。警告：memory_is_causal 提供了一个提示，即 memory_mask 是因果掩码。提供不正确的提示可能导致执行不正确，包括向前和向后兼容性。

返回类型

张量

形状

src：对于未批量的输入，为 $(S, E)$ ；如果 batch_first=False，则为 $(S, N, E)$ ；如果 batch_first=True，则为 $(N, S, E)$ 。
tgt：对于未批量的输入，为 $(T, E)$ ；如果 batch_first=False，则为 $(T, N, E)$ ；如果 batch_first=True，则为 $(N, T, E)$ 。
src_mask： $(S, S)$ 或 $(N\cdot\text{num\_heads}, S, S)$ 。
tgt_mask： $(T, T)$ 或 $(N\cdot\text{num\_heads}, T, T)$ 。
memory_mask： $(T, S)$ 。
src_key_padding_mask：对于未批量的输入，为 $(S)$ ；否则为 $(N, S)$ 。
tgt_key_padding_mask：对于未批量的输入，为 $(T)$ ；否则为 $(N, T)$ 。
memory_key_padding_mask：对于未批量的输入，为 $(S)$ ；否则为 $(N, S)$ 。

注意：[src/tgt/memory]_mask 确保位置 $i$ 可以关注未被遮盖的位置。如果提供了 BoolTensor，则值为 True 的位置将被忽略，而值为 False 的位置将保持不变。如果提供了 FloatTensor，它将被加到注意力权重上。[src/tgt/memory]_key_padding_mask 提供了要被注意力忽略的键中的特定元素。如果提供了 BoolTensor，值为 True 的位置将被忽略，而值为 False 的位置将保持不变。

output：对于未批量的输入，为 $(T, E)$ ；如果 batch_first=False，则为 $(T, N, E)$ ；如果 batch_first=True，则为 $(N, T, E)$ 。

注意：由于 Transformer 模型中的多头注意力架构，Transformer 的输出序列长度与解码器的输入序列（即目标）长度相同。

其中 $S$ 是源序列长度， $T$ 是目标序列长度， $N$ 是批次大小， $E$ 是特征数量。

示例

>>> output = transformer_model(
...     src, tgt, src_mask=src_mask, tgt_mask=tgt_mask
... )

static generate_square_subsequent_mask(sz, device=None, dtype=None)[源代码]#

生成序列的方形因果掩码。

掩码位置填充为 float(‘-inf’)。未掩码位置填充为 float(0.0)。

返回类型: 张量

Transformer#

文档

教程

资源