MultiheadAttention#

class torch.ao.nn.quantizable.MultiheadAttention(embed_dim, num_heads, dropout=0.0, bias=True, add_bias_kv=False, add_zero_attn=False, kdim=None, vdim=None, batch_first=False, device=None, dtype=None)[源代码]#

dequantize()[源代码]#

将量化后的MHA转换回浮点数。

这样做的动机是，将量化版本中使用的格式的权重转换回浮点数并非易事。

forward(query, key, value, key_padding_mask=None, need_weights=True, attn_mask=None, average_attn_weights=True, is_causal=False)[源代码]#

注意:: 有关更多信息，请参阅 forward()。

参数

query (Tensor) – 将查询和一组键值对映射到输出。更多细节请参阅“Attention Is All You Need”。
key (Tensor) – 将查询和一组键值对映射到输出。更多细节请参阅“Attention Is All You Need”。
value (Tensor) – 将查询和一组键值对映射到输出。更多细节请参阅“Attention Is All You Need”。
key_padding_mask (Optional[Tensor]) – 如果提供，指定的键中的填充元素将被注意力忽略。当给定二进制掩码且值为 True 时，将忽略注意力层上的相应值。
need_weights (bool) – 输出 attn_output_weights。
attn_mask (Optional[Tensor]) – 2D 或 3D 掩码，可防止注意力指向特定位置。2D 掩码将广播到所有批次，而 3D 掩码允许为每个批次的条目指定不同的掩码。

返回类型

tuple[torch.Tensor, Optional[torch.Tensor]]

形状

输入
query: $(L, N, E)$ ，其中 L 是目标序列长度，N 是批次大小，E 是嵌入维度。如果 batch_first 为 True，则为 $(N, L, E)$ 。
key: $(S, N, E)$ ，其中 S 是源序列长度，N 是批次大小，E 是嵌入维度。如果 batch_first 为 True，则为 $(N, S, E)$ 。
value: $(S, N, E)$ ，其中 S 是源序列长度，N 是批次大小，E 是嵌入维度。如果 batch_first 为 True，则为 $(N, S, E)$ 。
key_padding_mask: $(N, S)$ ，其中 N 是批次大小，S 是源序列长度。如果提供 BoolTensor，值为 True 的位置将被忽略，而值为 False 的位置将保持不变。
attn_mask: 2D 掩码 $(L, S)$ ，其中 L 是目标序列长度，S 是源序列长度。3D 掩码 $(N*num_heads, L, S)$ ，其中 N 是批次大小，L 是目标序列长度，S 是源序列长度。attn_mask 确保位置 i 可以注意力到未遮掩的位置。如果提供 BoolTensor，值为 True 的位置不允许注意力，而 False 值将保持不变。如果提供 FloatTensor，它将被添加到注意力权重中。
is_causal: 如果指定，则将因果掩码用作注意力掩码。与提供 attn_mask 互斥。默认值：False。
average_attn_weights: 如果为 True，则表示返回的 attn_weights 应该跨头平均。否则，attn_weights 将按头单独提供。请注意，此标志仅在 need_weights=True 时有效。默认值：True（即平均跨头权重）。
输出
attn_output: $(L, N, E)$ ，其中 L 是目标序列长度，N 是批次大小，E 是嵌入维度。如果 batch_first 为 True，则为 $(N, L, E)$ 。
attn_output_weights: 如果 average_attn_weights=True，则返回跨头平均的注意力权重，形状为 $(N, L, S)$ ，其中 N 是批次大小，L 是目标序列长度，S 是源序列长度。如果 average_attn_weights=False，则返回每个头的注意力权重，形状为 $(N, num_heads, L, S)$ 。

MultiheadAttention#

文档

教程

资源