torch.nn.attention.flex_attention#
创建于:2024年7月16日 | 最后更新于:2025年6月14日
- torch.nn.attention.flex_attention.flex_attention(query, key, value, score_mod=None, block_mask=None, scale=None, enable_gqa=False, return_lse=False, kernel_options=None)[源]#
此函数实现了具有任意注意力分数修改函数的缩放点积注意力。
此函数计算查询、键和值张量之间的缩放点积注意力,并带有一个用户定义的注意力分数修改函数。注意力分数修改函数将在查询和键张量之间计算出注意力分数后应用。注意力分数的计算方法如下:
score_mod
函数应具有以下签名:def score_mod( score: Tensor, batch: Tensor, head: Tensor, q_idx: Tensor, k_idx: Tensor ) -> Tensor:
- 其中
score
:一个表示注意力分数的标量张量,其数据类型和设备与查询、键和值张量相同。batch
、head
、q_idx
、k_idx
:指示批次索引、查询头索引、查询索引和键/值索引的标量张量。这些张量应具有torch.int
数据类型,并且位于与分数张量相同的设备上。
- 参数
query (Tensor) – 查询张量;形状为 。对于 FP8 数据类型,应为行主序内存布局以获得最佳性能。
key (Tensor) – 键张量;形状为 。对于 FP8 数据类型,应为行主序内存布局以获得最佳性能。
value (Tensor) – 值张量;形状为 。对于 FP8 数据类型,应为列主序内存布局以获得最佳性能。
score_mod (Optional[Callable]) – 用于修改注意力分数的函数。默认为不应用 score_mod。
block_mask (Optional[BlockMask]) – 用于控制注意力块稀疏性模式的 BlockMask 对象。
scale (Optional[float]) – 在 softmax 前应用的缩放因子。如果为 None,则默认值为 .
enable_gqa (bool) – 如果设置为 True,则启用分组查询注意力 (GQA) 并将键/值头广播到查询头。
return_lse (bool) – 是否返回注意力分数的对数和 (logsumexp)。默认为 False。
kernel_options (Optional[Dict[str, Any]]) – 要传递给 Triton 内核的选项。
- 返回
注意力输出;形状为 。
- 返回类型
output (Tensor)
- 形状图例
警告
torch.nn.attention.flex_attention 是 PyTorch 中的一个原型功能。请期待 PyTorch 未来版本中更稳定的实现。详细了解功能分类: https://pytorch.ac.cn/blog/pytorch-feature-classification-changes/#prototype
块掩码工具#
- torch.nn.attention.flex_attention.create_block_mask(mask_mod, B, H, Q_LEN, KV_LEN, device='cuda', BLOCK_SIZE=128, _compile=False)[source]#
此函数从 mask_mod 函数创建块掩码元组。
- 参数
mask_mod (Callable) – mask_mod 函数。这是一个可调用对象,用于定义注意力机制的掩码模式。它接受四个参数:b(批次大小)、h(头数)、q_idx(查询索引)和 kv_idx(键/值索引)。它应该返回一个布尔张量,指示哪些注意力连接是允许的(True)或被掩码掉的(False)。
B (int) – 批次大小。
H (int) – 查询头数。
Q_LEN (int) – 查询的序列长度。
KV_LEN (int) – 键/值的序列长度。
device (str) – 用于执行掩码创建的设备。
BLOCK_SIZE (int 或 tuple[int, int]) – 块掩码的块大小。如果提供单个整数,则同时用于查询和键/值。
- 返回
包含块掩码信息的 BlockMask 对象。
- 返回类型
- 示例用法
def causal_mask(b, h, q_idx, kv_idx): return q_idx >= kv_idx block_mask = create_block_mask(causal_mask, 1, 1, 8192, 8192, device="cuda") query = torch.randn(1, 1, 8192, 64, device="cuda", dtype=torch.float16) key = torch.randn(1, 1, 8192, 64, device="cuda", dtype=torch.float16) value = torch.randn(1, 1, 8192, 64, device="cuda", dtype=torch.float16) output = flex_attention(query, key, value, block_mask=block_mask)
- torch.nn.attention.flex_attention.create_mask(mod_fn, B, H, Q_LEN, KV_LEN, device='cuda')[source]#
此函数从 mod_fn 函数创建掩码张量。
- torch.nn.attention.flex_attention.create_nested_block_mask(mask_mod, B, H, q_nt, kv_nt=None, BLOCK_SIZE=128, _compile=False)[source]#
此函数从 mask_mod 函数创建嵌套张量兼容的块掩码元组。返回的 BlockMask 将位于输入嵌套张量指定的设备上。
- 参数
mask_mod (Callable) – mask_mod 函数。这是一个可调用对象,用于定义注意力机制的掩码模式。它接受四个参数:b(批次大小)、h(头数)、q_idx(查询索引)和 kv_idx(键/值索引)。它应该返回一个布尔张量,指示哪些注意力连接是允许的(True)或被掩码掉的(False)。
B (int) – 批次大小。
H (int) – 查询头数。
q_nt (torch.Tensor) – 锯齿状布局的嵌套张量 (NJT),它定义了查询的序列长度结构。块掩码将构建为对 NJT 中长度为
sum(S)
的“堆叠序列”进行操作。kv_nt (torch.Tensor) – 锯齿状布局的嵌套张量 (NJT),它定义了键/值的序列长度结构,允许交叉注意力。块掩码将构建为对 NJT 中长度为
sum(S)
的“堆叠序列”进行操作。如果此参数为 None,则q_nt
也将用于定义键/值结构。默认值:NoneBLOCK_SIZE (int 或 tuple[int, int]) – 块掩码的块大小。如果提供单个整数,则同时用于查询和键/值。
- 返回
包含块掩码信息的 BlockMask 对象。
- 返回类型
- 示例用法
# shape (B, num_heads, seq_len*, D) where seq_len* varies across the batch query = torch.nested.nested_tensor(..., layout=torch.jagged) key = torch.nested.nested_tensor(..., layout=torch.jagged) value = torch.nested.nested_tensor(..., layout=torch.jagged) def causal_mask(b, h, q_idx, kv_idx): return q_idx >= kv_idx block_mask = create_nested_block_mask( causal_mask, 1, 1, query, _compile=True ) output = flex_attention(query, key, value, block_mask=block_mask)
# shape (B, num_heads, seq_len*, D) where seq_len* varies across the batch query = torch.nested.nested_tensor(..., layout=torch.jagged) key = torch.nested.nested_tensor(..., layout=torch.jagged) value = torch.nested.nested_tensor(..., layout=torch.jagged) def causal_mask(b, h, q_idx, kv_idx): return q_idx >= kv_idx # cross attention case: pass both query and key/value NJTs block_mask = create_nested_block_mask( causal_mask, 1, 1, query, key, _compile=True ) output = flex_attention(query, key, value, block_mask=block_mask)
BlockMask#
- class torch.nn.attention.flex_attention.BlockMask(seq_lengths, kv_num_blocks, kv_indices, full_kv_num_blocks, full_kv_indices, q_num_blocks, q_indices, full_q_num_blocks, full_q_indices, BLOCK_SIZE, mask_mod)[source]#
BlockMask是我们表示块稀疏注意力掩码的格式。它在某种程度上介于 BCSR 和非稀疏格式之间。
基础知识
块稀疏掩码意味着,我们不表示掩码中单个元素的稀疏性,而是将 KV_BLOCK_SIZE x Q_BLOCK_SIZE 的块视为仅当该块内的所有元素都稀疏时才稀疏。这与硬件的期望一致,硬件通常期望执行连续加载和计算。
此格式主要针对 1. 简洁性和 2. 内核效率进行了优化。值得注意的是,它 *不* 针对大小进行优化,因为此掩码始终会按 KV_BLOCK_SIZE * Q_BLOCK_SIZE 的因子进行缩减。如果大小是问题,可以通过增加块大小来减小张量的大小。
我们格式的要点是:
num_blocks_in_row: Tensor[ROWS]: 描述每行的块数。
col_indices: Tensor[ROWS, MAX_BLOCKS_IN_COL]: col_indices[i] 是行 i 的块位置序列。此行中的值在 col_indices[i][num_blocks_in_row[i]] 之后是未定义的。
例如,要从这种格式重建原始张量:
dense_mask = torch.zeros(ROWS, COLS) for row in range(ROWS): for block_idx in range(num_blocks_in_row[row]): dense_mask[row, col_indices[row, block_idx]] = 1
值得注意的是,此格式使得沿掩码的 *行* 进行缩减更加容易。
详细信息
我们的格式的基本要求只有 kv_num_blocks 和 kv_indices。但是,此对象上最多有 8 个张量。这代表 4 对:
1. (kv_num_blocks, kv_indices): 用于注意力的前向传播,因为我们沿 KV 维度进行缩减。
2. [可选] (full_kv_num_blocks, full_kv_indices): 这是可选的,纯粹是为了优化。事实证明,对每个块应用掩码非常昂贵!如果我们知道哪些块是“完整的”并且不需要应用掩码,那么我们可以跳过将 mask_mod 应用于这些块。这需要用户将 mask_mod 分离出来,单独用于 score_mod。对于因果掩码,这可以提高约 15% 的速度。
3. [生成] (q_num_blocks, q_indices): 反向传播需要,因为计算 dKV 需要沿 Q 维度沿掩码进行迭代。这些是从 1 autogenerated 的。
4. [生成] (full_q_num_blocks, full_q_indices): 与上面类似,但用于反向传播。这些是从 2 autogenerated 的。
- as_tuple(flatten=True)[source]#
返回 BlockMask 的属性元组。
- 参数
flatten (bool) – 如果为 True,则会展平 (KV_BLOCK_SIZE, Q_BLOCK_SIZE) 的元组。
- classmethod from_kv_blocks(kv_num_blocks, kv_indices, full_kv_num_blocks=None, full_kv_indices=None, BLOCK_SIZE=128, mask_mod=None, seq_lengths=None)[source]#
从键-值块信息创建 BlockMask 实例。
- 参数
kv_num_blocks (Tensor) – 每个 Q_BLOCK_SIZE 行块的 kv_blocks 数量。
kv_indices (Tensor) – 每个 Q_BLOCK_SIZE 行块的键-值块索引。
full_kv_num_blocks (Optional[Tensor]) – 每个 Q_BLOCK_SIZE 行块中的完整 kv_blocks 数量。
full_kv_indices (Optional[Tensor]) – 每个 Q_BLOCK_SIZE 行块中的完整键-值块索引。
BLOCK_SIZE (Union[int, tuple[int, int]]) – KV_BLOCK_SIZE x Q_BLOCK_SIZE 块的大小。
mask_mod (Optional[Callable]) – 修改掩码的函数。
- 返回
通过 _transposed_ordered 完全生成 Q 信息的实例。
- 返回类型
- 引发
RuntimeError – 如果 kv_indices 的维度少于 2。
AssertionError – 如果只提供了一个 full_kv_* 参数。
- property shape#
- to(device)[source]#
将 BlockMask 移动到指定的设备。
- 参数
device (torch.device 或 str) – 要将 BlockMask 移动到的目标设备。可以是 torch.device 对象或字符串(例如,‘cpu’、‘cuda:0’)。
- 返回
一个新的 BlockMask 实例,其中所有张量组件都已移动到指定的设备。
- 返回类型
注意
此方法不会就地修改原始 BlockMask。而是返回一个新的 BlockMask 实例,其中各个张量属性可能已移动到指定设备,也可能未移动,具体取决于它们当前的设备放置。