# Summary
# Cues
# Notes
|**A**|**美女 (Key₁)**|**加个微信 (Key₂)**|
|---|---|---|
|**美女 (Query₁)**|a₁₁ = Q₁·K₁ᵀ|a₁₂ = Q₁·K₂ᵀ|
|**加个微信 (Query₂)**|a₂₁ = Q₂·K₁ᵀ|a₂₂ = Q₂·K₂ᵀ|
- **自相关**:a₁₁、a₂₂
- **互相关**:a₁₂、a₂₁
表示token 之间互相的关心程度,可以加掩码来把每个词之后的词屏蔽掉
# Create causal mask
mask = torch.triu(
torch.ones(seq_len, seq_len, device=in_features.device) * float("-inf"),
diagonal=1,
)
这创建了一个上三角矩阵的掩码:
[0, -inf, -inf, -inf]
[0, 0, -inf, -inf]
[0, 0, 0, -inf]
[0, 0, 0, 0]
这意味着:
- 位置 0 只能看到位置 0
- 位置 1 能看到位置 0, 1
- 位置 2 能看到位置 0, 1, 2
- 以此类推...
![CleanShot 2025-07-19 at
[email protected]|1000](https://imagehosting4picgo.oss-cn-beijing.aliyuncs.com/imagehosting/fix-dir%2Fmedia%2Fmedia_K1uf9rXQlP%2F2025%2F07%2F19%2F22-35-10-66f1325e529e04fb9a0509fd3dd2d4d1-CleanShot%202025-07-19%20at%2022.35.05-2x-ddd08e.png)