# Summary # Cues # Notes |**A**|**美女 (Key₁)**|**加个微信 (Key₂)**| |---|---|---| |**美女 (Query₁)**|a₁₁ = Q₁·K₁ᵀ|a₁₂ = Q₁·K₂ᵀ| |**加个微信 (Query₂)**|a₂₁ = Q₂·K₁ᵀ|a₂₂ = Q₂·K₂ᵀ| - **自相关**:a₁₁、a₂₂ - **互相关**:a₁₂、a₂₁ 表示token 之间互相的关心程度,可以加掩码来把每个词之后的词屏蔽掉 # Create causal mask mask = torch.triu( torch.ones(seq_len, seq_len, device=in_features.device) * float("-inf"), diagonal=1, ) 这创建了一个上三角矩阵的掩码: [0, -inf, -inf, -inf] [0, 0, -inf, -inf] [0, 0, 0, -inf] [0, 0, 0, 0] 这意味着: - 位置 0 只能看到位置 0 - 位置 1 能看到位置 0, 1 - 位置 2 能看到位置 0, 1, 2 - 以此类推... ![CleanShot 2025-07-19 at [email protected]|1000](https://imagehosting4picgo.oss-cn-beijing.aliyuncs.com/imagehosting/fix-dir%2Fmedia%2Fmedia_K1uf9rXQlP%2F2025%2F07%2F19%2F22-35-10-66f1325e529e04fb9a0509fd3dd2d4d1-CleanShot%202025-07-19%20at%2022.35.05-2x-ddd08e.png)