支持自注意力(Q = K = V) 交叉注意力(Q、K/V 来自不同源),与自注意力公式一样,只是 Q, K, V 来自不同序列。