Encoder-only - 🎯转了码的刘公子

```shell 原始 Transformer (Encoder-Decoder): ├── Encoder: 双向注意力,看到全文 │ ├── Token Embedding │ ├── Position Embedding │ └── N × (Self-Attention + FFN) │ └── Decoder: 单向注意力 + Cross-Attention ├── Token Embedding ├── Position Embedding ├── N × (Masked Self-Attention + Cross-Attention + FFN) └── 输出层【Encoder 部分】- 理解中文输入: "我" "爱" "北京" ↓ Token Embedding ↓ Position Embedding ↓ 多层双向 Self-Attention (每个词可以看到所有词) ↓ 输出: [h1, h2, h3] ← 这是"我爱北京"的语义表示 ↑ 这些向量包含了整句话的含义【Decoder 部分】- 生成英文输入: "<start>" ↓ 看 Encoder 的输出 [h1, h2, h3] (通过 Cross-Attention) ↓ 生成 "I" ↓ 输入: "<start> I" ↓ 再看 Encoder 的输出 ↓ 生成 "love" ↓ ...最终输出 "I love Beijing" GPT (Decoder-only): └── 只有 Decoder 部分 ├── Token Embedding ← 有 Embedding! ├── Position Embedding ← 有 Embedding! ├── N × (Causal Self-Attention + FFN) ← 单向 └── lm_head 输出层没有独立的 Encoder! 所有工作都在一个 Decoder 里完成输入: "翻译成英文: 我爱北京 → I love" ↓ 自回归生成: "Beijing" BERT (Encoder-only): └── 只有 Encoder 部分 ├── Token Embedding ← 也有 Embedding! ├── Position Embedding ├── N × (Bidirectional Self-Attention + FFN) ← 双向 └── 分类/MLM 输出层只有 Encoder (理解输入) 输入: "我[MASK]北京" ↓ 双向注意力输出: "我[爱]北京" ← 填空任务 ```