```shell
ๅๅง Transformer (Encoder-Decoder):
โโโ Encoder: ๅๅๆณจๆๅ,็ๅฐๅ
จๆ
โ โโโ Token Embedding
โ โโโ Position Embedding
โ โโโ N ร (Self-Attention + FFN)
โ
โโโ Decoder: ๅๅๆณจๆๅ + Cross-Attention
โโโ Token Embedding
โโโ Position Embedding
โโโ N ร (Masked Self-Attention + Cross-Attention + FFN)
โโโ ่พๅบๅฑ
ใEncoder ้จๅใ- ็่งฃไธญๆ
่พๅ
ฅ: "ๆ" "็ฑ" "ๅไบฌ"
โ Token Embedding
โ Position Embedding
โ ๅคๅฑๅๅ Self-Attention (ๆฏไธช่ฏๅฏไปฅ็ๅฐๆๆ่ฏ)
โ
่พๅบ: [h1, h2, h3] โ ่ฟๆฏ"ๆ็ฑๅไบฌ"็่ฏญไน่กจ็คบ
โ
่ฟไบๅ้ๅ
ๅซไบๆดๅฅ่ฏ็ๅซไน
ใDecoder ้จๅใ- ็ๆ่ฑๆ
่พๅ
ฅ: "<start>"
โ ็ Encoder ็่พๅบ [h1, h2, h3] (้่ฟ Cross-Attention)
โ ็ๆ "I"
โ
่พๅ
ฅ: "<start> I"
โ ๅ็ Encoder ็่พๅบ
โ ็ๆ "love"
โ
...ๆ็ป่พๅบ "I love Beijing"
GPT (Decoder-only):
โโโ ๅชๆ Decoder ้จๅ
โโโ Token Embedding โ ๆ Embedding!
โโโ Position Embedding โ ๆ Embedding!
โโโ N ร (Causal Self-Attention + FFN) โ ๅๅ
โโโ lm_head ่พๅบๅฑ
ๆฒกๆ็ฌ็ซ็ Encoder!
ๆๆๅทฅไฝ้ฝๅจไธไธช Decoder ้ๅฎๆ
่พๅ
ฅ: "็ฟป่ฏๆ่ฑๆ: ๆ็ฑๅไบฌ โ I love"
โ
่ชๅๅฝ็ๆ: "Beijing"
BERT (Encoder-only):
โโโ ๅชๆ Encoder ้จๅ
โโโ Token Embedding โ ไนๆ Embedding!
โโโ Position Embedding
โโโ N ร (Bidirectional Self-Attention + FFN) โ ๅๅ
โโโ ๅ็ฑป/MLM ่พๅบๅฑ
ๅชๆ Encoder (็่งฃ่พๅ
ฅ)
่พๅ
ฅ: "ๆ[MASK]ๅไบฌ"
โ ๅๅๆณจๆๅ
่พๅบ: "ๆ[็ฑ]ๅไบฌ" โ ๅกซ็ฉบไปปๅก
```