```shell ๅŽŸๅง‹ Transformer (Encoder-Decoder): โ”œโ”€โ”€ Encoder: ๅŒๅ‘ๆณจๆ„ๅŠ›,็œ‹ๅˆฐๅ…จๆ–‡ โ”‚ โ”œโ”€โ”€ Token Embedding โ”‚ โ”œโ”€โ”€ Position Embedding โ”‚ โ””โ”€โ”€ N ร— (Self-Attention + FFN) โ”‚ โ””โ”€โ”€ Decoder: ๅ•ๅ‘ๆณจๆ„ๅŠ› + Cross-Attention โ”œโ”€โ”€ Token Embedding โ”œโ”€โ”€ Position Embedding โ”œโ”€โ”€ N ร— (Masked Self-Attention + Cross-Attention + FFN) โ””โ”€โ”€ ่พ“ๅ‡บๅฑ‚ ใ€Encoder ้ƒจๅˆ†ใ€‘- ็†่งฃไธญๆ–‡ ่พ“ๅ…ฅ: "ๆˆ‘" "็ˆฑ" "ๅŒ—ไบฌ" โ†“ Token Embedding โ†“ Position Embedding โ†“ ๅคšๅฑ‚ๅŒๅ‘ Self-Attention (ๆฏไธช่ฏๅฏไปฅ็œ‹ๅˆฐๆ‰€ๆœ‰่ฏ) โ†“ ่พ“ๅ‡บ: [h1, h2, h3] โ† ่ฟ™ๆ˜ฏ"ๆˆ‘็ˆฑๅŒ—ไบฌ"็š„่ฏญไน‰่กจ็คบ โ†‘ ่ฟ™ไบ›ๅ‘้‡ๅŒ…ๅซไบ†ๆ•ดๅฅ่ฏ็š„ๅซไน‰ ใ€Decoder ้ƒจๅˆ†ใ€‘- ็”Ÿๆˆ่‹ฑๆ–‡ ่พ“ๅ…ฅ: "<start>" โ†“ ็œ‹ Encoder ็š„่พ“ๅ‡บ [h1, h2, h3] (้€š่ฟ‡ Cross-Attention) โ†“ ็”Ÿๆˆ "I" โ†“ ่พ“ๅ…ฅ: "<start> I" โ†“ ๅ†็œ‹ Encoder ็š„่พ“ๅ‡บ โ†“ ็”Ÿๆˆ "love" โ†“ ...ๆœ€็ปˆ่พ“ๅ‡บ "I love Beijing" GPT (Decoder-only): โ””โ”€โ”€ ๅชๆœ‰ Decoder ้ƒจๅˆ† โ”œโ”€โ”€ Token Embedding โ† ๆœ‰ Embedding! โ”œโ”€โ”€ Position Embedding โ† ๆœ‰ Embedding! โ”œโ”€โ”€ N ร— (Causal Self-Attention + FFN) โ† ๅ•ๅ‘ โ””โ”€โ”€ lm_head ่พ“ๅ‡บๅฑ‚ ๆฒกๆœ‰็‹ฌ็ซ‹็š„ Encoder! ๆ‰€ๆœ‰ๅทฅไฝœ้ƒฝๅœจไธ€ไธช Decoder ้‡ŒๅฎŒๆˆ ่พ“ๅ…ฅ: "็ฟป่ฏ‘ๆˆ่‹ฑๆ–‡: ๆˆ‘็ˆฑๅŒ—ไบฌ โ†’ I love" โ†“ ่‡ชๅ›žๅฝ’็”Ÿๆˆ: "Beijing" BERT (Encoder-only): โ””โ”€โ”€ ๅชๆœ‰ Encoder ้ƒจๅˆ† โ”œโ”€โ”€ Token Embedding โ† ไนŸๆœ‰ Embedding! โ”œโ”€โ”€ Position Embedding โ”œโ”€โ”€ N ร— (Bidirectional Self-Attention + FFN) โ† ๅŒๅ‘ โ””โ”€โ”€ ๅˆ†็ฑป/MLM ่พ“ๅ‡บๅฑ‚ ๅชๆœ‰ Encoder (็†่งฃ่พ“ๅ…ฅ) ่พ“ๅ…ฅ: "ๆˆ‘[MASK]ๅŒ—ไบฌ" โ†“ ๅŒๅ‘ๆณจๆ„ๅŠ› ่พ“ๅ‡บ: "ๆˆ‘[็ˆฑ]ๅŒ—ไบฌ" โ† ๅกซ็ฉบไปปๅŠก ```