# Summary
bert只保留了Transformer里的[编码器](编码器.md)的部分
BERT 仍有优势的领域:分类和理解任务
- [[文本分类]]、情感分析、[命名实体识别 NER](命名实体识别%20NER.md)等任务上,BERT 往往更高效
- 这些任务不需要生成能力,BERT 的双向编码架构反而更合适
- 训练和推理速度通常比同等大小的生成模型快
## 各个版本
|模型|最大长度|年份|
|---|---|---|
|**RoBERTa**|512|2019|
|**ALBERT**|512|2019|
|**Longformer**|**4096**|2020|
|**BigBird**|**4096**|2020|
|**LED**|**16384**|2020|
## 为什么需要一些标记?
|场景|不用标记|用了标记|
|---|---|---|
|**区分部分**|"北京天气今天北京多云" <br> 😵 模型分不清哪是query|"[CLS]北京天气[SEP]今天..." <br> ✅ 清楚知道结构|
|**获取分数**|不知道看哪个位置的输出|直接看[CLS]的输出|
## 注意点
[[segment embedding]]
[[Focal Loss]]
# Notes
## bert 为啥式微?
**1. 解释BERT为什么没有被规模化**
- BERT没有做大的原因不是去噪目标本身不好,而是因为**范式转变**——业界从单任务微调转向了统一的多任务模型
- T5这类编码器-解码器模型找到了更灵活的方式来表达去噪任务,使得BERT风格的模型变得过时
**2. 澄清架构之间的关系**
- 编码器-解码器(T5)、仅解码器(GPT)和PrefixLM本质上都是**自回归模型**,区别没有想象中那么大
- 这些架构主要体现的是不同的"归纳偏置",而不是根本性的差异
**3. 去噪目标的价值定位**
- 去噪目标本身很有价值,但**不应该作为独立目标**,而应该作为常规语言建模(CLM)的**补充目标**
- 去噪的主要缺点是"损失曝光"较少(只学习被mask的token),导致样本效率低
**4. 现代实践的启示**
- 当今的大模型往往混合使用[[因果语言建模 CLM]]和填充(infilling)目标
- 双向注意力在小规模下有用,但在大规模下重要性降低
- 架构选择应该基于具体应用场景,而不是教条
**核心结论**: BERT的消失不是因为技术缺陷,而是因为统一范式的需求促使业界采用了更灵活的自回归架构。
## 二、Bert vs LLM
虽然像 Qwen 这样的生成式语言模型(尤其是小参数版本)确实在很多任务上表现出色,但 BERT 类的编码器模型仍然有其独特优势和应用场景:
