# Summary bert只保留了Transformer里的[编码器](编码器.md)的部分 BERT 仍有优势的领域:分类和理解任务 - [[文本分类]]、情感分析、[命名实体识别 NER](命名实体识别%20NER.md)等任务上,BERT 往往更高效 - 这些任务不需要生成能力,BERT 的双向编码架构反而更合适 - 训练和推理速度通常比同等大小的生成模型快 ## 各个版本 |模型|最大长度|年份| |---|---|---| |**RoBERTa**|512|2019| |**ALBERT**|512|2019| |**Longformer**|**4096**|2020| |**BigBird**|**4096**|2020| |**LED**|**16384**|2020| ## 为什么需要一些标记? |场景|不用标记|用了标记| |---|---|---| |**区分部分**|"北京天气今天北京多云" <br> 😵 模型分不清哪是query|"[CLS]北京天气[SEP]今天..." <br> ✅ 清楚知道结构| |**获取分数**|不知道看哪个位置的输出|直接看[CLS]的输出| ## 注意点 [[segment embedding]] [[Focal Loss]] # Notes ## bert 为啥式微? **1. 解释BERT为什么没有被规模化** - BERT没有做大的原因不是去噪目标本身不好,而是因为**范式转变**——业界从单任务微调转向了统一的多任务模型 - T5这类编码器-解码器模型找到了更灵活的方式来表达去噪任务,使得BERT风格的模型变得过时 **2. 澄清架构之间的关系** - 编码器-解码器(T5)、仅解码器(GPT)和PrefixLM本质上都是**自回归模型**,区别没有想象中那么大 - 这些架构主要体现的是不同的"归纳偏置",而不是根本性的差异 **3. 去噪目标的价值定位** - 去噪目标本身很有价值,但**不应该作为独立目标**,而应该作为常规语言建模(CLM)的**补充目标** - 去噪的主要缺点是"损失曝光"较少(只学习被mask的token),导致样本效率低 **4. 现代实践的启示** - 当今的大模型往往混合使用[[因果语言建模 CLM]]和填充(infilling)目标 - 双向注意力在小规模下有用,但在大规模下重要性降低 - 架构选择应该基于具体应用场景,而不是教条 **核心结论**: BERT的消失不是因为技术缺陷,而是因为统一范式的需求促使业界采用了更灵活的自回归架构。 ## 二、Bert vs LLM 虽然像 Qwen 这样的生成式语言模型(尤其是小参数版本)确实在很多任务上表现出色,但 BERT 类的编码器模型仍然有其独特优势和应用场景: ![image.png|1000](https://imagehosting4picgo.oss-cn-beijing.aliyuncs.com/imagehosting/fix-dir%2Fpicgo%2Fpicgo-clipboard-images%2F2025%2F01%2F29%2F15-33-57-6bc2ff6f305eb42e318c52acda24fd2a-202501291533765-30f2c3.png)