# 一、Transformer架构 vs 传统 RNN
| 特征 | **旧范式 (Bi-LSTM-CRF)** | **新范式 (BERT-based NER)** |
|:-------- |:------------------------------------------- |:--------------------------------------------- |
| **模型核心** | Bi-LSTM + CRF | **Transformer (BERT, RoBERTa等)** |
| **知识来源** | 主要从**当前 NER 任务的标注数据**中学习。| 从**海量无标注文本**(如维基百科)中学习通用语言知识,再在 NER 数据上**微调**。|
| **架构复杂度** | **复杂**。需要手动搭建 Embedding, Bi-LSTM, CRF 等多个模块。| **简单**。在预训练模型之上,只需添加一个**线性层**。|
| **上下文理解** | Bi-LSTM 捕捉句子级别的上下文。| Transformer 的多层自注意力机制捕捉**更深、更丰富的上下文**。|
| **标签依赖** | 依赖**显式的 CRF 层**来学习标签转移规则。| 强大的上下文表示**隐式地**学习了标签依赖,CRF 变为**可选**。|
| **性能** | 曾经的 SOTA (State-of-the-art)。| **全面超越**,成为新的 SOTA 基线。|
# 二、Bert vs LLM
虽然像 Qwen 这样的生成式语言模型(尤其是小参数版本)确实在很多任务上表现出色,但 BERT 类的编码器模型仍然有其独特优势和应用场景:
bert的本质是还原,[[GPT]]的本质是产生新的
BERT 仍有优势的领域:分类和理解任务
- [[文本分类]]、情感分析、[命名实体识别 NER](命名实体识别%20NER.md)等任务上,BERT 往往更高效
- 这些任务不需要生成能力,BERT 的双向编码架构反而更合适
- 训练和推理速度通常比同等大小的生成模型快
bert只保留了Transformer里的[编码器](编码器.md)的部分
