# 一、Transformer架构 vs 传统 RNN | 特征 | **旧范式 (Bi-LSTM-CRF)** | **新范式 (BERT-based NER)** | |:-------- |:------------------------------------------- |:--------------------------------------------- | | **模型核心** | Bi-LSTM + CRF | **Transformer (BERT, RoBERTa等)** | | **知识来源** | 主要从**当前 NER 任务的标注数据**中学习。| 从**海量无标注文本**(如维基百科)中学习通用语言知识,再在 NER 数据上**微调**。| | **架构复杂度** | **复杂**。需要手动搭建 Embedding, Bi-LSTM, CRF 等多个模块。| **简单**。在预训练模型之上,只需添加一个**线性层**。| | **上下文理解** | Bi-LSTM 捕捉句子级别的上下文。| Transformer 的多层自注意力机制捕捉**更深、更丰富的上下文**。| | **标签依赖** | 依赖**显式的 CRF 层**来学习标签转移规则。| 强大的上下文表示**隐式地**学习了标签依赖,CRF 变为**可选**。| | **性能** | 曾经的 SOTA (State-of-the-art)。| **全面超越**,成为新的 SOTA 基线。| # 二、Bert vs LLM 虽然像 Qwen 这样的生成式语言模型(尤其是小参数版本)确实在很多任务上表现出色,但 BERT 类的编码器模型仍然有其独特优势和应用场景: bert的本质是还原,[[GPT]]的本质是产生新的 BERT 仍有优势的领域:分类和理解任务 - [[文本分类]]、情感分析、[命名实体识别 NER](命名实体识别%20NER.md)等任务上,BERT 往往更高效 - 这些任务不需要生成能力,BERT 的双向编码架构反而更合适 - 训练和推理速度通常比同等大小的生成模型快 bert只保留了Transformer里的[编码器](编码器.md)的部分 ![image.png|1000](https://imagehosting4picgo.oss-cn-beijing.aliyuncs.com/imagehosting/fix-dir%2Fpicgo%2Fpicgo-clipboard-images%2F2025%2F01%2F29%2F15-33-57-6bc2ff6f305eb42e318c52acda24fd2a-202501291533765-30f2c3.png)