# Summary
Named Entity Recognition
> 本质上我们遇到的是一个“实体表面串回对齐”的问题:模型只给出了实体文本(甚至给出的起止 offset 不可靠),我们需要把它重新
对齐回原文,找出每一个出现位置并保证实例互不重叠。换句话说,它就是“在一段文本里寻找多次出现的同一子串”并为每次出现分配
唯一区间的任务。
# Cues
# Notes
## 🔹 规则 / 字典匹配(基础版)
- **方法**:维护一个 POI 词典(旅游数据库,比如景区名单、地标清单),用 **分词 + Trie 匹配** 或 **正则** 来检测。
- **优点**:实现简单、速度快。
- **缺点**:新景点、别名、俗称识别不全。
## 🔹 命名实体识别(NER, Named Entity Recognition)
- **方法**:训练或 fine-tune 一个 NER 模型,让它识别 **地名/景点类别的实体**。
- **技术**:BERT、RoBERTa、MacBERT、ERNIE 等中文预训练模型。
- **标注**:需要标注语料,把 “白哈巴” → `LOC/POI`。
- **优点**:对口语化表达、别名适应更好。
- **缺点**:需要标注数据。
## 🔹 大模型 (LLM) Prompting
- **方法**:直接给大模型提示:“请提取文中提到的景区/地名/POI”。
- **优点**:零样本就能提取,鲁棒性强。
- **缺点**:成本高,速度比 NER 慢,不一定稳定。
## 🔹 知识图谱 + NLP
- **方法**:先用 NER 抽取候选实体 → 再跟已有旅游知识图谱(比如高德/携程 POI 数据库)做 **实体链接 (Entity Linking)**。
- **优点**:能把 “空中草原” 这种俗称匹配到数据库里的标准 POI 节点。
- **缺点**:需要维护数据库 + 实体对齐算法。