# Summary Named Entity Recognition > 本质上我们遇到的是一个“实体表面串回对齐”的问题:模型只给出了实体文本(甚至给出的起止 offset 不可靠),我们需要把它重新 对齐回原文,找出每一个出现位置并保证实例互不重叠。换句话说,它就是“在一段文本里寻找多次出现的同一子串”并为每次出现分配 唯一区间的任务。 # Cues # Notes ## 🔹 规则 / 字典匹配(基础版) - **方法**:维护一个 POI 词典(旅游数据库,比如景区名单、地标清单),用 **分词 + Trie 匹配** 或 **正则** 来检测。 - **优点**:实现简单、速度快。 - **缺点**:新景点、别名、俗称识别不全。 ## 🔹 命名实体识别(NER, Named Entity Recognition) - **方法**:训练或 fine-tune 一个 NER 模型,让它识别 **地名/景点类别的实体**。 - **技术**:BERT、RoBERTa、MacBERT、ERNIE 等中文预训练模型。 - **标注**:需要标注语料,把 “白哈巴” → `LOC/POI`。 - **优点**:对口语化表达、别名适应更好。 - **缺点**:需要标注数据。 ## 🔹 大模型 (LLM) Prompting - **方法**:直接给大模型提示:“请提取文中提到的景区/地名/POI”。 - **优点**:零样本就能提取,鲁棒性强。 - **缺点**:成本高,速度比 NER 慢,不一定稳定。 ## 🔹 知识图谱 + NLP - **方法**:先用 NER 抽取候选实体 → 再跟已有旅游知识图谱(比如高德/携程 POI 数据库)做 **实体链接 (Entity Linking)**。 - **优点**:能把 “空中草原” 这种俗称匹配到数据库里的标准 POI 节点。 - **缺点**:需要维护数据库 + 实体对齐算法。