# Summary
真正NLP发展的历史:
1. 2017年,Google发布[Transformer架构](Transformer架构.md)(attention is all you need)大家:我操,牛逼,一个伟大的时代到来了。
2. 2018年,Google发布encoder only BERT发布,OpenAI发布decoder only GPT。大家:我操,更牛逼了!一年内,Google官宣:Google搜索里面已经强力嵌入[[BERT]]了,你们每一次搜索都是BERT的结果!
3. 2019年,大家就知道了,CV已经快死了,想做新东西只能沿着NLP开始做,于是2019年成了BERT大灌水元年,OpenAI发布了GPT-2,2019年,Google发布了当时巨无霸T5,当时人们惊呼,Google发布这么大的model,你不要命了?其实当年T5最大的也只有11b parameters,最小才76 million,跟今天比,简直小太多了;同年Meta也发布了Megatron。
4. 2020年,OpenAI发布了GPT-3,我清楚记得当年那个震撼的视频,随手拉个表格,一大堆公司的股价和信息自动补全,当时整个科技圈彻底沸腾了,一群人抢着要GPT-3的内测资格,同时Meta也发布了更大号的Megatron。
5. 2021年,一群人意识到了时代要来临了,开始抢占话语权了,开始发明新概念“foudation model”(基础模型),山雨欲来风满楼,大家都知道革命要出现了,各种任务和benchmark像下饺子一样出现了。
6. 2022年年底,ChatGPT发布。
最初是基于规则,做语法分析、语义分析,遇到了很大的瓶颈。70 年代以后,转向了基于统计的思路,获得了极大成功。
莱特兄弟发明飞机并不是靠仿生学,而是靠空气动力学。
# Notes
## 对话与交互
- [[任务型对话]](NLU→[[对话状态跟踪 DST]]→[[Policy]]→NLG)
- 开放域闲聊/检索增强对话
- 对话状态跟踪([[对话状态跟踪 DST]])
- 多轮检索式问答/澄清式交互
- 对话安全/内容审控/用户建模
## 检索与排序(IR/语义检索)
- 关键词检索([倒排索引 Inverted File](倒排索引%20Inverted%20File.md)/[[BM25]])
- 密集检索(双塔)与向量索引[embedding](embedding.md)
- 交互式重排(Cross-Encoder/Rerank)
- 检索式问答组件(Retriever for QA)
## 信息抽取(IE)
- [命名实体识别 NER](命名实体识别%20NER.md)
- [[实体链接, 挂靠]]/消歧(EL/NEL)
- 关系抽取(RE)
- 事件抽取(EE:触发词/论元/时间)
- 时间/数量表达抽取与归一化(TIMEX)
- 关键词/术语/关键短语抽取
- [[Open IE]](开放域三元组)
- 文档级抽取/版面理解(Doc IE,Layout)
## [[文本分类]]
- 主题分类/多标签分类
- 情感与情绪(含[方面级情感分析](方面级情感分析.md) ABSA)
- 自然语言推断(NLI/Entailment)
- 立场/观点/仇恨言论/毒性/垃圾
- [意图识别](意图识别.md)(Intent)/场景分类
- 作者/风格/体裁/讽刺反语检测
## 语音与语言(边界学科)
- [[ASR]] 自动语音识别(语音→文本)
- [[TTS]] 语音合成(文本→语音)
- 语音理解/说话人/情感识别
## LLM 时代的工作流(现代范式)
- [Prompt](Prompt.md) 设计(CoT/少样本/结构化输出)
- 指令微调([监督微调 SFT](监督微调%20SFT.md))
- 偏好对齐([[RLHF]]/[[DPO]])
- [[RAG]] 管线(切分→索引→检索→重排→生成)
- 工具/函数调用[Function Call](Function%20Call.md)与代理(Agents/Tool Use)
- 安全与治理(越狱/偏见/隐私/红队)
- 系统评测(MT-Bench/HELM/人评)
## 数据与评测
- [[标注]](指南/一致性/质控/众包)
- 数据合成/过滤/去重/去毒
- 指标(BLEU/ROUGE/chrF/BERTScore/COMET/Acc/[[F1]]/MRR)
- 基准[benchmark](benchmark.md)(GLUE/SuperGLUE/SQuAD/XSum/XTREME/[[MMLU]] 等)
## 语料与预处理
- 分词/断句/[[Tokenization]]
- 词形还原/Lemmatization,词干化
- 子词/字节切分(BPE/WordPiece)
- 清洗/去重/对齐/数据均衡
## 基础语言分析(语言学驱动)
- 词性标注(POS)
- 句法分析(成分/依存)
- 语义角色标注(SRL)
- 语义解析(AMR/逻辑式/UCCA/SDP)
- 指代消解/共指(Coreference)
## 序列标注/片段抽取
- 分块/短语切分(Chunking)
- 槽位标注(SLU)
- 片段/跨度抽取(Span Extraction)
# 问答与阅读理解(QA/RC)
- 抽取式 QA(Span-based)
- 生成式 QA(闭卷/开卷)
- 多跳/多文档/表格/图表 QA
- 知识库问答(KBQA)
# 文本生成(NLG)
- 机器翻译(MT:单/双向、多语、低资源)
- 摘要(抽取式/生成式/多文档)
- 改写/释义生成/风格迁移
- 数据到文本(Data-to-Text)
- 问题生成/标题生成/报告生成
- 代码相关(代码生成/注释/解释)
- 受控生成(长度/语气/术语约束)
# 知识与语义
- 知识库构建(实体/关系/事件灌库)
- 本体/术语库/对齐与映射
- 链接预测/知识补全(KBC)
- 语义相似度/释义判定(STS)
- 词义消歧(WSD)
# 篇章/话语层
- 篇章结构/话语解析(RST 等)
- 篇章连贯性/一致性建模
- 指代/省略恢复/语用现象(讽刺、隐喻)
# 多模态与文档智能
- 图文:图像描述、VQA、多模态检索
- 文档理解(OCR+Layout+表格/表单/图表)
- 视频-语言(时序定位/视频问答)