后训练 post training - 🎯转了码的刘公子

# Summary - **SFT** 像“背标准答案”。 - **GRPO** 像“在小组讨论里比出冠军”。 - **DPO** 像“看两个答案，勾选你更喜欢的那个，然后直接让模型学会这种选择”。 |主题|推荐资料| |---|---| |SFT / RLHF 全流程|HuggingFace Course「RLHF」章节、Harvard NLP CS285 RL Lecture 9| |PPO / GRPO 概念|_Schulman 2017 PPO_ + DeepSeek R1 附录（作业注释也给了链接）| |DPO 论文|_Direct Preference Optimization_, 2023| |安全对齐|Anthropic Constitutional AI、OpenAI Policy papers| # Notes ## 后训练（Post-training）技术分类 | 类别 | 英文名称 | 包含技术 | 技术说明 | | ------------------------- | ---------------------- | -------------------------------------- | ------------------------------------------------------------- | | [监督微调 SFT](监督微调%20SFT.md) | Supervised Fine-Tuning | 任务微调 指令微调 | • 任务微调：针对特定任务（如分类、翻译） • 指令微调：训练模型遵循自然语言指令 | | | Alignment | [[RLHF]] [[DPO]] [GRPO](GRPO.md) | • RLHF：基于人类反馈的强化学习 • DPO：直接偏好优化 • GRPO：组相对策略优化 | | **持续预训练** | Continued Pretraining | 领域适配 | • 领域适配：用特定领域数据继续训练 • 如：医疗领域、法律领域、金融领域 | | **模型优化** | Optimization | [[量化]] 剪枝 蒸馏 | • 量化：降低参数精度（如 INT8/INT4） • 剪枝：移除不重要的参数 • 蒸馏：用小模型学习大模型知识 | ## 更详细的分层表格 | 一级分类 | 二级分类 | 具体技术 | 目的 | 是否改变模型权重 | | --------------------------------- | ------- | ---------------------------------------- | -------- | -------- | | **监督微调** | 任务微调 | • 分类微调 • NER微调 • 翻译微调 | 提升特定任务性能 | ✅ 是 | | **监督微调** | 指令微调 | • Alpaca式训练 • FLAN式训练 • ChatML格式训练 | 让模型理解指令 | ✅ 是 | | [对齐 Alignment](对齐%20Alignment.md) | 基于RL的方法 | • [[RLHF]] • [[PPO]] • RLAIF | 对齐人类价值观 | ✅ 是 | | | 直接优化方法 | • DPO • IPO • KTO | 简化对齐流程 | ✅ 是 | | | 其他方法 | • [[GRPO]] • Constitutional AI | 新型对齐技术 | ✅ 是 | | **持续预训练** | 领域适配 | • 医疗语料训练 • 代码语料训练 • 多语言训练 | 增强领域知识 | ✅ 是 | | **模型优化** | 压缩技术 | • INT8/INT4量化 • 结构化剪枝 • 知识蒸馏 | 降低部署成本 | 🔶 部分改变 | ## 技术选择决策表 |场景需求|推荐技术|原因| |---|---|---| |需要模型完成特定任务|任务微调|直接针对任务优化| |需要模型像助手一样对话|指令微调 + RLHF/DPO|理解指令 + 安全对齐| |需要模型掌握专业知识|持续预训练 + 任务微调|先学知识，再学应用| |需要在边缘设备部署|量化 + 剪枝/蒸馏|大幅减少模型大小| |需要模型更安全可靠|RLHF 或 DPO|对齐人类价值观| ### **SFT场景** ```python # 训练数据（人类标注） { "prompt": "写一首关于春天的诗", "response": "春天来了，花儿开了，鸟儿在枝头歌唱。" # 人类专家写的 } # 训练目标 model("写一首关于春天的诗") → "春天来了，花儿开了，鸟儿在枝头歌唱。" ``` ### **GRPO场景** ```python # 生成多个回答 prompt = "写一首关于春天的诗" responses = [ "春天来了，花儿开了，鸟儿在枝头歌唱。", # 奖励：0.9 "春天是美丽的季节，万物复苏。", # 奖励：0.6 "春天来了，我很开心。", # 奖励：0.4 "春天。" # 奖励：0.1 ] # 对齐目标：奖励最高的回答（0.9分） best_response = "春天来了，花儿开了，鸟儿在枝头歌唱。" ``` ## 为什么这样设计？ ### **SFT的优势** - ✅ **质量保证**：人类专家标注，质量有保障 - ✅ **明确目标**：有标准答案，学习目标清晰 - ❌ **成本高**：需要大量人工标注 - ❌ **主观性**：依赖人类判断 ### **GRPO的优势** - ✅ **自动化**：不需要人工标注 - ✅ **可扩展**：可以生成大量训练数据 - ✅ **客观性**：使用奖励函数评分 - ❌ **质量依赖**：依赖奖励函数的质量