A5 Alignment - 🎯转了码的刘公子

# Summary Assignment 5 专注于对齐技术（Alignment），即如何让语言模型按照人类期望的方式行事。这是从"会说话"到"说对话"的关键一步。 Lab 5 的默认核心是 [[GRPO]] (Group Relative Policy Optimization)——一种在一小组候选回答里做 reward 归一化、然后用 REINFORCE +[[PPO]]‑式裁剪更新策略的对齐方法；它先做 SFT 冷启动，随后用 GRPO 把模型调成“更符合偏好”。补充讲义里**可选**让你再实现 **DPO (Direct Preference Optimization)** 和一个最朴素的 **RLHF/REINFORCE baseline** 来体验安全对齐，但主线单元测试只强制要求 GRPO 本 lab 的奖励函数机制：答案正确 + 格式正确 # Cues [监督微调 SFT](监督微调%20SFT.md) [[GRPO]] [[奖励函数]] # Notes ## 核心目标 - 实现监督微调（[监督微调 SFT](监督微调%20SFT.md)） - 实现基于人类反馈的强化学习（[[RLHF]]）相关算法 - 理解 [[DPO]]、[[GRPO]] 等现代对齐方法 ## 测试层次结构 ```Java assignment5-alignment/ ├── 核心对齐算法测试 (test_grpo.py, test_dpo.py) │ └── 验证强化学习和偏好优化算法 ├── 基础组件测试 (test_sft.py) │ └── 验证监督微调的各个组件 └── 辅助功能测试 (test_data.py, test_metrics.py) └── 验证数据处理和评估指标 ``` ## 测试驱动学习路径 ### 按实现顺序的测试用例 **总览：** - **总测试文件数**: 5 - **总测试用例数**: 31 - **通过状态**: 28/31 (90.3%) ### Level 1: 基础工具函数这些是最基础的数学和工具函数，其他所有功能都依赖它们。 | 测试文件 | 测试函数 | 功能说明 | 通俗解释 | 状态 | |:------------- |:------------------------ |:-------- |:-------------------- |:-- | | `test_sft.py` | `test_compute_entropy` | 计算概率分布的熵 | 测量"不确定性"有多大 | ✅ | | `test_grpo.py` | `test_masked_mean_*` | 带掩码的平均值计算 | 只算"有效位置"的平均，忽略padding | ✅ | | `test_sft.py` | `test_masked_normalize_*` | 带掩码的归一化 | 只对有效部分做标准化处理 | ✅ | ### Level 2: 数据处理组件处理训练数据，为模型准备输入。 | 测试文件 | 测试函数 | 功能说明 | 通俗解释 | 状态 | | |:------------- |:-------------------------------- |:-------- |:------------ |:-- | --- | | `test_sft.py` | `test_tokenize_prompt_and_output` | 分词并创建响应掩码 | 区分"问题"和"答案"部分 | ❌ | ✅ | | `test_data.py` | `test_packed_sft_dataset` | 打包SFT数据集 | 把多个短对话拼成固定长度 | ✅ | | | `test_data.py` | `test_iterate_batches` | 批量数据迭代 | 一次取一批数据训练 | ✅ | | ### Level 3: 核心算法实现 #### 3.1 监督微调（SFT） | 测试文件 | 测试函数 | 功能说明 | 通俗解释 | 状态 | | |:------------ |:------------------------------- |:-------- |:---------- |:-- | --- | | `test_sft.py` | `test_get_response_log_probs` | 计算响应的对数概率 | 模型对答案有多"自信" | ❌ | | | `test_sft.py` | `test_sft_microbatch_train_step` | SFT训练步骤 | 用标准答案训练模型 | ✅ | ✅ | #### 3.2 强化学习组件（GRPO） [GRPO](GRPO.md) [[PPO]] | 测试文件 | 测试函数 | 功能说明 | 通俗解释 | 状态 | | |:------------- |:---------------------------------------- |:------- |:---------- |:-- | --- | | `test_grpo.py` | `test_compute_group_normalized_rewards` | 组归一化奖励 | 同组内比较，算相对好坏 | ✅ | ✅ | | `test_grpo.py` | `test_compute_naive_policy_gradient_loss` | 朴素策略梯度 | 好的多奖励，差的少奖励 | ✅ | ✅ | | `test_grpo.py` | `test_compute_grpo_clip_loss` | GRPO裁剪损失 | 防止更新太激进 | ✅ | ✅ | | `test_grpo.py` | `test_grpo_microbatch_train_step` | GRPO训练步骤 | 完整的强化学习更新 | ✅ | ✅ | #### 3.3 偏好优化（DPO） [[DPO]] | 测试文件 | 测试函数 | 功能说明 | 通俗解释 | 状态 | | |:------------ |:--------------------------- |:------ |:------------- |:-- | --- | | `test_dpo.py` | `test_per_instance_dpo_loss` | DPO损失计算 | 直接从偏好学习，无需奖励模型 | ❌ | ✅ | ### Level 4: 评估指标 | 测试文件 | 测试函数 | 功能说明 | 通俗解释 | 状态 | |:---------------- |:-------------------------- |:-------- |:----------- |:-- | | `test_metrics.py` | `test_parse_mmlu_response` | 解析MMLU答案 | 从模型输出提取选择题答案 | ✅ | | `test_metrics.py` | `test_parse_gsm8k_response` | 解析GSM8K答案 | 从模型输出提取数学答案 | ✅ | 我们用的测试数据是一套有标准 ABCD 选项的问题[MMLU](MMLU.md)，这里的挑战是从 AI 生成的非结构化文本中找到 AI 给出的答案，然后再判断对错 ### 三种主要对齐方法 1. **[监督微调 SFT](监督微调%20SFT.md)（监督微调）** - **原理**：给模型看"标准答案" - **过程**：问题 → 标准回答 → 让模型模仿 - **优点**：简单直接 - **缺点**：需要大量人工标注 2. **[[RLHF]]/[[GRPO]]（[[强化学习(Reinforcement Learning)]]）** - **原理**：让模型试错，好的奖励，坏的惩罚 - **过程**： 1. 模型生成多个答案 2. 人类/奖励模型打分 3. 强化好答案，弱化坏答案 - **优点**：更灵活，能学到细微偏好 - **缺点**：训练复杂，容易不稳定 3. **[[DPO]]（直接偏好优化）** - **原理**：直接从"A比B好"的偏好对学习 - **过程**：跳过奖励模型，直接优化偏好 - **优点**：训练稳定，实现简单 - **缺点**：需要高质量偏好数据 ## 失败测试分析 ### 为什么有些测试失败？ 1. **tokenizer不匹配 (`test_tokenize_prompt_and_output`)** - **期望**：Llama tokenizer - **实际**：GPT-2 tokenizer - **影响**：token ID不同，但功能正确 2. **模型架构差异 (`test_get_response_log_probs`)** - **期望**：特定模型的输出 - **实际**：不同模型架构 - **影响**：数值不同，但计算逻辑正确 3. **DPO实现细节 (`test_per_instance_dpo_loss`)** - **期望值**：0.5785 - **实际值**：0.4803 - **可能原因**：tokenization差异或数值精度 ### 这些失败重要吗？不太重要。核心算法都正确实现了： - ✅ SFT训练逻辑 - ✅ GRPO完整流程 - ✅ 数据处理管道 - ✅ 评估指标解析失败主要是由于测试环境配置（tokenizer/模型选择）差异，而非算法错误。 ### 调试贴士 |现象|可能原因|快速定位| |---|---|---| |`answer_reward` 一直 0|GSM8K 提取数字 regex 写错，或 MMLU 解析不到 A-D|`print(model_output)` 看尾部是不是带多余符号| |`format_reward` 一直 0|正则过于严格（如换行没匹配）|`re.fullmatch` → `re.search` 先测试，通过后再收紧| |总 reward 尺度忽高忽低|format 与 answer 权重差距太大|保持 answer 1.0，format ≤ 0.2 比较稳| ### 可以怎么扩展 - **加层次奖励**：比如对推理链逐步用 `cot_reward`＋最终答案； - **引入惩罚**：输出非法 token、长文本超限时给负分； - **动态权重**：随着 SFT→GRPO 训练推进，逐渐降低 `format_reward` 权重，放手让模型探索多样表达。这样，你就掌握了本 lab 的奖励函数机制：**既保证答案正确，又保证输出可解析，一切用简单规则即可自动打分，方便把注意力放在 GRPO 本身的实现与调参上**。祝编码顺利！ ## 2. 代码仓库结构速览 |目录/文件|作用|Java 类⽐喻| |---|---|---| |`cs336_alignment/`|教学参考实现与工具|业务框架| |`data/`|已处理好的少量公开数据（Alpaca、GSM8K、MMLU 样例等）|测试数据⽂件| |`scripts/`|训练、评测脚本模板|`*.sh` / `*.py` 运维脚本| |`tests/`|**你要通过的单元测试**|`JUnit` 测试| |`tests/adapters.py`|⽣成/打分/损失计算等“胶水函数”骨架，缺 `NotImplementedError`|接⼝定稿但待实现的 Java Interface| |两份 PDF|assignment 手册 + 安全补充说明|需求规格说明书| > 仓库的安装步骤、测试命令都写在 README，跟 Lab 1 相同，只是把 `pip` 换成了 `uv sync`。 --- ## 3. 总体流程图（横向对照 Java Web 后端） ```Java ┌──数据集载入(get_packed_sft_dataset)──┐ │ ① prompt/response → tokenizer │ │ ② 拼接后固定长度(打包) │ └─────────────────────────────────────┘ ↓ ┌──SFT 训练(sft_microbatch_train_step)─┐ // 类似 “冷启动” │ 交叉熵 loss + 梯度累加 │ └─────────────────────────────────────┘ ↓ ┌─生成 rollout─┐ ┌─奖励函数─┐ │ policy(model)| | reward_fn│ // 可用 GSM8K/MMLU 简单规则打分 └──────┬──────┘ └────┬─────┘ │rollout_responses │ground_truth └──────────┬───────┘ compute_group_normalized_rewards │ (raw reward → group‑norm → advantage) │ ┌──Policy Gradient/GRPO loss───────────────┐ │ run_compute_policy_gradient_loss │ │ - no_baseline (最朴素 REINFORCE) │ │ - reinforce_with_baseline (减均值) │ │ - grpo_clip (PPO 风格裁剪) │ └──────────────────────────────────────────┘ │ grpo_microbatch_train_step │ 参数更新 & 日志 ``` --- ## 6. 常见坑 & 排错 Tips |症状|典型原因|⼀句话修法| |---|---|---| |`RuntimeError: CUDA out of memory`|微批设置过⼤|减小 `per_device_batch_size` 或开启 `gradient_checkpointing`| |单测 shape 不匹配|忽略了 `response_mask` 的长度对齐|保证 `input_ids[:,:-1]` 与 `labels`、`response_mask` 尺寸完全一致| |RL loss Nan|`advantage_eps` 设太小，归一化除 0|`1e‑6` 起步，若仍 NaN 增大到 `1e‑4`| |clip ratio 总触发|学习率过大或 rewards 尺度不稳|先把 `lr` 调到 `5e‑6` 观察，再调 reward 缩放| ## 8. 如果你想做安全补充（可选） Supplement PDF 让你体验 **DPO（Direct Preference Optimization）** 与 **指令安全过滤**： - 先实现 `run_compute_per_instance_dpo_loss`，逻辑和论文公式一致： `loss = -β * (log π(chosen) - log π(rejected) - log π_ref(chosen) + log π_ref(rejected))` - 然后把 `run_parse_mmlu_response / run_parse_gsm8k_response` 写好，评测时就能自动提取答案。 - 这些函数全在 `adapters.py` 后半段，代码量比主线少，但能学到 Align‑safety 流程。