奖励函数 - 🎯转了码的刘公子

# Summary # Cues # Notes 让我查看一下奖励函数的具体内容。 Search files... 现在我找到了奖励函数的具体内容！让我详细解释： ## 奖励函数的内容 ### 1. **测试中的虚拟奖励函数** 在测试中，使用的是一个**虚拟的奖励函数**： ```python @pytest.fixture def reward_fn(): def dummy_reward_fn(response, ground_truth): # 使用SHA-256哈希，确保结果确定性 response_hash = int(hashlib.sha256(response.encode()).hexdigest(), 16) reward = (response_hash % 10) / 10.0 # 生成0-1之间的奖励 return { "reward": reward, # 总奖励 "format_reward": reward, # 格式奖励 "answer_reward": reward, # 答案奖励 } return dummy_reward_fn ``` ### 2. **真实的奖励函数** 在实际应用中，有几种不同的奖励函数： #### A. **R1-Zero奖励函数**（数学问题） ```python def r1_zero_reward_fn(response, ground_truth, fast=True): # 检查格式是否正确 if "</think> <answer>" in response and "</answer>" in response: # 提取答案部分 model_answer = response.split("<answer>")[-1].replace("</answer>", "") # 检查答案是否正确 is_correct = grade(model_answer, ground_truth, fast) if is_correct: return { "format_reward": 1.0, # 格式正确 "answer_reward": 1.0, # 答案正确 "reward": 1.0 # 总奖励 } else: return { "format_reward": 1.0, # 格式正确 "answer_reward": 0.0, # 答案错误 "reward": 0.0 # 总奖励 } else: # 格式错误 return { "format_reward": 0.0, "answer_reward": 0.0, "reward": 0.0 } ``` #### B. **Question-Only奖励函数**（简单问答） ```python def question_only_reward_fn(response, ground_truth, fast=True): # 提取答案 model_answer = extract_answer(response) if model_answer is None: return {"format_reward": 0.0, "answer_reward": 0.0, "reward": 0.0} # 检查答案是否正确 is_correct = grade(model_answer, ground_truth, fast) if is_correct: return {"format_reward": 1.0, "answer_reward": 1.0, "reward": 1.0} else: return {"format_reward": 1.0, "answer_reward": 0.0, "reward": 0.0} ``` ### 3. **奖励函数的组成部分** 每个奖励函数都返回一个字典，包含三个部分： ```python { "reward": float, # 总奖励（主要用于训练） "format_reward": float, # 格式奖励（是否按正确格式回答） "answer_reward": float # 答案奖励（答案是否正确） } ``` ### 4. **奖励函数的工作原理** #### 输入 - `response`: 模型的回答 - `ground_truth`: 标准答案 #### 输出 - 奖励分数（0-1之间） #### 评估标准 1. **格式正确性**：是否按照要求的格式回答 2. **答案正确性**：答案是否与标准答案匹配 3. **总奖励**：综合考虑格式和答案 ### 5. **生活中的类比** 就像**老师批改作业**： 1. **格式分**：字迹工整、格式规范（format_reward） 2. **答案分**：答案是否正确（answer_reward） 3. **总分**：综合评分（reward） ### 6. **经典问题变体** 这实际上是**自动评分系统**的经典问题： - **考试评分**：自动批改选择题 - **作文评分**：评估写作质量 - **代码评分**：检查程序正确性 - **对话评估**：评价对话质量 **核心思想**：通过自动化的奖励函数，为强化学习提供训练信号，让模型学会生成更好的回答。