人类反馈强化学习(RLHF)
不是训练,是"让模型更像人"
7.1 为什么需要 RLHF?
人类反馈强化学习(RLHF, Reinforcement Learning from Human Feedback) 是让语言模型(LLM)更符合人类偏好、更安全、更可控的关键技术。
一个仅经过预训练的模型
| 问题 | 说明 |
|---|---|
| ❌ 只是预测下一个 token | 容易胡说八道 |
| ❌ 不懂拒绝危险请求 | 可能输出有害内容 |
| ❌ 不知道用户真正想要什么 | 答非所问 |
| ❌ 可能输出攻击性、不安全内容 | 安全风险 |
| ❌ 不会"对齐"人类价值 | 价值观不一致 |
因此,需要 RLHF,让模型更像一个"懂规则、懂合作、懂用户意图"的助手。
一句话总结
预训练让模型变强,RLHF 让模型变"乖"。
7.2 RLHF 三大组件
| 组件 | 含义 | 作用 |
|---|---|---|
| SFT(有监督微调) | 教模型"该怎么回答" | 基础行为训练 |
| RM(奖励模型) | 判断"好回答 vs 坏回答" | 质量评估器 |
| PPO(强化学习优化) | 让模型逐轮变好 | 策略优化器 |
7.3 RLHF 全流程架构
RLHF 流程分为 SFT、奖励模型(RM)、PPO 三个阶段,逐步让模型行为对齐人类偏好。
预训练模型
↓
SFT(有监督微调)
↓
奖励模型训练
↓
PPO 强化学习优化
↓
对齐后模型7.4 SFT(Supervised Fine-Tuning):直接教模型"怎么回答"
SFT 是 RLHF 的第一步,也是最基础的一步。
目标
直接教模型什么叫"好回答":
- 给模型大量「指令 → 理想回答」样例
- 让它模仿人类的表达和行为
示例
用户:帮我解释 Transformer
理想回答:Transformer 是一种...通过 SFT,模型第一次学会
| 能力 | 说明 |
|---|---|
| 如何顺着对话回答 | 对话连贯性 |
| 如何拒绝危险问题 | 安全边界 |
| 如何按格式组织内容 | 结构化输出 |
| 如何像一个助手而不是语言模型 | 角色定位 |
7.5 奖励模型(RM, Reward Model):让模型知道"什么是好"
SFT 模型能回答,但不知道什么是"好"。所以训练一个奖励模型(Reward Model)。
奖励模型的训练流程
- 给预训练模型一个问题
- 让它生成多个回答
- 让标注人员按好坏排序
- 用排序数据训练一个"好回答计算器"
奖励模型就像
| 类比 | 说明 |
|---|---|
| Linter | 代码质量检查 |
| 代码审查规则 | 规范检查 |
| 安全扫描 | 风险检测 |
| 格式规范检查器 | 格式验证 |
奖励模型工作流程
问题输入
↓
SFT 模型生成多个回答
↓
标注人员排序(好 → 坏)
↓
训练奖励模型
↓
奖励模型学习判断回答质量7.6 PPO(Proximal Policy Optimization):让模型不断变好
PPO(Proximal Policy Optimization) 是 RLHF 的核心优化算法。
目标
让模型在奖励模型的评估下不断改进,使输出越来越符合人类偏好。
PPO 优化流程
- SFT 模型生成多个回答
- RM 对它们打分
- PPO 根据奖励调整模型
- 限制模型不要偏离太远(KL 惩罚)
- 反复循环,逐批更新
为什么用 PPO?
| 优势 | 说明 |
|---|---|
| 不像 SFT 一次写死 | 可以多轮优化 |
| 能学习"隐性偏好"和复杂行为 | 深度对齐 |
| 显著提升安全性和合作性 | 实用价值高 |
PPO 优化循环
SFT 模型
↓
生成候选回答
↓
奖励模型 RM 打分
↓
PPO 优化器根据奖励更新策略
↓
(循环)7.7 RLHF 的本质:让模型"对齐"人类
整个 RLHF 可以用一句话总结:
| 阶段 | 作用 |
|---|---|
| 预训练 | 让模型拥有所有知识 |
| SFT | 让模型能像助手一样回答 |
| RM | 判断哪个回答更像人 |
| PPO | 让模型朝"人类偏好"方向反复优化 |
7.8 RLHF 带来了什么?
RLHF 带来的工程价值体现在:
| 价值 | 说明 |
|---|---|
| 更安全 | 不输出危险内容 |
| 更可靠 | 减少幻觉 |
| 更协作 | 按用户意图对话 |
| 更一致 | 具备统一风格 |
| 更懂格式 | 能按 JSON、Markdown 输出 |
| 更像一个"助手" | 而不是语言模型 |
总结
RLHF(Reinforcement Learning from Human Feedback) 是让模型对齐的关键技术,包含三个阶段:
| 阶段 | 工程类比 |
|---|---|
| SFT | apt-get install 业务逻辑 |
| RM | Linter + 风险审查 |
| PPO | 自动调优循环 |
本质作用
- 让模型符合人类价值
- 符合用户意图
- 更加安全可靠
核心要点
| 要点 | 说明 |
|---|---|
| RLHF 不是让模型变聪明 | 而是让它更懂人、更安全、更可控 |
| 它是模型"对齐"的关键 | 从"能说"到"会说" |
| ChatGPT 等主流模型均采用 | 行业标准实践 |
最后更新:2026-03-23
