Skip to content

人类反馈强化学习(RLHF)

不是训练,是"让模型更像人"


7.1 为什么需要 RLHF?

人类反馈强化学习(RLHF, Reinforcement Learning from Human Feedback) 是让语言模型(LLM)更符合人类偏好、更安全、更可控的关键技术。

一个仅经过预训练的模型

问题说明
❌ 只是预测下一个 token容易胡说八道
❌ 不懂拒绝危险请求可能输出有害内容
❌ 不知道用户真正想要什么答非所问
❌ 可能输出攻击性、不安全内容安全风险
❌ 不会"对齐"人类价值价值观不一致

因此,需要 RLHF,让模型更像一个"懂规则、懂合作、懂用户意图"的助手。

一句话总结

预训练让模型变强,RLHF 让模型变"乖"。


7.2 RLHF 三大组件

组件含义作用
SFT(有监督微调)教模型"该怎么回答"基础行为训练
RM(奖励模型)判断"好回答 vs 坏回答"质量评估器
PPO(强化学习优化)让模型逐轮变好策略优化器

7.3 RLHF 全流程架构

RLHF 流程分为 SFT奖励模型(RM)PPO 三个阶段,逐步让模型行为对齐人类偏好。

预训练模型

SFT(有监督微调)

奖励模型训练

PPO 强化学习优化

对齐后模型

7.4 SFT(Supervised Fine-Tuning):直接教模型"怎么回答"

SFT 是 RLHF 的第一步,也是最基础的一步。

目标

直接教模型什么叫"好回答":

  • 给模型大量「指令 → 理想回答」样例
  • 让它模仿人类的表达和行为

示例

用户:帮我解释 Transformer
理想回答:Transformer 是一种...

通过 SFT,模型第一次学会

能力说明
如何顺着对话回答对话连贯性
如何拒绝危险问题安全边界
如何按格式组织内容结构化输出
如何像一个助手而不是语言模型角色定位

7.5 奖励模型(RM, Reward Model):让模型知道"什么是好"

SFT 模型能回答,但不知道什么是"好"。所以训练一个奖励模型(Reward Model)

奖励模型的训练流程

  1. 给预训练模型一个问题
  2. 让它生成多个回答
  3. 让标注人员按好坏排序
  4. 用排序数据训练一个"好回答计算器"

奖励模型就像

类比说明
Linter代码质量检查
代码审查规则规范检查
安全扫描风险检测
格式规范检查器格式验证

奖励模型工作流程

问题输入

SFT 模型生成多个回答

标注人员排序(好 → 坏)

训练奖励模型

奖励模型学习判断回答质量

7.6 PPO(Proximal Policy Optimization):让模型不断变好

PPO(Proximal Policy Optimization) 是 RLHF 的核心优化算法。

目标

让模型在奖励模型的评估下不断改进,使输出越来越符合人类偏好。

PPO 优化流程

  1. SFT 模型生成多个回答
  2. RM 对它们打分
  3. PPO 根据奖励调整模型
  4. 限制模型不要偏离太远(KL 惩罚)
  5. 反复循环,逐批更新

为什么用 PPO?

优势说明
不像 SFT 一次写死可以多轮优化
能学习"隐性偏好"和复杂行为深度对齐
显著提升安全性和合作性实用价值高

PPO 优化循环

SFT 模型

生成候选回答

奖励模型 RM 打分

PPO 优化器根据奖励更新策略

(循环)

7.7 RLHF 的本质:让模型"对齐"人类

整个 RLHF 可以用一句话总结:

阶段作用
预训练让模型拥有所有知识
SFT让模型能像助手一样回答
RM判断哪个回答更像人
PPO让模型朝"人类偏好"方向反复优化

7.8 RLHF 带来了什么?

RLHF 带来的工程价值体现在:

价值说明
更安全不输出危险内容
更可靠减少幻觉
更协作按用户意图对话
更一致具备统一风格
更懂格式能按 JSON、Markdown 输出
更像一个"助手"而不是语言模型

总结

RLHF(Reinforcement Learning from Human Feedback) 是让模型对齐的关键技术,包含三个阶段:

阶段工程类比
SFTapt-get install 业务逻辑
RMLinter + 风险审查
PPO自动调优循环

本质作用

  • 让模型符合人类价值
  • 符合用户意图
  • 更加安全可靠

核心要点

要点说明
RLHF 不是让模型变聪明而是让它更懂人、更安全、更可控
它是模型"对齐"的关键从"能说"到"会说"
ChatGPT 等主流模型均采用行业标准实践

最后更新:2026-03-23