人类反馈强化学习（RLHF）

不是训练，是"让模型更像人"

7.1 为什么需要 RLHF？

人类反馈强化学习（RLHF, Reinforcement Learning from Human Feedback） 是让语言模型（LLM）更符合人类偏好、更安全、更可控的关键技术。

一个仅经过预训练的模型

问题	说明
❌ 只是预测下一个 token	容易胡说八道
❌ 不懂拒绝危险请求	可能输出有害内容
❌ 不知道用户真正想要什么	答非所问
❌ 可能输出攻击性、不安全内容	安全风险
❌ 不会"对齐"人类价值	价值观不一致

因此，需要 RLHF，让模型更像一个"懂规则、懂合作、懂用户意图"的助手。

一句话总结

预训练让模型变强，RLHF 让模型变"乖"。

7.2 RLHF 三大组件

组件	含义	作用
SFT（有监督微调）	教模型"该怎么回答"	基础行为训练
RM（奖励模型）	判断"好回答 vs 坏回答"	质量评估器
PPO（强化学习优化）	让模型逐轮变好	策略优化器

7.3 RLHF 全流程架构

RLHF 流程分为 SFT、奖励模型（RM）、PPO 三个阶段，逐步让模型行为对齐人类偏好。

预训练模型
    ↓
SFT（有监督微调）
    ↓
奖励模型训练
    ↓
PPO 强化学习优化
    ↓
对齐后模型

7.4 SFT（Supervised Fine-Tuning）：直接教模型"怎么回答"

SFT 是 RLHF 的第一步，也是最基础的一步。

目标

直接教模型什么叫"好回答"：

给模型大量「指令 → 理想回答」样例
让它模仿人类的表达和行为

示例

用户：帮我解释 Transformer
理想回答：Transformer 是一种...

通过 SFT，模型第一次学会

能力	说明
如何顺着对话回答	对话连贯性
如何拒绝危险问题	安全边界
如何按格式组织内容	结构化输出
如何像一个助手而不是语言模型	角色定位

7.5 奖励模型（RM, Reward Model）：让模型知道"什么是好"

SFT 模型能回答，但不知道什么是"好"。所以训练一个奖励模型（Reward Model）。

奖励模型的训练流程

给预训练模型一个问题
让它生成多个回答
让标注人员按好坏排序
用排序数据训练一个"好回答计算器"

奖励模型就像

类比	说明
Linter	代码质量检查
代码审查规则	规范检查
安全扫描	风险检测
格式规范检查器	格式验证

奖励模型工作流程

问题输入
    ↓
SFT 模型生成多个回答
    ↓
标注人员排序（好 → 坏）
    ↓
训练奖励模型
    ↓
奖励模型学习判断回答质量

7.6 PPO（Proximal Policy Optimization）：让模型不断变好

PPO（Proximal Policy Optimization） 是 RLHF 的核心优化算法。

目标

让模型在奖励模型的评估下不断改进，使输出越来越符合人类偏好。

PPO 优化流程

SFT 模型生成多个回答
RM 对它们打分
PPO 根据奖励调整模型
限制模型不要偏离太远（KL 惩罚）
反复循环，逐批更新

为什么用 PPO？

优势	说明
不像 SFT 一次写死	可以多轮优化
能学习"隐性偏好"和复杂行为	深度对齐
显著提升安全性和合作性	实用价值高

PPO 优化循环

SFT 模型
    ↓
生成候选回答
    ↓
奖励模型 RM 打分
    ↓
PPO 优化器根据奖励更新策略
    ↓
（循环）

7.7 RLHF 的本质：让模型"对齐"人类

整个 RLHF 可以用一句话总结：

阶段	作用
预训练	让模型拥有所有知识
SFT	让模型能像助手一样回答
RM	判断哪个回答更像人
PPO	让模型朝"人类偏好"方向反复优化

7.8 RLHF 带来了什么？

RLHF 带来的工程价值体现在：

价值	说明
更安全	不输出危险内容
更可靠	减少幻觉
更协作	按用户意图对话
更一致	具备统一风格
更懂格式	能按 JSON、Markdown 输出
更像一个"助手"	而不是语言模型

总结

RLHF（Reinforcement Learning from Human Feedback） 是让模型对齐的关键技术，包含三个阶段：

阶段	工程类比
SFT	`apt-get install` 业务逻辑
RM	Linter + 风险审查
PPO	自动调优循环

本质作用

让模型符合人类价值
符合用户意图
更加安全可靠

核心要点

要点	说明
RLHF 不是让模型变聪明	而是让它更懂人、更安全、更可控
它是模型"对齐"的关键	从"能说"到"会说"
ChatGPT 等主流模型均采用	行业标准实践

最后更新：2026-03-23

人类反馈强化学习（RLHF） ​

7.1 为什么需要 RLHF？ ​

一个仅经过预训练的模型 ​

一句话总结 ​

7.2 RLHF 三大组件 ​

7.3 RLHF 全流程架构 ​

7.4 SFT（Supervised Fine-Tuning）：直接教模型"怎么回答" ​

目标 ​

示例 ​

通过 SFT，模型第一次学会 ​

7.5 奖励模型（RM, Reward Model）：让模型知道"什么是好" ​

奖励模型的训练流程 ​

奖励模型就像 ​

奖励模型工作流程 ​

7.6 PPO（Proximal Policy Optimization）：让模型不断变好 ​