大模型工作原理

理解大语言模型从训练到推理的完整流程

3.1 模型训练与推理：学习和应用

在理解大语言模型（Large Language Model）的整体流程时，训练、微调和推理三者之间的关系尤为重要。

三阶段流程

训练阶段（海量数据学习）
    ↓
微调阶段（特定领域优化）
    ↓
推理阶段（实际应用测试）

训练阶段

开发者会提供海量样本数据让模型反复学习。常见方式包括：

有监督学习（Supervised Learning）
自监督学习（Self-supervised Learning）
强化学习（Reinforcement Learning）

目标是最小化预测错误（损失函数），使模型参数收敛到良好泛化状态。

推理阶段

模型训练完成后被部署，对新数据进行预测或生成。此时模型会将训练中学习到的内部表示和规则应用于新输入，输出结果。

推理的质量高度依赖于训练效果，训练不足的模型在推理时表现会较差。

微调（Fine-tuning）

微调是训练过程的延伸。它是在预训练模型（Pre-trained Model）基础上，用特定领域数据继续训练，使模型更适用于特定任务。

微调通常数据量和计算需求较低
但能显著提升模型在特定应用上的效果
常见微调方法如低秩适配（LoRA, Low-Rank Adaptation），会冻结部分层，仅训练部分参数

3.2 RLHF：让模型贴近人类期望的强化学习

在大模型基本训练完成后，为了使模型回答更符合人类偏好，通常会采用人类反馈强化学习（RLHF, Reinforcement Learning from Human Feedback）。

RLHF 通过引入人类反馈信号，以强化学习方式进一步微调模型，使其行为更贴近人类期望。

RLHF 的三个主要阶段

1. 预训练模型
   ↓
2. 训练奖励模型
   ↓
3. 强化学习微调

阶段 1：预训练模型

首先需要一个在大规模语料上预训练好的基础语言模型，具备较强的文本生成能力。

阶段 2：训练奖励模型

收集模型生成的回答
由人类对这些回答进行评分或排序，得到带人类偏好的数据
用这些数据训练奖励模型（Reward Model, RM），使其能评价输出的好坏，输出奖励值

阶段 3：强化学习微调

使用奖励模型作为评分器
通过强化学习算法（如 PPO, Proximal Policy Optimization）微调原始语言模型
模型输出由奖励模型打分，分数作为反馈信号调整参数，使模型倾向于产生更符合人类偏好的输出

经过 RLHF 微调后，模型回答更符合人类意图，避免不当内容，提升对齐度。

ChatGPT 等主流模型均采用 RLHF 技术。

3.3 RAG：检索增强生成，让模型"现查现用"

即使经过大规模训练和微调，语言模型（Language Model）仍存在知识过时和编造事实的问题。

检索增强生成（RAG, Retrieval-Augmented Generation） 通过在生成回答前，先从外部知识库检索相关信息，优化输出的准确性和实时性。

RAG 的工作流程

用户提问
    ↓
检索相关知识（向量数据库等）
    ↓
将检索结果融入提示
    ↓
LLM 生成回答
    ↓
输出最终答案

RAG 关键步骤

步骤	说明
外部知识库准备	需有模型训练数据之外的外部数据作为知识库，通常预先转换为向量表示并存储在向量数据库中
相关信息检索	用户提问时，系统在向量数据库中进行相关搜索，找到语义相近的资料片段
增强提示构建	将检索到的信息与原问合并，形成增强后的提示（Prompt），一并输入模型
模型生成回答	模型结合自身知识和检索信息生成答案，输出更准确、有依据的结果，并可引用来源

RAG 能在不改变模型参数的情况下，显著提升回答的实时性和准确性，尤其适用于实时信息或专业领域知识场景。

3.4 注意力机制：让模型知道"该关注什么"

在理解 Transformer 之前，需要先掌握它的核心思想——注意力机制（Attention）。

注意力机制决定了模型如何从大量信息中挑出"当前最重要"的部分，是现代大语言模型（LLM）的根基。

什么是注意力机制？

人类阅读一句话时，并不会平等地关注所有词。例如在问：

"请解释一下 Kubernetes Ingress 的作用。"

你的注意力会自然集中在：

Kubernetes
Ingress
作用（用途）

而忽略"请"、"一下"、"的"等词。

注意力机制让模型也能做到这一点：当前 token 在处理时，可以自动选择重点关哪些历史 token。

注意力是怎么计算的？

注意力机制依赖三个向量：

向量	作用（直观理解）
Query (Q)	"我现在想找什么？"
Key (K)	"我提供了哪些信息？"
Value (V)	"我的具体内容是什么？"

模型在生成每个 token 时，会：

取当前 token 的 Q
用 Q 与所有历史的 K 做相似度计算（该关注谁）
根据权重对所有 V 加权求和（关注的内容）

这形成了一个注意力分布：

Query（当前 token 想要的信息）
    ↓
Q × 所有 K
    ↓
softmax 得到注意力权重
    ↓
加权汇总所有 V
    ↓
得到当前 token 的语义表示

一个具体的例子

句子："我喜欢吃北京烤鸭。"

模型在预测"烤"后面可能出现的词时，会重点关注：

"吃"
"北京"
"喜欢"

一个可能的注意力分布如下（简化示例）：

历史词	注意力权重（示例）
我	5%
喜欢	20%
吃	45%
北京	25%
烤鸭	5%

3.5 Transformer 模型结构解析：Embedding、Encoder、Decoder

理解模型从输入到输出的思考过程，需要掌握其内部架构。当前主流架构为 Transformer，核心包括嵌入层（Embedding）、编码器（Encoder）、解码器（Decoder）等模块。

Transformer 整体结构

输入文本
    ↓
分词 & 嵌入 (Tokenizer + Embedding)
    ↓
编码器 Encoder 网络
    ↓
解码器 Decoder 网络
    ↓
输出文本

各模块功能

模块	功能
嵌入（Embedding）层	输入文本先分词为 tokens，经嵌入层映射为向量（词向量），并加入位置编码，得到词嵌入序列作为模型输入
编码器（Encoder）	接收嵌入序列，经过多层堆叠，利用多头自注意力机制（Multi-head Self-Attention）和前馈网络，提取词间联系和上下文依赖，输出高维隐状态向量，代表输入序列的深层语义特征
解码器（Decoder）	根据编码器输出的语义表示，逐词生成目标输出序列。每层包括掩码自注意力、交叉注意力和前馈网络。掩码自注意力关注已生成内容，交叉注意力参考编码器输出，帮助决定下一个输出词
生成输出（Output Generation）	解码器最后一层输出隐状态，经线性变换和 Softmax 得到词表概率分布，选取概率最高的词作为下一个输出 token，循环生成直至结束

3.6 推理加速机制：TensorRT、vLLM 与 PagedAttention

大模型在实际应用中常面临推理速度和资源消耗瓶颈。为提升推理效率，业界开发了多种加速技术。

TensorRT 推理优化

TensorRT 是 NVIDIA 推出的深度学习推理优化库，通过：

算子融合
低精度计算（FP16/INT8）
高效内存管理
批处理调度

等手段，加速模型在 GPU 上的推理。

TensorRT 相当于推理编译器，部署前对模型做优化转换，提升硬件执行效率。最新 TensorRT-LLM 库还集成了 FlashAttention、PagedAttention 等专为大模型设计的优化。

vLLM 与 PagedAttention

vLLM 是高性能大模型推理服务器，核心创新为 PagedAttention。

PagedAttention 重新设计了 Transformer 解码时的注意力键值缓存（KV cache）管理：

将缓存打散为固定大小内存页
动态分配和回收
类似操作系统虚拟内存分页机制

这样显存利用率大幅提升，支持更多并发序列，吞吐量显著提高。PagedAttention 还支持内存共享，复杂采样算法（如 beam search）开销更低。

总结

本节系统梳理了大模型从训练、微调到推理的全过程，解析了 Transformer 架构、RLHF、RAG 及推理加速等关键技术。

开发者理解这些环节，有助于将模型原理与实际应用相结合，提升调优和部署能力。

大模型虽复杂，但本质是数据表示与数值计算的流转。掌握整体流程，有助于更好地驾驭和应用 AI 技术，服务于实际场景。

最后更新：2026-03-23

大模型工作原理 ​

3.1 模型训练与推理：学习和应用 ​

三阶段流程 ​

训练阶段 ​

推理阶段 ​

微调（Fine-tuning） ​

3.2 RLHF：让模型贴近人类期望的强化学习 ​

RLHF 的三个主要阶段 ​

阶段 1：预训练模型 ​

阶段 2：训练奖励模型 ​

阶段 3：强化学习微调 ​

3.3 RAG：检索增强生成，让模型"现查现用" ​

RAG 的工作流程 ​

RAG 关键步骤 ​

3.4 注意力机制：让模型知道"该关注什么" ​

什么是注意力机制？ ​

注意力是怎么计算的？ ​

一个具体的例子 ​

3.5 Transformer 模型结构解析：Embedding、Encoder、Decoder ​

Transformer 整体结构 ​

各模块功能 ​

3.6 推理加速机制：TensorRT、vLLM 与 PagedAttention ​

TensorRT 推理优化 ​

vLLM 与 PagedAttention ​

总结 ​