Skip to content

1. AI 大模型技术全景

1.1 AI 大模型能力矩阵:从调用到编排

AI 大模型能力的演进可以分为多个层次。下表总结了 AI 大模型能力分层及其工程范式:

层次能力焦点工程范式
API 调用层调用云端或本地模型服务(如 OpenAI / vLLM)SDK 集成 / REST 调用
Prompt 层通过提示词工程设计模型行为PromptOps / 模板化上下文
RAG 层让模型具备知识检索与上下文感知向量数据库 / Embedding 管理
Agent 层构建具备决策与执行能力的智能体工具编排 / Skills 技能 / MCP 协议
Infra 层提供底座支撑:调度、监控、安全与交付Kubernetes / AI Gateway / AIOps

1.2 应用与开发层:AI 大模型工程化的入口

在应用层,AI 不再只是"算法",而成为一种"服务接口"(Model-as-a-Service, MaaS)。AI 工程师以标准化方式调用、封装和管理 AI 模型。

关键能力包括:

  • 熟悉模型 API / SDK 调用(如 OpenAI、Gemini、通义千问、vLLM 等)
  • 理解 Token 成本与上下文长度的工程影响
  • 在容器中部署和热更新模型服务
  • 通过 Kubernetes(K8s)或 Istio 管理多模型流量(A/B 实验、负载均衡)
  • 使用 Prompt 模板体系(如 Jinja2、LangChain、PromptOps)统一上下文输入

1.3 数据与存储层:向量化与知识增强

RAG(检索增强生成,Retrieval-Augmented Generation)让大语言模型(LLM)从"会说话"变为"有知识"。在这一层,AI 工程师需关注如下能力:

  • Embedding 生成与存储:使用 API 或本地模型生成向量
  • 向量数据库选型:如 Chroma(轻量)、Milvus(分布式)、PGVector(Postgres 扩展)
  • 索引结构与距离度量:IVF、HNSW、PQ 等影响检索性能
  • 数据同步与持久化:RAG 管道可通过 Airflow / n8n 自动化

这一层与云原生存储(如 CSI、对象存储、数据库 Operator)天然契合。例如,可以通过 K8s Operator 管理向量库生命周期,实现云上多租户隔离。

1.4 系统架构层:大模型服务化与基础设施解耦

大语言模型的运行对系统架构提出了新的要求。从云原生角度看,这意味着:

  • 服务化:模型封装为 gRPC/REST 接口(如 vLLM、TGI、FastAPI)
  • 容器化:镜像化模型与依赖,构建标准部署流水线
  • GPU 编排:使用 Kubernetes + Device Plugin 管理显卡资源
  • 多模型调度:通过 AI Gateway 或自定义调度器路由请求
  • 监控与弹性伸缩:集成 Prometheus / KEDA / AIOps 进行自动扩缩容

在企业环境中,AI 系统逐步融入现有微服务网络。Service Mesh 负责通信治理,AI Gateway 负责模型路由与限流,Infra 层负责安全、认证、审计与观测。

1.5 模型开发与调优:让模型贴近业务

对于大多数工程师而言,完全训练一个模型代价高昂。但微调(Fine-tuning)与 LoRA(Low-Rank Adaptation, 低秩适配)提供了可行路径:

  • 使用领域数据(如客服语料、日志模板、合同文本)进行增量学习
  • 采用低秩适配(LoRA)减少参数更新量
  • 在 Hugging Face、PEFT、SGLang 框架中实现轻量微调
  • 使用 vLLM 或 DeepSpeed 进行推理加速
  • 结合 TensorBoard + MLflow 进行性能追踪与版本管理

微调的目标不是让模型更聪明,而是让它"更懂你"——即贴近你的业务领域和交互风格。

1.6 AI 大模型技术体系协作关系

AI 系统不是单体,而是一套由模型、知识增强、工具协议与基础设施组成的协作网络。各模块的职责如下:

  • LLM:语言理解与生成核心,提供推理、规划、生成、结构化输出等基础智能能力
  • RAG:知识增强层,为模型提供企业知识、长文本、外部文档与动态上下文
  • Agent:执行与决策层,负责任务分解、工具调用、计划与动作执行,可通过单 Agent 或多 Agent 协作完成业务流程
  • MCP(Model Context Protocol):模型上下文协议,统一模型访问外部工具、数据源与资源的方式
  • AI Gateway:模型流量与策略控制,负责请求路由、限流、鉴权、审计、监控,多模型切换与 A/B 调度等

协作关系总结: LLM 负责思考,RAG 负责知识,Agent 负责行动,MCP 负责工具接入,AI Gateway 负责系统治理。

1.7 学习与成长路径(面向工程师)

AI 大模型技术体系的学习与成长可以分为多个阶段:

阶段目标工程重点
模型消费通过 API 调用模型服务掌握 SDK / Token 管理
上下文工程提高提示词与输出稳定性Prompt 模板化 / PromptOps
知识增强集成检索与向量数据库RAG / Embedding / Index
工具协作引入多 Agent 与外部系统执行Agentic Framework / MCP / Skills
系统工程化部署可观测的 AI 系统GPU 编排 / AIOps / Gateway
领域优化微调与持续改进LoRA / Evaluation / Monitoring

总结

AI 大模型技术的核心不在于算法,而在于工程化与系统化整合。这条协作链条体现了 AI 原生架构的核心逻辑。