机器学习基础
从工程师视角理解机器学习与现代 AI 体系
2.1 从工程师视角理解机器学习
传统软件是"人写规则,机器执行"。机器学习则反过来:机器通过数据自己"学习"规则。
机器学习的基本流程
原始数据 → 特征工程/清洗 → 模型训练 → 模型评估 → 上线部署 → 监控反馈这个循环体现了机器学习系统的持续优化和反馈机制。
关键概念对比
| 层次 | 能力焦点 | 工程范式 |
|---|---|---|
| API 调用层 | 调用云端或本地模型服务 | SDK 集成 / REST 调用 |
| Prompt 层 | 通过提示词工程设计模型行为 | PromptOps / 模板化上下文 |
| RAG 层 | 让模型具备知识检索与上下文感知 | 向量数据库 / Embedding 管理 |
| Agent 层 | 构建具备决策与执行能力的智能体 | 工具编排 / Skills 技能 / MCP 协议 |
| Infra 层 | 提供底座支撑:调度、监控、安全与交付 | Kubernetes / AI Gateway / AIOps |
2.2 神经网络:自动特征提取的"多层控制器"
如果把输入数据看作流量,那么神经网络就像多层 Envoy Filter 链,每层 Filter 提取不同粒度的信号,最终输出一个决策或分类结果。
神经网络分层结构
输入层 → 原始数据
↓
隐藏层 1 → 低级特征
↓
隐藏层 2 → 中级特征
↓
隐藏层 3 → 高级语义
↓
输出层 → 预测结果2.3 深度学习:从"手写规则"到"自动编排器"
传统机器学习最大痛点是特征需要人工设计(像手写业务逻辑)。深度学习彻底改变了这一点:
- 过去:机器学习需要你告诉模型"图片边缘是什么"、"语音的频率应该如何处理"、"文本如何切分"
- 现在:深度学习让模型自己从数据中学习这些特征
深度学习的价值
| 特性 | 说明 |
|---|---|
| 自动化 | 特征工程不再需要手工设计 |
| 可扩展 | 可以扩展到更大规模的数据和模型 |
| 可迁移 | 预训练模型可以迁移到不同任务 |
2.4 CNN:为视觉任务打造的"局部特征探测器"
卷积神经网络(CNN, Convolutional Neural Network) 曾是图像领域的绝对霸主。它的机制非常工程化:
- 在图像中滑动一个"小窗口"检测局部模式
- 擅长捕获边缘、检测形状、学习布局
虽然今天大模型(如 GPT-4o、Gemini)已经逐渐替代 CNN 的位置,但理解 CNN 有助于理解视觉 Transformer。
2.5 NLP:从"规则"走向"端到端"
在大模型时代之前,自然语言处理(NLP)是"规则 + 特征 + 模型"的组合拳:
分词 → 词性标注 → 句法分析 → TF-IDF / Word2Vec → 模型每个步骤像一个个微服务,组合起来才能处理文本。
但 Transformer 出现以后,整个管道被统一到了端到端模型里,这也是为什么 Transformer 是革命的。
2.6 深度神经网络(DNN):层级化抽象的本质
深度神经网络(DNN)的关键不是"深",而是:
| 层级 | 功能 | Cloud Native 类比 |
|---|---|---|
| 低层 | 原子特征 | Node 原子资源 |
| 中层 | 模式组合 | Pod/Service 构建块 |
| 高层 | 语义抽象 | 应用/业务逻辑 |
2.7 强化学习
强化学习(RL, Reinforcement Learning) 其实是整个机器学习中最接近"云原生思维"的部分:
就像 HPA(Horizontal Pod Autoscaler)会根据指标不断调整副本数一样,强化学习的循环如下:
Agent 行动 → 环境反馈 → 奖励信号 → 策略更新 → 再次行动强化学习应用
- 自动驾驶
- 自动化运维策略(AIOps RL)
- AlphaGo 等复杂决策系统
- 在大语言模型中:RLHF(Reinforcement Learning from Human Feedback)与 PPO(Proximal Policy Optimization)
2.8 微调:为模型构建"业务镜像"
微调(Fine-tuning) 是工程师极常用的一种能力。
Kubernetes 类比
| 概念 | Kubernetes 类比 | 说明 |
|---|---|---|
| 预训练模型 | 官方基础镜像(如 Ubuntu) | 通用能力 |
| 微调模型 | 基础镜像 + 自己的业务层(如 Nginx + App) | 领域专用 |
微调的目的
微调的目的不是让模型变强,而是让它"变专业"、"变懂业务"。
例如:
- 让模型专门回答合同条款
- 让模型保持你的写作风格
- 让模型学会特定企业术语
- 提升 Agent 执行准确性
微调不是"训练新模型",而是在通用能力的基础上,叠加领域知识。
2.9 AI 知识体系:从 ML → DL → LLM → Agent
为了帮助理解 AI 技术的演化路径,以下是从机器学习到智能体的知识体系:
ML(机器学习)是基础
↓
DL(深度学习)扩展了表达能力
↓
Transformer 统一视觉/语音/多模态
↓
LLM 统一 NLP
↓
Agent 统一任务执行
↓
MCP 统一工具调用总结
本节从工程师视角重新诠释了机器学习:
| 概念 | 工程师理解 |
|---|---|
| 机器学习 | "数据驱动的控制循环" |
| 神经网络 | "自动特征提取的多层 filter 链" |
| 深度学习 | "自动化特征编排器" |
| CNN 和传统 NLP | "大模型时代的前身" |
| 强化学习 | "高级控制循环(类似 HPA)" |
| 微调 | "为模型构建业务镜像" |
ML → DL → Transformer → LLM → Agent 是完整演化链条。
最后更新:2026-03-23
