Skip to content

机器学习基础

从工程师视角理解机器学习与现代 AI 体系


2.1 从工程师视角理解机器学习

传统软件是"人写规则,机器执行"。机器学习则反过来:机器通过数据自己"学习"规则

机器学习的基本流程

原始数据 → 特征工程/清洗 → 模型训练 → 模型评估 → 上线部署 → 监控反馈

这个循环体现了机器学习系统的持续优化和反馈机制。

关键概念对比

层次能力焦点工程范式
API 调用层调用云端或本地模型服务SDK 集成 / REST 调用
Prompt 层通过提示词工程设计模型行为PromptOps / 模板化上下文
RAG 层让模型具备知识检索与上下文感知向量数据库 / Embedding 管理
Agent 层构建具备决策与执行能力的智能体工具编排 / Skills 技能 / MCP 协议
Infra 层提供底座支撑:调度、监控、安全与交付Kubernetes / AI Gateway / AIOps

2.2 神经网络:自动特征提取的"多层控制器"

如果把输入数据看作流量,那么神经网络就像多层 Envoy Filter 链,每层 Filter 提取不同粒度的信号,最终输出一个决策或分类结果。

神经网络分层结构

输入层 → 原始数据

隐藏层 1 → 低级特征

隐藏层 2 → 中级特征

隐藏层 3 → 高级语义

输出层 → 预测结果

2.3 深度学习:从"手写规则"到"自动编排器"

传统机器学习最大痛点是特征需要人工设计(像手写业务逻辑)。深度学习彻底改变了这一点

  • 过去:机器学习需要你告诉模型"图片边缘是什么"、"语音的频率应该如何处理"、"文本如何切分"
  • 现在:深度学习让模型自己从数据中学习这些特征

深度学习的价值

特性说明
自动化特征工程不再需要手工设计
可扩展可以扩展到更大规模的数据和模型
可迁移预训练模型可以迁移到不同任务

2.4 CNN:为视觉任务打造的"局部特征探测器"

卷积神经网络(CNN, Convolutional Neural Network) 曾是图像领域的绝对霸主。它的机制非常工程化:

  • 在图像中滑动一个"小窗口"检测局部模式
  • 擅长捕获边缘、检测形状、学习布局

虽然今天大模型(如 GPT-4o、Gemini)已经逐渐替代 CNN 的位置,但理解 CNN 有助于理解视觉 Transformer。


2.5 NLP:从"规则"走向"端到端"

在大模型时代之前,自然语言处理(NLP)是"规则 + 特征 + 模型"的组合拳:

分词 → 词性标注 → 句法分析 → TF-IDF / Word2Vec → 模型

每个步骤像一个个微服务,组合起来才能处理文本。

Transformer 出现以后,整个管道被统一到了端到端模型里,这也是为什么 Transformer 是革命的。


2.6 深度神经网络(DNN):层级化抽象的本质

深度神经网络(DNN)的关键不是"深",而是:

层级功能Cloud Native 类比
低层原子特征Node 原子资源
中层模式组合Pod/Service 构建块
高层语义抽象应用/业务逻辑

2.7 强化学习

强化学习(RL, Reinforcement Learning) 其实是整个机器学习中最接近"云原生思维"的部分:

就像 HPA(Horizontal Pod Autoscaler)会根据指标不断调整副本数一样,强化学习的循环如下:

Agent 行动 → 环境反馈 → 奖励信号 → 策略更新 → 再次行动

强化学习应用

  • 自动驾驶
  • 自动化运维策略(AIOps RL)
  • AlphaGo 等复杂决策系统
  • 在大语言模型中:RLHF(Reinforcement Learning from Human Feedback)与 PPO(Proximal Policy Optimization)

2.8 微调:为模型构建"业务镜像"

微调(Fine-tuning) 是工程师极常用的一种能力。

Kubernetes 类比

概念Kubernetes 类比说明
预训练模型官方基础镜像(如 Ubuntu)通用能力
微调模型基础镜像 + 自己的业务层(如 Nginx + App)领域专用

微调的目的

微调的目的不是让模型变强,而是让它"变专业"、"变懂业务"。

例如:

  • 让模型专门回答合同条款
  • 让模型保持你的写作风格
  • 让模型学会特定企业术语
  • 提升 Agent 执行准确性

微调不是"训练新模型",而是在通用能力的基础上,叠加领域知识。


2.9 AI 知识体系:从 ML → DL → LLM → Agent

为了帮助理解 AI 技术的演化路径,以下是从机器学习到智能体的知识体系:

ML(机器学习)是基础

DL(深度学习)扩展了表达能力

Transformer 统一视觉/语音/多模态

LLM 统一 NLP

Agent 统一任务执行

MCP 统一工具调用

总结

本节从工程师视角重新诠释了机器学习:

概念工程师理解
机器学习"数据驱动的控制循环"
神经网络"自动特征提取的多层 filter 链"
深度学习"自动化特征编排器"
CNN 和传统 NLP"大模型时代的前身"
强化学习"高级控制循环(类似 HPA)"
微调"为模型构建业务镜像"

ML → DL → Transformer → LLM → Agent 是完整演化链条。


最后更新:2026-03-23