路线图

AI 工程化实践成长路径

星辉 2026-06-18 阅读 3 min 626 字 路线图
AI 工程化实践成长路径 封面

路径三:AI 工程化实践#

目标受众:运维/后端工程师,希望将 AI 能力引入工程实践,或转型 AI 工程化方向。

核心目标:从零掌握大模型应用开发,能独立设计 RAG 系统、AI Agent,并将 AI 融入运维工作流(AIOps)。


阶段一:大模型基础与 API 开发(1–2 个月)#

建立认知底座,快速上手 API 开发。顺序:概念 → Prompt Engineering → API 开发,不要反过来。


大模型核心概念#

是什么:Transformer 架构、Token、上下文窗口、Temperature 等大模型运作的基础原理。

为什么学:不理解底层概念,你无法解释模型为什么"幻觉",也无法设计出稳定可靠的 AI 应用。

掌握标准

  • 能解释 Token 的概念,估算一段文本的 Token 数量,理解 Token 与成本的关系
  • 能解释 Temperature 和 Top-P 对输出多样性的影响,知道什么场景用低/高 Temperature
  • 能描述上下文窗口的工作原理,解释为什么"超长上下文不等于无限记忆"
  • 能区分 Prompt Tokens 和 Completion Tokens,计算 API 调用成本
  • 能解释为什么大模型会"幻觉",以及 RAG 如何缓解这个问题

📖 深入阅读


Prompt Engineering#

是什么:设计高质量提示词的系统方法,包括角色设定、Few-shot 示例、Chain-of-Thought、结构化输出。

为什么学:同样的模型,不同的 Prompt 质量差距巨大。Prompt Engineering 是 AI 应用质量的杠杆点。

掌握标准

  • 能用 System Prompt 明确定义 AI 的角色、能力边界、输出格式
  • 能用 Few-shot 示例提升特定任务的准确率(代码生成、信息提取、分类任务)
  • 能用 Chain-of-Thought(思维链)提升复杂推理任务的准确性
  • 能用 JSON Schema 约束 AI 输出结构,实现可程序化处理的结构化响应
  • 能识别和防御 Prompt Injection 攻击

📖 深入阅读Prompt Engineering 完全指南:从入门到高级技巧


API 开发实战#

是什么:直接调用 Claude / OpenAI / Gemini 等模型 API 开发 AI 功能,包括流式输出、工具调用、上下文管理。

为什么学:LangChain 等框架封装太厚,生产问题难以调试。理解裸 API 调用是一切的基础。

掌握标准

  • 能实现流式输出(Server-Sent Events),正确处理流中断和重连
  • 能实现 Tool Use(函数调用):定义工具 Schema,处理多轮工具调用循环
  • 能实现多轮对话的上下文管理:sliding window、摘要压缩等策略
  • 能实现请求重试(指数退避)、速率限制处理、超时控制
  • 能估算并控制每次对话的 Token 消耗,设计合理的截断策略

📖 深入阅读


Python 异步编程#

是什么:asyncio 异步编程模型,在 AI 应用中处理高并发 API 调用的核心技术。

为什么学:AI 应用的瓶颈往往是 API 调用的 I/O 等待。异步并发可以将吞吐量提升 5–10 倍。

掌握标准

  • 能用 asyncio.gather 并发调用多个 AI API,正确处理异常和超时
  • 能用 asyncio.Semaphore 实现并发限速,避免触发 Rate Limit
  • 能将同步的 CPU 密集任务(如向量计算)放入 ThreadPoolExecutor 避免阻塞事件循环
  • 能调试异步代码中的死锁和资源泄漏问题

📖 深入阅读Python 异步编程:asyncio 在 AI 应用中的实战


阶段一完成检验#

场景题:用 Python 实现一个多轮对话助手,要求:(1) 使用流式输出;(2) 上下文超过 8000 tokens 时自动做摘要压缩;(3) 支持用户调用"查看文件内容"和"执行 shell 命令"两个工具;(4) API 调用失败时自动重试最多 3 次(指数退避)。描述你的实现思路和核心代码结构。


阶段二:RAG 系统与 AI 应用开发(2–4 个月)#

RAG 和 Agent 是核心,建议先把 RAG 做通,再做 Agent,两者都依赖向量数据库基础。


RAG 系统设计#

是什么:检索增强生成——将用户问题转化为向量检索,从知识库中找到相关文档,再交给 LLM 生成答案。

为什么学:RAG 是当前企业 AI 应用落地最成熟的范式,解决了大模型无法访问私有数据和最新信息的核心问题。

掌握标准

  • 能设计合理的文档分块策略(固定大小/语义分块/Markdown 层级分块)
  • 能选择和评估 Embedding 模型(text-embedding-3-large vs BGE 系列等)
  • 能实现混合检索(向量检索 + BM25 关键词检索 + Reranker 重排序)
  • 能识别 RAG 失败的常见原因(检索失败 vs 生成失败)并针对性优化
  • 能用 RAGAS 框架量化 RAG 效果(Faithfulness、Answer Relevancy、Context Recall)

📖 深入阅读


向量数据库#

是什么:专门存储和检索高维向量的数据库,是 RAG 系统的核心存储层。

为什么学:向量检索的质量直接决定 RAG 效果。理解索引类型和检索参数是调优的基础。

掌握标准

  • 能解释 HNSW 和 IVF 索引的原理和适用场景(精度 vs 速度取舍)
  • 能设计合理的 Collection Schema(向量字段 + 元数据字段 + 分区键)
  • 能用 Milvus 实现 Hybrid Search(向量 + 标量过滤组合查询)
  • 能评估和调优检索参数(ef、nprobe)平衡召回率和延迟
  • 能设计向量数据库的备份和数据更新策略(增量更新 vs 全量重建)

📖 深入阅读Milvus 向量数据库实战:从部署到生产


LangChain 与 LangGraph#

是什么:LangChain 是 AI 应用编排框架,LangGraph 在此基础上提供有状态的工作流编排能力。

为什么学:复杂 AI 应用(多步骤推理、多工具调用、条件分支)需要编排框架,避免手工管理状态的复杂性。

掌握标准

  • 能用 LangChain LCEL 构建 RAG 管道,理解 Runnable 接口的设计思想
  • 能用 LangGraph 设计有状态的多步骤工作流,处理循环和条件分支
  • 能实现 Human-in-the-loop 节点,在关键决策处等待人工确认
  • 能用 LangSmith 追踪 LangChain 应用的运行轨迹,调试复杂链路
  • 能识别过度使用框架的反模式,知道何时应该直接调用裸 API

📖 深入阅读


低代码 AI 平台实践#

是什么:Dify、FastGPT 等低代码工具,提供可视化界面快速搭建知识库问答和工作流应用。

为什么学:不是所有 AI 需求都值得写代码。低代码平台适合快速验证和非技术用户场景。

掌握标准

  • 能用 Dify 完整搭建一个 RAG 知识库应用并接入业务系统(API 方式)
  • 能设计 Dify 工作流处理多步骤任务(文档理解 → 提取信息 → 格式化输出)
  • 能判断场景应选低代码平台还是自行开发(复杂度、定制性、维护成本权衡)
  • 能配置私有化部署的 Dify,对接私有的 LLM 和 Embedding 模型

📖 深入阅读


阶段二完成检验#

场景题:公司有 500 份运维 Runbook(PDF/Markdown),希望构建一个"运维知识库问答系统":工程师用自然语言提问,系统找到相关 Runbook 片段并给出可执行的操作步骤,错误答案不允许出现。请设计完整的 RAG 系统架构,并说明如何验证答案的准确性。


阶段三:AI Agent 与工程化落地(4–6 个月)#

把 AI 能力与工程实践深度融合,不只是会用 API,而是能构建可维护、可观测的生产 AI 系统。


AI Agent 设计#

是什么:具备自主推理和工具调用能力的 AI 系统,能够分解目标、选择工具、执行多步任务。

为什么学:Agent 是 AI 应用的高级形态,能处理复杂的、需要多步推理的任务。

掌握标准

  • 能实现 ReAct(Reasoning + Acting)循环:思考 → 选择工具 → 执行 → 观察 → 再思考
  • 能设计多 Agent 协作架构:Orchestrator Agent 分发任务给专业 Sub-Agent
  • 能实现 Agent 的记忆管理:对话历史(短期)、用户偏好(长期)、工具结果(工作记忆)
  • 能在 Agent 中实现"不确定时主动确认"的安全机制,避免自动执行危险操作
  • 能评估 Agent 的执行质量,识别循环失败、工具滥用、任务偏离等问题

📖 深入阅读AI Agent 架构设计:从单智能体到多智能体系统


LLM 可观测性#

是什么:对 AI 应用的 Token 消耗、延迟、质量、成本进行全面监控和追踪(以 Langfuse 为主要工具)。

为什么学:AI 应用上线后是个黑盒,没有可观测性你不知道为什么用户不满意,也无法控制成本。

掌握标准

  • 能用 Langfuse 给 LLM 调用全面插桩,追踪完整的调用链(从 Prompt 到 Response)
  • 能监控关键指标:Token 成本/天、P99 延迟、错误率、用户反馈分布
  • 能用 Langfuse Evaluations 对 AI 输出做自动化质量评估
  • 能基于可观测性数据识别 Prompt 优化机会(哪些输入导致低质量输出)
  • 能设计 AI 应用的告警体系(成本异常、延迟劣化、质量下降)

📖 深入阅读Langfuse LLM 可观测性:生产级 AI 应用监控实战


MCP 协议与 AI 工具链#

是什么:Model Context Protocol(MCP)是 AI 工具调用的开放标准,让 AI 可以连接任意外部系统。

为什么学:MCP 正成为 AI 工具扩展的事实标准(Claude/Cursor/Cline 都已支持)。掌握 MCP 能让你快速构建 AI 与运维系统的集成。

掌握标准

  • 能解释 MCP 的 Server/Client 架构,理解 Tool/Resource/Prompt 三种能力类型
  • 能用 Python/TypeScript 实现一个 MCP Server,暴露运维工具(kubectl/查日志/查监控)
  • 能在 Claude Desktop 或 Cursor 中配置和调试自定义 MCP Server
  • 能评估 MCP vs 传统 Function Calling 的适用场景

📖 深入阅读MCP 协议实践:DevOps 工具链 AI 化改造


AI 编程工具工程化#

是什么:Cursor、Claude Code 等 AI 辅助编程工具在工程团队中的规模化应用实践。

为什么学:AI 编程工具能将开发效率提升 2–3 倍,但需要正确的工作流设计才能发挥最大效果。

掌握标准

  • 能用 Cursor Rules 为项目定制 AI 编程规范,确保生成代码符合团队约定
  • 能用 Claude Code 完成复杂的多文件重构、代码解释、测试生成任务
  • 能评估 AI 生成代码的质量,识别常见的安全问题和逻辑错误
  • 能设计团队 AI 工具使用规范,在效率提升和代码质量之间取得平衡

📖 深入阅读


微调与本地部署#

是什么:用私有数据对开源模型进行微调(LoRA/QLoRA),以及在 K8s 上运行本地大模型(Ollama)。

为什么学:通用模型在特定领域表现有限,微调可以显著提升垂直场景准确率。本地部署解决数据安全和成本问题。

掌握标准

  • 能构建高质量微调数据集(200–2000 条),理解数据质量对微调效果的决定性影响
  • 能用 QLoRA 在单张 A100 上微调 7B/13B 模型,控制显存使用
  • 能用 Ollama 在 K8s 上部署 Llama/Qwen 模型,配置 GPU 调度
  • 能用 MMLU/自定义测试集评估微调后的模型,判断是否有效果提升

📖 深入阅读


阶段三完成检验#

场景题:设计一个 AIOps 系统:当 Prometheus 触发告警时,系统自动调用 AI Agent 完成以下步骤:(1) 查询相关日志和指标;(2) 基于历史 Runbook 生成排查步骤;(3) 置信度 > 90% 时自动执行修复脚本,否则推送给 on-call 工程师并附上分析报告。请设计系统架构,并说明如何保证 AI 操作的安全边界。

预计总时间:5–9 个月