AI 工程化实践成长路径

路径三：AI 工程化实践#

目标受众：运维/后端工程师，希望将 AI 能力引入工程实践，或转型 AI 工程化方向。

核心目标：从零掌握大模型应用开发，能独立设计 RAG 系统、AI Agent，并将 AI 融入运维工作流（AIOps）。

阶段一：大模型基础与 API 开发（1–2 个月）#

建立认知底座，快速上手 API 开发。顺序：概念 → Prompt Engineering → API 开发，不要反过来。

大模型核心概念#

是什么：Transformer 架构、Token、上下文窗口、Temperature 等大模型运作的基础原理。
为什么学：不理解底层概念，你无法解释模型为什么"幻觉"，也无法设计出稳定可靠的 AI 应用。
掌握标准：
能解释 Token 的概念，估算一段文本的 Token 数量，理解 Token 与成本的关系
能解释 Temperature 和 Top-P 对输出多样性的影响，知道什么场景用低/高 Temperature
能描述上下文窗口的工作原理，解释为什么"超长上下文不等于无限记忆"
能区分 Prompt Tokens 和 Completion Tokens，计算 API 调用成本
能解释为什么大模型会"幻觉"，以及 RAG 如何缓解这个问题
📖 深入阅读：
LLM 核心概念：大语言模型原理与工程师必知基础
大模型全景 2026：主流模型横评与工程选型指南

Prompt Engineering#

是什么：设计高质量提示词的系统方法，包括角色设定、Few-shot 示例、Chain-of-Thought、结构化输出。
为什么学：同样的模型，不同的 Prompt 质量差距巨大。Prompt Engineering 是 AI 应用质量的杠杆点。
掌握标准：
能用 System Prompt 明确定义 AI 的角色、能力边界、输出格式
能用 Few-shot 示例提升特定任务的准确率（代码生成、信息提取、分类任务）
能用 Chain-of-Thought（思维链）提升复杂推理任务的准确性
能用 JSON Schema 约束 AI 输出结构，实现可程序化处理的结构化响应
能识别和防御 Prompt Injection 攻击
📖 深入阅读：Prompt Engineering 完全指南：从入门到高级技巧

API 开发实战#

是什么：直接调用 Claude / OpenAI / Gemini 等模型 API 开发 AI 功能，包括流式输出、工具调用、上下文管理。
为什么学：LangChain 等框架封装太厚，生产问题难以调试。理解裸 API 调用是一切的基础。
掌握标准：
能实现流式输出（Server-Sent Events），正确处理流中断和重连
能实现 Tool Use（函数调用）：定义工具 Schema，处理多轮工具调用循环
能实现多轮对话的上下文管理：sliding window、摘要压缩等策略
能实现请求重试（指数退避）、速率限制处理、超时控制
能估算并控制每次对话的 Token 消耗，设计合理的截断策略
📖 深入阅读：
Claude API 开发实战：从入门到生产级应用
OpenAI API 工程实践：生产级应用开发指南

Python 异步编程#

是什么：asyncio 异步编程模型，在 AI 应用中处理高并发 API 调用的核心技术。
为什么学：AI 应用的瓶颈往往是 API 调用的 I/O 等待。异步并发可以将吞吐量提升 5–10 倍。
掌握标准：
能用 asyncio.gather 并发调用多个 AI API，正确处理异常和超时
能用 asyncio.Semaphore 实现并发限速，避免触发 Rate Limit
能将同步的 CPU 密集任务（如向量计算）放入 ThreadPoolExecutor 避免阻塞事件循环
能调试异步代码中的死锁和资源泄漏问题
📖 深入阅读：Python 异步编程：asyncio 在 AI 应用中的实战

阶段一完成检验#

场景题：用 Python 实现一个多轮对话助手，要求：(1) 使用流式输出；(2) 上下文超过 8000 tokens 时自动做摘要压缩；(3) 支持用户调用"查看文件内容"和"执行 shell 命令"两个工具；(4) API 调用失败时自动重试最多 3 次（指数退避）。描述你的实现思路和核心代码结构。

阶段二：RAG 系统与 AI 应用开发（2–4 个月）#

RAG 和 Agent 是核心，建议先把 RAG 做通，再做 Agent，两者都依赖向量数据库基础。

RAG 系统设计#

是什么：检索增强生成——将用户问题转化为向量检索，从知识库中找到相关文档，再交给 LLM 生成答案。
为什么学：RAG 是当前企业 AI 应用落地最成熟的范式，解决了大模型无法访问私有数据和最新信息的核心问题。
掌握标准：
能设计合理的文档分块策略（固定大小/语义分块/Markdown 层级分块）
能选择和评估 Embedding 模型（text-embedding-3-large vs BGE 系列等）
能实现混合检索（向量检索 + BM25 关键词检索 + Reranker 重排序）
能识别 RAG 失败的常见原因（检索失败 vs 生成失败）并针对性优化
能用 RAGAS 框架量化 RAG 效果（Faithfulness、Answer Relevancy、Context Recall）
📖 深入阅读：
RAG 系统设计实战：从文档到智能问答
RAG 评估实战：用 RAGAS 量化检索增强效果

向量数据库#

是什么：专门存储和检索高维向量的数据库，是 RAG 系统的核心存储层。
为什么学：向量检索的质量直接决定 RAG 效果。理解索引类型和检索参数是调优的基础。
掌握标准：
能解释 HNSW 和 IVF 索引的原理和适用场景（精度 vs 速度取舍）
能设计合理的 Collection Schema（向量字段 + 元数据字段 + 分区键）
能用 Milvus 实现 Hybrid Search（向量 + 标量过滤组合查询）
能评估和调优检索参数（ef、nprobe）平衡召回率和延迟
能设计向量数据库的备份和数据更新策略（增量更新 vs 全量重建）
📖 深入阅读：Milvus 向量数据库实战：从部署到生产

LangChain 与 LangGraph#

是什么：LangChain 是 AI 应用编排框架，LangGraph 在此基础上提供有状态的工作流编排能力。
为什么学：复杂 AI 应用（多步骤推理、多工具调用、条件分支）需要编排框架，避免手工管理状态的复杂性。
掌握标准：
能用 LangChain LCEL 构建 RAG 管道，理解 Runnable 接口的设计思想
能用 LangGraph 设计有状态的多步骤工作流，处理循环和条件分支
能实现 Human-in-the-loop 节点，在关键决策处等待人工确认
能用 LangSmith 追踪 LangChain 应用的运行轨迹，调试复杂链路
能识别过度使用框架的反模式，知道何时应该直接调用裸 API
📖 深入阅读：
LangChain 实战：构建生产级 AI 应用
LangGraph 工作流编排：复杂 AI 应用状态管理

低代码 AI 平台实践#

是什么：Dify、FastGPT 等低代码工具，提供可视化界面快速搭建知识库问答和工作流应用。
为什么学：不是所有 AI 需求都值得写代码。低代码平台适合快速验证和非技术用户场景。
掌握标准：
能用 Dify 完整搭建一个 RAG 知识库应用并接入业务系统（API 方式）
能设计 Dify 工作流处理多步骤任务（文档理解 → 提取信息 → 格式化输出）
能判断场景应选低代码平台还是自行开发（复杂度、定制性、维护成本权衡）
能配置私有化部署的 Dify，对接私有的 LLM 和 Embedding 模型
📖 深入阅读：
Dify 自托管 RAG 实践：低代码构建知识库应用
FastGPT 知识库实践：企业级问答系统搭建

阶段二完成检验#

场景题：公司有 500 份运维 Runbook（PDF/Markdown），希望构建一个"运维知识库问答系统"：工程师用自然语言提问，系统找到相关 Runbook 片段并给出可执行的操作步骤，错误答案不允许出现。请设计完整的 RAG 系统架构，并说明如何验证答案的准确性。

阶段三：AI Agent 与工程化落地（4–6 个月）#

把 AI 能力与工程实践深度融合，不只是会用 API，而是能构建可维护、可观测的生产 AI 系统。

AI Agent 设计#

是什么：具备自主推理和工具调用能力的 AI 系统，能够分解目标、选择工具、执行多步任务。
为什么学：Agent 是 AI 应用的高级形态，能处理复杂的、需要多步推理的任务。
掌握标准：
能实现 ReAct（Reasoning + Acting）循环：思考 → 选择工具 → 执行 → 观察 → 再思考
能设计多 Agent 协作架构：Orchestrator Agent 分发任务给专业 Sub-Agent
能实现 Agent 的记忆管理：对话历史（短期）、用户偏好（长期）、工具结果（工作记忆）
能在 Agent 中实现"不确定时主动确认"的安全机制，避免自动执行危险操作
能评估 Agent 的执行质量，识别循环失败、工具滥用、任务偏离等问题
📖 深入阅读：AI Agent 架构设计：从单智能体到多智能体系统

LLM 可观测性#

是什么：对 AI 应用的 Token 消耗、延迟、质量、成本进行全面监控和追踪（以 Langfuse 为主要工具）。
为什么学：AI 应用上线后是个黑盒，没有可观测性你不知道为什么用户不满意，也无法控制成本。
掌握标准：
能用 Langfuse 给 LLM 调用全面插桩，追踪完整的调用链（从 Prompt 到 Response）
能监控关键指标：Token 成本/天、P99 延迟、错误率、用户反馈分布
能用 Langfuse Evaluations 对 AI 输出做自动化质量评估
能基于可观测性数据识别 Prompt 优化机会（哪些输入导致低质量输出）
能设计 AI 应用的告警体系（成本异常、延迟劣化、质量下降）
📖 深入阅读：Langfuse LLM 可观测性：生产级 AI 应用监控实战

MCP 协议与 AI 工具链#

是什么：Model Context Protocol（MCP）是 AI 工具调用的开放标准，让 AI 可以连接任意外部系统。
为什么学：MCP 正成为 AI 工具扩展的事实标准（Claude/Cursor/Cline 都已支持）。掌握 MCP 能让你快速构建 AI 与运维系统的集成。
掌握标准：
能解释 MCP 的 Server/Client 架构，理解 Tool/Resource/Prompt 三种能力类型
能用 Python/TypeScript 实现一个 MCP Server，暴露运维工具（kubectl/查日志/查监控）
能在 Claude Desktop 或 Cursor 中配置和调试自定义 MCP Server
能评估 MCP vs 传统 Function Calling 的适用场景
📖 深入阅读：MCP 协议实践：DevOps 工具链 AI 化改造

AI 编程工具工程化#

是什么：Cursor、Claude Code 等 AI 辅助编程工具在工程团队中的规模化应用实践。
为什么学：AI 编程工具能将开发效率提升 2–3 倍，但需要正确的工作流设计才能发挥最大效果。
掌握标准：
能用 Cursor Rules 为项目定制 AI 编程规范，确保生成代码符合团队约定
能用 Claude Code 完成复杂的多文件重构、代码解释、测试生成任务
能评估 AI 生成代码的质量，识别常见的安全问题和逻辑错误
能设计团队 AI 工具使用规范，在效率提升和代码质量之间取得平衡
📖 深入阅读：
Cursor AI 编辑器指南：AI 辅助编程工作流
Claude Code CLI 指南：终端里的 AI 编程助手
GitHub Copilot 工程实践：从代码补全到 PR 审查

微调与本地部署#

是什么：用私有数据对开源模型进行微调（LoRA/QLoRA），以及在 K8s 上运行本地大模型（Ollama）。
为什么学：通用模型在特定领域表现有限，微调可以显著提升垂直场景准确率。本地部署解决数据安全和成本问题。
掌握标准：
能构建高质量微调数据集（200–2000 条），理解数据质量对微调效果的决定性影响
能用 QLoRA 在单张 A100 上微调 7B/13B 模型，控制显存使用
能用 Ollama 在 K8s 上部署 Llama/Qwen 模型，配置 GPU 调度
能用 MMLU/自定义测试集评估微调后的模型，判断是否有效果提升
📖 深入阅读：
LLM 微调实战：LoRA/QLoRA 从数据准备到部署
Ollama + Kubernetes：本地大模型私有化部署实战

阶段三完成检验#

场景题：设计一个 AIOps 系统：当 Prometheus 触发告警时，系统自动调用 AI Agent 完成以下步骤：(1) 查询相关日志和指标；(2) 基于历史 Runbook 生成排查步骤；(3) 置信度 > 90% 时自动执行修复脚本，否则推送给 on-call 工程师并附上分析报告。请设计系统架构，并说明如何保证 AI 操作的安全边界。

预计总时间：5–9 个月