Token on 黄文卓 | DevOps Engineer

Token on 黄文卓 | DevOps Engineer https://socake.github.io/tags/token/ Recent content in Token on 黄文卓 | DevOps Engineer Hugo -- gohugo.io zh-CN 17691281867@163.com (Wenzhuo Huang) 17691281867@163.com (Wenzhuo Huang) © 2026 Wenzhuo Huang Mon, 19 Jan 2026 13:03:00 +0800 LLM 成本优化实战：从 Token 预算到模型路由 https://socake.github.io/posts/llm-cost-optimization/ Mon, 19 Jan 2026 13:03:00 +0800 17691281867@163.com (Wenzhuo Huang) https://socake.github.io/posts/llm-cost-optimization/ 我们的 AI 功能上线第一个月，LLM API 账单是 $18,000。通过模型路由、Prompt Caching 和 Batch API，第三个月降到了 $3,200。这篇文章记录具体怎么做到的。大模型核心概念：工程师需要理解的 LLM 基础 https://socake.github.io/posts/llm-core-concepts/ Mon, 17 Nov 2025 11:37:00 +0800 17691281867@163.com (Wenzhuo Huang) https://socake.github.io/posts/llm-core-concepts/ 同事第一次用 GPT-4 API 写代码时问我：为什么我发了一段中文，token 消耗比英文多那么多？为什么模型有时候会一本正经地胡说八道？这篇文章把我认为工程师必须理解的 LLM 概念系统整理了一遍，不涉及 Transformer 数学，只讲对你写代码有帮助的部分。