从零开始的 LLM 知识地图-一文读懂大语言模型核心概念
✦ 从零开始的 LLM 知识地图
一文读懂大语言模型
核心概念
你是否好奇 ChatGPT、Claude 这些 AI 助手背后的原理?
本文用最通俗的语言,带你一次性搞懂 LLM 世界的 8 个核心概念。
📖 目录
大语言模型(LLM)
一切的核心引擎
🤔 它到底是什么?
LLM,全称 Large Language Model(大语言模型),俗称"大模型"。
把它想象成一个超级文字接龙高手 🎯:
用户输入:"今天天气真"
模型思考:"好" 概率最高!
输出:"今天天气真好"
本质就是猜下一个最可能出现的词,不断重复就形成了"对话"。
🏗️ 大脑结构:Transformer
底层架构是 Transformer,由 Google 在 2017 年提出:
📄 《Attention is All You Need》
(注意力就是你所需要的一切)
核心:"注意力机制"——让模型关注文字中最重要的部分。
📅 发展里程碑
2017
Transformer 提出
🏛️ 奠基2022
GPT-3.5
🚀 破圈2023.3
GPT-4
📈 飞跃2023+
Claude/Gemini
⚔️ 群雄Token —— AI 世界的"乐高积木"
大模型处理文字的最小单位
如果说大模型是一个厨师,那 Token 就是它处理食材的最小单位。大模型不直接理解"文字",它需要先把文字切成小碎片——这就是 Token。
🔄 编码与解码:AI 的"翻译"过程
编码(文字 → 数字)
"我喜欢学习"
↓ 切分
["我", "喜欢", "学", "习"]
↓ 映射
[1052, 3847, 2091, 4421]
← 模型只认识这些数字!
解码(数字 → 文字)
[1052, 3847, 2091, 4421]
↓ 直接还原
"我喜欢学习"
← 我们又看得懂了!
⚠️ Token ≠ "字"或"词"
初学者最容易混淆的地方!Token 和自然语言的"字""词"并不是一一对应的:
| 情况 | 示例 | 说明 |
|---|---|---|
| 🇨🇳 中文词可能被拆 | "工作坊" → "工作"+"坊" | 不一定按词切分 |
| 🇬🇧 常见英文 1 Token | "hello" → 1 Token | 越常见越完整 |
| 🔤 复杂英文可能被拆 | "helpful"→"help"+"ful" | 按子词切分 |
| 🎨 特殊字符 | "✅" → 3 个 Token | 表情特别"费"Token |
📏 快速换算参考
Context —— AI 的"短期记忆"
模型每次任务能"记住"多少内容
你有没有发现,和 AI 聊天时它能"记住"你之前说的话?这就是 Context(上下文) 在起作用。
📦 Context 的组成
📐 Context Window:记忆容量上限
| 模型 | 窗口大小 | 约合汉字 |
|---|---|---|
| GPT 5.4 | 105 万 Token | ~157 万字 📖 |
| Gemini 3.1 Pro | 100 万 Token | ~150 万字 |
| Claude Opus 4.6 | 100 万 Token | ~150 万字 |
🔍 记不住怎么办?—— RAG 来帮忙
❌ 传统方式
把整本百科全书塞给 AI
→ 💥 放不下!
✅ RAG 方式
1. 从百科中找最相关几页 📑
2. 只把这几十页送给 AI 📄
3. AI 基于精华回答 ✨
Prompt —— 你和 AI 对话的艺术
提示词决定了回答的质量
Prompt(提示词) 就是你给 AI 的指令或问题。它直接决定了 AI 回答的质量。
🏢 System Prompt
后台配置,定义 AI 的人设和行为规则。
👤 User Prompt
你在对话框里输入的内容。
✨ 核心三原则:清晰 · 具体 · 明确
❌ 模糊
"帮我写点东西"
→ AI:写什么???🤷
✅ 清晰
"写一封客户道歉邮件,产品延迟交付一周,语气诚恳专业,300字内"
→ AI:明白了!✍️
Tool —— 给 AI 装上"手和眼"
弥补大模型只会"说"不会"做"的局限
🦾 为什么需要 Tool?
大模型的致命弱点:只会"说",不会"做"。
- ❌ 不知道今天天气(数据截止)
- ❌ 不能帮你发邮件
- ❌ 复杂数学可能出错
Tool(工具) 让 AI 能调用外部程序完成具体任务。
🔄 工作流程
- 👤 用户提问 → 平台转发(含工具列表)
- 🧠 大模型分析 → 生成工具调用指令
- 🏗️ 平台执行调用 → 获取结果
- 🧠 大模型整理结果 → 自然语言输出
👥 三方角色分工
大模型
做决策
工具
干实事
平台
跑腿的
MCP —— AI 工具的"USB-C 接口"
Model Context Protocol,工具接入的统一标准
MCP(Model Context Protocol) 解决了一个实际问题:不同 AI 平台的工具接入规范不统一。
❌ 以前
每个平台各自一套规范
OpenAI / Anthropic / Google
开发一个工具写三套代码 😩
✅ 现在:MCP
一个标准走天下
按 MCP 规范开发一次
所有平台都能用 🎉
Agent —— 能自己干活的 AI
从"问答机器"到"自主员工"
普通 AI 是一问一答:你问一句,它答一句。
而 Agent(智能体) 能自主规划、自主行动、持续工作,直到任务完成!
💤 普通 AI
👤 "帮我订机票"
🤖 "请告诉我出发地、目的地、日期..."
然后等你回答每一步 😴
⚡ Agent
👤 "订下周一北京到上海最便宜的机票"
🤖 "收到!" → 自主查询 ✈️→ 比价 💰→ 预订 🎫
"已为您预订:XX航班,票价¥XXX"
🌟 三大核心能力
多步骤推理
把复杂任务拆成小步骤
工具选择
知道何时用什么工具
流程控制
判断进展,灵活调整
Agent Skill —— 技能说明书
让 Agent 学会特定任务的操作手册
📋 什么是 Skill?
Skill(技能) 就是给 Agent 的"操作手册" 📖
📖 Skill 是岗位培训手册
💾 技术实现
- 📄 存储为 Markdown(固定名
SKILL.md) - 📂 存放在特定目录
- ⚡ 仅在需要时加载(节省 Token)
📄 Skill 文件结构
📛 元数据层
├── name: 技能名称
└── description: 技能描述
📝 指令层
├── 🎯 目标
├── 📋 执行步骤
├── ⚖️ 判断规则
├── 📤 输出格式
└── 💡 示例
⚡ 加载机制
全景图:8 个概念如何串联?
一张图看懂整个 LLM 知识体系
🧠 LLM(核心引擎)
├── 📦 Token(数据单位) — AI 读写的最小颗粒
├── 🧠 Context(记忆空间) — 由 Token 组成的临时记忆
└── 📝 Prompt(交互接口) — 你往记忆里写入的指令
├── 🔧 Tool(外部能力) — 弥补 AI 自身不足
└── 🔌 MCP(工具标准) — 让工具接入统一化
└── 🤖 Agent(决策系统) — 能自主规划和行动
└── 📋 Skill(任务定制) — 给 Agent 的操作手册
🔗 一句话总结
| 概念 | 一句话 | 类比 |
|---|---|---|
| 🧠 LLM | 文字接龙高手 | 大脑 |
| 🧩 Token | 处理文字的最小单位 | 乐高积木 |
| 📝 Context | AI 的短期记忆 | 便签纸 |
| 💬 Prompt | 你给 AI 的指令 | 点菜单 |
| 🦾 Tool | 外部能力扩展 | 机械臂 |
| 🔌 MCP | 工具统一标准 | USB-C |
| 👷 Agent | 能自主工作的 AI | 员工 |
| 📋 Skill | Agent 的操作手册 | 岗位手册 |
📚 补充知识
- 🔬 Transformer:Google 提出,OpenAI 通过 GPT 发扬光大
- ⚙️ BPE 算法:Token 切分背后的核心算法
- 📎 RAG:检索增强生成,突破 Context Window 限制
🎉 恭喜你读完了!
现在你已掌握 LLM 世界的 8 个核心概念。
下次聊 AI 时,你就是最懂的那个人!