很多人在评估 AI agent 平台时,都会卡在一个问题上:给智能体一个 tool,和给它一个 skill,到底有什么区别?
最短的答案是:tool 让智能体做一件事,skill 教智能体在真正行动之前,该怎么想。这听起来像学术区别,直到你亲眼看到一个挂了 58 个工具的 agent,在处理第一条用户消息之前,就已经烧掉 55,000 tokens 的上下文。这个数字来自 Anthropic 的工程团队,也正是行业后来全面转向 skills 的原因。
本文会讲清 AI agent skills 到底是什么,它和 tools、plugins 的边界在哪,skill 被激活时底层发生了什么,以及你该如何判断一个平台的 skills 架构到底是“可上生产”,还是只是市场文案。
什么是 AI Agent Skill?
AI agent skill,本质上是一种模块化能力包:它通常是一个文件夹,里面放着 instructions、scripts 和 reference materials,用来教智能体如何处理某个专门领域的问题。你可以把它想成一本训练手册:需要的时候拿起来,用完再放下。
比如,一个用于财务报告的 skill,可能会包含:
- 如何组织 executive summary 的说明
- 一个从会计 API 拉数据的脚本
- GAAP 格式规范的参考材料
- 关于哪些结论必须带 citation 的 guardrails
智能体并不会一直背着这些知识走。它只会在任务需要时,把这个 skill 加载进来。
Anthropic 在 2025 年底把这个概念正式化,推出了 Agent Skills 标准。格式刻意做得很简单:一个带 YAML metadata 的 SKILL.md,外加可选的 scripts/、references/、assets/ 子目录。标准发布几周内,OpenAI、Google、GitHub、Cursor 等都采用了同类格式。到 2026 年初,它已经基本成了事实标准。
它之所以有力量,正因为它足够简单。Skill 是一个 markdown 文件,不是什么数据库 schema,也不是什么编译后的二进制。只要你能写清楚说明,就能做出一个 skill。
Skills、Plugins、Tools 到底怎么区分
这三个词经常被混着讲,但它们其实在完全不同的架构层级上解决不同问题。
| Tools | Skills | Plugins | |
|---|---|---|---|
| 它是什么 | 一个执行动作的原子函数 | 改变 agent 处理问题方式的知识包 | 一个用于安装分发的打包单元,里面可以包含 skills、tools、configs |
| 抽象层级 | 最低:单次操作 | 中间:领域能力 | 最高:可安装分发单元 |
| 例子 | query_database(sql) | 一个教 agent 诊断数据库性能问题的文件夹 | 一个 “Database Ops” plugin,里面有 3 个 skills + 5 个 tools + 一套配置 |
| Token 成本 | schema 往往一直加载,成本可能很高 | 元数据启动时加载(约 80 tokens),正文按需加载 | 取决于里面装了什么 |
| 通常由谁创建 | 开发者写函数签名和 API 集成 | 领域专家写说明,开发者写脚本 | 平台团队把内容打成可安装包 |
关键洞察是:tools 负责执行,skills 负责准备。
当 agent 调用 tool,外部世界会发生事:数据库被查了、文件被写了、API 被调了。当 agent 激活 skill,它的上下文先发生变化。它获得一套领域知识、行为模式和可引用资源,然后再决定要用哪些 tools,以及该怎么用。

这不是措辞上的小差别,它决定了你的系统里“智能”究竟放在哪。
在一个 tool-heavy 的架构里,agent 本身是通用的,真正的智能更多来自于工具接口是否设计得好。Agent 的任务是选择和编排。这基本就是早期 LangChain 和很多 OpenAI 集成的思路。
在一个 skill-heavy 的架构里,智能更多存在于 agent 自身。Tool 退化成更简单的 utility,而 agent 则携带领域能力,而不只是“我有一串函数可调用”。这正是 Anthropic 一直在推的模型,它之所以越来越被接受,是因为它确实解决了 tools-only 架构一扩规模就爆炸的问题。
AI Agent Skills 在底层是怎么工作的
让 skills 真正可用的关键架构,叫做 progressive disclosure(渐进披露)。它把上下文加载拆成三层:只在需要时加载更多内容。
第 1 层:Discovery
启动时,agent 只加载每个 skill 的一行摘要,也就是 name 和 description。中位数成本大概是每个 skill 80 tokens。17 个 skill 的库,总成本也不过 1,700 tokens 左右。这意味着 agent 可以“知道自己会什么”,而不需要在上下文窗口里同时背着几十项完整能力。
第 2 层:Activation
当 agent 判断某个 skill 和当前任务相关时,才会把完整的 SKILL.md 正文加载进上下文。这一层是真正的 instruction body:步骤、决策树、格式规则、guardrails。正文中位数大约 2,000 tokens,通常建议不要超过 5,000。
比如一个财务分析 skill 可能会写:
“当用户给出收入数据时,先计算 trailing twelve-month growth,再展示预测。如果同比增长率超过 200%,先把它标记为 outlier,再要求用户确认。”
第 3 层:Execution
复杂 skill 还会继续引用别的文件:更长的文档、模板、脚本。只有在具体子任务需要时,这些内容才会再被加载。而最重要的一点是:脚本是在上下文窗口之外执行的。 一个 Python 脚本去处理数据,消耗的是零 tokens。它跑完,把结果返回给 agent,流程继续。
这种三层结构,和“一开始把所有东西全塞进 prompt”相比,平均 token 消耗能下降大约 40%,同时任务准确率还能提升 15%-20%。至少在早期实测里,趋势是很明确的。
如果你在搭建 agentic AI workflow,就必须理解这种 progressive loading 方式。它同时决定成本和质量。

为什么 Skills 比“写个超强 system prompt”更重要
很多人会问:“那为什么不直接写一个超好的 system prompt?”
这是最常见的反对意见,而且值得正面回答。一个 20,000-token 的超级 prompt,里面同时覆盖财务分析、文档格式、设计原则和项目管理,听起来很全面。但在实践里,它会制造三个问题。
问题 1:注意力被稀释。 Transformer 会把注意力分配到上下文中的所有 tokens。一个 20K 的 prompt,意味着当前任务要和 19,000 个无关指令竞争注意力预算。2025 年很多团队的研究都证明了,同一模型在被无关上下文包围时,针对具体任务的表现会显著变差。“Lost in the middle(中间遗失)”不是传说,是一个已经被充分验证的现象。
问题 2:没有生命周期管理。 Mega-prompt 永远都在。你没法在用户从财务分析切换到写博客时,把那一大段财务规则卸掉。Skills 之所以有效,就是因为它可以激活,也可以在概念上“退出”。任务需要什么就加载什么,做完之后,正文指令就不再持续占用主动注意力。
问题 3:它根本扩不动。 一个组织有 50 个 use case,就要在 mega-prompt 里写 50 段;有 500 个 use case,这个 prompt 的长度就已经超过不少模型的上下文窗口了。Skills 能扩规模,是因为每个 skill 都是独立的。增加新能力,只要新建一个文件夹,不用去改那份所有人共用、所有能力互相依赖的大 prompt。
2026 年初爆火的 Manus,就是通过不断改写它内部的 todo list,把当前目标推到最近上下文里,来应对这个问题。它的典型任务大概要 50 次 tool call。如果没有主动的上下文管理,agent 很快就会漂走。这就是为什么静态 prompt 很难支撑动态工作流。

一个设计良好的 Skill 应该长什么样
一个能上生产的 skill,无论文件结构看起来多简单,本质上都应该有五个组成部分。
presentation-design/
SKILL.md # Instructions + metadata
scripts/
validate_layout.py # 确定性检查
references/
brand-guidelines.md # 只有做品牌相关工作时才加载
export-specs.md # 只有导出时才加载
assets/
template.html # 起始模板
1. 清晰的触发条件。 名字和 description 必须足够清楚,让 agent 知道到底什么时候该激活这个 skill。“Presentation design” 太模糊;“创建、编辑或排查 slide deck 和视觉演示内容”才算可执行。因为 agent 的激活判断基本只靠这行 metadata。
2. 收敛的说明边界。 SKILL.md 的正文应该把一个领域讲深,而不是三个领域都讲浅。如果它必须涉及别的 skill 负责的事情,最好直接写“handoff to [other skill]”,而不是把对方的说明复制一份进来。
3. 确定性脚本。 任何“正确性比创造力更重要”的环节,都应该优先变成 script,而不是交给 LLM 推理。比如校验 slide layout 是否符合无障碍标准,用 script;排序一份财务数据,用 script;生成一个更有感染力的 headline,才交给 LLM。这个分工会同时提升可靠性并压低成本。
4. 被引用的深度材料。 很长的参考资料不应该塞进 SKILL.md 主体。比如一个 presentation skill 的 brand guideline 可能就有 8,000 tokens。如果每次激活都把它整份载入,那就是纯浪费。只有在用户明确说“匹配我们的品牌”时再加载,才是高效做法。
5. Guardrails。 Agent 不该做什么,和它该做什么一样重要。比如财务 skill 就应该明确写:“Never present projected returns without a disclaimer.”、“Never round numbers in a way that changes the conclusion.” Guardrails 要防的,是最贵的一类错误:自信、错误、还很像真的输出。

AI Agent Skills 在真实系统里怎么用
内容生成类 Skills
AtomStorm 的多智能体架构里,不同 agent 会在不同任务下激活不同的 skills。比如用户要做 pitch deck,系统会分别激活:
- presentation planning skill:负责叙事结构、页序、受众判断
- visual design skill:负责版式、字体、色彩和视觉层次
- quality review skill:负责一致性检查和品牌对齐
每个 skill 都是独立加载的。正因为用了 多智能体协作方式,单个 agent 才不需要自己背全套能力。
研究分析类 Skills
企业部署里也经常用 skills 做领域研究。比如一个 due diligence skill,可能会包含 SEC filing 扫描规则、风险评估矩阵模板,以及调用财务 API 的脚本。Agent 在写邮件时完全不需要这些,但当任务命中时,它们就会被精准加载出来。
设计与布局类 Skills
当 vibe design 平台收到“帮我做一张微服务系统架构图”这样的请求时,会激活一个专门懂服务边界、数据流、API 连接和基础设施分层视觉表达的 skill。这个 skill 还可能引用 C4 model、UML component diagrams 之类的参考资料,但只有当用户的请求暗示需要某种特定 notation 时,它们才会被加载。相关背景可以继续看 什么是 vibe design。
评估 AI 平台时,应该怎么判断它的 skills 架构
不是每个平台说“我们有 skills”,就意味着同一种东西。你真正要问的是下面这些问题。
| 该问什么 | 强信号 | 弱信号 |
|---|---|---|
| Skills 怎么加载? | Progressive disclosure,按需激活 | 启动时全量塞进上下文 |
| 用户能自己创建 skills 吗? | 开放格式(SKILL.md 或等价方案) | Vendor lock-in,不允许自定义 |
| Skills 和 tools 怎么协作? | Skills 带着领域上下文去编排 tools | 只是换个名字,本质上还是 tool 列表 |
| 规模上去之后怎么办? | 支持 sub-agent delegation、context lifecycle management | “往 prompt 里继续加 skills 就好了” |
| 支持 scripts 吗? | 支持,且在上下文外确定性执行 | 不支持,所有环节都靠 LLM 推理 |
| 是否支持 HITL? | Skills 可以定义 approval checkpoint | 完全自治,没有用户控制点 |
最后一点尤其关键。没有 Human-In-The-Loop(HITL)的 skills,本质上就是自动流水线。有些场景这没问题;但对财务报告、法律文档、客户演示这类高风险任务来说,“能停下来让用户确认”,不是锦上添花,而是必要条件。

Agent Skills 的下一步:可组合性和 Marketplace
这个领域正在明显往两个方向发展:composability(可组合性) 和 marketplace(技能市场)。
所谓 composability,就是多个 skill 可以在同一个任务里叠加协作,而不会互相打架。
当 AtomStorm 生成一份 pitch deck 时,presentation planning skill、visual design skill 和 brand consistency skill 都会共同作用在同一个 artifact 上。但它们不会互相踩,因为每个 skill 管的是输出的不同维度。这就是可组合性的真实形态,而它背后依赖的是非常克制的 skill 边界设计。
至于 marketplace,则很像当年浏览器扩展、VS Code 插件和手机 App 的演化过程:第三方开发者发布 skill,不同平台都能消费。SKILL.md 格式之所以有希望,是因为它足够低门槛。哪怕你不会写程序,只要你能把某个领域的知识和流程写清楚,也可能做出一个能提升 agent 表现的 skill。
当然,这里面有一个很真实、现在还没有解决完的问题:质量控制。一个有 1,000 个 skill 的 marketplace,里面一定既有高质量能力,也会有相互冲突、写得糟糕、甚至方向错的能力。Agent 到底该怎么优雅处理冲突指令?这件事今天还没有被彻底解决。谁跟你说“已经完全解决了”,基本都在卖东西。
怎么开始尝试 skills-based 工作流
如果你正在评估 AI agent 平台,别只看 feature list,要直接问:这个平台是怎么管理上下文的?
先从一个高价值 skill 开始。 选一个团队每周都做的重复任务:报表模板、设计审查 checklist、客户 onboarding 流程。把你对这个任务的经验写出来,就像你在培训一个新同事。这就是你的第一个 skill。
测试它是否真的是按需加载。 平台会在需要时才加载 skill,还是一启动就把所有东西全扔进上下文?这个答案会直接决定系统未来是能扩到 20 个、50 个、100 个 skill,还是很快撞墙。
衡量质量,不要只看速度。 一个设计良好的 skill,应该能提升 agent 在某个领域任务上的准确率。如果加了 skill 之后输出质量没有任何变化,那大概率说明 agent 根本没有真正用好它。
2026 年真正从 AI agents 里拿到大价值的组织,不是拥有最多 tools 的组织,而是拥有最被精心策展的 skills 的组织:按需加载、精准执行、做完就卸载的模块化领域能力。这才是能扩规模的架构。
亲自看看 skills-based AI 怎么工作:试一下 AtomStorm 的多智能体工作流,看看不同专职 agents 如何围绕同一个内容一起协作。可免费开始。