画架构图这件事,几乎所有工程师都讨厌,但又谁都躲不开。系统明明已经在你脑子里了,可一旦要把它画到屏幕上,让其他人也能看懂,事情就会迅速变成一小时的拖拽地狱:对齐箭头、调整框大小、然后发现你想改的那个框居然和另外六个框是编在一起的。
AI 架构图生成器走的是另一条路。你用文字描述系统,AI 负责产出视觉图,再通过继续描述修改意见来 refine,而不是自己拖对象。
这个想法本身很直接,但不同工具的执行质量差别极大。有些工具产出的图真的有用,有些工具只是“看起来像张图”,可一旦你要编辑、展示,或者拿去给团队讨论,就会迅速塌掉。本文会拆解你到底该看哪些能力、这套工作流和手工工具怎么比,以及 AI 画图当前最真实的限制在哪里。
为什么架构图很难自动化
在评估 AI 工具之前,先要承认这个问题本身比看上去更难。
一张好的架构图,不只是一些 box 和 arrow。它实际上编码了很多判断:抽象层级(你是展示单个微服务,还是服务分组?)、视觉层级(哪个组件最重要?)、流向关系(谁调用谁?)、以及面向谁讲(这是给工程团队看的,还是给董事会看的?)。
同一个系统,面对不同读者,画法会完全不一样:
| 受众 | 图的类型 | 重点是什么 |
|---|---|---|
| 工程团队 | C4 Component / Container 级别 | 服务边界、API 契约、数据存储、部署单元 |
| 产品 / 业务干系人 | 高层系统上下文 | 用户流、关键集成、核心能力 |
| 董事会 / 投资人 | 简化架构图 | 扩展性故事、技术护城河、基础设施成本结构 |
| 新成员 onboarding | 系统概览 | 入口点、团队依赖、关键仓库 |
像 draw.io 或 Lucidchart 这样的手工工具,允许你明确做出这些选择:什么该画,什么该省略,怎么排。但它的代价就是时间。一个复杂一点的图,30 分钟到 2 小时都很正常。
AI 架构图生成器要做的,是从一段文字描述里推断出这些决策。输出质量最终取决于 AI 能不能判断出对的抽象层级、合适的视觉层次,以及当前场景需要多少细节。

AI 架构图生成器通常怎么工作
无论具体工具是什么,整体工作流通常都分成三段。
第一段:输入
你先描述系统。这可以是一段很短的文字,比如“三个微服务,一个 PostgreSQL 数据库,一个 Redis cache,前面有 API gateway,最外层走 CloudFront”;也可以是一段很细的 specification,明确写出组件名、协议和数据流。
输入越具体,输出越靠谱。“一个带数据库的 web app”几乎没有给 AI 任何可用信号;但如果你说“一个部署在 Vercel 上的 Next.js 前端,调用 AWS ECS 上的 FastAPI 后端,数据库是 RDS PostgreSQL,文件通过 S3 presigned URL 存取”,AI 基本就已经有足够信息画出一版像样的东西了。
第二段:生成
AI 根据描述生成视觉结果。不同工具在这里差异最大:
代码型输出(Mermaid、PlantUML、D2)。AI 先生成 diagram-as-code,再交给渲染器变成图。优点是可版本管理、可复现;缺点是布局更多是算法算出来的,复杂图容易出现标签重叠、箭头绕得很丑。
图片型输出。 AI 直接生成 raster image。优点是成图可能更“像设计稿”;缺点是无法编辑元素。只要你想把 API gateway 那个框往右挪一点,就只能整张图重新生成。
结构化输出(HTML、SVG)。AI 生成的是可编辑的结构化内容,每个元素都可单独操作。优点是你可以改、调样式、导出,不用每次重生;缺点是实现难度更高。
第三段:修订
你检查图,然后继续迭代。比如:“把数据库移到右侧。”“让 Service B 连一下 cache。”“监控层对这个受众不重要,去掉。”
大多数工具真正分出高下的地方,其实不是第一稿,而是这一步。每次改动都要整张图重新生成的工具,体验会很差;能保留整体布局,只修改局部元素的工具,才更接近真正可用。

你的选项到底怎么比
| 方式 | 速度 | 可编辑性 | 视觉质量 | 版本管理 | 适合什么场景 |
|---|---|---|---|---|---|
| 手工工具(draw.io、Lucidchart) | 慢(30-120 分钟) | 完全手工控制 | 高(靠人判断) | 一般(多为二进制文件) | 面向受众精修的正式架构图 |
| Diagram-as-code(Mermaid、D2) | 中等(15-30 分钟写代码) | 改代码再渲染 | 中等(算法布局) | 非常好(文本可进 git) | 开发文档、CI/CD 集成 |
| AI + 代码输出 | 快(2-5 分钟) | 可以改生成出来的代码 | 中等 | 较好(代码是文本) | 快速草稿、技术文档 |
| AI + 图片输出 | 快(1-3 分钟) | 没有,只能重生 | 不稳定 | 很差(二进制) | 一次性头脑风暴图 |
| AI + 结构化输出(HTML/SVG) | 快(2-5 分钟) | 完整元素级编辑 | 高(可设计化布局) | 较好(结构化文件) | 可展示的正式架构图、团队沟通 |
最后一种,也就是“AI 生成 + 可编辑结构化输出”,其实才是这个领域最值得关注的方向。它把 AI 的速度和手工工具的可编辑性拼在了一起。AtomStorm 的 HTML Container 架构 走的就是这条路:图是用可编辑 HTML 生成的,每个框、箭头、标签都是独立元素,可以继续改、换样式、重排位置。

一张“好用的 AI 架构图”到底长什么样
真正有用的 AI 图,和没法用的 AI 图,差别主要体现在下面五件事上。
1. 组件关系必须准确
AI 必须正确推断谁连谁。你说的是“React 前端调用 REST API,后面挂 PostgreSQL”,那图上就应该是 Frontend → API → Database,而不是 Frontend 直接连 Database。听起来像废话,但缺乏架构推理能力的模型,经常会把层级压平,或者直接连错。
2. 抽象层级要对
一个部署在 Kubernetes 上的微服务系统,如果你没有特别要求,AI 不该默认给你画出 pod、ConfigMap 这种细节。抽象层级必须匹配隐含的受众。
3. 布局必须可读
标签重叠、箭头互相穿插、留白过窄,会让一张图比“没有图”还差。布局质量,是 AI 架构图最常见的失败点,尤其是组件数超过 8 到 10 个之后。
4. 视觉语言要一致
数据库看起来就应该像数据库,负载均衡器就应该像负载均衡器,用户和服务也应该一眼能区分。如果所有组件全是一样的矩形加一段文字,读者就只能把每个 label 从头读到尾。好的视觉语言,应该让人一眼就看懂组件类型。
5. 必须能导出成真正有用的格式
被锁在 AI 聊天窗口里的架构图没有任何价值。你要把它放进设计文档、slide deck、wiki 里。PNG 用于嵌文档,SVG 用于网页,可编辑格式用于后续迭代,PPTX 用于演示。
如果你要做可以直接进 presentation 的架构图,可以直接试 AtomStorm 的 AI diagram generation:可完整编辑,可多格式导出。

AI 画架构图现在最容易失手的地方
承认限制,比空喊“AI 全能”更有价值。下面这些地方,当前的 AI 架构图生成器普遍还不够稳定。
组件超过 20 个的复杂系统。 系统一复杂,布局质量就会明显下降。超过 15-20 个组件后,AI 产图通常仍然需要比较多的手工整理。对这类系统来说,“先让 AI 起稿,再人工收尾”通常比纯 AI 或纯手工都快。
时序图和 sequence diagram。 架构图(boxes and arrows)很适合 AI;时序图更难,因为它的视觉编码约束更强:lifeline 顺序、activation bar 嵌套、message arrow 对齐都带语义,而 AI 经常会把这些搞乱。
带明显倾向的布局决策。 数据库该放底部还是右边?这完全取决于图想表达的故事。AI 会给一个默认方案。这个默认通常适合第一稿,但往往不是最终版。最后的“讲故事能力”仍然要靠人来调。
特定 notation 的输出。 如果你的团队严格使用 C4、ArchiMate 或 UML component diagram,AI 就必须理解这些规则。通用型工具只会给出通用型图;真正理解建模规范的平台,输出才会更贴近团队标准。

更务实的工作流:AI 辅助,而不是 AI 全包
从实际效果看,更合理的做法通常是下面这套流程:
第 1 步:写系统描述,不是画图说明。 用 3 到 10 句话把系统说清楚。写组件名、技术栈、连接关系、数据流。如果受众不明显,也一并写上。
第 2 步:用 AI 先生成第一稿。 不要指望它一把到位。你真正要看的是 topology 是否正确:组件对不对,连线对不对,布局是否至少能看。
第 3 步:先看结构,不要先看美观。 组件全了吗?连接关系正确吗?抽象层级对吗?如果 topology 错了,就回头补描述、重新生成。不要指望靠手工微调去补救一张结构已经错掉的图。
第 4 步:再修视觉。 当 topology 已经对了,再去调布局、标签和样式。对支持结构化输出的平台,这意味着你可以继续挪、调样式、改单个元素;对代码型工具,则是改生成出来的 markup。
第 5 步:导出并留可编辑源。 既要保留未来还能修改的可编辑版本,也要导出能拿去展示的版本。否则系统一变,这张图几个月后就会变成误导人的 artifact。
什么时候该用 AI,什么时候还是手工更划算
| 场景 | 建议 |
|---|---|
| Slack 里快速解释一个系统概况 | AI 生成,少量编辑 |
| 给新成员做系统 overview | AI 生成 + 适度编辑 |
| 设计文档里的架构图 | AI 起稿 + 认真 refine |
| 正式架构评审材料 | AI 给 topology,人工做布局和样式定稿 |
| 客户演示 / 投资人 deck 里的架构图 | AI 草稿 + 设计润色,或直接切到 Code Mode 编辑 |
| 时序图 / timing diagram | 手工做(Mermaid 或专用工具) |
核心规律很简单:AI 负责前面 60%-80% 的工作,也就是正确 topology 和一个“还能看”的布局;人负责后面 20%-40%,也就是适配受众的视觉表达、战略重点突出和 notation 合规。
怎么开始
如果你现在做一张架构图还要花 30 分钟以上,AI 生成器从第一天开始就能帮你省时间。
先从你们团队最常重画的那张图开始。 每个团队都有这样一张图:那个每个季度都要更新一次、每次都要花一小时的系统总览图。拿它当第一组测试样本最合适。
把描述写得像你是在给新工程师讲系统。 写清组件、技术栈和连接方式。这段描述就是输入。
把 AI 产出和你现在的图对着看。 拓扑对不对?关键关系有没有抓住?漏了什么?这些缺口会直接告诉你未来每一类图大概需要多少手工 refine。
一定要检查导出。 这张图能不能直接放进 slide deck?会不会糊?你能不能改单个元素?下个季度系统变了之后,能不能继续在这版上更新,而不是重新从零开始?
架构图本质上是沟通工具。真正的问题不是“AI 能不能画出完美图”,而是“AI 能不能比你手工拖矩形更快地把你带到一张可用图”。对绝大多数团队来说,答案是可以。
生成你的第一张 AI 架构图:描述系统,让 agents 帮你把图做出来;所有元素都能继续编辑,也能导出到任何你需要的格式。可免费开始。