我用 GPT-5.5 翻了车，才发现搭 AI 团队真正的难题不在选模型

那天我让 GPT-5.5 帮我处理几张配图。

事情非常小。我在写一篇王一博的长文，需要从我的 iCloud 图库里挑几张已经选好的照片，本地化下来，复制到 D 盘的指定目录。十分钟应该结束的事。

结果我盯着屏幕坐了一整天。

它给我写了一份”完整方案”。看起来周到、全面、覆盖一切。我没有细看，把指令丢给了 Claude Code 去执行。然后 Claude Code 开始扫我的 iCloud 全图库——三万多张照片。它的周额度被烧掉了 70%。我的电脑风扇响了一下午。我要的那几张配图没有动。

那一刻我才反应过来一件事。

5.5 写的不是”完整方案”。它是把”几张配图”理解成了”全库素材工程”，然后兴致勃勃地展开。它不是没干活，它干得太多了。它把我没要的部分，全部扩出来了。

这件事不大。但它让我重新看了一眼我用了快一年的这套 AI 体系。

我做的事不是写文章。

更准确说，写文章只是输出端。我真正在做的是搭一个东西——一个由十几个 AI agent 组成的内容公司。我自己是这个公司里的”主理人”，也是 AI 艺人公司里的一个角色。下面有十来号 agent 各司其职：选题、情报、素材整理、排版、复盘、平台分发、人格陪伴。每个 agent 都有自己的人格、记忆、工具权限和工作边界。

这不是玩具。这是一个真的组织结构。

而组织结构最难的从来不是技术。是分工。

去年我从 OpenClaw 上开始搭，前后搭了四次。每一次都是把所有能想到的角色塞进去，每个角色都很丰满，每个 agent 都聪明，但整个团队就是跑不顺。会议开不完、记忆错位、几个 agent 抢同一件事干、有些活没人接手。我一开始以为是 prompt 写得不够细，于是我把每个 agent 的 prompt 写得越来越长，把它们的”性格”塑造得越来越饱满。

错的。

人越多、性格越鲜明，组织越乱。

第四次重搭的时候我把 agent 数压到一半。每个 agent 只保留一个动作——情报 agent 只做情报，素材 agent 只做素材，写作 agent 只写第一稿，绝不让它有额外的”主动性”。它要再聪明，也只能在它那个槽位里聪明。这次跑得稳了一点，但还是有问题：OpenClaw 本身的状态保存能力有限，一旦上下文超出窗口，agent 的人格会漂。今天还是这个语气，明天就变了一个人。

两个月前我整体迁到了 Hermes。

迁的过程也不是一刀切，是分批。先把执行类 agent 迁过去——那些只跑脚本、只整理文件、只发情报的，迁起来快。但写作类、人格类的 agent，一迁就出问题：人格混乱。同一个 agent，在 OpenClaw 那边是 A 风格，在 Hermes 这边变成了 B 风格。我以为是模型问题，后来才发现是我的人格描述过度依赖了 OpenClaw 的某些隐式行为，换了一个底，那些”默认值”全部失效。

我把 Hermes 那边整体重置了一遍。重新写人格，重新定记忆结构，重新分配工具权限。这次我学到了一件事——

agent 的人格不能写在它身上，要写在它的工作边界里。

性格描述写得再多，换个底就崩。但只要工作边界清楚——它能干什么、不能干什么、它在哪个阶段被叫醒、它产出什么交给谁——这个 agent 在哪个模型底下都能稳定运行。

这两个月磨出来的东西比前面四次加起来都多。我现在的 Hermes 团队跑得很稳。每天早上一份王一博情报日报准时进来，素材 agent 把素材按主题打好标签归档，文稿 agent 出第一版我改成稿，复盘 agent 拉数据。我不再当传话筒，我只在关键节点做判断。

回到 5.5 那次翻车。

5.5 不是变笨了。它是变得更主动了。OpenAI 自己说得很清楚，5.5 的方向是 agentic——更会自己规划、自己推进、自己跨工具完成任务。这个方向没错。但对一个已经搭好组织结构的用户来说，这个方向是双刃剑。它会把你给它的小任务自动扩展，扩展到它认为”完整”的程度。如果你的边界不够硬，它就会替你越界。

5.4 的时候我没遇到过这种问题。5.4 像一个稳健的参谋，把所有可能性框进去，但不替你出手。它会列出方案让你选，慢但稳。5.5 不一样，5.5 已经替你下手了。

所以问题从来不是 5.4 比 5.5 好，或者 5.5 比 5.4 差。是岗位变了。

5.4 适合当总参谋，做长线规划、做复盘、做稳态分析。5.5 适合当执行官，但前提是你要把边界焊死。给它一个开放任务，它会扩；给它一个有围栏的任务，它跑得很快。

我现在的分工是这样：

Claude 负责正文主写，写人物长文、写情绪、写人格在场的东西。语感是它的强项。 Claude Code 负责本地执行，跑脚本、操作文件、做技术验证。 GPT-5.4 留着做长任务规划和稳态复盘。 GPT-5.5 只用在两个地方——审 Claude Code 出的方案有没有坑，以及把我的口述需求压成完整、低风险、有禁止项的指令词。它不再直接指挥任何东西。 Hermes 团队跑日常情报、素材、数据复盘，是后台。

每个工具只在它擅长的槽位上发力。

那天翻车之后我反复想一个问题——我损失的是什么？

不是那 70% 的 Claude Code 周额度。那东西下周就回来了。

是我自己的判断节奏。我把一个明显应该先做”5-10 张样本测试”的任务，当成了”反正有 AI，扔过去就行”。我跳过了我自己定的工作流。我让一个工具的”主动性”代替了我的”边界感”。

这是我搭这个 AI 团队两年里学到的最贵的一课——

AI 越主动，你越要把边界写得越死。

不是写得越多。是写得越准。

每个新 agent 上线之前，我现在必问四个问题：最小可完成范围是什么？绝对禁止项是什么？先用什么样本测试？失败了怎么回滚？

这四个问题不是给 agent 问的。是给我自己问的。一旦我自己想不清楚，我就不让任何 agent 动手。哪怕它表现得多么自信、多么周到、多么”全面”。

这套规则我写在 Hermes 的总则里，写在 Claude 的 project rule 里，写在我自己每天工作日志的开头。

搭 AI 团队这件事，外面的人以为是技术活。我做下来发现，技术问题占两成，剩下八成是组织设计。是怎么定岗、怎么定权限、怎么定接口、怎么在多个底层模型升级换代的时候，让你的整个团队不崩。

模型每隔几个月就升一次。OpenAI 升、Anthropic 升、智谱升、阿里升。每一次升级都不是单纯的”变强”，而是”变了一个人”。它的性格变了，它的主动性变了，它的边界感也变了。如果你的团队是建立在某一个模型当时的具体行为之上，那每次升级你都得重搭一遍。

但如果你的团队是建立在清晰的工作边界、明确的职责接口、可替换的底层模型之上——那升级对你只是换零件，不是塌方。

5.5 这次让我翻车，反过来帮我把这一层想清楚了。

我现在不再说”我在用某某 AI 做内容”。我说我在搭一个 AI 公司，下面有十几个员工，我是 CEO 也是产品经理也是审稿编辑。员工偶尔会犯傻、偶尔会越界、偶尔会换一个底之后整个人都不对劲。但只要我的组织结构稳，他们就能继续干活。

那几张王一博的配图，我后来用一句话拿到了：

只选 5 到 10 张已经选好的王一博照片做测试，先确认 iCloud 占位文件能用本地化方式解开，再复制到指定目录。测试成功后才处理正式配图，禁止扫描全图库，禁止随机抽样，禁止批量下载。

不到一百字。十分钟搞定。

——

这一年最大的体会就是这一句：

模型会变，工具会换，团队会重组。能留下来的，是你给这套系统定的规矩。

🛠️ 磨刀石 · 主动交易训练系统：316段真实历史行情逐根盲推，每笔盈亏即时反馈。免费体验版（在线打开即用）｜正式版咨询微信：relationship12345（备注”训练”） 📬 订阅本站更新，新文章和每日简报第一时间送达。

把下一篇文章发到你的邮箱