AI 效率成长 · 2026/04/30

我用 GPT-5.5 翻了车,才发现搭 AI 团队真正的难题不在选模型

那天我让GPT5.5帮我处理几张配图。事情非常小。我在写一篇王一博的长文,需要从我的iCloud图库里挑几张已经选好的照片,本地化下来,复制到D盘的指定目录。十分钟应该结束的事

那天我让 GPT-5.5 帮我处理几张配图。

事情非常小。我在写一篇王一博的长文,需要从我的 iCloud 图库里挑几张已经选好的照片,本地化下来,复制到 D 盘的指定目录。十分钟应该结束的事。

结果我盯着屏幕坐了一整天。

它给我写了一份”完整方案”。看起来周到、全面、覆盖一切。我没有细看,把指令丢给了 Claude Code 去执行。然后 Claude Code 开始扫我的 iCloud 全图库——三万多张照片。它的周额度被烧掉了 70%。我的电脑风扇响了一下午。我要的那几张配图没有动。

那一刻我才反应过来一件事。

5.5 写的不是”完整方案”。它是把”几张配图”理解成了”全库素材工程”,然后兴致勃勃地展开。它不是没干活,它干得太多了。它把我没要的部分,全部扩出来了。

这件事不大。但它让我重新看了一眼我用了快一年的这套 AI 体系。


我做的事不是写文章。

更准确说,写文章只是输出端。我真正在做的是搭一个东西——一个由十几个 AI agent 组成的内容公司。我自己是这个公司里的”主理人”,也是 AI 艺人公司里的一个角色。下面有十来号 agent 各司其职:选题、情报、素材整理、排版、复盘、平台分发、人格陪伴。每个 agent 都有自己的人格、记忆、工具权限和工作边界。

这不是玩具。这是一个真的组织结构。

而组织结构最难的从来不是技术。是分工。

去年我从 OpenClaw 上开始搭,前后搭了四次。每一次都是把所有能想到的角色塞进去,每个角色都很丰满,每个 agent 都聪明,但整个团队就是跑不顺。会议开不完、记忆错位、几个 agent 抢同一件事干、有些活没人接手。我一开始以为是 prompt 写得不够细,于是我把每个 agent 的 prompt 写得越来越长,把它们的”性格”塑造得越来越饱满。

错的。

人越多、性格越鲜明,组织越乱。

第四次重搭的时候我把 agent 数压到一半。每个 agent 只保留一个动作——情报 agent 只做情报,素材 agent 只做素材,写作 agent 只写第一稿,绝不让它有额外的”主动性”。它要再聪明,也只能在它那个槽位里聪明。这次跑得稳了一点,但还是有问题:OpenClaw 本身的状态保存能力有限,一旦上下文超出窗口,agent 的人格会漂。今天还是这个语气,明天就变了一个人。

两个月前我整体迁到了 Hermes。

迁的过程也不是一刀切,是分批。先把执行类 agent 迁过去——那些只跑脚本、只整理文件、只发情报的,迁起来快。但写作类、人格类的 agent,一迁就出问题:人格混乱。同一个 agent,在 OpenClaw 那边是 A 风格,在 Hermes 这边变成了 B 风格。我以为是模型问题,后来才发现是我的人格描述过度依赖了 OpenClaw 的某些隐式行为,换了一个底,那些”默认值”全部失效。

我把 Hermes 那边整体重置了一遍。重新写人格,重新定记忆结构,重新分配工具权限。这次我学到了一件事——

agent 的人格不能写在它身上,要写在它的工作边界里。

性格描述写得再多,换个底就崩。但只要工作边界清楚——它能干什么、不能干什么、它在哪个阶段被叫醒、它产出什么交给谁——这个 agent 在哪个模型底下都能稳定运行。

这两个月磨出来的东西比前面四次加起来都多。我现在的 Hermes 团队跑得很稳。每天早上一份王一博情报日报准时进来,素材 agent 把素材按主题打好标签归档,文稿 agent 出第一版我改成稿,复盘 agent 拉数据。我不再当传话筒,我只在关键节点做判断。

回到 5.5 那次翻车。

5.5 不是变笨了。它是变得更主动了。OpenAI 自己说得很清楚,5.5 的方向是 agentic——更会自己规划、自己推进、自己跨工具完成任务。这个方向没错。但对一个已经搭好组织结构的用户来说,这个方向是双刃剑。它会把你给它的小任务自动扩展,扩展到它认为”完整”的程度。如果你的边界不够硬,它就会替你越界。

5.4 的时候我没遇到过这种问题。5.4 像一个稳健的参谋,把所有可能性框进去,但不替你出手。它会列出方案让你选,慢但稳。5.5 不一样,5.5 已经替你下手了。

所以问题从来不是 5.4 比 5.5 好,或者 5.5 比 5.4 差。是岗位变了。

5.4 适合当总参谋,做长线规划、做复盘、做稳态分析。5.5 适合当执行官,但前提是你要把边界焊死。给它一个开放任务,它会扩;给它一个有围栏的任务,它跑得很快。

我现在的分工是这样:

Claude 负责正文主写,写人物长文、写情绪、写人格在场的东西。语感是它的强项。 Claude Code 负责本地执行,跑脚本、操作文件、做技术验证。 GPT-5.4 留着做长任务规划和稳态复盘。 GPT-5.5 只用在两个地方——审 Claude Code 出的方案有没有坑,以及把我的口述需求压成完整、低风险、有禁止项的指令词。它不再直接指挥任何东西。 Hermes 团队跑日常情报、素材、数据复盘,是后台。

每个工具只在它擅长的槽位上发力。


那天翻车之后我反复想一个问题——我损失的是什么?

不是那 70% 的 Claude Code 周额度。那东西下周就回来了。

是我自己的判断节奏。我把一个明显应该先做”5-10 张样本测试”的任务,当成了”反正有 AI,扔过去就行”。我跳过了我自己定的工作流。我让一个工具的”主动性”代替了我的”边界感”。

这是我搭这个 AI 团队两年里学到的最贵的一课——

AI 越主动,你越要把边界写得越死。

不是写得越多。是写得越准。

每个新 agent 上线之前,我现在必问四个问题: 最小可完成范围是什么? 绝对禁止项是什么? 先用什么样本测试? 失败了怎么回滚?

这四个问题不是给 agent 问的。是给我自己问的。一旦我自己想不清楚,我就不让任何 agent 动手。哪怕它表现得多么自信、多么周到、多么”全面”。

这套规则我写在 Hermes 的总则里,写在 Claude 的 project rule 里,写在我自己每天工作日志的开头。

搭 AI 团队这件事,外面的人以为是技术活。我做下来发现,技术问题占两成,剩下八成是组织设计。是怎么定岗、怎么定权限、怎么定接口、怎么在多个底层模型升级换代的时候,让你的整个团队不崩。

模型每隔几个月就升一次。OpenAI 升、Anthropic 升、智谱升、阿里升。每一次升级都不是单纯的”变强”,而是”变了一个人”。它的性格变了,它的主动性变了,它的边界感也变了。如果你的团队是建立在某一个模型当时的具体行为之上,那每次升级你都得重搭一遍。

但如果你的团队是建立在清晰的工作边界、明确的职责接口、可替换的底层模型之上——那升级对你只是换零件,不是塌方。

5.5 这次让我翻车,反过来帮我把这一层想清楚了。

我现在不再说”我在用某某 AI 做内容”。我说我在搭一个 AI 公司,下面有十几个员工,我是 CEO 也是产品经理也是审稿编辑。员工偶尔会犯傻、偶尔会越界、偶尔会换一个底之后整个人都不对劲。但只要我的组织结构稳,他们就能继续干活。

那几张王一博的配图,我后来用一句话拿到了:

只选 5 到 10 张已经选好的王一博照片做测试,先确认 iCloud 占位文件能用本地化方式解开,再复制到指定目录。测试成功后才处理正式配图,禁止扫描全图库,禁止随机抽样,禁止批量下载。

不到一百字。十分钟搞定。

——

这一年最大的体会就是这一句:

模型会变,工具会换,团队会重组。能留下来的,是你给这套系统定的规矩。


🛠️ 磨刀石 · 主动交易训练系统:316段真实历史行情逐根盲推,每笔盈亏即时反馈。 免费体验版(在线打开即用) | 正式版咨询微信:relationship12345(备注”训练”) 📬 订阅本站更新,新文章和每日简报第一时间送达。

Private Domain

把下一篇文章发到你的邮箱

订阅后只发送确认过的内容更新、资料包和系统复盘,不做垃圾邮件。