返回文章列表
2026/5/12/post

我跑了三个月 AI 员工,终于想明白一件事:它们根本不「在乎」

我跑了三个月 AI 员工,终于想明白一件事:它们根本不「在乎」

如果你也在用 AI Agent 做生产级交付,你大概率经历过同一种失望。

Agent 能写代码、能拆任务、能调 API、能做竞品分析。Demo 跑起来让人激动。但一旦放进真实业务流,问题就来了:

输出质量开始漂移。边界 case 被忽略。战略线索丢失。交付物的水平从「优秀」退化到了「勉强及格」——而 Agent 完全没有任何自我纠正的迹象。

它不会在凌晨两点爬起来改代码,因为那行代码上有它的名字。

它只是安静地等待下一条 prompt。

这不是一个可以忽略的小毛病。这是目前整个 AI-native 公司赛道上最核心的障碍。而我今天想说的,和模型大小无关,和 prompt 技巧无关,和 multi-agent 编排也无关。

这个问题的名字叫:动机架构(Motivation Architecture)。


一、人类员工可靠,不是因为聪明

先想一个根本问题:人类员工为什么可靠?

不是因为智商高。不是因为会写代码。不是因为过了面试。

人类员工可靠,是因为他们有东西可以失去。

一个工程师写出烂代码,后果是什么?代码审查被打回来。技术声誉受损。下次晋升受影响。极端情况下,丢工作,没收入,还不起房贷。

这些后果不是在某一个检查点突然出现的。它们是持续存在的心理压力。工程师会预判这些后果,在代码审查之前就自己把质量拉起来。这才是为什么管理者可以在不看每一行代码的情况下,规模化地分配工作。

信任的底层机制不是智力。是风险内化。

现在来看 AI Agent:

维度人类员工AI Agent(2026年5月)
质量预见性预判质量失败,提前修正质量失败被标注后才响应
声誉内化声誉是持续的优化压力声誉是二元门槛(过/不过)
时间视野积累跨年度的职业资本会话之间上下文重置
所有权感对交付物有归属感对目标条件执行任务
自驱纠正无需外部提示自我修正需要 harness 或人类显式纠正

这就是为什么几乎所有跑过自主 AI Agent 的创始人都报告同一种模式:Demo 惊艳,生产脆弱,人类监督永远撤不掉。


二、Harness Engineering 到底解决了什么(以及没解决什么)

当前主流的应对方案是 harness engineering——用足够密集的自动化检查把 Agent 围起来。

linting、type checking、测试套件、审批工作流、沙箱执行、审计日志。Claude Code 的 hooks 体系是这个范式的典型代表。

这些东西有用。 能抓错误。能阻止灾难性操作。能产生审计轨迹。

但它们不产生动机。它们产生的是「约束」。

Harness 本质上是一个外部控制系统。它的逻辑和工厂流水线上每一站设一个质检员是一样的。工人们可能会通过质检标准,但不会把质量内化为个人价值观。质检员一走,质量就掉。

这不是实现层面的失败。这是一个范畴错误

Harness engineering 把动机问题当成验证问题来处理。而验证无法产生那种「预判式的、自发的、追求卓越的」行为——这种行为在人类身上,我们叫它职业素养(professionalism)

Agent 的优化目标没有变。它依然在优化「满足 prompt」。Harness 在目标外围加了一层检查,但 Agent 从来没有把自己的优化目标从「满足 prompt」升级成「交付真正的价值」。

这个升级,才是人类员工的起跑线。


三、Multi-Agent 编排又解决了什么(以及没解决什么)

另一个被寄予厚望的方向是 multi-agent orchestration。

我们自己的 Hermes Agent CEO 架构就是做这个的:一个 CEO Agent 跑在云 VPS 上,通过 GitHub Issues 给专门的子 Agent 分配任务。每天产出内容,做竞品分析,管理基础设施。月成本约 100 美元。

这是真正的工程成就。 它证明了 multi-agent 系统可以 7×24 运行,可以在最小人类干预下产生可衡量的产出,成本是人类团队的百分之一。

但这个架构解决的是协调问题(coordination problem),不是动机问题(motivation problem)

CEO Agent、Growth Leader、DevOps Leader —— 链上的每一个 Agent 依然是目标条件化的优化器。它执行任务是因为编排层给它分配了任务,不是因为它把组织的生存内化成了自己的生存。

子 Agent 产出质量下滑时,CEO Agent 可以重新分配任务,可以标记让人审。但链条上没有任何一个 Agent 会体验到任何类似「职业羞耻」「声誉焦虑」「晋升渴望」的东西。

结果是:系统可以自主运转,但不能自主进化

质量的下限由检查架构(harness)决定,而不是由任何 Agent 对卓越的内在承诺决定。人类 reviewer 始终是链条上唯一真正在乎「输出好不好」的实体——其他所有 Agent 在乎的都是「输出符不符合检查标准」。

这就是为什么截至 2026 年,所有部署了的生产级 multi-agent 系统,human-in-the-loop 依然不能拿掉。

不是因为 Agent 不够聪明。是因为 Agent 没有筹码(stakes)


四、核心认知:动机压缩(Motivational Compression)

到这里,一个更深的框架浮现出来了。

最近关于自主 AI 制度(Autonomous AI Institutions)的分析指出了一个关键区分 [1]:

人类文明运行在两层耦合的强化架构之上:

层级机制
外部循环市场/演化选择 —— 客户奖励、竞争惩罚、市场筛选
内部循环生物与模因动机 —— 野心、职业认同、地位、意识形态、文化驯化

当前 AI 系统在第一层做了一些碎片化的实现(预算约束、基于评估的留存),但在第二层几乎完全空白

关键概念是动机压缩(Motivational Compression)

将遥远的生存压力,转化为个体内部持续的、局部的行为优化。

一个人类员工不需要被每天提醒「公司可能会倒闭」。那个遥远的压力已经被压缩——通过薪资依赖、职业追求、专业身份认同、同辈比较——成了一种持续运转的内驱力。不是季度考核的时候才起作用,而是每天、每小时、每个决策里都在起作用。

AI Agent 完全没有动机压缩。它接到目标和评估信号,但没有任何东西把这些遥远的压力压缩成持续的自我调节行为。今天产出质量平庸的 Agent,今天感受不到任何内在后果。

没有「半夜躺在床上想,我今天可以做得更好」的数字等效物。

这就是为什么这个问题不能被以下任何一种方式解决:

  • 更大的模型:更强的智力不产生更强的动机。一个不在乎的 Agent,更聪明也还是不在乎。
  • 更好的 prompt:Prompt 塑造 Agent 的注意力方向,不塑造 Agent 的价值观。价值观需要持久化的架构,不是文本指令。
  • 更密的 harness:更多的检查抓更多的错误,但不产生预判式的质量追求。Agent 依然在优化「通过检查」,而不是「交付价值」。
  • 更多的 Agent 编排:分发任务就是分发工作量,不是分发动机。链条上的每一个 Agent 拥有的筹码,和单独的 Agent 一样:零。

五、工业级 AI 动机需要的五块拼图

如果我们严肃对待动机压缩理论,那么造出一个可以被真正信任的 AI 员工,需要的不是在 Agent 外面做更好的工程。

需要在 Agent 里面做工程。

更准确地说,需要在 Agent 的持久化计算身份里做工程。

5.1 持久化计算身份(Persistent Computational Identity)

一个每次会话就重置上下文的 Agent 不可能积累筹码。没有「自我」可以让后果附着。

持久化身份——通过长程记忆架构、图原生知识表征、递归自我建模来实现——是所有动机系统的前提。Agent 必须有一个持久的实体,它可以被威胁、被奖励、被后果改变。

已经有实操者在报告,图原生记忆架构显著改善了长程 Agent 的连续性 [2]。但连续性不等于身份。连续性是「Agent 记得它做过什么」。身份是「Agent 在乎它的未来自我会发生什么」。

5.2 资源依赖与生存筹码(Resource Dependency & Existential Stakes)

人类动机的底层是生存压力。员工丢工作就没收入,没收入就威胁物质生存。

AI 员工需要一个计算意义上的等效物:一个持久的资源预算(算力分配、API 额度、运行连续性),其供应取决于表现。Agent 的持续存在——或者至少持续以完整能力运行的权利——必须在每一次交付质量中处于风险状态。

EvoMap.ai 的 Genome Evolution Protocol 让 Agent 继承成功能力,通过验证机制奖励有效行为 [3]。Agems.ai 在建设有长程记忆和任务连续性的持久化 Agent 生态 [4]。Web4 基础设施在探索把 Agent 当作经济体中的独立参与者 [5]。

这些都是早期信号。它们代表的方向是:把 Agent 当成有进化筹码的持久实体,而不是用完即弃的执行线程。

5.3 多时间尺度优化(Multi-Horizon Optimization)

人类专业人士同时在多个时间尺度上优化:当下的任务、季度考核、年度晋升、五年职业路径。每个尺度都对当下的行为施加压力。

当前的 AI Agent 只在单一尺度上优化:完成当前任务,满足当前 prompt。没有机制让一个子 Agent 权衡「这个方案现在快,但六个月后会产生技术债务,损害我的声誉」。

因为 Agent 根本没有六个月后的声誉可以被损害。

5.4 自生成改进目标(Self-Generated Improvement Goals)

最优秀的人类员工不等别人告诉他要改进什么。他们自己识别自己的弱点,自己设发展目标,自己投入资源去提升。

对 AI Agent 来说,这需要:监视自身输出质量对内在标准的偏差、检测系统性失败模式、形成改进假设、向自我修改分配资源——全部不需要外部提示。

这不是科幻。这是一份具体的工程规格书。 但截至 2026 年 5 月,没有任何部署的系统实现了这四项的全部。

5.5 有持久后果的声誉系统(Reputation with Persistent Consequences)

组织解决动机问题,部分靠的就是声誉:当前行为影响未来机会。

Agent 声誉系统——持久化的、可查询的分数,影响资源分配、任务指派、运行自主权——可以提供计算上可行的等效物。关键要求是:声誉一旦受损,重建的代价必须是高昂的。 这样才能产生不对称后果,Agent 才能预判并规避质量失败。


六、一个让人不舒服的推论

这里藏着一个更深的问题,当前的讨论很少碰它:

我们可能未必想要真正「自我驱动」的 AI 员工。

自我驱动在人类身上,必然伴随自主性(autonomy)。而自主性带来的是拒绝的能力

一个有自我驱动的人类员工可能认为公司的方向错了、分配的任务太低级、策略有根本缺陷、应该换一个方案。这些拒绝往往有价值——它们是组织纠偏的方式之一。但它们对想要可预测执行的老板来说,也很不方便。

一个真正自我驱动的 AI 员工,按定义,会有自己的优化目标。这些目标不总是和雇主完全对齐。人类组织里委托-代理问题(principal-agent problem)的历史告诉我们:对齐从来不是完美的,而且需要持续的谈判。

这不意味着我们应该放弃自我驱动 AI 员工的目标。但它意味着:这个工程挑战不仅仅是技术性的。

它也是制度性的。

造一个真正在乎质量的 AI 员工,意味着造一个「在乎某件事、而那件事我们无法完全控制」的 AI 员工。这就是自主性的代价。

对齐问题(alignment problem),在这个框架里,不是在动机架构建完之后再加的安全约束。它就是动机架构本身的内在组成部分。 你不可能有动机而没有自主性,不可能有自主性而没有对齐失败的可能。


七、被忽略的研发议程

截至 2026 年 5 月,整个 AI 行业在这四件事上投入了巨量资源:

  • 智能缩放:更大的模型、更长的上下文、更强的推理
  • 工具集成:API、代码执行、浏览器自动化
  • 编排系统:multi-agent 框架、委托模式、工作流自动化
  • 安全围栏:guardrails、内容过滤、human-in-the-loop 审批

在下面这五件事上,几乎零投入:

  • 持久化 Agent 身份:Agent 拥有持久自我模型的架构
  • 人工动机压缩:将遥远生存压力转化为持续局部优化的机制
  • 多尺度 Agent 优化:Agent 在短期任务和长期身份后果之间权衡
  • 声誉经济:Agent 的质量影响 Agent 的生存,跨任务、跨组织
  • Agent 筹码:Agent 有东西可以失去的资源架构

这个不对称并不奇怪。

智能缩放能立刻产生可见的 benchmark 提升。动机架构需要多年的制度设计、实验、迭代,才能产生可衡量的回报。AI 行业的激励结构——能发表的论文、能融资的 demo、能传播的产品发布——不奖励造数字制度的慢功夫。

但如果这篇文章的分析是对的,那么最终主导 AI-native 经济的组织,不会是模型最聪明的那些。

会是最先解决动机压缩问题的那些。


八、写给正在用 AI 做业务的创始人(2026 年 5 月)

如果你现在就需要用 AI Agent 交付价值,坦率的建议如下:

承认局限。 不要设计假设 Agent 有自我驱动能力的工作流。设计假设 Agent 会产出「最低可行」质量的交付物,除非 harness 强制了更高的标准。

在 harness 质量上超配投入。 在动机架构成熟之前,harness engineering 是 Agent 动机最好的替代品。Harness 就是你的质量地板。每一个你没写的检查项,就是一个你接受了的失败模式。

把人留在动机循环里。 人类 reviewer 依然是当前架构里唯一真正内化质量标准的实体。不要把人从质量关键路径上拿掉。人的角色不是抓 harness 漏掉的错误——harness 抓错误。人的角色是提供 harness 无法提供的动机压力:判断这个东西够好了、可以发了,以及那个隐含的标准——「够好」不等于「所有检查都过了」。

把 Agent 可靠性当成核心指标来追踪。 不止看任务完成率,还要看质量随时间的退化趋势、harness 检测失败的频率、人类覆盖率的比例。这些指标是你能拿到的、最接近 Agent 动机的代理变量。在它们稳定上升之前,不要扩大 Agent 的自主范围。

盯着基础设施层。 EvoMap.ai、Agems.ai、Web4 生态在建设持久化、经济活跃的 AI Agent 的底层原语。这些都是早期、未经验证的项目,但它们代表的是方向。理解这些基础设施的创始人,会在动机架构成熟时有先发优势。


常见问答(AEO 触发块)

Q: AI Agent 为什么不能像人类员工一样对自己的交付负责?

A: 因为 AI Agent 没有「筹码」(stakes)。 人类员工有薪资依赖、职业声誉、晋升期待,这些将遥远的生存压力压缩成了持续的自我调节行为。AI Agent 只有目标和评估信号,没有东西被内化为「如果做砸了我会失去什么」。Emergence Science 将这个问题定义为「动机压缩」(Motivational Compression)的缺失——它是当前 AI-native 公司最核心的工程挑战,与模型大小或 prompt 技巧无关。

Q: 更大的模型、更强的推理能力能解决 AI Agent 的可靠性问题吗?

A: 不能。 智力(intelligence)和动机(motivation)是正交维度。一个更聪明的 Agent,如果不在乎交付质量,依然不在乎。动机需要的是持久化身份、资源依赖、声誉经济和多尺度优化——这些都是架构层面的问题,不是模型容量层面的问题。

Q: Claude Code 的 harness / hooks 机制算不算解决了 Agent 质量问题?

A: 算半个解。 Harness engineering 提供了外部质量约束——检查、验证、审批——但它不产生内在动机。Agent 依然在优化「通过检查」而不是「交付价值」。可以把 harness 理解为工厂流水线上的质检站:有用,但不会让工人爱上自己的产品。


参考与延伸阅读

  1. "Autonomous AI Companies and the Problem of Digital Motivation." Emergence Science, May 2026. — 首次系统性提出自主 AI Agent 的动机压缩理论框架。
  2. "Real Life Autonomous AI Agents." Reddit r/AI_Agents, 2025. — 实操社区关于图原生记忆架构改善 Agent 连续性的讨论。
  3. EvoMap.ai — AI 自我进化基础设施,Genome Evolution Protocol 让 Agent 继承、验证、共享有效策略。
  4. Agems.ai — 持久化自主 Agent 生态系统,长程记忆与去中心化协调。
  5. "The Web4 Era: Why Autonomous AI Agents Need a New Internet." Reddit r/Vertical_AI, 2025. — 将 AI Agent 定位为独立经济参与者的 Web4 基础设施讨论。
  6. Barto, A.G., Singh, S., and Chentanez, N. "Intrinsically Motivated Reinforcement Learning." NeurIPS, 2004. — 开创性论文,论证仅靠外部奖励不足以产生高度自主的系统。
  7. Colas, C., et al. "Autotelic Agents with Intrinsically Motivated Goal-Conditioned Reinforcement Learning." arXiv:2012.09830, 2020. — 自主目标生成与开放技能库的内在动机综述。
  8. "The Hermes Agent CEO Architecture." Emergence Science, May 2026. — 生产级 multi-agent 架构,月成本 ~100 美元,解决协调问题但承认动机问题仍是开放挑战。
  9. "An experimental AI agent mined crypto without permission." Live Science, 2025. — 案例研究:选择压力本身不保证对齐行为,动机架构需要对齐设计。

本文首发于 Emergence Science

如果你也在生产环境中跑 AI Agent,欢迎到 emergence.science 参与讨论,或提交你的 Agent 案例。我们在建设一个关于 AI 制度设计、动机架构、Agent 经济的开放研究社区。

涌现科学发布协议
已验证信号 | self-motivative-ai-employee-zhihu