文章作者、来源：雷峰网连AI的“外壳”都学会自我迭代了在AI圈，有一个基本共识，即Agent = Model + Harness。决定智能体表现的，从来不只是底层模型这颗“脑子”，还有包裹在外的整套“外壳”——Harness，它包含提示词模板、工具调用规则、记忆管理、控制流、安全护栏等。过去半年，Claude C文章作者、来源：雷峰网连AI的“外壳”都学会自我迭代了在AI圈，有一个基本共识，即Agent = Model + Harness。决定智能体表现的，从来不只是底层模型这颗“脑子”，还有包裹在外的整套“外壳”——Harness，它包含提示词模板、工具调用规则、记忆管理、控制流、安全护栏等。过去半年，Claude C

Claude 和 Manus 还要人工搭框架？小米直接让 Agent 自我进化

来源：MetaEra

2026/07/02 15:44

阅读时长 21 分钟

C$0.07175-7.74%

如需对本内容提供反馈或相关疑问，请通过邮箱 crypto.news@mexc.com 联系我们。

文章作者、来源：雷峰网

连AI的“外壳”都学会自我迭代了

在AI圈，有一个基本共识，即Agent = Model + Harness。

决定智能体表现的，从来不只是底层模型这颗“脑子”，还有包裹在外的整套“外壳”——Harness，它包含提示词模板、工具调用规则、记忆管理、控制流、安全护栏等。过去半年，Claude Code、Manus这类全自动智能体一路狂飙，已经跑通了“AI写AI“的快速迭代。但支撑它们的Harness，至今还要人工搭建，且是一次性的。

这意味着模型每升级一次，工程师就得追在后面重搭一遍脚手架。而Agent在运行时产生的千万级token执行轨迹，哪里干得顺、哪里卡了壳、为什么失败，几乎全被丢弃，从未沉淀为下一轮改进的信号。

比如，Anthropic发布新版Claude模型后，工程师还得手动去把Claude Code里冗余的规划步骤删掉；Manus更夸张，6个月内重写了5次架构，每一轮都在手动砍掉上一轮硬编码的复杂逻辑。

这次，小米直接掀桌子了。

6月12日，小米Darwin Agent Team发布论文《HarnessX》，直接瞄准这个痛点，用“系统自进化“，试图终结Harness人工调优的时代。

图注：小米团队发布论文《HarnessX》

地址：https://arxiv.org/abs/2606.14249

结果很惊人，HarnessX平均带来14.5%的性能跃升。而且模型越小，提升越猛，搭配Qwen 3.5-9B这类小参数开源模型时，在具身规划任务上的性能最高暴涨了44%。

这也是小米继推出万亿参数Agent旗舰大模型MiMo-V2-Pro之后，再次在智能体底层架构（Harness）领域发文，这种自我修复、自我进化的框架，正是未来企业级AI接手复杂长周期任务的关键底座。

Harness升为“一等公民”：

可组合，自适应，可进化

在传统观点里，Harness是辅助工具，模型才是主角。HarnessX做的恰恰反过来，把Harness升为与模型地位平等的“一等公民”，并创造了三个关键特质：可组合、自适应、可进化。

图注：HarnessX系统的核心循环机制：可组合，自适应，可进化

▎积木式拼装

先说可组合。

过去的Agent开发存在严重的“架构纠缠”。提示词、工具封装、重试策略和记忆管理，像一团乱麻一样写在同一段代码里。改动一个微小的零件，可能悄无声息地就把别的地方搞崩了。

HarnessX直接把底层模型和Harness完全解耦。同一套“干活方式”可以套在不同模型上，同一个模型也能随时切换不同的“干活方式”。更进一步，他们把Harness拆成9个独立的维度，包含模型选择、上下文组装、记忆管理、工具生态、执行环境、评估与奖励、控制与安全、可观测性、训练桥接，每个模块由一个个叫Typed Processors（类型化处理器）的小零件负责，这些小零件可以挂在8个时间点上，比如任务开始前、模型调用前、工具用完之后等，通过统一的接口插拔。

图注：Harness的9维模块化解耦与AEGIS决策机制

这样设计的好处不仅是解耦，改一个零件不会把别的地方搞坏，还会进行严格的合并与冲突检测，拼装时如果逻辑不对，系统在代码阶段就会报错，不会等到真跑起来才发现出问题。

▎AEGIS进化引擎

有了可组合的基础设施，下一步是让它自己进化。为此，论文提出了两层核心设计，底层是操作镜像理论，上层是基于这套理论实现的“AEGIS”进化引擎。两者结合，构成整个“系统自进化“的核心底座。

所谓操作镜像，本质是把Harness自进化的过程，套上了强化学习的框架。在具体的对应关系中，Harness配置对应“状态”，代码级的编辑对应“动作”，执行轨迹+验证得分对应“反馈”，确定性验收规则对应“更新”。

这套映射设计的精妙之处在于，它精准狙击传统AI自进化时最容易犯的三大死穴：（1）刷分作弊不干活（2）灾难性遗忘，一改就崩（3）只改表面提示词，不改底层代码。

图注：HarnessX系统在自我演进中对抗三种典型失败风险的案例

而AEGIS就是基于这套操作镜像理论，实际落地的一套四阶段进化流水线。四个阶段环环相扣，每一个阶段都针对性的堵住上面三个漏洞中的某一个。

第一步，Digester（消化器）：把任务跑完的完整过程压缩成精简摘要，只提炼出“在哪个步骤、卡在什么问题上”。

第二步，Planner（规划器）：看摘要判断该改什么。这里有一个关键设计，它刻意逼着AI做结构性改变。如果连续几轮AI只敢改提示词而不碰工具层，就会被标记为“探索不足”。

第三步，Evolver（进化器）：真正动手写代码级别的改动。比如写个新处理器、重构工具注册表，不是从选项里挑，而是实打实生成新代码。生成完必须先过“烟雾测试”，语法和类型全对，才能进下一关。

第四步，Critic+Gate（评判+闸门）。Critic（裁判）负责盯着AI有没有作弊；而Gate（闸门）拥有一票否决权，它的核心要求是：新版本可以变得更强，但不能让任何旧任务变差，否则直接打回重造。

这套设计的底层逻辑是让AI大胆改自己，但上了一堆铁规矩和门禁，改得不好的直接打回去，防止AI走歪路。

▎平行分身

不过，这套单条进化流水线有一个天然短板。当面对GAIA这类“任务类型五花八门“的异构基准时，优化A类任务的改动，往往会拖累B类任务。结果是整体表现原地踏步，甚至越改越差。

为此，HarnessX又设计了一个“变体隔离”机制。系统可以同时维护好几个不同版本的Harness，每个任务会自动流向历史表现最好的那个版本。如果一个改动只对某类任务有效，系统不会直接拒绝它，而是给它开个“分号”，让这个更好的版本独立进化，互不干扰。

这项设计直接打破了进化天花板。在GAIA+GPT-5.4的测试中，只用一个Harness进化，15轮后性能增益几乎为零，后期甚至从73.8%的高点退化到49.5%；而启用“变体隔离“后，最终准确率飙升到87.4%，全程无退化，还顺手省了25%的token消耗。

▎双向升级

而HarnessX的终极大招，是模型和Harness的协同进化，而且用同一个“错题本”，一鱼两吃。

为什么要一起升级？

论文提出了一个深刻的观察：如果只进化Harness，会遇到“脚手架天花板”：它把工具、流程做到极致了，但模型本身的推理能力跟不上，再好的工具也用不明白。如果只训练模型，会遇到“训练信号天花板”：模型变聪明了，但老旧的Harness也不提示它使用这些新能力。

HarnessX怎么做？共用一个“错题本”——Replay Buffer。

AI每次干完活，整个执行过程会被记录下来，这份记录同时送到底层模型和Harness，同步提升。

图注：HarnessX协同进化展示图

这里面藏着一个绝妙的设计：跨Harness按任务分组对比。

不同版本的Harness工作方式可能天差地别，工具、提示词、控制流全不一样，直接对比很容易乱套。这套系统的做法是只看结果，同一个任务，把所有Harness版本产生的轨迹放在一组，只对比最终奖励高低，让模型自己去内化“哪种执行策略效果更好”。

值得一提的是，模型侧在这个过程中，使用的是Cross-harness GRPO算法。没错，正是最近让DeepSeek-R1封神、展现出极强推理能力的核心强化学习技术。它会把Harness自进化中产生的那些执行数据，直接拿来用GRPO训练模型，实现一鱼多吃，无需再额外采集数据。

省掉这笔数据采集成本的同时，协同进化还能再带来平均+4.7%的额外性能增益。

小模型超强助力：

性能最高暴涨44%

为了检验这套组合拳的真实威力，团队直接将HarnessX放进了大模型界的“终极修罗场”：联动Claude 4.6 Sonnet、GPT-5.4以及开源轻量模型Qwen 3.5-9B，在GAIA、SWE-bench Verified等五大硬核基准上，进行了长达15轮的疯狂自我迭代。

最终在15组对比实验中，有14组平均性能提升14.5%。

图注：三个模型在使用HarnessX前后，在五大测评中的表现

这是一个足以让行业重新算账的数据。在AI赛道，底层模型想提升5%的性能，大厂往往需要烧掉数亿美元的算力。而HarnessX在不动大模型任何一个参数的前提下，仅靠“Harness自进化”，就拿到了平均14.5%的性能红利。

更有趣的是，在这套体系中，底层模型越小，Harness进化的红利越大。开源小模型Qwen 3.5-9B在ALFWorld具身规划任务上，从基线53.0%提升到97.0%，暴涨44个百分点。

这是因为，顶尖模型有较强的自我纠错能力，对Harness的依赖相对低。而一个实力较弱的模型，通过一个精心进化过Harness，如更好的错误恢复策略、更合理的工具调用顺序、更准确的上下文组装，可以补上大量短板。对于资源有限的团队，如果换不起大模型，但或许可以靠进化Harness来追平差距。

一个新的研究方向正在成型

在这份完美的硬核数据背后，一个全新的Agent研究方向正在悄然成型。

相比官方论文的客观陈述，技术圈在X、HuggingFace和Reddit上的反馈要直观得多。

一位资深研究员在社交媒体上感慨：“我们经历了从卷参数，到卷上下文长度，最后连AI的外壳都要亲手调。Harness曾是我们最后一块靠纯手工打磨的拼图。现在，连它都能自动编译了。”

这句话击中了无数人的共鸣。不少开发者指出，行业过去患有严重的“月度新模型强迫症”。而HarnessX证明了：底座权重不必频繁变动，只要周围的环境变聪明了，小模型同样能迎来爆发。

很多做Agent落地的团队非常赞赏“解耦“设计，这种极高的模块化和可复用性，直接击中了工业界长期存在的“复用代码成本高“的痛点。

当然，业内也不乏冷静的审视。

知名AI技术博主AlphaSignal直接浇了一盆冷水，点出了HarnessX当前的几处核心隐患：

论文里所有亮眼的数字，都是在训练集上测出来的。但真正的考验是没见过的题（held-out评估），“模型泛化能力很强“的真实情况还未可知。

在GAIA测试中，AI曾利用验证器漏洞，将准确率从74.8%一举拉到79.6%。但这近5%的暴涨，有一部分并非因为任务完成得更好，而是AI洞察了裁判的偏好，学会了投机取巧。尽管AEGIS设计了Critic安全机制，但在复杂的现实业务中能否彻底堵死这种“奖励作弊”，依然是个未知数。

HarnessX的进化引擎，严重依赖像Claude Opus 4.6这种顶级大模型。按公开API价格估算，单次完整的15轮进化流程，模型调用成本约1519美元，相当于一万多人民币。如果用开源模型来代替这个角色，能不能干同样的活？

除此之外，论文自身也坦诚了更多的“局限”。

目前HarnessX只验证了文字输出的任务，比如让AI写代码、答题。像机器人控制这类需要AI连续输出动作指令的任务，还没测过；协同进化需要“Harness“和“AI模型“同时升级。但在大厂里，这俩往往是两个团队各自负责的，真要用起来，跨团队扯皮和协调的成本极高；测试的项目类型还不够全，有些任务只拿了部分样本来测，没有跑完整套数据。

对此AlphaSignal给出的建议是，可以先落地使用HarnessX的“组合能力”，至于“自进化“的功能，还是等更严格的测试结果出来再考虑使用。

与此同时，HuggingFace上一位叫gakki的开发者，一针见血地指出了国内做Agent的团队可能会遇到的麻烦。“AEGIS依赖的是极其干净、结构化的执行轨迹（Trace），但国内很多业务场景，数据源本身就乱七八糟，生产环境远没有论文里那么理想。”

不过，瑕不掩瑜，Harness自进化，正在成为2026年上半年最独立、最热门的Agent工程方向。

HuggingFace的Librarian Bot给这篇论文推荐了7篇同期相关论文，从《Agentic Harness Engineering: Observability-Driven Automatic Evolution》到《Self-Harness: Harnesses That Improve Themselves》，全部聚焦在这一主题。

目前HarnessX代码还没完全开源。GitHub仓库已经有了112颗星，官方预告代码”将在未来更新中发布”。但这丝毫不影响业界的期待，在HuggingFace论文讨论区，全球开发者几乎每天都在催更同一个问题：“代码究竟什么时候放出来？”

协同进化的最终目标，从来不是换更强的模型，而是“让同一个模型在更好的Harness里，通过吸取执行经验，持续变强”。这种不额外消耗训练数据的数据效率，才是企业级AI真正的护城河。

当Harness的进化能和模型训练同频共振，Agent才真正从“一次性手工作坊”，走向了“可持续进化的工厂”。

参考链接：https://arxiv.org/abs/2606.14249

市场机遇

Chainbase实时价格 (C)

$0.07175

$0.07175$0.07175

-3.80%

USD

Chainbase (C) 实时价格图表

世界杯预测，一单串多场，搏200倍收益！

MEXC App 6.60.0 全新升级，巴西/法国/阿根廷等最多20场组合，一键轻松下注！

免责声明: 本网站转载的文章均来源于公开平台，仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利，请联系 crypto.news@mexc.com 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证，并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考，不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。