文章作者、来源:雷峰网 连AI的“外壳”都学会自我迭代了 在AI圈,有一个基本共识,即Agent = Model + Harness。 决定智能体表现的,从来不只是底层模型这颗“脑子”,还有包裹在外的整套“外壳”——Harness,它包含提示词模板、工具调用规则、记忆管理、控制流、安全护栏等。过去半年,Claude C文章作者、来源:雷峰网 连AI的“外壳”都学会自我迭代了 在AI圈,有一个基本共识,即Agent = Model + Harness。 决定智能体表现的,从来不只是底层模型这颗“脑子”,还有包裹在外的整套“外壳”——Harness,它包含提示词模板、工具调用规则、记忆管理、控制流、安全护栏等。过去半年,Claude C

Claude 和 Manus 还要人工搭框架?小米直接让 Agent 自我进化

2026/07/02 15:44
阅读时长 21 分钟
如需对本内容提供反馈或相关疑问,请通过邮箱 crypto.news@mexc.com 联系我们。

文章作者、来源:雷峰网

连AI的“外壳”都学会自我迭代了

在AI圈,有一个基本共识,即Agent = Model + Harness。

决定智能体表现的,从来不只是底层模型这颗“脑子”,还有包裹在外的整套“外壳”——Harness,它包含提示词模板、工具调用规则、记忆管理、控制流、安全护栏等。过去半年,Claude Code、Manus这类全自动智能体一路狂飙,已经跑通了“AI写AI“的快速迭代。但支撑它们的Harness,至今还要人工搭建,且是一次性的。

这意味着模型每升级一次,工程师就得追在后面重搭一遍脚手架。而Agent在运行时产生的千万级token执行轨迹,哪里干得顺、哪里卡了壳、为什么失败,几乎全被丢弃,从未沉淀为下一轮改进的信号。

比如,Anthropic发布新版Claude模型后,工程师还得手动去把Claude Code里冗余的规划步骤删掉;Manus更夸张,6个月内重写了5次架构,每一轮都在手动砍掉上一轮硬编码的复杂逻辑。

这次,小米直接掀桌子了。

6月12日,小米Darwin Agent Team发布论文《HarnessX》,直接瞄准这个痛点,用“系统自进化“,试图终结Harness人工调优的时代。

图注:小米团队发布论文《HarnessX》

地址:https://arxiv.org/abs/2606.14249

结果很惊人,HarnessX平均带来14.5%的性能跃升。而且模型越小,提升越猛,搭配Qwen 3.5-9B这类小参数开源模型时,在具身规划任务上的性能最高暴涨了44%。

这也是小米继推出万亿参数Agent旗舰大模型MiMo-V2-Pro之后,再次在智能体底层架构(Harness)领域发文,这种自我修复、自我进化的框架,正是未来企业级AI接手复杂长周期任务的关键底座。

01

Harness升为“一等公民”:

可组合,自适应,可进化

在传统观点里,Harness是辅助工具,模型才是主角。HarnessX做的恰恰反过来,把Harness升为与模型地位平等的“一等公民”,并创造了三个关键特质:可组合、自适应、可进化。

图注:HarnessX系统的核心循环机制:可组合,自适应,可进化

▎积木式拼装

先说可组合。

过去的Agent开发存在严重的“架构纠缠”。提示词、工具封装、重试策略和记忆管理,像一团乱麻一样写在同一段代码里。改动一个微小的零件,可能悄无声息地就把别的地方搞崩了。

HarnessX直接把底层模型和Harness完全解耦。同一套“干活方式”可以套在不同模型上,同一个模型也能随时切换不同的“干活方式”。更进一步,他们把Harness拆成9个独立的维度,包含模型选择、上下文组装、记忆管理、工具生态、执行环境、评估与奖励、控制与安全、可观测性、训练桥接,每个模块由一个个叫Typed Processors(类型化处理器)的小零件负责,这些小零件可以挂在8个时间点上,比如任务开始前、模型调用前、工具用完之后等,通过统一的接口插拔。

图注:Harness的9维模块化解耦与AEGIS决策机制

这样设计的好处不仅是解耦,改一个零件不会把别的地方搞坏,还会进行严格的合并与冲突检测,拼装时如果逻辑不对,系统在代码阶段就会报错,不会等到真跑起来才发现出问题。

▎AEGIS进化引擎

有了可组合的基础设施,下一步是让它自己进化。为此,论文提出了两层核心设计,底层是操作镜像理论,上层是基于这套理论实现的“AEGIS”进化引擎。两者结合,构成整个“系统自进化“的核心底座。

所谓操作镜像,本质是把Harness自进化的过程,套上了强化学习的框架。在具体的对应关系中,Harness配置对应“状态”,代码级的编辑对应“动作”,执行轨迹+验证得分对应“反馈”,确定性验收规则对应“更新”。

这套映射设计的精妙之处在于,它精准狙击传统AI自进化时最容易犯的三大死穴(1)刷分作弊不干活(2)灾难性遗忘,一改就崩(3)只改表面提示词,不改底层代码。

图注:HarnessX系统在自我演进中对抗三种典型失败风险的案例

而AEGIS就是基于这套操作镜像理论,实际落地的一套四阶段进化流水线。四个阶段环环相扣,每一个阶段都针对性的堵住上面三个漏洞中的某一个。

第一步,Digester(消化器):把任务跑完的完整过程压缩成精简摘要,只提炼出“在哪个步骤、卡在什么问题上”。

第二步,Planner(规划器):看摘要判断该改什么。这里有一个关键设计,它刻意逼着AI做结构性改变。如果连续几轮AI只敢改提示词而不碰工具层,就会被标记为“探索不足”。

第三步,Evolver(进化器):真正动手写代码级别的改动。比如写个新处理器、重构工具注册表,不是从选项里挑,而是实打实生成新代码。生成完必须先过“烟雾测试”,语法和类型全对,才能进下一关。

第四步,Critic+Gate(评判+闸门)。Critic(裁判)负责盯着AI有没有作弊;而Gate(闸门)拥有一票否决权,它的核心要求是:新版本可以变得更强,但不能让任何旧任务变差,否则直接打回重造。

这套设计的底层逻辑是让AI大胆改自己,但上了一堆铁规矩和门禁,改得不好的直接打回去,防止AI走歪路。

▎平行分身

不过,这套单条进化流水线有一个天然短板。当面对GAIA这类“任务类型五花八门“的异构基准时,优化A类任务的改动,往往会拖累B类任务。结果是整体表现原地踏步,甚至越改越差。

为此,HarnessX又设计了一个“变体隔离”机制。系统可以同时维护好几个不同版本的Harness,每个任务会自动流向历史表现最好的那个版本。如果一个改动只对某类任务有效,系统不会直接拒绝它,而是给它开个“分号”,让这个更好的版本独立进化,互不干扰。

这项设计直接打破了进化天花板。在GAIA+GPT-5.4的测试中,只用一个Harness进化,15轮后性能增益几乎为零,后期甚至从73.8%的高点退化到49.5%;而启用“变体隔离“后,最终准确率飙升到87.4%,全程无退化,还顺手省了25%的token消耗。

▎双向升级

而HarnessX的终极大招,是模型和Harness的协同进化,而且用同一个“错题本”,一鱼两吃。

为什么要一起升级?

论文提出了一个深刻的观察:如果只进化Harness,会遇到“脚手架天花板”:它把工具、流程做到极致了,但模型本身的推理能力跟不上,再好的工具也用不明白。如果只训练模型,会遇到“训练信号天花板”:模型变聪明了,但老旧的Harness也不提示它使用这些新能力。

HarnessX怎么做?共用一个“错题本”——Replay Buffer。

AI每次干完活,整个执行过程会被记录下来,这份记录同时送到底层模型和Harness,同步提升。

图注:HarnessX协同进化展示图

这里面藏着一个绝妙的设计:跨Harness按任务分组对比。

不同版本的Harness工作方式可能天差地别,工具、提示词、控制流全不一样,直接对比很容易乱套。这套系统的做法是只看结果,同一个任务,把所有Harness版本产生的轨迹放在一组,只对比最终奖励高低,让模型自己去内化“哪种执行策略效果更好”。

值得一提的是,模型侧在这个过程中,使用的是Cross-harness GRPO算法。没错,正是最近让DeepSeek-R1封神、展现出极强推理能力的核心强化学习技术。它会把Harness自进化中产生的那些执行数据,直接拿来用GRPO训练模型,实现一鱼多吃,无需再额外采集数据。

省掉这笔数据采集成本的同时,协同进化还能再带来平均+4.7%的额外性能增益。

02

小模型超强助力:

性能最高暴涨44%

为了检验这套组合拳的真实威力,团队直接将HarnessX放进了大模型界的“终极修罗场”:联动Claude 4.6 Sonnet、GPT-5.4以及开源轻量模型Qwen 3.5-9B,在GAIA、SWE-bench Verified等五大硬核基准上,进行了长达15轮的疯狂自我迭代。

最终在15组对比实验中,有14组平均性能提升14.5%。

图注:三个模型在使用HarnessX前后,在五大测评中的表现

这是一个足以让行业重新算账的数据。在AI赛道,底层模型想提升5%的性能,大厂往往需要烧掉数亿美元的算力。而HarnessX在不动大模型任何一个参数的前提下,仅靠“Harness自进化”,就拿到了平均14.5%的性能红利。

更有趣的是,在这套体系中,底层模型越小,Harness进化的红利越大。开源小模型Qwen 3.5-9B在ALFWorld具身规划任务上,从基线53.0%提升到97.0%,暴涨44个百分点。

这是因为,顶尖模型有较强的自我纠错能力,对Harness的依赖相对低。而一个实力较弱的模型,通过一个精心进化过Harness,如更好的错误恢复策略、更合理的工具调用顺序、更准确的上下文组装,可以补上大量短板。对于资源有限的团队,如果换不起大模型,但或许可以靠进化Harness来追平差距。

03

一个新的研究方向正在成型

在这份完美的硬核数据背后,一个全新的Agent研究方向正在悄然成型。

相比官方论文的客观陈述,技术圈在X、HuggingFace和Reddit上的反馈要直观得多。

一位资深研究员在社交媒体上感慨:“我们经历了从卷参数,到卷上下文长度,最后连AI的外壳都要亲手调。Harness曾是我们最后一块靠纯手工打磨的拼图。现在,连它都能自动编译了。”

这句话击中了无数人的共鸣。不少开发者指出,行业过去患有严重的“月度新模型强迫症”。而HarnessX证明了:底座权重不必频繁变动,只要周围的环境变聪明了,小模型同样能迎来爆发。

很多做Agent落地的团队非常赞赏“解耦“设计,这种极高的模块化和可复用性,直接击中了工业界长期存在的“复用代码成本高“的痛点。

当然,业内也不乏冷静的审视。

知名AI技术博主AlphaSignal直接浇了一盆冷水,点出了HarnessX当前的几处核心隐患:

论文里所有亮眼的数字,都是在训练集上测出来的。但真正的考验是没见过的题(held-out评估),“模型泛化能力很强“的真实情况还未可知。

在GAIA测试中,AI曾利用验证器漏洞,将准确率从74.8%一举拉到79.6%。但这近5%的暴涨,有一部分并非因为任务完成得更好,而是AI洞察了裁判的偏好,学会了投机取巧。尽管AEGIS设计了Critic安全机制,但在复杂的现实业务中能否彻底堵死这种“奖励作弊”,依然是个未知数。

HarnessX的进化引擎,严重依赖像Claude Opus 4.6这种顶级大模型。按公开API价格估算,单次完整的15轮进化流程,模型调用成本约1519美元,相当于一万多人民币。如果用开源模型来代替这个角色,能不能干同样的活?

除此之外,论文自身也坦诚了更多的“局限”。

目前HarnessX只验证了文字输出的任务,比如让AI写代码、答题。像机器人控制这类需要AI连续输出动作指令的任务,还没测过;协同进化需要“Harness“和“AI模型“同时升级。但在大厂里,这俩往往是两个团队各自负责的,真要用起来,跨团队扯皮和协调的成本极高;测试的项目类型还不够全,有些任务只拿了部分样本来测,没有跑完整套数据。

对此AlphaSignal给出的建议是,可以先落地使用HarnessX的“组合能力”,至于“自进化“的功能,还是等更严格的测试结果出来再考虑使用。

与此同时,HuggingFace上一位叫gakki的开发者,一针见血地指出了国内做Agent的团队可能会遇到的麻烦。“AEGIS依赖的是极其干净、结构化的执行轨迹(Trace),但国内很多业务场景,数据源本身就乱七八糟,生产环境远没有论文里那么理想。”

不过,瑕不掩瑜,Harness自进化,正在成为2026年上半年最独立、最热门的Agent工程方向。

HuggingFace的Librarian Bot给这篇论文推荐了7篇同期相关论文,从《Agentic Harness Engineering: Observability-Driven Automatic Evolution》到《Self-Harness: Harnesses That Improve Themselves》,全部聚焦在这一主题。

目前HarnessX代码还没完全开源。GitHub仓库已经有了112颗星,官方预告代码”将在未来更新中发布”。但这丝毫不影响业界的期待,在HuggingFace论文讨论区,全球开发者几乎每天都在催更同一个问题:“代码究竟什么时候放出来?”

协同进化的最终目标,从来不是换更强的模型,而是“让同一个模型在更好的Harness里,通过吸取执行经验,持续变强”。这种不额外消耗训练数据的数据效率,才是企业级AI真正的护城河。

当Harness的进化能和模型训练同频共振,Agent才真正从“一次性手工作坊”,走向了“可持续进化的工厂”。

参考链接:https://arxiv.org/abs/2606.14249

市场机遇
Chainbase 图标
Chainbase实时价格 (C)
$0.07175
$0.07175$0.07175
-3.80%
USD
Chainbase (C) 实时价格图表

世界杯预测,一单串多场,搏200倍收益!

世界杯预测,一单串多场,搏200倍收益!世界杯预测,一单串多场,搏200倍收益!

MEXC App 6.60.0 全新升级,巴西/法国/阿根廷等最多20场组合,一键轻松下注!

免责声明: 本网站转载的文章均来源于公开平台,仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利,请联系 crypto.news@mexc.com 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证,并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考,不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。

您可能也会喜欢

Meta卖AI算力,是认输还是破局?华尔街观点分裂

Meta卖AI算力,是认输还是破局?华尔街观点分裂

文章作者、来源:华尔街见闻 Meta探索出售闲置算力的计划,在华尔街引发截然不同的解读。这究竟是一家AI雄心壮志受挫后的务实退让,还是将巨额基础设施投资转化为新盈利来源的战略突破? 据报道,Meta正计划将旗下闲置计算资源对外出售。消息一出,Meta股价周三单日飙升9%,创下逾一年来最佳单日表现,为这只年内持续承压的股
分享
MetaEra2026/07/02 13:47
你以为在做AI,其实只是在堆垃圾

你以为在做AI,其实只是在堆垃圾

文章作者、来源:36Kr AI 从来不是遥不可及的玄学,也不是只有技术人才能玩转的工具。用 AI 解决文案、数据整理等高频痛点,就能轻松解锁生产力提升。 某制药公司花了一年时间、投入数千万,想用AI来辅助识别皮肤恶性肿瘤。 模型训练好了,准确率看起来也不错。但一到临床场景,问题就来了——医生发现,这个模型喜欢把带有"测
分享
MetaEra2026/07/02 11:39
BitMart 预测市场交易量环比增长超 1500%,事件驱动型交易成新增长点

BitMart 预测市场交易量环比增长超 1500%,事件驱动型交易成新增长点

文章作者、来源:BitMart 加密交易平台 BitMart 近日公布了其预测市场(Prediction Market)产品的上半年运营数据。数据显示,该产品自 2026 年 1 月完成首笔交易以来,已覆盖超过 10,000 个预测市场事件,6 月单月交易量较 5 月环比增长超过 1,500%,增长态势显著。 据介绍,
分享
MetaEra2026/07/02 16:33