加州大学伯克利分校牵头、联合250余位行业专家组成研究团队,提出AI Agent评测基准Agents' Last Exam(ALE)。该基准包含1490个真实专业任务,覆盖制造、法律、医疗、视觉媒体等领域,用来衡量AI在长期、具有经济价值的真实工作流程中的表现。研究结果显示,当前主流模型在传统benchmark上虽能拿加州大学伯克利分校牵头、联合250余位行业专家组成研究团队,提出AI Agent评测基准Agents' Last Exam(ALE)。该基准包含1490个真实专业任务,覆盖制造、法律、医疗、视觉媒体等领域,用来衡量AI在长期、具有经济价值的真实工作流程中的表现。研究结果显示,当前主流模型在传统benchmark上虽能拿

“Agent的最后一场考试”来了:最强模型得分率仅8.6%,Claude Code直接挂零

2026/06/10 19:18
阅读时长 8 分钟
如需对本内容提供反馈或相关疑问,请通过邮箱 crypto.news@mexc.com 联系我们。

加州大学伯克利分校牵头、联合250余位行业专家组成研究团队,提出AI Agent评测基准Agents' Last Exam(ALE)。该基准包含1490个真实专业任务,覆盖制造、法律、医疗、视觉媒体等领域,用来衡量AI在长期、具有经济价值的真实工作流程中的表现。研究结果显示,当前主流模型在传统benchmark上虽能拿高分,但在ALE最难层级中平均完整通过率仅为2.6%,最好配置也只有8.6%。研究团队指出,当前系统的主要瓶颈在于领域知识而非执行能力,模型选择对结果的影响约是agent框架的三倍。ALE作为持续更新的基准,未来将扩展到新的工作流和行业。

文章作者、来源:36Kr

由加州大学伯克利分校牵头、联合250余位行业专家组成的研究团队提出了新的AI Agent评测基准ALE,用以解决现有基准无法持续衡量AI在真实、长流程、具经济价值工作中表现的问题。

论文链接:https://arxiv.org/abs/2606.05405

“最后一场考试”考什么?

Agents' Last Exam(ALE)是一个由250余位行业专家共同开发的AI Agent评测基准,用来衡量AI在长期、具有经济价值的真实工作流程中的表现。

为了测试AI能不能像人一样在电脑上完成真实工作,研究团队收集了1490个任务,覆盖制造、法律、医疗、视觉媒体等多个领域。这些任务都来自真实从业者的日常工作:有的要求AI画出3D模型,有的则要它在达芬奇里完成绿幕抠像和视频合成。

图|ALE分类体系下1490个任务实例的分布情况

相比常见的问答或短流程基准,这类任务对Agent提出了更高的要求。研究团队把这类Agent称为Generalist Computer-Use Agent(GCUA):它不仅要会操作界面,还得会跑命令行、处理文件、写代码、调用工具,完成一整套工作流程。

图|典型的GCUA框架结构。

为了测试这些对象的真实能力,ALE提供了一整套可以执行和评分的任务环境。具体执行时,任务脚本会负责加载任务、准备环境和最后评分,Agent则根据任务描述自己观察环境选择动作持续执行。任务结束后,脚本会直接检查结果,93.2%的任务都能自动判分,无需人工打分

图|任务构建流程。

考试成绩怎么样?

研究团队指出,如果只看最难一档的任务,当前表现最好的配置是Codex + GPT-5.5,完整通过率也只有8.6%;研究团队给出的主流系统平均完整通过率则是2.6%

研究团队列举了几个具体的失败案例。在音乐转谱任务中,需要提交总谱PDF、MIDI和界面截图,但AI只导出了MIDI文件,最终拿了0分。注塑仿真任务中,AI在Moldex3D中完成了仿真并导出结果,但没能稳定提取关键数值,最终得分为0.4762。在绿幕合成任务中,AI虽然导出了视频,但结果没有满足参考要求,因此同样得分0分

图|ALE的主要结果。

图|实验分析概览。

研究团队随后对失败原因进行了分类。以Claude Code + Opus 4.7为例,31%属于理解问题,47%属于方法问题,22%属于执行问题,理解和方法问题合计约占八成。研究团队据此指出,当前系统的主要瓶颈在于领域知识,而不是执行能力

研究团队还比较了模型和agent框架的影响。结果显示,更换模型带来的结果差异,要明显大于更换agent框架。固定agent框架、只更换模型时,整体通过率最高和最低之间相差18个百分点;固定模型、只更换agent框架时,这个差距大约只有5到6个百分点。模型选择带来的影响范围,大约是agent框架的三倍。

不足和未来方向

研究团队也指出,ALE以SOC 2018为职业分类骨架,覆盖的主要是软件型、数字化的专业工作。现阶段,任务也主要运行在Linux或Windows虚拟机中。

此外,ALE在不同领域上的覆盖也并不均衡。有些方向任务覆盖较多,有些方向则很少。比如,能源与核工程只有4个任务实例,城市与空间规划有5个,法律领域是15个。公开集目前只占完整任务池的一部分。研究团队做过一次检验:在Claude Code + Opus 4.7上,公开子集和完整任务池在各领域通过率上的相关系数只有0.89。

不过,研究团队认为,ALE是一个持续更新的基准。未来,任务池会继续扩展到新的工作流和新的行业,目前保留在私有池中的任务,也会定期轮换进入公开集。

市场机遇
Project Ailey 图标
Project Ailey实时价格 (ALE)
$0,2581
$0,2581$0,2581
-0,15%
USD
Project Ailey (ALE) 实时价格图表

完成预测交易,解锁大奖资格

完成预测交易,解锁大奖资格完成预测交易,解锁大奖资格

奖池高达 $500,000,100% 中奖!

免责声明: 本网站转载的文章均来源于公开平台,仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利,请联系 crypto.news@mexc.com 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证,并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考,不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。

MEXC×持牌券商:真实美股已上线

MEXC×持牌券商:真实美股已上线MEXC×持牌券商:真实美股已上线

用USDT买入真实美股,100%持股享分红权益,上线期间0费率