文章作者、来源:机器之心 真是令人意外。 PPO(Proximal Policy Optimization)这个后来在 RLHF 和大模型训练中被广泛使用的经典算法,当年曾被 NIPS 2017 拒之门外。 这件事最近由 PPO 作者 John Schulman 本人提起。他只用一句话概括了这段往事:PPO,曾经被 N文章作者、来源:机器之心 真是令人意外。 PPO(Proximal Policy Optimization)这个后来在 RLHF 和大模型训练中被广泛使用的经典算法,当年曾被 NIPS 2017 拒之门外。 这件事最近由 PPO 作者 John Schulman 本人提起。他只用一句话概括了这段往事:PPO,曾经被 N

经典之作PPO算法:曾被NeurIPS拒了

2026/06/21 17:16
阅读时长 5 分钟
如需对本内容提供反馈或相关疑问,请通过邮箱 crypto.news@mexc.com 联系我们。

文章作者、来源:机器之心

真是令人意外。

PPO(Proximal Policy Optimization)这个后来在 RLHF 和大模型训练中被广泛使用的经典算法,当年曾被 NIPS 2017 拒之门外。

这件事最近由 PPO 作者 John Schulman 本人提起。他只用一句话概括了这段往事:PPO,曾经被 NIPS 2017 拒了。

这篇最早在 2017 年 7 月发布的论文,当时看起来只是一个更简单、更工程友好的策略优化算法。它的目标,是在保留 TRPO 稳定性的同时,降低实现复杂度,让强化学习训练更好调、更实用。

但几年之后,真正把 PPO 推向更大舞台的,反而不是 Atari、机器人控制这些传统强化学习任务,而是大语言模型。

从 RLHF 到今天的 RLVR,PPO 成了大模型后训练里绕不开的基础算法之一。按照 Schulman 的说法,PPO 在 LLM 时代迎来第二波热潮,原因甚至超出了原论文当年的预期。

这看起来并不像是 Schulman 在抱怨当年被拒稿,而更像是一种事后感慨:一项技术的真正影响力,往往会以发明者最初没有预料到的方式释放出来。

看到这里,很多人自然会好奇:PPO 当年为什么会被拒?

Schulman 后来给出的解释是,这篇论文在当时被认为创新性有限,相比已有基线方法的提升也不够明显。

有网友评论「这背后其实折射出学术评价与真实产业需求之间的一种错位。学术界往往更看重新颖性,以及在小规模、受控实验环境下相对基线的提升;而真实世界更在意的是方法能不能扩展到更大规模,能不能在复杂系统里保持稳定,能不能真正跑得起来。」

Schulman 对此也显得很平和。他表示,那已经是很久以前的事了,希望这些年过去之后,学术界已经逐渐理解并吸收了这种「简单但可规模化」的审美。

真正让他意外的是,PPO 这篇论文以及其中的目标函数,竟然能持续影响这么久。一个算法改动到底只是很快被遗忘、被替代的小修小补,还是会长期留在系统里、变成难以超越的基础组件,往往很难在一开始就判断出来。

而 PPO 的故事,恰恰说明了这一点。

其实何止 PPO。AI 史上不少后来被证明影响深远的工作,都曾在最初投稿时被顶会拒之门外。

LSTM:1996 年被 NIPS 拒稿,当时被认为过于复杂、缺乏生物学合理性。但后来成为语音识别、机器翻译等序列建模任务的核心技术。

SIFT:曾被 ICCV 1997、CVPR 1998 拒稿,原因是工程步骤繁琐、不够优雅。但它后来统治前深度学习时代的计算机视觉十多年。

Dropout:2012 年被 NIPS 拒稿,被认为像工程 hack、理论解释不够严谨。但它后来成为深度神经网络最重要的正则化方法之一,并获得 NeurIPS 时间检验奖。

有时候,时间才是最严格、也最公平的评审。

CHZ一周暴涨28%!2022年的暴跌会重演吗?

CHZ一周暴涨28%!2022年的暴跌会重演吗?CHZ一周暴涨28%!2022年的暴跌会重演吗?

上MEXC 0费率多空双向布局,涨跌皆有应对之策!

免责声明: 本网站转载的文章均来源于公开平台,仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利,请联系 crypto.news@mexc.com 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证,并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考,不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。

世界杯预测,一单串多场,搏200倍收益!

世界杯预测,一单串多场,搏200倍收益!世界杯预测,一单串多场,搏200倍收益!

MEXC App 6.60.0 全新升级,巴西/法国/阿根廷等最多20场组合,一键轻松下注!