2026-06-21 17:05:00
本文来自PRO会员通讯内容,文末关注「机器之心PRO会员」,查看更多专题解读。
过往大模型推理优化主要围绕语言推理链的结构化与搜索增强展开。但在网页交互、工具调用等动态任务中,推理对象已从静态文本转向随动作变化的环境状态,问题本质从语言生成扩展为环境中的决策。现有 CoT、ToT 等方法仍主要在文本空间内优化推理路径,并未对环境状态转移进行显式建模。世界模型的引入正是为了弥补这一缺口,通过建模动作与状态变化的映射关系,为 LLM-based Agent 提供环境预测能力,以支撑更稳定的决策过程。
目录
01. 从局部自动化到全供应链质变,AI 如何重构传统的劳动力与资本份额?
AGI 时代的稀缺性到底会如何重塑全球经济的底层逻辑?全供应链自动化为什么会让传统的劳动力与资本分配模型失效?...
世界模型如何帮助 Agent 解锁动态交互能力?
1、近年来,当 LLM 落地应用在网页操作、工具调用、代码运行、长时序任务规划等动态 Agent 场景时,推理不再局限于文本生成,而是延伸至行为决策领域。然而,模型在静态基准测试中的优异表现,与其在真实动态交互环境中的推理效果之间存在明显差距。
① 网页导航、代码编辑、工具使用和长周期对话等场景均属于动态环境,其状态随动作持续演化,要求模型具备前瞻预测能力,且单步误差可能沿决策链逐级累积。静态环境则通常不存在状态变化与误差传递。[1]
② 静态评估忽略推理过程中的中断与环境变化,会系统性高估模型在动态任务中保持推理正确性与完成任务能力的表现。在数学推理与代码生成任务中,引入中断或上下文变化后,模型性能最高下降可达 60%。[2]
2、围绕提升 LLM-based Agent 推理能力的目标,业界陆续提出 CoT、Self-Consistency、ToT、LATS 等优化方法,从不同角度强化模型表现。但这些方法并未触及核心问题。但这些优化本质上仍在文本空间内改进推理路径,并未赋予模型预判动作后果的能力,因而无法真正解决动态环境中的推理短板。
① CoT 的单向线性推理存在结构性局限,其输出的链式推理文本并不能完整还原真实的内在决策过程 。研究者进一步发现,CoT 及其推理变体在不同模型规模和基准复杂度下持续不如直接回答 。[3][4]
② ToT 和 LATS 的改进仍局限于文本空间内的路径优化,并未对环境转移进行显式建模。面对网页提交、代码发布、API 调用这类不可逆操作,依赖此类方法的 LLM-based Agent 在实际部署中的效果有限。[5]
3、近期,EvoAgent、WebEvolver、COMAP、RWML、ProPlay 等工作尝试通过「世界模型」赋予模型预测状态转移的能力,尝试缓解动态环境中因不可逆操作与状态追踪困难导致的决策失效问题。
① 世界模型与前述推理优化方法的差异在于世界模型的建模对象是环境状态转移本身,使 LLM-based Agent 在执行动作前即具备对后果的预判能力。[6][7][8]
② EvoAgent 提出持续世界模型,使智能体在开放世界中通过自规划与自反思完成长时程任务,无需人工干预。在 Minecraft 和 Atari 上,该方法相较现有方法平均成功率提升 105%,无效动作减少 6 倍以上。[6]
③ WebEvolver 将协同进化的世界模型引入 Web Agent 框架,在推理阶段通过前瞻模拟指导动作选择。在 Mind2Web-Live、WebVoyager 等真实网页环境中,该方法相较现有自进化 Agent 取得了 10% 的性能提升。[7]
④ COMAP 通过闭环交互让文本世界模型与 Agent 策略协同进化。世界模型预测候选动作的未来状态,Agent 据此优化动作,生成的轨迹再通过自蒸馏更新世界模型。在具身任务规划、Web 导航和工具使用基准上,COMAP 在 Qwen3-4B 上实现了 16.75% 的相对提升。[8]
⑤ RWML 通过 sim-to-real gap 奖励在文本状态上学习动作条件世界模型,将模拟的下一状态与真实观测对齐。在 ALFWorld 和 τ² Bench 上,RWML 结合任务成功奖励后分别比直接使用任务成功奖励的 RL 高出 6.9 和 5.7 个点。[9]
⑥ ProPlay 提出程序性世界模型,将成功轨迹抽象为程序并在程序图中组织,支持 Agent 在执行前预演未来的程序路径。实验表明该方法在环境理解与自进化能力上持续优于强基线。[10]
4、业界围绕世界模型的讨论重点集中于,动态交互任务要求模型同时具备状态理解、结果预测和长期规划能力。世界模型能够为 LLM-based Agent 补上「执行前预判后果」与「脱离真实环境进行策略学习」的能力,有希望从根本上解决动态环境中因状态追踪困难与动作后果不可逆导致的决策失效问题。[1]
① 在推理阶段,世界模型能够根据候选动作预测后续状态变化,并利用预测结果对动作进行验证和筛选。WebEvolver 在推理阶段引入预测机制,在真实网页环境中较现有自进化 Agent 取得了 10% 的性能提升。[7]
② 在训练阶段,世界模型可作为虚拟环境生成交互轨迹或模拟用户反馈,降低训练过程对真实环境的依赖;可进一步引入动态更新机制,使世界模型与智能体策略协同优化,以缓解环境分布变化带来的影响。[8][9]
世界模型如何优化 AI 的环境推理能力?
1、传统 LLM-based Agent 采用反应式架构,缺乏对环境如何结构化演化与变化的显式建模,因而在网页导航、代码编辑、长周期对话等动态交互任务中表现受限。近期用世界模型改善推理能力的探索分别从训练、推理、评估等维度切入,通过赋予模型预测动作之后环境状态如何变化的能力,实现更优的动态任务适应能力...
2026-06-21 17:05:00
真是令人意外。
PPO(Proximal Policy Optimization)这个后来在 RLHF 和大模型训练中被广泛使用的经典算法,当年曾被 NIPS 2017 拒之门外。
这件事最近由 PPO 作者 John Schulman 本人提起。他只用一句话概括了这段往事:PPO,曾经被 NIPS 2017 拒了。
这篇最早在 2017 年 7 月发布的论文,当时看起来只是一个更简单、更工程友好的策略优化算法。它的目标,是在保留 TRPO 稳定性的同时,降低实现复杂度,让强化学习训练更好调、更实用。
论文标题:Proximal Policy Optimization Algorithms
论文地址:https://arxiv.org/pdf/1707.06347
但几年之后,真正把 PPO 推向更大舞台的,反而不是 Atari、机器人控制这些传统强化学习任务,而是大语言模型。
从 RLHF 到今天的 RLVR,PPO 成了大模型后训练里绕不开的基础算法之一。按照 Schulman 的说法,PPO 在 LLM 时代迎来第二波热潮,原因甚至超出了原论文当年的预期。
这看起来并不像是 Schulman 在抱怨当年被拒稿,而更像是一种事后感慨:一项技术的真正影响力,往往会以发明者最初没有预料到的方式释放出来。
看到这里,很多人自然会好奇:PPO 当年为什么会被拒?
Schulman 后来给出的解释是,这篇论文在当时被认为创新性有限,相比已有基线方法的提升也不够明显。
有网友评论「这背后其实折射出学术评价与真实产业需求之间的一种错位。学术界往往更看重新颖性,以及在小规模、受控实验环境下相对基线的提升;而真实世界更在意的是方法能不能扩展到更大规模,能不能在复杂系统里保持稳定,能不能真正跑得起来。」
Schulman 对此也显得很平和。他表示,那已经是很久以前的事了,希望这些年过去之后,学术界已经逐渐理解并吸收了这种「简单但可规模化」的审美。
真正让他意外的是,PPO 这篇论文以及其中的目标函数,竟然能持续影响这么久。一个算法改动到底只是很快被遗忘、被替代的小修小补,还是会长期留在系统里、变成难以超越的基础组件,往往很难在一开始就判断出来。
而 PPO 的故事,恰恰说明了这一点。
其实何止 PPO。AI 史上不少后来被证明影响深远的工作,都曾在最初投稿时被顶会拒之门外。
LSTM:1996 年被 NIPS 拒稿,当时被认为过于复杂、缺乏生物学合理性。但后来成为语音识别、机器翻译等序列建模任务的核心技术。
SIFT:曾被 ICCV 1997、CVPR 1998 拒稿,原因是工程步骤繁琐、不够优雅。但它后来统治前深度学习时代的计算机视觉十多年。
Dropout:2012 年被 NIPS 拒稿,被认为像工程 hack、理论解释不够严谨。但它后来成为深度神经网络最重要的正则化方法之一,并获得 NeurIPS 时间检验奖。
更多案例请参考《被拒≠失败!这些高影响力论文都被顶会拒收过》。
有时候,时间才是最严格、也最公平的评审。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
2026-06-21 15:03:00
他是教出 Andrew Ng、Yoshua Bengio 的那个人,他亲历了机器学习从无名到主宰世界的全过程。而现在,他说 —— 这场对话让他最担心的,是「思想领袖们」正在伤害年轻一代。
如果要评选过去半个世纪对人工智能影响最深的学者,Michael I. Jordan 几乎无法被绕开。
2016 年,《科学》杂志将他列为「全球最具影响力的计算机科学家」。他是统计机器学习领域的奠基人之一,在图模型、变分推断、贝叶斯非参数方法等核心方向上留下了大量引用极高的基础性工作。他目前是加州大学伯克利分校电气工程与计算机科学系、统计系双聘的杰出教授,同时在法国 Inria 巴黎分部任职研究员。
更广为人知的,是他的学生名单。Andrew Ng(吴恩达),深度学习教育的全球推广者;Yoshua Bengio,深度学习三巨头之一、图灵奖得主;Zoubin Ghahramani,贝叶斯机器学习领军人物;Eric Xing,MBZUAI 校长、知名 AI 研究者;David Blei,主题模型 LDA 的核心发明人……Jordan 的门下,走出了一整代机器学习领域的重要建设者。
这次接受采访的节目是 MLST(Machine Learning Street Talk),主持人 Tim Scarfe 是一位长期关注 AI 前沿的播客人。
视频链接:https://www.youtube.com/watch?v=AREWYbVtX64&t=16s
访谈围绕 Jordan 去年发布在 arXiv 上的论文《AI 的集体主义经济学视角》(A Collectivist, Economic Perspective on AI)展开,但谈话的射程远不止于此 —— 涉及 AGI 炒作、硅谷思维的缺陷、数据市场的经济设计、不确定性量化,以及他对 Hinton 等「旧友们」转型为末日预言家的真实看法。
论文链接:https://arxiv.org/pdf/2507.06268
强化学习领域的奠基人 Richard Sutton 推荐了这个访谈,认为 Jordan 带来了一个有力而深思熟虑的视角。
以下是这场对话的主要内容。
「AGI 只是个公关词」:
我从来不认为自己是 AI 研究者
访谈一开场,Jordan 便亮明了立场,毫不拖泥带水。
「AGI 对我来说只是个公关词。它是一种扭曲。它让人困惑,尤其让年轻人困惑。」
他解释,「人工智能」这个词本身就有历史包袱。1950 年代 John McCarthy 等人提出这个概念时,背后有一套特定的方法论预设 —— 逻辑推理、符号系统。那套路径后来并没有真正走通。真正在工业界产生巨大影响的,是在那之后几十年里,从统计学、运筹学等领域慢慢生长出来的机器学习方法:决策树、最近邻、逻辑回归、隐马尔可夫模型…… 这些方法大多数压根不是从「AI」这个圈子里发展出来的。
「亚马逊的云计算,最初就是为了处理机器学习的工作负载而建的。供应链、金融、交通运输系统,都在大规模使用机器学习,直到今天也是。这才是我成长于其中的传统。」
然后大约五年前,「AI」这个词随着大语言模型的兴起卷土重来。原因很简单:这次模型的输出是人类读得懂的流畅语言,而不再只是预测供应链、商业、价格之类的东西。人们看到这个就觉得:「天哪,我们解决了那个古老的 AI 问题!」Jordan 说,如果把「AI 问题」的定义窄化到图灵测试,那勉强算是。但这不过是换了个输出格式,背后的机器学习传统一直都在。
「这种 AI 术语回归,对研究路径产生了扭曲效应,对我们如何思考商业模式也产生了扭曲效应。还不够,他们还得再造一个更宏大的流行词 ——AGI。」
但他真正想批评的,不只是词本身,而是这套词背后的思维定势。他说,那些自称 AI 研究者的人,往往其实没有一个清晰的目标。他们的逻辑是:人类是智能的,大脑是一台计算机,只要我们模仿它、放大它,好事就会自然发生 —— 然后就停在这里了。没有「我们要解决社会上的什么具体问题」,没有「这对谁有价值、以什么方式产生价值」,只有一个隐隐约约的「它会帮我们解决问题,然后大家就幸福了」。
「这就是硅谷的谈话方式。我离开那里,部分原因就是我厌倦了这种谈话。那里没有什么深度的长期思考。它变成了一场内卷赛,一场金钱竞赛。」
Jordan 说,他从来没有把自己当作 AI 研究者,他也从来没有读过一本 AI 的书。他的训练背景是统计学家和认知科学家。「但我乐于接受这个称谓,」他笑说。
「我们是社会动物」:
为什么 AI 需要经济学?
Jordan 提出这篇新论文的核心观点时,先反问了一个问题:当前很多 AI 研究者真正想实现的目标,到底是什么?
在他看来,今天相当一部分 AI 叙事背后,仍然是一个非常旧的想法:人类是智能的,大脑像一台计算机;只要我们模仿它、放大它、并行化它,它自然就会做出伟大的事情。问题是,话往往就停在这里了。
它没有进一步回答:我们究竟要解决社会中的什么问题?这项技术为谁创造价值?成本由谁承担?收益又如何分配?它只是隐含着一种期待:技术会替我们解决问题,然后人类就会幸福。
在 Jordan 看来,这不是严肃的工程思维,而是在用隐喻代替系统设计。
主持人随后提出了一个典型的硅谷式反驳:如果像 Ilya Sutskever 这样的硅谷 AI 领袖认为,只要把 LLM 组织成多智能体系统,经济学里的那些复杂性就会自然涌现,Jordan 会怎么看?
Jordan 的回答毫不客气:「这就好像 1940 年代的化学工程师说,我们把一堆东西扔在一起,让它自己工作就好了。你确实可以这么做,但你会得到很多在经济上根本不可行的东西,还会伤害很多人。」
他认为,这一代 AI 建设者缺少的,不是智力,也不是代码能力,而是概念和思想的深度。他说,每一个上一个时代的工程学科 —— 电气、化学、机械 —— 不光有能动手的人,背后都有一套基础方程支撑:麦克斯韦方程组,牛顿定律。「现在这个领域有什么?只有非常聪明、会编程、有很多直觉的人 —— 我从没感受到任何真正智识深度的东西。感觉就像科幻小说。」
更让他担心的是,已经有人被伤害了,但没有人在谈这件事。Facebook 损害了大量青少年的心理健康,这从来没有被计算机科学家认真讨论过。现在又来了新一轮的「就业岗位可能会消失,但没关系,新的会出来,一直都是这样」——「我不喜欢这种说话方式。」
那么,Jordan 自己的框架是什么?他用了一个他反复强调的词:集体主义(collectivist)。
「当前这些技术,输入来自数十亿人,也将服务数十亿人。所以它本来就是一个集体性的东西 —— 有一个集体在输入,有一个集体在接受输出。这背后其实有一张巨大的、潜在的网络。」
但主流 AI 思维的根本缺陷在于,始终把智能窄化为了个体认知。把人类大脑当成模板,把神经元和梯度下降当成核心隐喻,却忽略了一个最基本的事实:人类是社会动物,我们大量的智识来自聚合 —— 聚合观点、思想,形成文化,文化在时间上保存它们。
更重要的是,社会为我们的智识提供了语境。在这个语境里聪明的行动,换一个语境可能就是蠢的。智能本身高度情境化,也高度依赖当下。
所谓语境,就是外面可能有人正在试图利用我,也可能有人想和我合作,而我并不真正知道对方的意图。所以我必须试探,必须发出信号,必须设计一些机制,让我们能够有效互动。经济学正是以一种数学化的方式研究这些问题。
这让他得出结论:如果不引入经济学和社会科学,我们就根本没有在讨论「完整的智能」。
他的框架最终落在三个顶点组成的三角形上:计算机科学(算法、抽象与模块化)、统计学(推断与不确定性量化)、经济学(激励机制与博弈均衡)。
「计算思维教会你模块化、抽象和 API—— 这是 Jeannette Wing 几十年前就提出的洞见,我完全认同。但大量算法其实不是从计算机科学原则里来的,它们来自统计学的推断思维:在不确定性下如何收集数据、如何做预测。再加上经济思维:周围有其他主体,如何确保激励机制是正确的。」
他说,只有计算加优化,你就只能得到语言模型。把统计和经济思维加进来,你才开始有一个完整的系统性思考框架。「我把这叫做这个时代的新文科核心。我的人文学科同事可能不同意 —— 但我认为,人文学科目前还没有触及这个时代真正核心的智识问题。」
「别问它是否理解」:
停止人类化机器
Jordan 在整个访谈里有一个反复出现的动作:每当对话滑向「AI 是否真正理解」「模型是否拥有某种内在认知」这类问题,他都会把问题拉回到更具体的层面。
「我们根本不需要去问这个问题。」
他回忆起 2000 年前后第一次去亚马逊时看到的景象。那时,亚马逊已经在用大规模机器学习方法 —— 当时叫随机森林 —— 处理供应链建模。系统能预测哪艘船会在印度洋延误,某些零件会不会准时到达,整个供应链每天把数十亿件商品送到一亿人手里。没有任何人类能理解那个大盒子里在发生什么。
「但这重要吗?不重要。你要问的不是它是否『理解』物流,而是:它能不能降低不确定性,能不能让工程系统建立在它之上,能不能让计划成为可能。这才是你要问的。」
他认为,「理解」「智能」这些词,是给媒体用的。媒体喜欢这些词,因为它们容易传播,也容易制造想象。而那些把 AGI、AI 术语推出去的人,他们心里很清楚,在自己的研究工作里根本不需要这些词 —— 他们只是知道媒体会接住。
「我们在自己的研究里根本不在乎『理解』这个词是否成立。我们想做的是建造好的系统。」
主持人提到,他上周刚采访了 AlphaFold 的核心研究者 John Jumper,问对方 AlphaFold 是否在某种意义上「理解」蛋白质。Jumper 的回答是:对这个词过敏。他说得很清楚 ——AlphaFold 让我们能预测,让我们能控制,但理解这个动作必须由人类自己来做,不能外包给机器。
这正中 Jordan 的观点。「为什么要说它理解?说它预测、它降低不确定性、它让实验成为可能 —— 这些已经足够惊人了。非得加上『理解』这个词,只会招来错误的期待,然后招来错误的失望。」
他认为,「人类化」机器这件事之所以有害,不只是因为不准确,更因为它会系统性地转移注意力。一旦你开始问「它是否理解」,就很容易忘记真正重要的工程问题:它在什么条件下会失效?它在哪些问题上最不可靠?它有没有给出误差范围?它如何与真实数据结合?它应该被嵌入什么样的系统?又该由谁来承担它出错的后果?
这些问题,才是真正决定 AI 能否进入现实世界的关键。
「那是媒体的问题,不是研究者的问题,我们不需要那个词。」
基础模型最危险的地方
恰恰是科学家最需要它的地方
Jordan 说他很钦佩 AlphaFold。他明确区分:AlphaFold 不像 LLM,它是针对一组特定问题设计的,并且在这些问题上做得极好。但他和团队做过一项分析,发现了一个让他真正担忧的盲点。
他们想研究一个假设:蛋白质中的量子涨落,是否与磷酸化存在关联。也就是说,那些结构上看起来「有点问题」的蛋白质,是否反而在细胞里更活跃?这是一个 2×2 的统计检验:磷酸化(是 / 否)× 量子涨落(有 / 无)。
用传统的已知晶体结构数据来做这个检验,样本量太小,根本没有足够的统计功效去拒绝原假设。换成 AlphaFold 预测的两亿个蛋白质结构,功效大幅提升,原假设被拒绝了 —— 看起来是好事。
「但我们发现,那个统计量的置信区间极其狭窄,而且整个区间都偏离了真实值很远。不只是在这一个问题上 —— 我们在一个领域接一个领域地发现了同样的现象。」
原因并不难理解:AlphaFold 的训练集里,含有量子涨落特征的蛋白质本来就很少,因为这个方向过去研究得不多,而且晶体化本身很难。训练数据稀少,就意味着 AlphaFold 在这个具体问题上的预测可能高度偏倚 —— 但它不告诉你这一点。它照样给出答案,照样看起来很有把握,但置信区间很窄,答案并没有真正覆盖真实值。
这才是真正让人不安的地方:不是模型答错了,而是模型答错了却不说。
Jordan 的团队为此开发了一种叫做「预测驱动推断」的方法 —— 把少量真实标注数据和大量 AlphaFold 预测数据混合使用,让置信区间在保持足够窄的同时重新覆盖真实值。技术上可行,AlphaFold 团队听到也不会觉得奇怪。
但他真正想说的,不是这个技术修复。他想说的是一个更根本的模式:
「科学家感兴趣的永远是知识边界上的新问题,不是把过去已知的事情再研究一遍。而基础模型恰恰在知识边界上表现最差、偏倚最大 —— 因为那里训练数据最稀少。」
这个矛盾不会随着数据增多自动消失。数据增多只会让模型在已知领域做得更好,但科学家问的下一个问题,依然会是在未知的边缘。「你可以修补,它会越来越好,但下一个新问题来了,同样的事情会再发生一次。」
他批评了两种常见的错误反应:一种是相信「偏差会随着数据增多而消失」,另一种是只批评架构、批评输出,却没有任何可以推进的科学方法。「那些人在说什么?他们在批评,但没有给出出路。」
正确的方向,是在任何基础模型周围,都建立起收集少量真实数据、融合进来、给出可信答案的能力。「这不是科幻小说。这是现在就可以做、而且真的需要做的事。」
超级智能与人类灭绝
不是仅有的两个选项
这是访谈里 Jordan 情绪最外露的部分。
他被问到怎么看 Geoffrey Hinton、Stuart Russell 等人描绘的图景 ——AI 正在递归自我改进,它是有主体性的,它不是一种文化技术,它是一个独立存在的东西。
Jordan 停顿了一下,然后说:「那是科幻小说。」
他补充:科幻对社会很重要,他不是在贬低它。但问题在于规模和音量 —— 当这些声音以那样的量级被推出去,当它们占据了播客、论坛、公众视野里所有关于 AI 的严肃讨论,它真的在伤害 20 岁和 25 岁的年轻人。
他说,这些年轻人对技术充满热情。他们想用它帮助自己的家人 —— 说实话,比帮助国家更想帮助家人。他们看到了真实的机会。然后他们听到了什么?
「那些领袖们说:我们已经玩够了。我们搞出了一堆算法,做出了这些东西。但你们不能做这个,因为太危险了 —— 它会以很高的概率消灭人类。或者:超级智能马上就来了,反正在你们有生之年也没什么事情可做了。」
「这太令人沮丧了。太令人沮丧了。」
他说,让他最不安的,不只是这种叙事本身,而是这种叙事背后经济思考的完全缺席。这些声音里,有零分的经济学。全是认知科学思维或神经科学思维:我们弄清楚了大脑,梯度下降加分布式神经元,LLM 能工作这么好本身就证明我们弄对了。
Jordan 对此的回答很干脆:你去问神经科学家,LLM 和大脑有没有关系,他们会说,那是一个好用的比喻,是一个卡通图,仅此而已。「梯度下降在大规模上有效吗?是的,远超所有人的预期。但它在暴露自己的弱点,而那些弱点是真实的。」
他更担心的,是劳动与资本的关系,而不是机器决定接管人类。「我没有看到任何迹象表明梯度下降会像病毒一样失控。那是隐喻,不是预测。」
然后是他最想对年轻人说的话:
「超级智能与人类灭绝,那不是仅有的两个选项。在那两个极端之间,有无数非常积极的事情可以在人类的尺度上完成。」
他说,现在的问题是年轻人缺少榜样 —— 缺少那种「靠做出真正有用的东西赚到钱、同时让世界变好一点点」的人。上一代有疫苗,有那些看得见摸得着的东西。「现在呢?不太好。」
他最后对整个公共对话的判断是:「这种思想领袖分成两队,一队冲向乌托邦,一队冲向末日 —— 在人类历史上,这种程度的现实脱节是非常罕见的。」
当你问 LLM「你确定吗」
它其实不知道
Jordan 认为,LLM 最根本的问题之一,是它对自身的不确定性一无所知。
问一个语言模型「你有多确定这个答案」,你得到的回答往往极端,要么极度自信,要么极度不确定,中间几乎没有梯度。Jordan 说,这不是在不确定性下推断,这是在模仿关于不确定性的语气。模型在训练数据里找到了人类在互联网上回答「你确定吗」的模式,然后复现那个模式。
他认为,「不确定性」本身被大多数人理解得太窄了。他把它分成三种完全不同的东西,需要完全不同的处理方式。
第一种是采样不确定性。这是经典统计学的领地:我观察到的数据,是不是足以支撑这个结论?但他用一个鸭子的比喻说明,即使是这种最基础的不确定性,一旦放进社会语境就会变形。
假设有一只统计学家鸭子,它发现湖的左边比右边有两倍的谷粒,也就是 2:1。一个纯粹做最大期望效用计算的贝叶斯鸭子,会每次都去左边。但真实的鸭子不是这样。它们大概会有 2/3 去左边,1/3 去右边,恰好对应那个比例本身。
这不只是对冲。Jordan 说,这是一个纳什均衡:如果所有鸭子都去同一侧,另一侧的资源就浪费了。鸭子是在种群语境下进化出来的,它的「不确定性处理策略」本来就是为整个种群优化的,不只是为个体。「正确地使用不确定性,意味着把它放在种群的语境里。」
第二种是信息不对称。你雇了一个专家,他知道你不知道的事,而且他知道的那些,他不会全部告诉你。这不是采样误差,这是一种结构性的、永远不会消失的不透明。经济学长期研究这个问题,比如合同理论、激励相容设计都是在问:如何在信息永远不对称的情况下,让系统还是能运转起来。
第三种他叫做「数据的时效性」(providence)。你在做手术决策,医生给你看统计数据,某种手术方案的存活率是多少。然后医生补了一句:那些数据是十年前收集的。你的不确定性应该立刻增加。但经典统计学不处理这个 —— 数据就是数据,它不会自动因为老旧而打折扣。「在一个真正的系统里,所有流动的数据都应该带着元数据 —— 它是什么时候的,这个元数据应该被定量地纳入不确定性计算。我们现在完全没有做这件事。」
人类其实很擅长把这三种不确定性混在一起处理,几乎是无缝的。你会说「那是老数据,我打折」,你会说「周围有其他人,我不能只优化自己」,你会说「他的动机我摸不准,我留一手」。而且你会在社会语境里主动寻找信息:如果不认识路,就去找一个看起来是本地人的人问。
「可怜的 LLM,上面这三件事一件都不会做。它说自己很确定,是因为互联网上有人在回答相似问题时说『我很确定』,然后它学了那个语气。」
他最后用了一个他很喜欢的类比来说明市场如何处理更大尺度的不确定性。
「如果我想开一家比萨店,我需要番茄。如果我每天都要自己去寻觅番茄,那今晚有没有比萨是高度不确定的。但因为存在一个市场,有人替我做了寻觅这件事,每天都有稳定的番茄供应,我的不确定性就消失了,我就可以在这个基础上建立更复杂的东西。」
市场不是因为有人设计了最优实验、做了多臂老虎机,它只是因为有激励让人去探索和利用,不确定性就在整个系统的层面上被消化了。「这才是真正大尺度的不确定性消解,不是误差棒。」
结语:
AI 是为了让人类做到本来想做的正确事情
访谈快结束时,Jordan 给出了他对 AI 本质最清晰的一次表述。
主持人问:现在那些担忧派和乐观派之间,有没有什么东西能让双方更新看法?
Jordan 没有直接回答这个问题。他说,他对 AI 本身是正面的,是乐观的,只是不是那种乌托邦式的乐观。
他用飞机做了类比。他小时候,空难很常见。今天,在如此大的规模下,商业航空的事故率极低,这是因为自动驾驶仪。飞机大部分时间由自动化系统控制,人类飞行员在需要时介入。这种人机协同,是目前已知最有效的方式。
「人类不是进化来驾驶这个大铁鸟的,所以你可以在这里改进人类的能力。把两者合在一起,你就得到了对所有人都有益的东西。」
他对比了自动驾驶汽车的思路。三维空间里有很多余地,但二维平面上你有几万辆车,每年每个国家几万人死亡。解决方案不是把超级智能放进驾驶座。「那是一种非常愚蠢的思考技术的方式。你必须从系统层面来想这个问题。」
然后他给出了他对 AI 真正功能的定义:
「AI 是关于帮助那些对人类来说太难的事情,帮助信息流动,让人类在当下能够做出大多数人真正想做出的正确决策,而不是因为信息不足,被迫做出他们害怕不得不做的错误决策。」
他说,人类是美好的,但也是不完美的。我们伤害彼此,往往不是因为恶意,而是因为误解对方的意图。有多少战争,是因为一方不了解另一方真正想要什么,就先动手了?「博弈论的出现,是为了帮助人类更清晰地处理这种情况,但我们还非常粗糙,非常初步。」
AI 真正的机会,他认为,是在 70 亿人的尺度上,帮人类修补那些进化没有完成的部分。「进化也许没有为 70 亿人的规模做好准备。」
所以,他真正担心的不是 AI 本身,而是今天那场被两极化带偏的公共讨论。一边是有钱、只想着建造的人,另一边是高喊「这会毁灭人类」却没有任何建设性的人。
「这两边都不是在认真思考,而在它们之间,有那么多真实的、美好的、可以做的事情。」
「那才是 AI 对我意味着什么。」
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
2026-06-21 15:03:00
最近,Meta 内部军心不稳。
上周,一名员工在内部直播中突然爆粗口,怒骂某 AI 高管「混蛋」。
没过几天,扎克伯格又提议,要在 7 月举办一场全公司 AI 黑客马拉松。结果员工不买账,内部留言区一片嘘声。
有媒体直接以《马克・扎克伯格在残酷裁员后命令员工们重新找回工作乐趣》为题,讽刺 Meta 管理层的荒诞操作。
到了周一,Meta 首席技术官 Andrew Bosworth 也站出来灭火。他在内部承认,公司这次 AI 部门重组做得很差,并公布了一系列补救措施,比如改善沟通、提供职业发展支持、提高零食、差旅预算等。
但这波补救,反而招来更多吐槽。
一边是大规模裁员、搞强制调岗、监控员工,内部士气已经接近「有史以来最低点」,另一边是高管出来号召大家要开心、要 fun,试图靠零食和黑客松修复信任。
怎么看,都有点不合时宜。
「糟糕透顶!」
这是 Meta 首席技术官 Andrew Bosworth 对公司 AI 重组工作给出的自我评价。
据《连线》报道,周一,Bosworth 向员工承认,Meta 在推行新的 AI 部门改组时表现「糟糕」,并表示将通过改善沟通、提供职业发展机会,甚至增加办公室零食,来重新唤回更愉快的内部氛围。
Bosworth 认为,此次重组动摇了员工对专业价值、职业发展和工作影响力的信任,频繁的组织调整和管理层变动进一步加剧了焦虑。
他将责任归于管理层身上。在急着推进更宏观战略时,比如更积极参与 AI 编程工具市场竞争,高管忽视了员工的感受。愿景没有讲清楚,职业发展路径也没有说明白。结果是,很多员工开始怀疑自己的价值和成长空间。
为此,Meta 计划做出几项调整。
公司将把每位经理直接管理的下属人数控制在 20 人左右,并尽量减少员工因架构调整而频繁更换上级。
未来,经理的主要职责会回到管理本身,独立产出则退居其次。员工也将获得 AI 辅导工具的使用权限。
不过,Bosworth 并没有完全否定当初的做法。
他仍然为「速度优先」下强行调配人手组建团队辩护,并提醒员工,有些时候「工作需要牺牲」,每个人都未必能一直做自己觉得有成就感的项目。
Bosworth 强调,未来员工考核看的是实际影响,而不只是有没有用上 AI。不同团队之间的算力分配,还会经历一段时间的艰难取舍。公司会尽量保持透明,也鼓励员工遇到瓶颈及时上报。
另一份内部帖子显示,上周五晚些时候,负责应用 AI 团队的副总裁 Maher Saba 也向被迫调入团队的员工承诺:只要能申请到 Meta 内部其他岗位,现在可以自由转走。
为了提振士气,Bosworth 还承诺改善办公室茶水间、提高差旅预算、增加团建活动开支。
他的说法是,希望「找回我们刚加入这家公司时最好的那部分文化」。
小扎的 AI 黑客松,被员工怼了
在 Bosworth 表态之前,Meta 内部已经先爆发了一场黑客松风波。
上周五,扎克伯格宣布,将在 7 月举办一场聚焦 AI 的全公司黑客马拉松,并将其定位为内部动荡之际增进同事情谊的方式。
随后,负责产品管理的副总裁 Ime Archibong 公布了更多细节。活动定在 7 月 14 日至 16 日,主题完全聚焦「AI 创新」。
消息一出,迅速招来愤怒回应和讽刺表情包。
《连线》报道,多名员工表示,公司近期的大规模裁员已经让工作量陡增,根本抽不出时间参加这类「额外活动」。自己光是给团队保住基本运转就已经忙得团团转,没有动力,也没有时间。
也有人表示,团队士气低落、对管理层的信任下降,让自己没有意愿参与。
另一条留言获得了超过 200 个点赞。裁员之后,大家正在用更少支持承担更多工作,还要小心因不谨慎使用 AI 引发重大技术事故。在这种情况下,「这家公司恐怕已经撑不起黑客松文化了」。
而且黑客松成果不计入绩效考核,这进一步打消了参与热情。
这也是 Meta 上月裁掉 8000 人后,第一次计划举办全员规模的黑客松。
除了黑客松,扎克伯格还宣布了几项安抚员工的措施。比如增加团队团建预算,部分办公室取消「共享工位」制度。
此前,就有员工自发调研同事意见,反对取消固定工位带来的混乱和效率下降,要求管理层恢复每人专属工位。
现在,裁员腾出了办公空间,恢复固定工位终于有了余地。但对剩下的人来说,更现实的问题是:人少了,活多了,哪还有时间去「黑客」?
被迫加入 AI 应用团队的人
这几场风波背后,是应用 AI 团队内部积累已久的矛盾。
这支团队成立于今年 3 月,约有 6500 名工程师和产品经理,主要任务是配合 Meta Superintelligence Labs,改进公司的生成式 AI 模型。
矛盾最戏剧性的一次爆发,发生在一场面向数千名员工的内部直播上。
有人突然打断会议,用脏话形容「沦为公司的奴仆」,并要求主持人转告某位 AI 高管,骂他是「混蛋」。
台上一名主讲人当场用手捂住脸。两名主持人请大家静音后,只能硬着头皮继续讲完这场技术分享,员工在评论区议论这个「够刺激」的开场。
团队内部普遍存在不满情绪,有把这种处境比作劳改营式的生活。部分员工每周要完成固定的两项任务,主要是生成复杂的编程题目,用来训练和检验 AI 模型的能力。
有员工形容,这份工作机械、重复,缺乏创造性,也没有真正发挥自己的专业技能。
他们原本以为,自己加入 Meta 是为了给数十亿用户开发社交应用,如今却变成了给 AI 模型整理训练材料的人。
也有人直言,大多数同事都觉得这份工作让人身心俱疲。
更难接受的是,被选入这个团队几乎没有商量余地,要么留下,要么离开公司,没有别的选择。
因此,一些人把自己称作「被迫征召而来的人」。团队自 4 月以来分批扩张,每一波新人加入时那种震惊的样子,看着都让人心里发紧。
类似的紧张情绪,也在 Meta 内部其他部门蔓延。
上个月,Meta 裁掉 8000 名员工,约占公司总人数的一成。压力随之外溢,波及数据中心工程、Instagram 等多个部门。
同时,一项监控美国员工点击和键盘操作、用以生成 AI 训练数据的内部计划,也招致超过 1600 名员工联名反对,公司随后小幅让步,允许员工暂停采集 30 分钟,并可申请豁免。
在一场面向 Instagram 全员的会议上,Meta 首席产品官 Chris Cox 也承认,眼下的工作环境非常艰难。
他把过去几个月形容为一场极限考验,团队成员频繁调整,工作节奏却没有放缓。管理层需要重新贴近员工的真实感受,也不该过度神化 AI 的能力。
面对这些积累已久的情绪,扎克伯格在上周五的内部备忘录中一并作出回应。
他承认,公司在组织调整过程中犯过错误,未来也可能继续犯错。但他承诺,今年不会再进行大规模裁员。
扎克伯格特别提到,此前在应用 AI 等团队,经理与下属的比例曾被刻意拉高,甚至达到 1 比 50。今后会着力调整这一结构。
谈到应用 AI 团队,他表示,这是「过渡站,不是终点」,这项工作对推进模型至关重要,能让最优秀的人才发挥作用,公司也会在未来几个月陆续创造其他岗位供他们选择。
问题在于,信任一旦被打碎,并不会靠几句承诺就自动修复。
现在的 Meta,正试图用更多沟通、更多预算和更多内部活动,填补员工心里的缺口。
这道缺口能不能被填上,还要看接下来几个月,公司说的和做的能不能对得上。
参考链接:
https://www.wired.com/story/meta-employees-absolutely-hate-mark-zuckerbergs-hackathon-idea/
https://www.wired.com/story/mark-zuckerberg-meta-employee-meeting-interrupt-ai/
https://www.wired.com/story/andrew-bosworth-meta-employees-unrest/
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
2026-06-21 12:52:00
本文一作为中国人民大学高瓴人工智能学院博士生谭文辉,师从宋睿华长聘副教授,研究方向为大模型推理与交互,预计 2027 年毕业。谭文辉在读期间以第一作者身份在 ICLR、NeurIPS、ICML、CVPR 等会议共发表六篇论文,并获得过 MMM 2025 Best Paper。
近一年,大型推理模型(Large Reasoning Models,LRMs)在数学竞赛、代码生成、科学问答等高难度任务上取得了令人印象深刻的进展。
从 OpenAI o1、DeepSeek-R1 到 Qwen3、MiMo,这一轮提升主要归功于两大引擎:(1)让模型在 ... 标签里进行长链路的思考;(2)用以 GRPO 为代表的强化学习(RL)算法进行后训练,把 pass@1 (平均正确率)推上去。
然而,pass@1 提高的同时,一个反常的现象正在出现:把解码时的采样温度调高,模型的 pass@n (多次尝试的上限正确率)不再随之改善,有时甚至更差。这意味着:模型在单次采样里更加「自信」,但在多次尝试中「探索」新解的能力却坍缩了。对于代码生成、定理证明、数学竞赛等「只要采到一次正解就判对」的任务,这种坍缩直接拉低了模型的真实能力上限。
在最新被 ICML 2026 接收的工作中,来自中国人民大学高瓴人工智能学院、小米 MiLM Plus 等单位的研究团队提出了 Latent Exploration Decoding(LED)。这是一种无需任何额外训练的解码策略,它从 LRM 内部的中间层恢复被 RL 压扁的熵,将探索从最后一层重新搬到潜在空间。在 5 个模型与 6 个推理基准上,LED 一致地把 pass@1 与 pass@16 平均提升了 0.61 与 1.03 个百分点,并且把 GRPO 的 rollout 也变得更高效。
论文标题:Restoring Exploration after Post-Training: Latent Exploration Decoding for Large Reasoning Models
作者列表:Wenhui Tan,Fiorenzo Parascandolo,Enver Sangineto,Jianzhong Ju,Zhenbo Luo,Qian Cao,Rita Cucchiara,Ruihua Song,Jian Luan
论文链接:https://arxiv.org/pdf/2602.01698
代码链接:https://github.com/AlbertTan404/LED
下图为 Qwen3-4B-Thinking 在 AIME 2025 数据集上使用常规解码(CoT)与本文提出的 LED 的案例研究。
一、问题发现:最后一层熵被 RL 后训练压扁
在相对更早的一代 LLM 上,调高采样温度几乎是改善多次采样表现核心方法。从 0.1 到 0.6,模型在解码时更愿意探索其他可能性,pass@n 顺势升高。研究团队用了一个简单的指标来量化这种行为,叫作 accuracy-temperature slope (alpha):把 pass@1 到 pass@16 在不同温度下的准确率拟合成一个平面,平面沿温度方向的斜率就是 alpha。alpha 越大,说明提高温度对模型探索的正向激励越高。
在 QwQ-32B、DeepSeek-R1-Distill-Llama-8B(早期思考模型)以及 Qwen3-4B-Instruct (非思考模型)上,alpha 都是正数。但到了最近一代 LRMs 上,alpha 开始接近零,甚至变成负数:在 Qwen3-4B-Thinking、Qwen3-30B-A3B-Thinking、MiMo-7B-RL 上,提高温度并不能更高的 pass@n。
团队从广泛使用的 RL 后训练算法 GRPO 出发给出了一个机制性的解释:GRPO 在一个 group 内只奖励「整段输出是否正确」这一稀疏信号,于是真正承担学习压力的是少数分枝 token,也就是那些一旦选错、整条推理就跑偏的关键位置。RL 反复把 token 预测概率推向「成功分支」,最终把这几个关键位置的分布压成接近 one-hot 的尖峰,即「熵坍缩」。因此,在这些模型上调高温度本质上只是 「把一座单峰的高山变扁平」,并不会重新长出第二座山,即可能的另一条探索路径。
二、关键观察:熵保留在中间层
如果最后一层输出已经坍缩了,模型还有探索能力吗?团队把视线转向了 LLM 内部。
得益于 Transformer 的层间残差连接,每一层的隐状态都可以直接通过 LM-Head 得到一组词表分布,即 LLM 早退 (early exit)。研究团队系统统计了 LRMs 各层早退后的分布熵,发现了一个非常清晰的趋势:早期与中间层保留着相当高的熵,而进入末几层,熵急剧下降,到最后一层几乎收敛到 0。
这意味着,模型在中间层还没「拿定主意」,候选词之间的概率分布相对平缓。也就是说,RL 虽然把最后一层压扁了,但其算法本身对中间层的影响是间接的,所以这些中间层就像一片仍然蕴含「不确定性」的熵矿,是探索得以重启的入口。
这一观察回答了「温度为什么不灵」的问题:温度仅作用在最后一层已坍缩的分布上,无论怎么放缩,也补不回已经丢失的概率质量。要恢复探索,就必须把目光移到中间层。
三、提出方法:聚合中间层早退概率
LED 的核心很朴素:在解码时,把中间层的分布也算进来,构造出一个最具探索价值的分布来采样。但要让这件事真正可用,团队解决了三个具体问题。
第一,避免在词表噪声里探索。
中间层虽然熵高,但很多概率质量其实分布在与上下文无关的稀有词上,直接采样会让模型胡言乱语。研究团队对每一层的词表分布做了一项 top-k 覆盖率分析:把最后一层 top-k 的候选词固定下来,看每一层中间分布给这些候选词分配了多少概率。结果显示,最后一层的 top-1 概率往往超过 90%,top-2 超过 99%,几乎是 one-hot;而中间层在这些候选上的覆盖率则平滑地从低到高过渡。LED 由此得到一个干净的设计:只在「最后一层认可」的 top-k 候选词上做探索,避免引入无意义的词,也保证了最终生成的连贯性。
第二,跨层信息聚合。
直觉做法是给每一层一个权重做加权平均,但这要面对模型大小、深度差异等导致的超参敏感问题。LED 选择了一种没有超参的方式:从最后一层向更浅的层做累加(cumulative sum),每加进一层就得到一种聚合分布;然后对每一种聚合分布计算熵,挑出熵最高的那一种作为最终的「探索分布」。这相当于让模型自己决定使用多深的潜在变量来拿到最有价值的探索信号,整个流程没有手工调参。
第三,平衡探索 - 利用。
推理过程中并不是每一步都需要探索:很多 token 是高度确定的(比如标点符号),强行进行探索化反而会破坏推理。LED 用一个简单直接的方法解决这个问题:最后一层 top-1 的概率本身就是模型的「自信度」。若 top-1 概率非常高,说明此处该走「利用」路线,直接按常规解码;若 top-1 概率相对比较低,说明此处是分支点,启用潜在探索分布去采样。这一判据无须设阈值,也同样没有引入没有超参数。
更进一步,LED 把这套机制限定在思考阶段。论文统计了 LRM 在思考与回答两段的行为,发现思考阶段消耗了超过 90% 的 token、熵也明显更高。而进入回答阶段后,模型应当跟随已经形成的思路,不再适合「再探索一条路」。LED 在回答阶段自动退化为常规解码,避免对最终答案造成扰动。
整套方法不需要任何额外训练、几乎不引入额外超参数,开销只是把最后几层(论文中默认 d=8,后续试验证明 LED 对该超参数不敏感)的隐状态多送进一次 LM-Head,配合一次累加和一次熵的比较。在 8×H100 、上下文 16K、批大小 128 的高并发场景下,LED 的吞吐量仍能保持常规解码的 91.8% 左右,远高于基线方法 DoLa 与 SoftThinking。
四、实验效果:pass@k 稳定提升
研究团队在 6 个标准基准上做了系统评估,涵盖数学(GSM8K、MATH-500、AIME 2024、AIME 2025)、科学(GPQA-Diamond)和代码(LiveCodeBench v5),并选取了从 4B 到 32B、覆盖稠密和 MoE 架构的 5 个模型:Qwen3-4B-Thinking、MiMo-7B-RL、Qwen3-30B-A3B-Thinking、QwQ-32B 与 DeepSeek-R1-Distill-Llama-8B(后两个模型为早期推理模型,实验结果在论文附录)。
在三种 LRM 上,LED 把 pass@1 平均从 77.4 提到 78.0,把 pass@16 平均从 88.8 提到 89.7;和 DoLa、SoftThinking、SoftThinking-Gumbel 这些强基线相比,LED 在 pass@1 与 pass@16 上几乎全部领先,并且生成长度不增反持平(在 Qwen3-4B-Thinking 上是 12,269 vs 12,277 token),这意味着提升不是靠推理开销换来的。
更直接体现 LED 价值的是温度曲线。前文那张 alpha 由正变负的图,在加上 LED 之后被反向扳了回来:对所有最新一代 LRM,alpha 重新变成了正数。低温度下不掉点,高温度下重新拿到收益,温度调参又一次成为可用的探索方式。
消融实验进一步说明了几个关键设计:去掉「只在思考阶段探索」,pass@1 会掉 0.58 个点;去掉「利用」分支,完全交给探索,pass@1 会暴跌约 14.7 个点,同时生成长度膨胀 33%;去掉 top-k 过滤,模型会陷入死循环,几乎全部撞到上下文极限。在不同探索深度 d 下(也是 LED 引入的唯一超参数),LED 均能助力模型提升 pass@k,证明 LED 并不依赖超参调优。
五、为什么需要探索:把 LED 放进 RL 训练
LED 增强探索能力的动机并不只在测试阶段成立。现有的在线强化学习算法,比如 GRPO 训练本身就需要在每一步用模型自己生成多条轨迹再打分;如果生成阶段就缺乏探索,那么 advantage 信号也会收敛到很小的值。
研究团队把 LED 直接接进了 GRPO 的生成环节,在 Qwen3-4B-Thinking 与 MATH-lighteval 数据上对比常规 rollout。结果显示,用 LED 做 rollout 训练出来的模型,即便在测试时切回常规解码,准确率也从 41.99 提升到 43.10。这样的结果显示 LED 不只是让某次推理更高效地探索,它还帮助模型学到了更好的策略。如果训练和测试都用 LED,最终精度可以达到 45.44。一个有趣的效果是:因为 LED 更高效的探索能力,整次 GRPO 平均生成长度降低了 10%,训练时间也从 4.87 小时降到 4.44 小时。这一结果表明 LED 不仅是一种推理侧的解码补丁,也是在线 RL 训练阶段的一种探索增强机制。
六、总结
LED 从两个方向展开了研究:
发现现象:RL post-training 把 LRM 的最后一层熵压扁了,让调高温度这种最直观的增强探索的手段失效;
找到机制:这种熵其实没有消失,它被推到了中间层。只要把潜在分布从中间层调出来、做合适的过滤与聚合,就能把探索能力还给模型,而无需任何额外训练。
LED 没有引入新参数、改变模型架构、或是让模型多出大量计算开销,却在 5 个模型、 6 个基准上稳定地提升了 pass@16(同时保持或提升 pass@1),并让采样温度重新发挥其应有的作用。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]