机器之心的 RSS 预览

抢天才还是拼算力？前 Llama 推理负责人详解 AI 的真实天花板

2025-08-23 09:30:00

本文来自PRO会员通讯内容，文末关注「机器之心PRO会员」，查看更多专题解读。

前 Llama 推理负责人 Ross Taylor 在接受 Interconnects 的播客访谈中直言，「目前 AI 竞赛中的混乱和挖角都只是噪声，最终都会被指数级算力所淹没」。他以这一判断为起点，阐释了算力指数曲线如何决定 AI 竞赛的天花板，为什么在实验中保持系统性与坚持比单纯挖掘天才更重要，以及为什么高质量的评估才是真正推动模型能力前沿的关键。

01.前沿实验室天天「翻烧饼」式换方向，为何进展却没被拖慢？

真正决定 AI 行业天花板的，是天才研究员的灵感，还是指数级增长的算力？如果算力增长放缓，AI 行业会否面临「增长乏力」的拐点？...

02. 天才的天价「转会」，真能换来下一次模型跃迁吗？

高阶概念想法，如果没有系统实验验证，能否真正推动模型跃迁？...

03. 模型泛化的天花板不靠升级，而靠新考题的设计？

模型泛化的天花板，到底靠升级模型，还是靠设计更高质量的新考题？...

01 前沿实验室天天「翻烧饼」式换方向，为何进展却没被拖慢？

1、Ross Taylor 指出，前沿实验室经常出现研究方向频繁切换的现象，这在整个行业都很普遍。但他认为，这种混乱并不会真正拖慢整体进展。只要实验室仍能产出高质量模型，组织上的杂乱就依然有价值。

① 他强调，对于整个行业而言，组织上的摩擦只是噪音，不会改变宏观趋势。

② 不过他也提醒道，对于身处其中的研究者来说，1-2 年的延误可能会对个人职业轨迹造成重大影响。

2、在 Ross 看来，行业的瓶颈不在管理，而在算力。所谓「让模型思考得更久、更深」，在工程上几乎可以直接翻译成「扩大 GPU/TPU 规模」。

3、他举例道，近期 IMO（国际数学奥林匹克竞赛）上三个实验室各用不同方法几乎同时跨过关键性能门槛，从历史的长镜头来看，人们并不会记住这些方法本身，而只会看到这是算力达到临界点的自然结果。

4、因此，组织的混乱带来的延迟或许是线性或次线性的，但算力增长是指数级的，显然后者对于整体行业来说比前者更具决定性。

5、当资本热潮退去、算力增速放缓时，行业或许会面临增长乏力的危机。然而 Ross 认为，只要 AI 的实际价值持续释放，行业就不会真正崩盘。

① 以 GPT-3.5 为例，它一方面暴露了推理能力的不足，另一方面却在创意写作等任务上展示了巨大潜力。这说明 AI 的发展仍在继续，未来空间依然广阔。

02 天才的天价「转会」，真能换来下一次模型跃迁吗？

从宏观层面来看，算力主导行业天花板，组织上的混乱只是一种「噪音」。但在微观层面，即具体到实验室的竞争中，组织效率依然决定了谁能更快跑出成果。

1、Ross Taylor 指出，社交媒体上铺天盖地的「天才研究员天价跳槽」新闻，把公众注意力集中在「谁是最聪明的大脑」。在 Twitter 上，这些转会甚至被渲染成「AI 行业的 NFL 选秀」...

关注👇🏻「机器之心PRO会员」，前往「收件箱」查看完整解读

更多往期专题解读内容，关注「机器之心PRO会员」服务号，点击菜单栏「收件箱」查看。

文章原文

全球首款AI原生游戏引擎再进化：GTA6再不来，我们就AI一个

2025-08-22 15:54:00

机器之心报道

编辑：Panda、冷猫

说是 GTA 6 又跳票到明年了。

作为开放世界游戏的标杆，GTA 系列不仅在游戏圈声名赫赫。尤其是在 AI 驱动的视频生成、三维生成或是世界模型等领域里，研究者们不仅采用游戏内场景为训练数据，更将生成类 GTA 的完整世界作为长久以来的目标。

但 GTA 6 的难产已经成为一个过不去的梗，大家总是在调侃：用 AI 做个 GTA 比 GTA 6 发布还快，就比如我们之前报道过的 Decart AI。

但真的要用 AI 做一个 GTA 出来，一个游戏引擎是必不可少的。一个多月前，我们报道过全球首个由实时世界模型驱动的 AI 原生 UGC 游戏引擎 Mirage。

在当时，我们拿公司附近的照片测试了一下场景生成的效果，很难说尽如人意。

但谁能想到，仅仅过了一个多月，Mirage 就再一次迭代进化，发布了更强大、更灵活、更智能的 Mirage 2。

Dynamic Labs 称它为生成式世界引擎 —— 不仅仅是为游戏而生，而是为任何你能想象的互动世界。

「从 Mirage 1 到 Mirage 2，仅仅一个月，我们没有停下脚步，而是加速前进。」

他们号称，如果 Mirage 1 展示了一个类似 GTA 世界模型的潜力，那么 Mirage 2 是一款通用领域的世界模型，能让你即时创造、体验和改变任何游戏世界。

和 Mirage 1 一样，Mirage 2 同样支持上传图片，将其转换成可交互的游戏世界。Mirage 2 也支持实时对话，在游戏过程中随时通过文本指令修改游戏世界。在这一次，Mirage 支持生成的游戏场景通过视频进行分享。

Mirage 2 在生成性能上有了明显的进步。通过架构革新，它实现了：

更灵敏的提示控制：你的想法更快落地，画面更精准。
更低的游戏延迟：操作更顺畅，等待更少，沉浸感更强。
通用领域建模：不限题材，任何风格的世界都能实现。

在上一次，Mirage 仅发布了两款可玩的 demo，一个是 GTA 城市风格，另一个是竞速风格。

这一次打开 demo 页面，与 Mirage 1 的交互基本一致，他们把 UI 做的精致了不少。重点是，Mirage 2 显著突出了各种完全不同风格的场景可选。

咱们举几个和传统的城市风格完全不一样的，比较跳脱的例子：

吉卜力风格：村庄任务

儿童画：彩色城市

繁星之夜

除此以外，Mirage 2 能够实现在交互过程中通过文本指令来修改世界：

有了对广泛不同风格的场景支持，Mirage 2 似乎已经有了与 DeepMind 最新的 Genie 3 世界模型叫板的底气。相比于 Genie 3，Mirage 2 能够实现跑、跳、攻击等动作，十分钟以上的交互时间，200ms 的延迟水平，并能在单个消费级 GPU 上运行。但 Mirage 2 最大的不同是：它已经上线可以立即体验。

感兴趣的读者可以体验一下：https://demo.dynamicslab.ai/chaos

机器之心自然也上手测试了一下，和测试 Mirage 1 的时候一样，我们还用了同一张公司附近的照片上传测试，导出视频如下：

这次我们给了一些详细的 Prompt，效果和上一次对比简直是飞跃。

不仅显著改善了 Mirage 1 物体比例的问题，加强了场景理解，场景的精度也有了明显的改善。人和车的模型明显变得更加合理，车流已经明显有了 GTA 4 的既视感。

虽然在线体验时的延迟非常高，人物灵敏度和上次对比感知不到明显改善，但是导出的视频比较流畅。

在 Mirage 1 发布时，团队成员 Zhiting Hu 表示推理时间约为 700ms，在 Mirage 2 上显著改善至 200ms，并且 Dynamics Lab 表示仍然有进一步加速的空间。

尽管 Mirage 2 在生成式世界建模方面取得了重大进展，但仍有一些技术问题：

动作控制精度：角色的操作还不够完美，比如在右转等动作上，偶尔会出现响应偏慢的情况。
视觉一致性：在快速切换场景时，可能会出现细节上的意外变化。不过，通过合理的提示工程（prompt engineering），可以在较长时间内保持画面一致性。

我们试玩下来感知最明显的就是视觉一致性的问题。在上面的测试视频中有两点可以明显看出世界一致性不足的问题：当操作的主角走过电瓶车的人，视角被遮挡后，我们操作的主角莫名其妙的变成了骑电瓶车的人；视角回转时，照片中的建筑物已经完全不是原先的样子了。

这种效果与 Genie 3 的演示的一致性效果相差甚远，正如读者在 Mirage 1 的报道下评论的那样：

不过，虽然仍然存在这些亟待解决的问题，仅仅过了一个多月，Mirage 就已经取得了如此进步，距离 GTA 6 发售还有九个月，到时候这些 AI 驱动的 UGC 游戏引擎又会发展到哪一步呢？

参考链接：

https://blog.dynamicslab.ai/

上海 AI Lab 26 届校招正式批开启！全岗位「无限复活甲」助你 offer 到手！

投递 0 限制：简历可多次投递，心仪岗位大胆冲！
100+ 职位，赛道超丰富，细分方向任你选！
顶级科研平台与资源：超大规模算力集群，PB 级数据，亿级研发投入！
清晰的职业发展通道：由实验室出题，为你链接顶尖高校、科研机构和行业企业！

扫描下方二维码即可投递简历。

转载请联系本公众号获得授权

投稿或寻求报道：[email protected]

文章原文

KDD 2025 Best Paper Runner-Up | EI-BERT：超紧凑语言模型压缩框架

2025-08-22 15:54:00

本文第一作者王茂林，为香港城市大学博士生，导师为赵翔宇教授。合作者包括蚂蚁集团储俊，臧晓玲，赵耀，谢锶聪和钟文亮。该论文荣获 2025 年 KDD ADS Track Best Paper Award Runner-Up。

论文标题：Put Teacher in Student's Shoes: Cross-Distillation for Ultra-compact Model Compression Framework
论文地址：https://arxiv.org/abs/2507.04636

研究背景与动机

在移动计算时代，将高效的自然语言处理模型部署到资源受限的边缘设备上面临巨大挑战。这些场景通常要求严格的隐私合规、实时响应能力和多任务处理功能。

现有的 BERT 模型压缩技术仅能实现 15-20MB 的压缩，远不能满足移动设备 4MB 的严格内存限制。特别是在金融应用场景中，本地 AI 处理对保护用户隐私至关重要，同时还需确保约 300 毫秒的实时响应。这种差距凸显了对极致压缩框架的迫切需求。

方法：多阶段的极值压缩框架

EI-BERT 框架通过三个关键步骤实现极致压缩：硬令牌剪枝智能筛选重要词汇，大幅减少存储需求；交叉蒸馏确保高效知识传递，突破传统方法局限；模块化量化采用 INT8 量化进一步优化存储。

其中，交叉蒸馏方法创新性地让教师模型 "站在学生模型的角度"，通过参数集成和师生互动的动态适应机制，实现精准的知识转移。该方法有效解决了教师 - 学生模型间的容量差异和知识适应性问题。最终实现了 99.5% 的压缩率，创造了 1.91MB 的 BERT 模型新纪录。

词表剪枝

在传统模型中，词汇嵌入占据了大量参数空间（ALBERT-tiny2 达 44.7%，TinyBERT2 达 36.6%），严重制约了移动端部署。针对这一瓶颈，EI-BERT 框架基于注意力机制的硬令牌剪枝策略，通过精确建模量化每个 token 的重要性。

首先利用多头注意力计算 token 间的语义关联概率分布，捕捉词汇间的关系强度。
接着，通过跨层聚合计算每个 token 的全局重要性得分，综合考虑层数、句子数量和注意力头数等多个维度，从而识别出真正承载核心语义的关键词汇，实现高效精准的剪枝。

交叉蒸馏

传统知识蒸馏面临容量鸿沟和适应性缺失两大挑战。模型极致压缩导致的巨大架构差异使知识传递困难，静态教学方式也难以适应学生模型的特殊需求。EI-BERT 框架提出参数集成策略，将教师模型经过精调的下游任务层直接融入学生模型。这一 "拿来主义" 基于深刻洞察：教师模型末端层包含丰富的任务特定判别信息，直接集成可大幅降低学习难度。

在交叉蒸馏中，通过动态互动机制打破传统单向知识传递的局限。

教师模型采用较小学习率进行微调，持续感知并适应学生的学习状态。
学生模型则使用更大学习率，深入学习教师的输出和中间表征。
损失函数通过任务特定损失、MSE 损失和 KL 散度损失三个维度的约束，确保知识传递的全面性和精确性。

模块化量化

完成蒸馏后，EI-BERT 框架采用创新的模块化量化方案将模型压缩至 INT8 精度。不同于传统逐矩阵量化，该方法从模块整体优化，最小化层间累积误差。通过精心设计的量化函数和可学习的步长参数，确保 8 位整数充分覆盖参数动态范围，在极大压缩存储空间的同时将精度损失降至最低。

实验结果

EI-BERT 在句子任务上平均得分 63.97，超越了所有基线模型；在机器阅读理解任务上得分 50.04，整体性能位居前列。

EI-BERT 以仅 1.91MB 的存储空间和 1.3 GIOPs 的计算量，实现了比 TinyBERT4 小 23 倍、比 ALBERT4 小 8 倍的极致压缩，同时计算效率提升 8 倍。

实际应用

该技术已在支付宝生态系统中大规模部署，服务超 10 亿用户，展现出卓越的实际效果。在边缘推荐系统中，自 2024 年 1 月起每日服务 840 万活跃设备，处理 2100 万实时请求，PV-Click 提升 4.23%，PV-CTR 提升 3.3%；智能助手实现 65% 的延迟降低，响应时间从 1 秒降至 214 毫秒，同时保持 98.2% 的准确率；小程序场景实现完全本地化处理，网络负载减少 85%，云计算成本降低 40%，隐私敏感应用的用户留存率提升 12.3%。这些成果充分验证了该框架在真实工业场景中的巨大价值。

总结与未来展望

这项研究成功解决了在资源受限的移动设备上部署 NLU 模型的难题，在保证性能的同时实现了极致压缩，具有重要的学术价值和产业影响力。

未来，计划在两个方向继续推进研究：一是探索如何将生成式语言模型的核心能力 (如多步推理、上下文学习等) 通过压缩知识蒸馏迁移到极度受限的边缘设备上；二是研究参数高效的适应性方法，通过模块化接口设计实现快速的领域迁移。

上海 AI Lab 26 届校招正式批开启！全岗位「无限复活甲」助你 offer 到手！

投递 0 限制：简历可多次投递，心仪岗位大胆冲！
100+ 职位，赛道超丰富，细分方向任你选！
顶级科研平台与资源：超大规模算力集群，PB 级数据，亿级研发投入！
清晰的职业发展通道：由实验室出题，为你链接顶尖高校、科研机构和行业企业！

扫描下方二维码即可投递简历。

转载请联系本公众号获得授权

投稿或寻求报道：[email protected]

文章原文

谷歌Gemini一次提示能耗≈看9秒电视，专家：别太信，有误导性

2025-08-22 12:56:00

机器之心报道

机器之心编辑部

谷歌最近发布了一项关于其 AI 模型 Gemini 能源消耗的研究报告。

博客地址：https://cloud.google.com/blog/products/infrastructure/measuring-the-environmental-impact-of-ai-inference
技术报告：https://services.google.com/fh/files/misc/measuring_the_environmental_impact_of_delivering_ai_at_google_scale.pdf

报告中指出，处理一个中位数的 Gemini 文本提示仅消耗约 0.26 毫升水（约五滴）、0.24 瓦时电力（相当于观看电视不到九秒），并产生 0.03 克二氧化碳排放。

注：中位数（Median）是统计学中用于描述数据集中趋势的指标之一。它是指将一组数据按大小顺序排列后，位于中间位置的数值。这里指研究人员在对多次 Gemini 处理文本提示的资源消耗进行测量后，将所有的消耗数据（水量、电力、碳排放）分别进行了排序。

谷歌表示，他们在 2024 年 5 月至 2025 年 5 月期间，已将单个文本提示的能耗降低了 33 倍，碳足迹减少了 44 倍。

谷歌还强调，其测量方法比传统方式更为全面，不仅计算了 AI 加速器在活跃状态下的能耗，还纳入了服务器待机、辅助硬件消耗以及数据中心冷却和电力分配等总开销。

谷歌将这些较低的数值归功于其「全栈式」效率优化方法，涵盖模型架构、算法、硬件等多个层面。具体而言：

在模型架构层面：Gemini 基于 Transformer 架构，相较于此前最先进的语言建模架构，效率提升达 10 至 100 倍。此外，谷歌还采用了一些其他优化方案，例如 MoE 和混合推理模式。

在算法层面：谷歌采用 AQT（Accurate Quantized Training）等方法，在不降低响应质量的前提下，最大化效率并减少推理过程中的能耗。

此外，谷歌还通过推测性解码等技术，让小模型先行预测并交由大模型快速验证；蒸馏等技术则以更强能力的大模型作为教师模型，打造出更轻量高效的 serving 模型（如 Gemini Flash 与 Flash-Lite）。

在硬件层面：十多年来，谷歌从零开始设计 TPU，目标是实现每瓦性能的最大化。同时，谷歌还对 AI 模型与 TPU 进行协同设计，确保软件能充分发挥硬件优势，也让硬件在未来与 AI 软件配套时能够高效运行。谷歌最新一代的 TPU：Ironwood，相比最早公开的 TPU 能效提升 30 倍，在推理任务中的能效也远远超过通用 CPU。

软件层面： XLA 机器学习编译器、Pallas 内核以及 Pathways 系统，使得通过高级语言（如 JAX）编写的模型计算能够高效运行在 TPU 推理硬件上。

超高效的数据中心：Google 的数据中心在行业中属于最为高效的一类，整个平台的平均 PUE（fleet-wide average）为 1.09。

在冷却系统方面，谷歌也不断优化，在能耗、水耗与碳排之间实现本地化平衡，指导冷却方式选择，并在水资源紧张地区限制用水量。

专家不太认可

尽管谷歌展示了其在提升单位效率方面的努力，但多位专家对该研究的方法论和结论的完整性提出了质疑。

忽略间接水资源消耗

加州大学河滨分校副教授 Shaolei Ren 和 Digiconomist 创始人 Alex de Vries-Gao 指出，报告最大的遗漏之一是未计算「间接用水量」。

谷歌的 0.26 毫升估算仅包括数据中心用于冷却服务器的直接用水。然而，为数据中心供电的发电厂（无论是天然气还是核电）本身在冷却和驱动涡轮机时也需要消耗大量水资源。

De Vries-Gao 形容谷歌公布的数据「基本上只是冰山一角」，因为发电环节的用水量往往远超数据中心的直接消耗。

碳排放核算不完整

专家们还指出，谷歌在碳排放方面仅分享了「基于市场」的测量方法，该方法允许公司通过购买可再生能源证书来抵消其碳排放。然而，这并未完全反映其对当地电网的实际影响。

专家认为，谷歌应遵循国际公认的《温室气体核算体系》标准，同时纳入「基于地理位置」的碳排放数据。该指标能更真实地反映出数据中心运营所在地电网的清洁能源与化石能源组合所带来的实际排放量。Ren 教授表示：「这才是基本事实。」

误导性的数据比较

谷歌在报告中将其极低的水耗数据与 Ren 教授先前研究中高达 50 毫升的数据进行对比，称其结果「低了几个数量级」。Ren 教授认为这种比较是「驴唇不对马嘴」，因为他此前的研究包含了直接和间接的总用水量，而谷歌只计算了前者。

此外，谷歌使用了「中位数」来防止异常值扭曲结果，而以往研究多采用「平均值」。专家批评谷歌未能提供计算中位数的具体数据（如提示的词数或 token 数量），使得外部难以验证其结果的代表性。

宏观视角下的「杰文斯悖论」

尽管单个 AI 提示的效率在不断提升，但专家们警告，这可能导致一个被称为「杰文斯悖论」的现象：效率的提高反而可能刺激更多的使用，从而导致总体的资源消耗和污染不降反增。

这一担忧在谷歌自己的可持续发展报告中得到了印证。数据显示，随着公司大力发展 AI，其「基于雄心的碳排放量」自 2019 年以来增长了 51%，仅去年一年就增长了 11%。

De Vries-Gao 直言：「如果你看看谷歌公布的总数据，情况其实非常糟糕。」他认为，此次发布的 Gemini 效率报告「并没有说明故事的全貌」。

对此你有什么看法呢？欢迎在评论区留言。

参考链接：

https://cloud.google.com/blog/products/infrastructure/measuring-the-environmental-impact-of-ai-inference

https://www.theverge.com/report/763080/google-ai-gemini-water-energy-emissions-study

上海 AI Lab 26 届校招正式批开启！全岗位「无限复活甲」助你 offer 到手！

投递 0 限制：简历可多次投递，心仪岗位大胆冲！
100+ 职位，赛道超丰富，细分方向任你选！
顶级科研平台与资源：超大规模算力集群，PB 级数据，亿级研发投入！
清晰的职业发展通道：由实验室出题，为你链接顶尖高校、科研机构和行业企业！

扫描下方二维码即可投递简历。

转载请联系本公众号获得授权

投稿或寻求报道：[email protected]

文章原文

从繁杂技巧到极简方案：ROLL团队带来RL4LLM新实践

2025-08-22 12:56:00

本研究由淘天集团算法技术—未来生活实验室与爱橙科技智能引擎事业部联合完成，核心作者刘子贺，刘嘉顺，贺彦程和王维埙等。未来生活实验室汇聚淘天集团的算力、数据与顶尖技术人才，专注于大模型、多模态等前沿 AI 方向，致力于打造基础算法、模型能力及各类 AI Native 应用，引领 AI 在生活消费领域的技术创新。爱橙科技则在大模型训练与优化方面具有丰富的实践经验。双方此前联合开源了高效大模型强化学习训练框架 ROLL，此次论文工作同样是基于 ROLL 框架的实践探索。

近年来，强化学习（Reinforcement Learning, RL）在提升大语言模型（LLM）复杂推理能力方面展现出显著效果，广泛应用于数学解题、代码生成等任务。通过 RL 微调的模型常在推理性能上超越仅依赖监督微调或预训练的模型。也因此催生了大量的相关研究。但随之而来的，是一系列令人困惑的现象：不同研究提出了不同的 RL 优化技巧，却缺乏统一的实验对比和机制解释，有的甚至得出相互矛盾的结论。对于研究者和工程师而言，这种 “方法多、结论乱” 的局面，反而增加了落地应用的难度。

为此，阿里巴巴淘天集团和爱橙科技联合多所高校，基于自研并开源的 RL 框架 ROLL，开展了系统化研究。通过大规模实验，全面评估了当前主流 RL for LLM 方法中的关键技术组件，揭示其在不同设置下的有效性以及每类策略的底层机制，并最终提出一种仅包含两项核心技术的简化算法 ——Lite PPO，在多个基准上表现优于集成多种技巧的复杂方案。

论文《Part I: Tricks or Traps? A Deep Dive into RL for LLM Reasoning》
论文链接：https://arxiv.org/pdf/2508.08221

问题背景：技术多样性带来的选择困境

当前 RL4LLM 领域发展迅速，但存在以下问题：

标准不一：归一化方式、剪裁策略、损失聚合、样本过滤规则等策略存在多种实现方案，彼此之间缺乏统一比较基础。
结论不一：不同研究因模型初始性能、数据分布、超参设置等差异，得出相互矛盾的结果，导致实际应用中难以判断某项技术是否真正有效。
机制解释不足：多数方法缺乏对 “为何有效” 的理论或实证分析，导致技术使用趋于经验化，形成 “调参依赖”。

针对上述问题，该研究旨在回答两个核心问题：

不同 RL 优化技术在何种条件下有效？背后的机制是什么？
是否存在更简单、稳定且通用的技术组合？

公平竞技场：用统一框架拆解 RL 技巧

为了确保公平对比和结论可靠，该研究设计了严格的实验体系：

统一实现平台：所有实验基于开源的 ROLL 框架完成，避免因工程实现差异引入偏差。
清晰基线设定：以基于 REINFORCE 算法计算优势值的 PPO 损失（无价值函数）作为基线，逐项添加对应算法技术，精确量化每个模块的真实效果。
多种场景覆盖：涵盖不同模型规模（4B/8B）、模型类型（Base 模型与 Instruct 模型）、任务难度（Easy/Medium/Hard）下的实验分析。训练集从开源数据集（SimpleRL-Zoo-Data, DeepMath 等）中采样过滤，按照难度等级划分为为：Easy, Medium, Hard

各难度数据集中 rollout 8 次的正确次数分布。

解耦式评估：将归一化、剪裁策略、损失形式、过滤机制等关键模块独立测试，避免多因素耦合干扰判断。
多维度评估任务：在六个数学推理数据集上进行测试，覆盖从基础算术到国际数学奥林匹克难度的问题。

不同模型在不同数据难度下的准确率和回答长度变化趋势。为了确保对比清晰直观，所有曲线均使用相同的参数进行平滑处理。

核心发现：技巧并非普适，需因 “场景” 而异

优势归一化：Group-Mean + Batch-Std 最稳健

理论介绍

优势归一化通过平移 / 缩放优势值，降低梯度方差，稳定更新。常见的两种归一化方式包括：

组内归一化（Group-level）：同一问题的 K 条响应之间做对比，强化组内相对优劣。

批次归一化（Batch-level）：对整个批次内的 N*K 个响应进行奖励归一化，利用更大样本估计方差，抑制极端样本主导梯度。

关键发现

1. 对奖励分布的敏感性：

组内归一化（Group-level）在不同奖励设置下都更稳定，尤其在稀疏 / 偏斜分布下。
批次归一化（Batch-level）对奖励分布的偏斜高度敏感，在数据分布不平衡的情况下更容易崩溃，因为少数极端样本会主导优势估计。

各个模型在不同优势归一化方式下的准确率变化趋势。

2. 标准差项的风险：

当样本奖励分布高度集中的场景下（例如简单数据集下几乎全对的样本分布），标准差极小会放大梯度，导致训练不稳定乃至崩溃。
去掉标准差（仅做均值平移）在此类场景更稳健；在高方差场景下，两种方式差异不大。

左图：在不同难度数据上的标准差变化趋势。右图：在批次归一化下移除标准差前后的准确率变化趋势。

3. 混合方案的优势：

实验发现，“组内均值 + 批次标准差”的混合归一化更稳健，旨在兼顾局部相对比较的语义合理性与全局方差估计的统计稳健性。

各个模型上不同标准差计算方式的准确率变化趋势。

裁剪机制：Clip-Higher 并非普适

理论介绍

PPO 通过限制新旧策略概率比的变化，避免过大步长导致策略崩塌。但其同等限制上 / 下方向变化，常会过度压制低概率 token 的提升，导致熵快速下降、探索不足。

Clip-Higher：DAPO 提出将上界放宽（上行允许更大更新，下行保持保守），给 “潜力 token” 更大爬升空间，缓解熵塌陷，促进结构性探索。

生效机制解析：

1. 模型能力依赖性：

对于对齐后的 Instruct 模型，提升上剪裁阈值（ε_high）能有效减缓熵值下降，促进探索。。
对于未对齐的 Base 模型，单纯扩大上剪裁范围作用十分有限，甚至可能扰乱优化过程、降低整体表现。
形成这一差异的原因可能在于：基础模型初始表现不稳定，如果一开始就贸然增大探索空间，容易出现非预期行为导致优化偏离正确方向；相反，经过对齐的模型分布更均匀，适度增加上限能释放潜藏 “优质” 输出（详见论文 Figure 10）。

各个模型在不同裁剪上限下的训练趋势对比。

各个模型在使用不同裁剪上限下的熵变化趋势。

2. 从语言结构视角解析：

当采用低上界时，被剪裁频发的是 “语篇连接词”（如 "therefore,"" "if"），它们往往开启新推理分支，被抑制会压缩思维路径。
将上界放宽后，剪裁焦点转向 “功能词”（如 "is", "the" 等），连接词更自由，推理结构更丰富，同时保留句法骨架稳定。

左图：不同裁剪上限下的 token ratio 可视化展示。右图：出现频率最高的前 20 个被剪裁的 token

3. 上界选择的 “Scaling Law”：

针对不同大小的模型，参数调节需要差异化：在较小规模（如 4B 参数）情况下，随着剪裁阈值增加，模型性能持续提升；
而更大规模（如 8B），性能提升存在拐点，阈值过高则效果反而减弱。因此，剪裁参数应根据模型体量灵活设置，寻求最优解。

各个模型使用不同裁剪上限的准确率变化趋势。

损失聚合方式：token-level 更适合 Base 模型

理论介绍

当前主流方案分别有 sequence-level loss 和 token-level loss：

序列级损失：聚焦于句子或样本整体，适合结构已对齐、输出稳定的模型。

词元级损失：以 token 为基本单位，每个 token 都对总 loss 平均贡献，抑制短句偏置，补足长推理激励；

关键发现：

基础模型：采用 token-level 的损失聚合方式更优，收敛速度和准确率大幅提升；
对齐模型：采用 sequence-level 的损失聚合方式普遍更优。

各个模型上采用不同损失聚合方式的准确率变化趋势。

过长样本过滤：效用依赖于模型输出特征

理论介绍

训练时设定最大生成长度，复杂推理常被截断，尚未给出结论就被判负，形成 “错误惩罚” 噪声，污染学习信号。过滤策略：对超长 / 截断样本的奖励进行屏蔽，避免把 “尚未完成” 当成 “错误”, 从而引入噪声。

实验发现

1. 推理长度影响：

当最大生成长度设为 8k tokens 时，应用过长样本过滤能有效提升模型的训练质量，并且能够缩短输出的响应长度。
当长度限制放宽至 20k tokens，模型有更充分的空间完成复杂推理，生成的响应长度增加。此时，被过滤的样本更多是重复或无法自然终止的退化输出，而这类样本本身占比有限且学习价值较低，从而导致过滤操作带来的增益减弱。
结果表明，overlong filtering 的实际效用高度依赖于模型在当前数据下的输出特征，需按场景动态调整。

不同训练长度下是否使用超长样本过滤的实验表现。

2. 生效机制探究：

通过对过滤掉的样本类型进行统计，发现引入 Overlong Filtering 能够降低训练中 “不能正确预测 EOS 导致重复生成” 的比例（repeat-ratio），这表明其增强了模型的终止建模能力。

左图：在不同训练长度下，正确回答和错误回答的重复样本分布。右图：在采用和未采用超长样本截断场景下的重复样本分布。

极简新范式：Lite PPO—— 两步胜五技

综合上述系统分析，该研究提出 Lite PPO—— 一个仅包含两项技术的简化 RL 流程：

混合优势归一化（组内均值 + 批次标准差）；
token-level 损失聚合。

在以基础模型为初始策略的设置下，Lite PPO 在多个数学推理任务上达到甚至超过 DAPO 等融合五项技巧的复杂方法的表现。其优势体现在：

训练过程更稳定；
超参敏感性更低；
工程实现简单；
性能更优。

这充分说明：“技巧堆叠” 并非性能提升的主要途径，合理的组合能带来更强的鲁棒性和高效性。

结论

本文贡献主要体现在三方面：

1. 建立首个系统性对比框架

对归一化、剪裁、损失聚合、样本过滤等关键技术进行了独立、可控的实证分析，明确了各项技术的适用边界。

2. 验证极简设计的优越性

提出的 Lite PPO 方案表明，复杂的 “多技巧堆叠” 并非必要。在多数实际场景下，精简而有针对性的技术组合反而更具鲁棒性和可扩展性。

3. 推动可复现与标准化研究

基于开源 ROLL 框架开展实验，所有配置公开，为后续研究提供了可复现基准，有助于提升领域透明度与协作效率。

从中我们获得如下启发：

给开发者的建议：别再追求 “trick 大全”，应根据模型类型（Base/Align）、任务特性（长度、难度）、奖励设计等实际需求，有针对性地配置合理技巧。
对学术界的启示：新方法若想 “立得住”，必须重视广泛适用性与易复现性。Lite PPO 的成功案例表明，RL 优化未必复杂即优，而是贵在精粹。

关于 ROLL 团队

本研究由阿里巴巴 ROLL 团队完成。ROLL 是一套面向高效、可扩展、易用的强化学习训练框架，支持从十亿到千亿参数大模型的优化训练，已在多个场景中展现出显著性能提升。

此次论文正是 ROLL 团队在开源框架实践中的又一次探索成果，未来，ROLL 团队将持续关注 RL 社区发展并分享更多实践经验。同时，我们也将继续完善自研的 ROLL 框架，以灵活地适应各种技术，为在各种场景中有效应用强化学习提供实用支持。

项目地址：github.com/alibaba/ROLL

转载请联系本公众号获得授权

投稿或寻求报道：[email protected]

文章原文

机器之心修改

机器之心的 RSS 预览