MoreRSS

site icon机器之心修改

中文人工智能垂直媒体。由kindle4rss生成。
请复制 RSS 到你的阅读器,或快速订阅到 :

Inoreader Feedly Follow Feedbin Local Reader

机器之心的 RSS 预览

「流匹配」成ICML 2025超热门主题!网友:都说了学物理的不准转计算机

2025-07-13 12:58:00

机器之心报道

编辑:笑寒

流体力学融入生成式 AI ,构建了一种非常简洁、优雅的形态。


众所周知,第 42 届国际机器学习大会(ICML)将于 7 月 13 日至 19 日在加拿大温哥华盛大举行。


在生成式 AI 领域,最新的前沿热点已经转向探索更高质量,更稳定,更简洁,更通用的模型形态。


流匹配(Flow Matching)技术正完美的踩中了每一个热点要素。


自从 FLUX 模型发布后,能够处理多种输入类型的流匹配架构逐渐成为目光焦点。


也因此有学者感慨,在 ICML 2025 的生成相关工作中,流匹配技术几乎无处不在


image.png


流匹配技术虽说在生成式 AI 领域是前沿研究,但其核心概念来源于流体力学。


令人惊讶的是,物理领域的有关概念在近些年的确为生成领域的研究提供了很多新方向和新成果。


甚至薛定谔桥都能用在扩散生成领域


在知乎相关技术解读专栏《深入解析 Flow Matching 技术》下,网友怒评:物理学专业的不准转计算机!


image.png


  • 专栏标题:《深入解析 Flow Matching 技术》

  • 专栏链接:https://zhuanlan.zhihu.com/p/685921518


本文参考研究者 Floor Eijkelboom 的最新推文,从原理入手,避免繁杂的数学公式,来介绍这一简洁优雅且高效的生成技术。



生成:噪声映射到数据


生成工作是一个逐步具象化的过程,从一个抽象的表示开始,通过不同的生成网络,最终生成出具有复杂细节的真实数据。在此过程中,我们希望从一个无序的「噪声分布」映射到不同的复杂的数据分布中,这种映射是高度非线性的,而且存在无限的可能性。


 生成猫猫 由噪声向图像映射


从本质上讲,流匹配的核心思想非常简单:


学习将噪声转化为数据


我们首先在噪声分布与数据分布之间选择一种插值方式(如图所示)。


流匹配会学习如何沿着这条插值路径移动每一个样本,将起始时刻(time 0)的噪声点逐步转化为终点时刻(time 1)对应的数据点。



流匹配是基于归一化流(Normalizing Flows,NF)的生成模型。它通过一系列可逆的变量变换,将复杂的概率分布逐步映射为简单的分布;同时,也可以通过这些变换的逆过程,从简单分布中生成逼真的数据样本。


流匹配原理:流体力学


连续性方程


那么,噪声点向数据点的差值路径应当如何建立?


这个问题已经在流体动力学等领域中得到研究! 


在流体中,追踪每一个微小粒子的运动轨迹是明显困难的。因此我们更关注的是:每个空间区域内平均存在多少水?这种平均量被称为密度


为了研究密度的变化,物理学提供了一个重要工具:连续性方程(continuity equation)


连续性方程建立在一个简单而基本的原理之上:质量既不会凭空产生,也不会无故消失。


这一原理不仅适用于物理质量,同样适用于概率质量(probability mass)。这直接建立了物理概念与生成模型中概率分布的直接联系。


image.png

连续性方程:同样适用于概率质量


直观的理解连续性方程:


  • 如果流入的密度大于流出,则该点密度增加;

  • 如果流出大于流入,则密度减少;

  • 如果两者相等,密度保持不变(即处于平衡状态)。


这种 「总流出量」 被称为散度(divergence)


在物理学中,我们通常是从粒子的运动行为出发,推导出整体密度的变化规律。


流匹配正好相反!它从一开始就指定密度的变化过程 —— 即从噪声分布逐步过渡到数据分布的插值轨迹 —— 然后去学习使这一演化成立的速度场(velocity field)。正是这个速度场,使得我们能够从噪声中生成新的数据样本。


过程示意


我们先从一个简单的情况开始 —— 只考虑一个数据点。


在这种情况下,我们通过从噪声点到该数据点之间的直线路径来定义变化过程。也就是在路径上的每一个位置,其速度方向都直接指向目标数据点。


由于这个过程是针对特定数据点定义的,我们称之为条件流(conditional flow)

 


流匹配的「魔法」,在于它如何处理整个数据分布。


在空间中的任意一点,都可能会有无数条从噪声出发、通向不同数据点的插值路径穿过。而此时,我们需要的总体速度场,就是这些路径在该点的平均方向


训练过程(学习平均插值速度场)与生成过程的示意


具体原因如下:


在空间中的任意一点,可能存在多条从噪声出发、通向不同数据点的路径经过它,这些路径可能通向高概率的样本,也可能通向低概率的样本。


但对于这个特定位置来说,更可能处在属于通向高概率样本的路径上。因此,在这个位置上,穿过它的所有路径的平均方向正好反映了这一点,如图所示。



流匹配有一个对偶视角,称为 变分流匹配(Variational Flow Matching, VFM)


与其在每个位置上对所有路径的速度进行平均,VFM 的思路是:在空间中的每一点,推断它可能朝向的终点分布。这样一来,该点的速度场就简单地指向这个分布的均值。



当变分后验为高斯分布时,流匹配与变分流匹配是等价的。


我们从数据分布中采样一个数据点 x_1,从噪声分布中采样一个噪声点 x_0,并在它们之间插值得到某个中间点 x_t。接下来流匹配学习的是:在该位置应该朝哪个方向移动


下方展示了对应的伪代码:


image.pngImage


若对流匹配感兴趣,可以参阅以下论文:


image.png


  • 论文标题:Flow Matching for Generative Modeling

  • 论文链接:https://arxiv.org/abs/2210.02747


扩散与流匹配的对比


一体两面


读到这里,不难发现流匹配的方法和扩散模型的逻辑非常相似,似乎具备完全相同的前向过程。


那么扩散模型和流匹配具有怎样的关系呢?


MIT 副教授何恺明认为,流匹配技术在生成模型领域的位置,扩散模型是流匹配的子集:


image.png


实际上,当采用高斯分布作为插值策略时,扩散模型其实就是一种特殊的流匹配


这是一个好消息,这意味着你可以互换使用这两个框架。


关于扩散模型与流匹配的训练过程:


  1. 权重函数的一致性:训练中使用的权重函数十分关键,它决定了模型如何平衡感知数据中不同频率成分的重要性。流匹配中的权重设计恰好与扩散模型文献中常用的训练权重函数高度一致。


  2. 噪声调度对训练目标影响较小:虽然噪声调度对训练效率存在影响,但它对最终的训练目标函数本身作用不大。


  3. 网络输出形式的差异:流匹配提出了一种新的网络输出形式


扩散模型与高斯流匹配(Gaussian Flow Matching)在本质上是等价的。


但值得注意的是,高斯流匹配为生成建模领域带来了两个新的模型设定:


  1. 网络输出形式:流匹配提出了一种新的网络输出参数化方式,将其视为一个速度场,这与传统扩散模型中的输出形式不同。在使用高阶采样器时,这种输出形式可能带来性能差异,并可能影响训练过程中的动态行为。


  2. 采样噪声调度:流匹配使用了一种简单的采样噪声调度策略,其更新规则与 DDIM 相同。


对扩散模型和流匹配关联的更多信息,请参阅以下文章:


image.png


  • 文章标题:Diffusion Meets Flow Matching: Two Sides of the Same Coin

  • 文章链接:https://diffusionflow.github.io


参考内容:

https://x.com/FEijkelboom/status/1942944767563661459

https://mlg.eng.cam.ac.uk/blog/2024/01/20/flow-matching.html

https://zhuanlan.zhihu.com/p/685921518


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]


文章原文

AI编程「反直觉」调研引300万围观!开发者坚信提速20%,实测反慢19%

2025-07-13 12:58:00

机器之心报道

编辑:杜伟


随着大模型的崛起,AI编程领域正在发生翻天覆地的变化。

各种编程大模型、编程工具涌现,通过自动补全代码、自动 debug 等实用的功能为开发者的日常工作提供极大便利,并在一定程度上提升了开发效率。


不过,问题来了,AI 编程工具带来的影响真是如此吗?


近日,一家非营利性 AI 调研机构「METR」进行了一项随机对照实验,旨在了解 AI 编程工具如何加速经验丰富的开源开发者的工作效率。


结果却是非常令人意外:开发者本来坚信使用使用 AI 工具后速度可以提升 20%,但实际上速度却比没有使用 AI 工具时慢了 19%。这一结论在社交媒体 X 上爆了,阅读量几乎要突破 300 万。


热度.png


如下图所示:与专家预测和开发者本来的直觉相反,2025 年初的 AI 编程工具将减缓经验丰富的开发者的开发速度。在本次随机对照实验中,16 位拥有中等 AI 编程经验的开发者完成了 246 项大型复杂项目的任务,他们平均拥有 5 年开发经验。


image.png


对于这项调研,网友反应不一。有人感同身受,表示赞同。


image.png


有人则对 METR 的测量指标产生了质疑,表示「完成任务的时间」不能与「生产力」划等号,并且中等 AI 经验与复杂项目测试同样是糟糕的设置。


image.png


「应该调研普通人(非开发者)使用 AI 编写软件的速度快了多少」,也有人提出了这样的建议。


image.png


研究动机


虽然编码 / 智能体基准测试已被证明有助于理解 AI 能力,但它们通常为了规模和效率而牺牲了真实性 —— 这些任务自成一体,不需要理解先前的上下文,并且使用算法评估,无法捕捉许多重要的能力。这些特性可能导致基准测试高估了 AI 的能力。


另一方面,由于基准测试是在没有真人实时交互的情况下运行的,模型可能尽管取得了实质性进展却未能完成任务,比如一些在真实场景中人类会轻松修复的小瓶颈。总的来说,直接将基准测试分数转化为现实世界的影响是困难的。


METR 表示,评估 AI 对软件开发人员生产力的影响,可以为基准测试提供补充证据,有助于了解 AI 对 AI 研发加速的整体影响。


方法、结果与原因分析


为了直接测量 AI 工具在软件开发中的现实影响力,METR 招募了 16 位经验丰富的开发者,他们来自大型开源仓库(平均拥有 22k+star 和 100 万 + 行代码),并已贡献多年。


这些开发者提供了他们认为对仓库有价值的真实问题列表(总计 246 个)—— 即通常属于他们日常工作范畴的 bug 修复、功能开发和重构任务。


接下来,METR 随机分配每个问题,允许或禁止开发者在处理该问题时使用 AI。当允许使用 AI 时,开发者可以选择他们喜欢的任何工具(研究期间主要使用 Cursor Pro 搭配 Claude 3.5/3.7 Sonnet)。


当禁止使用时,他们则在没有生成式 AI 辅助的情况下工作。开发者在完成任务(平均每个耗时约两小时)时录屏,并自行报告完成所需的全部时间。


当然,METR 按每小时 150 美元(约合人民币 1080 元 / 小时)的标准向开发者支付参与研究的报酬。


image.png


结果显示:当开发者被允许使用 AI 工具时,他们解决问题所需的时间反而增加了 19%—— 这一显著的效率下降与专家预测以及开发者的感知背道而驰。


这种感知与现实之间的差距令人震惊:开发者预期 AI 能将其速度提升 24%,即使在经历了效率下降之后,他们仍然相信 AI 可以为他们提速 20%。


下文展示了开发者预测的平均时间和实际观察到的实现时间。我们可以清晰地看到,当开发者被允许使用 AI 工具时,他们花费的时间明显更长。


image.png


当允许使用 AI 时,开发者在主动编码和查找信息上的时间减少了,取而代之的是花更多时间撰写提示词、等待或审查 AI 输出,以及处于空闲状态。METR 发现,开发进度的放缓并不是单一原因,而是由多种因素共同导致的。


image.png


为了更好地理解这些因素,METR 考察了实验环境中的 20 项属性,发现其中有 5 项很可能是造成开发速度放缓的原因,另外有 8 项则表现出混合或不明确的影响。


过程中,METR 排除了许多实验干扰因素,比如开发者使用了前沿模型、遵守了处理分配规则、没有选择性地放弃问题(例如放弃困难的不使用 AI 任务从而降低不使用 AI 组的平均难度),并且在使用和不使用 AI 的情况下都提交了质量相近的 PR(Pull Request)。


结果发现:无论是采用不同的结果指标、估计方法,还是对数据进行各种子集 / 子分析,开发速度的放缓现象依然存在。


image.png


更详细的调研结果请参考原论文:


image.png


  • 论文标题:Measuring the Impact of Early-2025 AI on Experienced Open-Source Developer Productivity 

  • 论文地址:https://metr.org/Early_2025_AI_Experienced_OS_Devs_Study.pdf


局限性与未来展望


此次调研得出了两个重要结论,分别是:


  • 在某些重要场景下,近期的 AI 工具有可能并未提升生产力,甚至可能导致效率下降。

  • 关于效率提升的自我报告并不可靠 —— 要真正理解 AI 对生产力的影响,我们需要真实环境中的实验数据。


不过,METR 也表示,他们的设置并没有代表所有(甚至可能是大多数)软件工程,同时声明当前的模型也能更有效地利用起来,未来的模型可能会变得更好。


image.png


当然,没有哪种测量方法是完美的 —— 人们希望 AI 系统完成的任务是多样、复杂且难以严格研究的。各种方法之间存在有意义的权衡,继续开发和使用多样化的评估方法以更全面地描绘 AI 的现状和未来发展方向,将至关重要。


未来,METR 期待运行类似的 AI 调研,以追踪 AI 带来的加速(或减速)趋势,这类评估方法可能比基准测试更难被「玩弄」。


博客地址:https://metr.org/blog/2025-07-10-early-2025-ai-experienced-os-dev-study/


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]


文章原文

VLA 推理新范式!一致性模型 CEED-VLA 实现四倍加速!

2025-07-13 12:58:00


本文第一作者为香港科技大学(广州)机器人系一年级博士生宋文轩,主要研究方向为VLA模型,共同第一作者是来自香港科技大学广州的研究助理陈家毅,项目leader为浙江大学和西湖大学联合培养博士生丁鹏翔,他们也是具身智能领域开源项目OpenHelix以及LLaVA-VLA的研究团队。通讯作者为香港科技大学广州的李昊昂教授,他是今年的CVPR2025 Best Paper Candidate的获得者。



近年来,视觉 - 语言 - 动作(Vision-Language-Action, VLA)模型因其出色的多模态理解与泛化能力,已成为机器人领域的重要研究方向。尽管相关技术取得了显著进展,但在实际部署中,尤其是在高频率和精细操作等任务中,VLA 模型仍受到推理速度瓶颈的严重制约。


针对这一问题,部分研究提出采用 Jacobi 解码替代传统的自回归解码,以期提升推理效率。然而,由于 Jacobi 解码往往需要较多迭代次数,其加速效果在实践中较为有限。


为此,我们提出了一种一致性蒸馏训练(consistency distillation training)策略,使模型在每次迭代中能够同时预测多个正确的动作 token,从而实现解码加速。同时,我们设计了混合标签监督机制(mixed-label supervision),用于缓解蒸馏过程中可能产生的误差积累问题。


尽管上述方法带来了可接受的加速效果,我们进一步观察到:Jacobi 解码中仍存在若干低效迭代步骤,成为限制整体效率的关键瓶颈。为彻底解决该问题,本文提出一种提前退出(early-exit)解码策略,通过适度放宽收敛条件,进一步提升平均推理效率。



  • 论文题目:

    CEED-VLA : Consistency Vision-Language-Action Model with Early-Exit Decoding

  • 项目主页:

    https://irpn-eai.github.io/CEED-VLA/

  • 论文链接:

     https://arxiv.org/pdf/2506.13725

  • 代码链接:

     https://github.com/OpenHelix-Team/CEED-VLA


实验结果表明,我们所提出的方法在多个基线模型上实现了超过4 倍的推理加速,同时在仿真与真实机器人任务中均保持了较高的任务成功率。这些实验验证了本方法在加速机器人多模态决策过程中的高效性与通用性,展现出良好的应用前景。总的来说,我们做出以下三大贡献:


(1)我们提出了一种通用的加速方法 CEED-VLA,在保持操控性能的前提下显著提升了推理速度。


(2)我们引入了一种一致性蒸馏机制,并在自回归损失中结合混合标签监督,以有效保留高质量的动作序列。


(3)我们发现 Jacobi 解码存在低效迭代的瓶颈问题,进一步提出了早期退出(early-exit)解码策略,实现了 4.1 倍的推理加速与 超过 4.3 倍的解码频率提升。


图 1:不同解码方法加速效果对比


Method


图 2:CEED-VLA 模型架构示意图


我们提出的框架首先通过预训练的 VLA 模型(例如 LLaVA-VLA和OpenVLA)进行Jacobi Decoding生成训练Jacobi Trajectory数据集。随后,我们设计了一种高效的一致性蒸馏方式,并引入了一种新颖的混合标签监督方法,在同时保证精度和提高速度的前提下训练学生模型。最后,我们提出了Early-exit Decoding技术,以进一步提升推理速度。模拟环境与现实世界中的实验表明,在几乎不损失任务成功率的前提下,该方法显著提升了模型的推理速度和灵巧任务的成功率。


Consistency Training


对于目标 VLA 模型 ,为了捕捉 Jacobi 轨迹中的内在一致性以进行一致性训练,我们首先通过在机器人数据集C上使用 Jacobi Decoding对模型 进行动作预测,来采集完整的Jacobi轨迹。


一致性训练包含两个优化目标:一致性损失(Consistency Loss): 引导模型能够在单次forward过程中预测多个正确的 token,为了确保模型在轨迹中的任意一步都能生成与最终目标一致的动作,这里引入了 KL 散度作为一致性损失。简而言之,它要求模型在每一个中间步骤的预测,和最终预测结果之间保持一致,从而提高模型收敛效率。


混合标签的自回归监督损失(Mixed-label AR Supervision): 为了保留模型常规的自回归生成能力,CEED-VLA混合使用教师模型的数据以及Ground-truth数据进行监督,以保证动作精确性。最终的训练目标是两种损失的加权和。训练过程如下所示:


图4  一致性训练算法


Early-exit Decoding


图 5:四种解码方式迭代流程


Jacobi 解码允许并行输出动作token,在一定程度上提高了推理速度,但严格的收敛条件影响解码效率进一步提升。为此我们提出Early-exit Decoding策略:模型通过提前退出的方式输出中间预测结果,无需满足Jacobi iteration的收敛条件。得益于manipulation任务独特的结构,Early-exit Decoding显著提升了推理速度,同时保持了成功率,使得模型能够以更高频率控制机器人,满足实时任务需求。


仿真环境基准实验(Simulation Benchmark)


图 6:仿真环境主要实验结果


在最具挑战的长程任务CALVIN ABC-D和LIBERO-Long基准上的实验结果表明,CEED-VLA在几乎不损失任务成功率的前提下实现了4倍以上的推理速度和执行频率。


真实世界实验(Real World)


图 9:真机实验部署设置


图 10:叠毛巾任务上的对比


上图展示了 LLaVA-VLA 模型的真实表现。机械臂操作频率较低,难以完成如叠毛巾等灵巧操作任务,经常出现抓取失败或只抓到一边的情况,导致任务失败。下图展示了 CEED-VLA 模型的实验效果。得益于推理频率的提高,机械臂动作更加顺畅,成功完成了灵巧操作任务。


图 11:CEED-VLA 在真实世界中的实验结果。


 CEED-VLA 显著提升了推理速度和控制频率,使模型能够学习并执行高频动作,因此相比基线在灵巧任务上的成功率大幅提升,超过 70%。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]


文章原文