2025-05-12 17:06:00
编辑:杜伟、蛋酱
开启「分步思考」新范式。
科学界的一个共识是:即使是最复杂的现代人工智能,也难以媲美人类大脑的表现和效率。
研究者经常从大自然中寻找灵感,了解如何在人工智能领域取得进步,例如利用进化来合并模型、为语言模型进化出更高效的记忆或探索人工生命的空间。虽然人工神经网络近年来让人工智能取得了非凡的成就,但它们仍然是其生物对应物的简化表征。所以,能否通过结合生物大脑中的特征,将人工智能的能力和效率提升到新的水平?
他们决定重新思考认知核心的一个重要特征:时间。
刚刚,Transformer 作者之一 Llion Jones 联合创立的的Sakana AI 发布了「连续思维机器」(Continuous Thought Machine,CTM),这是一种将神经元活动同步作为其核心推理机制的人工智能模型,也可看作一种新型人工神经网络,它利用神经元动态之间的同步来完成任务。
博客地址:https://sakana.ai/ctm/
技术报告:https://pub.sakana.ai/ctm/paper/index.html
代码地址:https://github.com/SakanaAI/continuous-thought-machines/
与传统人工神经网络不同,CTM 在神经元层面使用定时信息,从而实现了更复杂的神经行为和决策过程。这一创新使该模型能够逐步「思考」问题,使其推理过程具有可解释性和类人性。
研究表明,在各种任务中,机器人解决问题的能力和效率都有所提高。
Sakana AI 表示,CTM 是弥合人工神经网络与生物神经网络之间差距的重要一步,有可能开启人工智能能力的新领域。
CTM 解迷宫和思考真实照片的可视化(图片来源:Alon Cassidy)。值得注意的是,尽管 CTM 的设计并不明确,但它在迷宫中学会的解法却非常容易解释,而且类似于人类,可以看到它在「思考」解法时描绘出通过迷宫的路径。对于真实图像,虽然没有明确的激励措施让它四处查看,但它会以直观的方式查看。
研究创新
尽管随着 2012 年深度学习的出现,人工智能的能力有了重大飞跃,但自 20 世纪 80 年代以来,人工智能模型中使用的人工神经元基本模型在很大程度上一直没有改变。研究人员仍然主要使用神经元的单一输出,这代表了神经元的激发情况,却忽略了神经元相对于其他神经元激发的精确时间。
不过,有力的证据表明,这种定时信息在生物大脑中至关重要,例如在依赖于尖峰定时的可塑性中,它是生物大脑功能的基础。
在新模型中,Sakana AI 用来表示这种信息的方法是让神经元访问自身的行为历史,并学习如何利用这些信息来计算自身的下一个输出,而不仅仅是知道自身的当前状态。这样,神经元就能根据过去不同时期的信息改变自己的行为。此外,新模型的主要行为是基于这些神经元之间的同步,这意味着它们必须学会利用这些时间信息来协调完成任务。研究者认为,与当代模型中观察到的情况相比,这将产生更丰富的动态空间和不同的任务解决行为。
在添加了这种定时信息后,Sakana AI 在许多任务中看到了一系列非同寻常的行为。他们看到的行为具有很强的可解释性:在观察图像时,CTM 会小心翼翼地在场景中移动其视线,选择关注最显著的特征,而且它在某些任务中的表现有所提高。这让研究者惊讶于神经元活动动态中的行为多样性。
CTM 中的神经元动态样本,显示神经元如何随不同的输入而变化。CTM 显然学会了多种神经元行为。每个神经元(随机颜色)如何与其他神经元同步。研究者对其进行测量,并将其作为 CTM 的表征。
新模型的行为基于一种新的表征:神经元之间随时间的同步。研究者认为这更容易让人联想到生物大脑,但并非严格意义上的仿真。他们将由此产生的人工智能模型称为「连续思考机器」,它能够利用这种新的时间维度、丰富的神经元动态和同步信息来「思考」任务,并在给出答案前制定计划。
命名中使用「连续」一词,是因为 CTM 在推理时完全在内部「思考维度」运行。它对所消耗的数据是异步的:它可以以相同的方式对静态数据(如图像)或顺序数据进行推理。研究者在大量任务中测试了这一新模型,发现它能够解决各种问题,而且通常是以一种非常可解释的方式。
研究者观察到的神经元动态在某种程度上更像是在真实大脑中测量到的动态,而不是更传统的人工神经网络,后者表现出的行为多样性要少得多(请参阅下图与经典人工智能模型 LSTM 的比较)。CTM 显示了以不同频率和振幅振荡的神经元。有时,单个神经元会出现不同频率的振荡,而其他神经元只有在完成任务时才会出现活动。值得强调的是,所有这些行为都是完全突发的,并没有设计到模型中,而是作为添加定时信息和学习解决不同任务的副作用出现的。
CTM 完整架构如下图所示,其中①为突触模型(权重用蓝线表示),建模跨神经元交互以产生预激活。对于每个神经元,②都会保留预激活的历史记录,其中最新的历史记录被 ③神经元级模型(权重用红线表示)用于产生④后激活。此外还会保留 ⑤ 后激活的历史记录,并用于 ⑥ 计算同步矩阵。从同步矩阵中选择⑦神经元对,从而产生⑧潜在表征。CTM 用这些表征⑨产生输出并通过交叉注意力机制调制数据。调制后的数据(例如注意力输出)将与后激活连接起来⑩,用于下一个内部时钟周期。
CTM 架构的测试效果
由于新增了时间维度,CTM 的一大优势在于:可以观察并直观地看到它如何随着时间的推移解决问题。传统的 AI 系统可能只需通过神经网络一次性对图像进行分类,而 CTM 可以分多个步骤来「思考」如何解决任务。
下面展示了两个任务:解迷宫和照片中的物体分类。
首先来看解迷宫(Maze Solving)任务。在这个任务中,CTM 会被呈现一个自上而下的 2D 迷宫,并被要求输出走出迷宫所需的步骤。这种模式尤其具有挑战性,因为模型必须理解迷宫构造并规划解决方案,而不是简单地输出路径的视觉表示。
CTM 内部连续的「思考步骤」使其能够制定计划,从而可以直观地看到它在每个思考步骤中关注迷宫的哪些部分。值得注意的是,CTM 学会了一种非常类似于人类的解迷宫方法 —— 在它的注意力模式中沿着迷宫路径前进。
CTM 的行为模式尤其令人印象深刻,因为它自然而然地从模型架构中涌现出来。研究者并没有特意设计 CTM 来追踪迷宫中的路径,它通过学习自行开发展了这种方法。他们还发现,当允许 CTM 进行更多思考步骤时,它会持续沿着训练好的路径前进,这表明它确实学会了解决这个问题的通用方法。
接下来是图像识别任务。传统的图像识别系统只需一步即可做出分类决策,而 CTM 则需要多个步骤来检查图像的不同部分,然后再做出决策。这种循序渐进的方法不仅使人工智能的行为更易于解释,也提高了准确率:它「思考」的时间越长,答案就越准确。
研究者还发现,这种方法使得 CTM 能够减少在简单图像上思考的时间,从而节省算力。例如,在识别大猩猩时,CTM 的注意力会从眼睛转移到鼻子,再转移到嘴巴,这与人类的视觉注意力模式非常相似。
这些注意力模式为我们了解模型的推理过程提供了一个窗口,展示了它认为哪些特征与分类目标最相关。这种可解释性不仅有助于理解模型的决策,还可能有助于识别和解决偏差或故障模式。
结论
尽管现代人工智能以「人工神经网络」的形式建构在大脑之上,但即使在今天,人工智能研究与神经科学之间的重叠仍然少得惊人。AI 研究人员选择沿用上世纪 80 年代开发的极简模型,并且得益于简单易用、训练高效等属性,这些模型在推动人工智能发展方面持续取得成功。
另一方面,神经科学可以创建更精确的大脑模型,但其主要目的是理解大脑,而非试图创建更高级的智力模型。当然,两者之间可能存在某种关联。这些神经科学模型尽管更加复杂,但性能往往仍低于当前最先进的 AI 模型,因此,这类模型可能在人工智能应用领域缺乏进一步研究的吸引力。
尽管如此,研究者认为,如果现代人工智能在某些方面不能继续向大脑的工作方式靠拢,我们将错失良机。我们或许能够通过这种方式创建更强大、更高效的模型。2012 年,得益于受大脑启发的神经网络模型,AI 能力出现跃升,「深度学习革命」才出现。
为了继续推动这一进步,是否应该继续受到大脑的启发呢?CTM 是研究者首次尝试弥合这两个领域之间的差距,它展现出一些更像大脑行为的初步迹象,同时仍然是一个可以解决重要问题的实用人工智能模型。
研究者希望能够继续推动模型朝着这个受自然启发的方向发展,并探索可能出现的新功能。关于 CTM 在不同任务中的行为,请参阅原始技术报告。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
2025-05-12 17:06:00
该工作第一作者为中国人民大学高瓴人工智能学院硕士生程传奇,目前于蚂蚁技术研究院实习,其主要研究领域为多模态大模型,蚂蚁技术研究院副研究员关健为共同第一作者。
在视觉语言模型(Vision-Language Models,VLMs)取得突破性进展的当下,长视频理解的挑战显得愈发重要。以标准 24 帧率的标清视频为例,仅需数分钟即可产生逾百万的视觉 token,这已远超主流大语言模型 4K-128K 的上下文处理极限。当面对影视级的长视频内容时,传统解决方案的不足愈加凸显:粗放式的帧采样策略往往造成关键帧信息遗漏,而特征融合方法虽能降低数据维度,却不可避免地导致语义完整性受损。
近日,蚂蚁和人大的研究团队带来了一个创新性的解决方案。他们提出视觉语言大模型 ViLAMP(Video-Language Model with Mixed Precision),实现了对超长视频的高效处理。这个方法的核心在于其独特的 “混合精度” 策略:对视频中的关键内容保持高精度分析,而对次要内容进行强力压缩,就像人类在观看视频时会重点关注关键场景,而对过渡时空信息只做快速扫描一样。
论文标题:Scaling Video-Language Models to 10K Frames via Hierarchical Differential Distillation
论文地址:https://arxiv.org/abs/2504.02438
Github:https://github.com/steven-ccq/ViLAMP
实验结果令人振奋:ViLAMP 在 Video-MME 等五个主流视频理解基准上全面超越现有方案,特别是在处理长视频时展现出显著优势。更重要的是,它可以在单张 A100 GPU 上连续处理长达 1 万帧(按每秒 1 帧计算约 3 小时)的视频内容,同时保持稳定的理解准确率。这一突破不仅大大提升了视频处理效率,更为在线教育、视频监控、直播分析等实际应用场景带来了新的可能。相关论文已被 ICML 2025 接收。
横轴:处理的视频帧数(从 0 到 10,000 帧),纵轴: GPU 内存使用量(MB)。测试在单块 NVIDIA A100 GPU 上进行。
VideoNIAH(视频版本大海捞针任务)测试结果。横轴:视频总长度(2K-10K 帧);纵轴:表示目标视频在完整视频中的相对位置(0% 表示在开头,100% 表示在结尾)。
视频信息在时空维度均呈现稀疏性与冗余性
为解决长视频处理的效率问题,研究团队首先对主流视觉语言模型(包括 LLaVA-OneVision、LLaVA-Video、Qwen2-VL 和 LongVA)进行了系统性分析,发现了视频信息在时间和空间上均存在显著的稀疏性和冗余性:
帧间注意力分析:在现有模型中,用户 Query 对相应视频的注意力高度集中 ——90% 的注意力仅分布在不到 5% 的视频帧上(称为关键帧)。更重要的是,这 5% 的关键帧之间往往存在很强的视觉相似度。
帧内注意力分析:在每一帧的内部,模型的注意力也展现出相似的稀疏性质 ——50% 的 patch(帧划分的最小单位)就承载了 80% 的模型注意力,但这些受关注的 patch 与关键帧中的对应 patch 具有远超随机基线水平的相似度。
这一发现表明现有模型在处理视频时存在大量计算资源的浪费。实际上,处理长视频不需要对每一帧、每个 patch 都投入同样的计算量。基于此,研究团队提出 “差分蒸馏原则”(Differential Distill Principle):识别并保留重要的视频信息,同时压缩那些虽然相关但高度冗余的信息。其中,重要信息应该同时满足两个条件:(1)高查询相关性:与当前用户 Query 高度相关;(2)低信息冗余性:包含独特的视频信息。这一原则为后续设计高效的视频处理算法奠定了理论基础。
ViLAMP: 基于差分蒸馏的双层混合精度架构
前文的注意力分析揭示了一个关键问题:现有视觉语言模型对视频中所有帧和 patch 都采用相同的处理方式,导致大量计算资源的浪费。基于这一认识,研究团队提出了专门面向长视频处理的高效架构 ViLAMP,它能够根据信息的重要程度自适应地分配计算资源。
ViLAMP 模型结构图
ViLAMP 通过层次化的压缩框架实现这一策略:在帧级别,对重要的关键帧保留完整的视觉 token 表示,以捕获关键信息;而对于非关键帧,则采用强力压缩策略;在 patch 级别,通过差分机制增大重要 patch 的权重。
模型具体包含两个核心机制:
1. 差分关键帧选择(Differential Keyframe Selection,DKS)
为实现关键帧的高效识别,ViLAMP 采用了基于贪心策略的选择算法。该算法在最大化与用户 Query 的相关性的同时,通过差分机制降低帧间冗余,确保选中的关键帧既重要又多样化。
2. 差分特征合并(Differential Feature Merging,DFM)
针对非关键帧的处理,ViLAMP 创新性地通过差分加权池化,将每个非关键帧压缩为单个信息量最大化的 token。在压缩过程中,模型赋予那些与用户 Query 相关且具有独特性的 patch 较高的权重,同时降低与相邻的关键帧有显著重复的 patch 的权重,从而在大幅降低计算量的同时保留关键信息。
这种双层混合精度架构既确保了模型能够准确捕获视频中的关键信息,又显著降低了计算开销。
突破性性能:全面超越现有方案
在五个主流视频理解基准上的实验表明:
1.ViLAMP 以 7B 参数量达到或超越了部分 70B 量级模型的表现,特别是在 Video-MME 长视频子集上比现有最优模型提升 4.8%。
2. 针对当前视频理解基准中视频长度不足的问题,本文提出了面向视频理解场景的 “大海捞针” 任务 ——VideoNIAH。该任务将一段目标短视频(1 分钟以内)插入到小时级别的长视频中,要求模型在不依赖先验信息的情况下,从超长视频上下文中定位并理解该片段,进而回答相关问题。与传统基于文本的 NIAH 任务不同,VideoNIAH 中的答案无法直接从视频对应的文本描述中提取。因此,该任务本质上更具挑战性,难以达到语言模型在文本 NIAH 任务中所表现出的近乎完美的准确率(例如 99%)。VideoNIAH 任务的性能上限受限于模型对目标短视频原始 QA 的理解水平,进一步凸显了该任务对视频内容深层次理解能力的严格要求。在这一新提出的超长视频理解基准上,ViLAMP 在处理包含 10K 帧(约 3 小时)的视频时仍能保持 58.15% 的准确率(原始 QA 数据集准确率 78.9%),超越 VideoChat-Flash 基线模型 12.82%,展现出较强的长视频建模能力。
3. 计算效率显著提升:内存消耗相比 LLaMA-VID 基线降低约 50%,在 8,192 帧情况下计算量减少 80% 以上。
4. 深入的消融实验表明:与已有的关键帧选择方案相比,DKS 在长视频场景下表现出明显优势;与 Q-former 和平均池化等特征融合方案相比,DFM 在所有数据集上都展现出 3 个百分点以上的性能优势。
模型表现
Video-MME 排行榜
计算效率对比
结语
ViLAMP 通过创新的差分蒸馏框架成功突破了长视频处理的计算瓶颈,不仅在性能上实现了飞跃,更为视频理解领域提供了新的研究思路。该工作的原理性贡献和实用价值将推动视频理解技术在更多实际场景中的落地应用。期待未来看到更多基于此框架的创新发展。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
2025-05-12 12:31:00
机器之心编辑部
多模态奖励模型(MRMs)在提升多模态大语言模型(MLLMs)的表现中起着至关重要的作用,在训练阶段可以提供稳定的 reward,评估阶段可以选择更好的 sample 结果,甚至单独作为 evaluator。尽管近期强化学习(RL)在传统视觉任务和多模态推理任务中取得了显著进展,但其在奖励建模中的应用仍然受到挑战,尤其是如何通过强化学习对奖励模型引入长期推理能力。
来自快手、中科院、清华、南大的研究团队发现,直接把现有的 RL 算法(比如 Reinforce++)用到训练 MRM 上,会遇到很多问题,比如训练过程很不稳定,甚至直接崩掉。本文的出发点就是要解决这些问题,探索如何利用强化学习来稳定、有效地提升多模态奖励模型的长时推理能力。基于团队在多模态强化学习的工作 MM-RLHF (ICML 2025),本文进一步提出了 R1-Reward,在现有的多模态奖励模型 benchmark 上相比于 SOTA 模型有 5%-15% 的提升,且随着 inference sampling 的数目增多还能进一步增长。
R1-Reward 不仅在学术上展现了巨大价值,还在快手的实际业务场景中得到了成功应用。例如,在短视频、电商和直播等场景中,该方法已用于标签识别、多图 / 多视频相关性判断以及短视频推荐,并取得了显著的性能提升,展示了较强的工业化潜力。
[📖 arXiv Paper](https://arxiv.org/abs/2505.02835)
[📊 Training Code](https://github.com/yfzhang114/r1_reward)
[🏆 R1-Reward Model](https://huggingface.co/yifanzhang114/R1-Reward)
一分钟速看全文内容
1. 重新定义问题:作者把训练奖励模型这个问题,看成是一个基于规则的强化学习任务。简单说,就是给奖励模型一个问题和两个答案,让它通过学习来判断哪个答案更好,并且能给出合理的分析。
2. 提出新算法 StableReinforce:针对现有 RL 算法的不足,他们提出了一个改进版的算法叫 StableReinforce。这个算法主要在几个方面做了优化:
改进了损失函数里的裁剪操作,提出了 Pre-Clip,防止数值计算不稳定。
提出了一种更稳健的优势值(advantage)处理方法(叫做优势过滤器 Advantage Filter),不容易被极端值带偏。
设计了一个新颖的“一致性奖励” (Consistency Reward)。它引入了另一个大模型作为 “裁判”,专门检查奖励模型自己的分析过程和它最终给出的答案是不是一致的。如果一致,就给奖励,这样能促使模型做出更符合逻辑的判断。
3. 渐进式的训练策略:
他们从各种公开数据集中收集了 20 万条偏好数据,构建了一个名为 R1-Reward-200k 的数据集用于训练。
采用了一种 “渐进式难度” 的训练策略。因为直接用 RL 训练模型效果不好(冷启动问题),他们先用 GPT-4o 对这些数据生成了详细的思考过程,作为监督微调(SFT)的数据,让模型先 “入门”。同时,他们记录了 GPT-4o 判断每个样本的难度(需要尝试几次才能判断对)。
在后续的强化学习阶段,专门挑选那些 GPT-4o 都觉得比较难(需要尝试多次或者干脆判断错误)的样本进行训练,让模型在难题上得到锻炼。
4. 效果显著:
实验结果表明,这个 R1-Reward 模型在几个主流的多模态奖励模型测评基准(如 VL Reward-Bench, Multimodal Reward Bench)上表现非常出色,显著超过了之前的最佳模型 (SOTA)。比如在一个榜单上提升了 8.4%,在另一个榜单上提升了 14.3%。
更有趣的是,他们发现通过在推理时多做几次计算(比如采样 5 次或 15 次,然后投票选最多的答案),R1-Reward 的性能还能进一步大幅提升,这说明 RL 方法在优化奖励模型方面潜力巨大。
他们还观察到,经过 StableReinforce 的 RL 训练后,模型输出的平均长度减少了大约 15%,这意味着模型可能变得更有效率了。
现有强化学习方法的局限性
什么是奖励模型
具体的优化公式大概长这样:
这里的 r (y|x) 是模型打的分数,σ 是个 sigmoid 函数,E 表示求期望(平均)。即模型要尽量让好答案的分比坏答案的分高,差距越大越好,然后通过 log 和 sigmoid 函数来计算损失。
PPO 和 Reinforce++ 算法简介
PPO (Proximal Policy Optimization)
PPO 是一种很常用的强化学习算法,属于策略梯度方法,目标是直接优化模型(策略)来获得最大的累积奖励。它的厉害之处在于,它不像传统的策略梯度方法那样容易因为步子迈太大而导致训练不稳定。PPO 通过一种特殊的方式来限制每次策略更新的幅度。
它的目标函数如下:
这个公式的核心思想在于 min 和 clip 操作。它确保了就算 ratio * A_t (标准的策略梯度目标)很大,也会被 clip 后的项限制住,防止策略更新过猛导致训练不稳定。PPO 因为实现简单、效果好,所以在很多地方(比如机器人控制、玩游戏)都得到了应用。
Reinforce++
1、在reward中增加了KL 散度惩罚:在奖励函数里加入了一项用来惩罚强化学习模型(RL model)和监督微调模型(SFT model)在每个词(token)上的输出概率分布差异过大。奖励函数变成了:。这里
表示只有在生成结束符时才加上原始的任务奖励r(x, y) ,
是那个 KL 惩罚项。
在很多研究中 Reinforce++ 比 GRPO 更稳定,比 PPO 收敛更快。
PPO/Reinforce++ 的问题在哪?
虽然 PPO 和 Reinforce++ 不错,但在实际训练中,尤其是在训练奖励模型的时候,研究者们发现它们有两个核心问题,很容易让模型训练不稳定甚至失败:
1. 训练损失导致的不稳定:
计算 PPO 损失时,需要算概率比值 ratio。如果新旧策略差别很大,此 ratio 可能会变得非常大或非常小。
在代码实现里(比如用 PyTorch),通常是算 ratio = torch.exp(log_probs - old_log_probs)。如果 log_probs - old_log_probs 差值很大,exp() 运算可能会导致数值溢出,最终导致程序崩溃。
即使数值没有溢出,如果算出来的 ratio 很大,并且优势 A_t 是负的(表示这个动作不好),那么根据 PPO 的损失公式 ,这个损失值可能会变得异常大。这么大的损失会让模型的参数更新变得极其不稳定。
2. 优势归一化导致的不稳定:
奖励模型的训练数据标签通常很简单,比如就两个标签:1 和 2(1 好还是 2 更好)。模型比较容易学会区分。
这就导致在训练后期,一个批次(batch)里的数据,模型可能大部分都能预测对。比如一个 batch 里有 255 个样本的真实奖励是 1,只有 1 个是 0。
在这种情况下,奖励的方差会非常小。如果这时候还用标准的优势归一化方法(减均值除以标准差 ),那个奖励为 0 的样本对应的优势值,在归一化之后可能会变成一个绝对值非常大的数(例子中是 -15.96)。
这么大的优势值同样会干扰模型的更新,导致训练不稳定。
总的来说,就是直接把 PPO 或者 Reinforce++ 用在奖励模型训练上,会因为损失计算和优势归一化这两个环节内在的问题,在高效率训练或者训练后期特定数据分布下,引发数值不稳定,最终影响模型效果。
StableReinforce 提升训练稳定性
1. Pre-CLIP 策略:为了减小大比例差异的影响,Pre-CLIP 策略会在计算对数概率的指数值之前对比例进行裁剪。通过在应用指数函数前裁剪 log-πθ/πθold 的比例,可以避免由于比例差异过大而导致的溢出问题,并缓解负优势情况下的大对数差异。裁剪后的公式为:
其中和分别为允许的最小和最大比例限制(上面的伪代码会更清晰一些(algorithm 1))。
2. Advantage Filter 策略:为了避免由于优势分布的极端不平衡对训练带来的影响,文章采用了 3-sigma 规则(即保留标准化优势在范围内的样本)。公式为:
标准化后的优势通过公式计算,其中
和
分别为优势分布的均值和标准差。
结合了 Pre-CLIP 和优势过滤器,最终用来优化的目标函数长得有点像常用的 PPO 算法的目标函数,但有所修改:
R1-Reward
将 MRM 转化为强化学习问题
首先使用下面的 prompt,将奖励建模问题转化为 rule-based 的强化学习问题
近期 follow deepseek-r1 工作的方法基本上都是格式奖励 + 结果奖励,但是在奖励模型训练过程中,这存在着一致性问题:即只用上面两个奖励时,模型有时会 “精神分裂”:分析部分()明明说回答 2 更好,但最后却输出 1。因此本文引入了一个额外的 “裁判” 模型(文中用了 Qwen2.5-VL-7B-Instruct)。这个裁判专门负责检查奖励模型自己输出的分析内容,看它是不是真的支持最终给出的那个答案。
1. 奖励函数设计:文章提出了三种奖励函数:
格式奖励:要求模型的输出符合指定的格式,即‘ ’,鼓励模型在给出最终答案之前先进行推理,以提高内容的质量和可解释性。
结果奖励:模型最终生成的答案必须与人类专家的偏好一致。
一致性奖励:确保推理过程与最终答案一致,即模型的最终结果应当直接源自其推理过程,而不是与推理步骤无关的生成内容。
2. 最终奖励计算:为了解决可能出现的一致性奖励过度偏重的问题,最终的奖励计算公式为:
这样的设计好在 Consistency Reward 的加成效果(乘以 0.5 再加 1)只有在 Result Reward 大于 0(也就是答案选对)的时候才能真正起作用。如果答案选错了,Result Reward 通常是 0 或者负数,那么一致性奖励就不会带来正向激励(或者激励很小),从而确保模型首要目标还是把答案选对。格式奖励作为一个基础分被加上去。
“长思考链” 的冷启动问题 (Long-CoT Cold Start)
多模态大模型(MLLMs)本身并不是为做奖励模型这种 “评价比较” 任务而设计的,所以直接用强化学习去训练它们,效果通常很差而且不稳定,因此本文先进行了一轮监督微调。
做法:让 GPT-4o 对 R1-Reward-200k 数据集里的每一条数据,都按照 Table 1 里的提示模板,生成标准的 “分析过程” 和 “最终答案”。生成时设置 temperature=1(让输出更发散),并且最多尝试 3 次,直到生成的答案和真实标签一致。
记录难度:同时,他们还记录了 GPT-4o 需要尝试几次才能生成正确答案,把这个次数作为样本 “难度” 的指标。
目的:这个 SFT 阶段就像是给模型 “预习”。通过模仿 GPT-4o 的输出,先让模型学会任务的基本格式和流程,熟悉这个奖励建模任务应该怎么做。
强化学习(RL)训练数据的筛选
1. 筛选标准:在进行真正的强化学习训练时,并不是用 SFT 阶段的所有数据。研究人员专门挑选了那些被认为是 “更难” 的样本。
2. 具体来源:
在 SFT 阶段,那些 GPT-4o 需要尝试 2 次或 3 次才能给出正确答案的样本。
以及那些 GPT-4o 尝试了 3 次仍然没能给出正确答案的样本。
研究人员认为,这些样本通常意味着两个回答之间的差别更小,更难判断优劣。用这些 “硬骨头” 来训练模型进行强化学习,可以更有效地提升模型辨别细微差异的能力。
有趣的实验发现
研究人员通过一系列实验来验证他们提出的 R1-Reward 模型和 StableReinforce 算法的效果,得到了一些挺有意思的结果:
R1-Reward 效果拔群
在好几个主流的多模态奖励模型排行榜(比如 VLReward Bench, Multimodal Reward Bench, MM-RLHF-Reward Bench)上,R1-Reward 的表现都非常亮眼,平均准确率显著超过了之前最好的开源模型(比如 IXC-2.5-Reward)。
Test-Time Scaling
他们尝试在评价的时候,让 R1-Reward 模型对同一个问题输出好几个判断结果(比如输出 5 次或 15 次),然后采取少数服从多数(投票)的方式来决定最终哪个答案更好。
结果发现,这种简单的 “投票” 策略能大幅提升 R1-Reward 的准确率。比如在 MM-RLHF 这个比较难的榜单上,投票 5 次就能把准确率从大约 71% 提升到 85.3%,投票 15 次更是达到 86.47%,远超其他模型。
更有意思的是,他们还试了另一种策略叫 “Any Correct”,就是只要模型输出的 K 次结果里有一次是正确的,就算对。结果发现,当 K=15 时,这种策略的准确率 几乎接近 100%!这暗示 R1-Reward 其实有潜力完美区分所有样本,只是需要更多的数据或更好的训练策略来完全激发出来。
aha Moment
通过 SFT 和 RL 训练,R1-Reward 不仅学会了如何评价两个回答,还自主地学习到了一套分析流程:先明确目标、分析图像、尝试解决问题、给出答案,然后基于这个过程去评价两个外部给定的回答。
更有趣的是,模型展示出了类似人类的反思和纠错能力。比如在上图中,模型自己计算时出错了,但在检查图表后,意识到了错误并重新计算得到了正确结果。这说明模型不仅仅是在模仿,还在学习某种程度的自我检查和修正机制。
经过强化学习训练后,模型输出的分析内容的平均长度还减少了约 15%,说明模型可能变得更 “言简意赅”,推理效率提高了。
结论
本文介绍了 R1-Reward,这是一种使用 StableReinforce 算法训练的多模态奖励模型(MRM)。通过实验,本文证明了强化学习(RL)在奖励建模中的有效应用,显著提升了模型的表现。R1-Reward 解决了多个关键问题,包括训练不稳定、优势归一化限制以及推理和结果之间的不一致性。通过引入 Pre-Clipping、优势过滤、一致性奖励以及渐进式训练策略,StableReinforce 算法有效稳定了训练过程并提升了模型性能。
实验结果表明,R1-Reward 在多个多模态奖励模型基准上超越了现有最先进的模型(SOTA),在准确率和数据效率方面取得了显著进展。此外,R1-Reward 还展示了优秀的推理时扩展能力,为未来将强化学习融入多模态奖励模型(MRM)的研究奠定了基础。
展望未来,RL 在奖励建模中的应用仍有许多值得探索的方向。例如,本文仅测试了简单的多数投票策略用于推理时扩展,未来可能通过更先进的方法进一步提升性能。此外,改进训练策略以进一步增强奖励模型的基础能力,也是一个有意义的开放性问题。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
2025-05-12 12:31:00
机器之心编辑部
AI 不允许有人不会搭乐高。
近日,CMU 助理教授朱俊彦团队带来了新研究 —— 基于文本生成 3D 乐高的大模型。
这款大模型有多强呢?比如输入文本「基本款沙发」,一眨眼的功夫,乐高沙发就拼好了。
如果你觉得乐高沙发太简单,可以继续上难度,让它生成一个复杂点的书架,只见不同大小的积木拼拼凑凑,乐高书架就完工了,整个流程像不像你在拼乐高:
不仅如此,生成的乐高还有纹理和颜色:
为了证明 AI 搭乐高的设计过程在现实生活中可用,研究人员让机器臂组装了由 AI 创建的 LEGO 模型,结果很完美。
接下来,我们看文章主要内容。
得益于生成模型和神经渲染技术,3D 生成模型已经取得了显著进展,并在虚拟现实、游戏、娱乐和科学计算等领域实现了各种应用。比如,一些研究探索了从文本合成 3D 对象、为网格添加纹理以及操控现有 3D 对象和场景的形状和外观。
不过,应用现有方法创建现实世界中的对象仍然充满挑战。大多数方法侧重于生成具有高保真几何形状和外观的多样化 3D 对象,但受限于两个关键挑战,这些数字设计往往无法在物理上实现。一是,这些对象可能难以使用标准组件来组装或制作。二是,即使可以组装,最终的结构也可能存在物理不稳定。如果没有适当的支撑,设计的某些部分可能会坍塌、漂浮或保持分离状态。
因此,朱俊彦团队探讨了生成物理可实现对象的挑战,并在乐高(LEGO)设计环境中进行研究。乐高广泛应用于娱乐、教育、艺术创作和制造原型。同时,由于所有标准组件很容易获得,乐高可以作为可复现的研究基准。由于手动设计需要付出巨大努力,最近一些研究开发了自动化算法来简化流程并生成了令人信服的结果。
然而,现有方法主要基于给定的 3D 对象创建乐高设计,或者专注于单一对象类别。本文的目标是开发一种方法,直接从自由格式的文本提示生成乐高设计,同时确保其物理稳定性和可搭建性。具体来说,研究者的目标是训练一个生成模型,使其能够生成具有以下特点的设计:
物理稳定性:构建在具有强大结构完整性的乐高底板上,不会出现积木漂浮或坍塌的情况。
可搭建性:与标准乐高积木兼容,并且能够由人类或机器人逐块组装。
研究者提出了 LEGOGPT,其关键洞察在于将最初用于下一个 Token 预测的自回归大型语言模型重新用于下一个积木预测。他们将乐高设计问题表述为一个自回归文本生成任务,其中下一个积木的尺寸和位置用简单的文本格式指定。而为了确保生成的结构既稳定又可搭建,研究者在训练和推理过程中都强制执行物理感知的组装约束。
在训练过程中,研究者构建了一个包含物理稳定的乐高设计并配有字幕的大规模数据集。在自回归推理过程中,研究者通过有效性检查和物理感知回滚来执行可行性,以确保最终的 Token 符合物理定律和组装约束。
论文标题: Generating Physically Stable and Buildable LEGO® Designs from Text
论文主页:https://avalovelace1.github.io/LegoGPT/
arXiv 地址:https://arxiv.org/pdf/2505.05469
GitHub 地址:https://github.com/AvaLovelace1/LegoGPT
Demo 地址:https://huggingface.co/spaces/cmu-gil/LegoGPT-Demo
实验表明,本文生成的乐高设计稳定、多样且视觉吸引力强,同时能够完美契合输入文本提示。本文方法优于预训练的 LLM(无论是否包含上下文学习)以及以往基于网格 3D 生成的方法。
朱俊彦表示:LegoGPT 是迈向「物理对象生成制造」这一终极目标的一小步。当前版本仍存在局限:仅支持 20x20x20 的构建尺寸、21 种物体类别和基础积木类型,但他们也在努力扩展其能力!
面对这么好玩的应用,网友纷纷求教程:
还有网友担心,复杂的零件能不能完成啊?
方法介绍
数据集
训练自回归模型需要大规模数据集,因此,本文推出了 StableText2Lego,这是一个全新的大规模 LEGO 数据集,包含 47,000 多种不同的乐高结构,并涵盖 ShapeNetCore 数据集中 21 个常见对象类别中的 28,000 多个独特的 3D 对象。其概览如图 2 所示。
LegoGPT Pipeline
在实现方法上,本文提出了 LEGOGPT,这是一种能够根据文本提示生成物理结构稳定的 LEGO 设计的方法。
该方法通过利用 LLM 的序列建模和文本理解能力,对预训练 LLM 进行 LEGO 生成任务的微调。为了增强设计成品的结构稳定性和可搭建性,本文在推理过程中采用了逐块拒绝采样和物理感知回滚机制。图 3 展示了本方法的整体框架。
模型微调:本文进一步使用自定义指令数据集对预训练的 LLM 进行微调,该数据集包含来自 StableText2Lego 的文本提示及其对应的乐高结构。
预训练基础模型。本文使用 LLaMA-3.2-1B-Instruct 作为基础模型,如图 5 所示,基础模型可以通过上下文学习生成类似 LEGO 的设计。
然而,生成的设计通常会遗漏某些物体部件,并且包含相交或断开的积木,这使其在物理上不稳定且无法搭建。为了解决这些问题,本文使用数据集进一步微调了预训练模型。
物理稳定性:尽管该模型基于物理稳定性数据进行了训练,但有时生成的设计仍会违反物理和组装约束。为了解决这个问题,该研究进一步将物理稳定性验证纳入自回归推理中。
如果乐高结构在底板上搭建时不会倒塌,则该结构被认为是物理稳定的且可搭建的。为此,本文使用稳定性分析方法评估物理结构稳定性。图 4 (a) 展示了施加在单个积木上的所有可能力。
LEGOGPT 推理算法如下:
乐高纹理和着色:颜色和纹理在创意乐高设计中也起着至关重要的作用。因此,本文提出了一种应用精细 UV 纹理或为单个积木分配统一颜色的方法。
实验
图 5 展示了一系列多样化、高品质的 LEGO 设计,这些设计紧密遵循输入提示。
本文选取 LLaMAMesh 、LGM、XCube 和 Hunyuan3D-2 作为基线方法。如表 1 所示,本方法在所有指标上均超越基线方法。图 5 直观展示了本方法生成的乐高结构质量显著优于基线方案。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
2025-05-12 12:31:00
本文由中国科学院计算技术研究所研究团队完成,第一作者为硕士生杨晗,通讯作者为副研究员安竹林,助理研究员杨传广。
论文标题:Multi-party Collaborative Attention Control for Image Customization
论文地址:https://arxiv.org/abs/2505.01428
论文代码:https://github.com/yanghan-yh/MCA-Ctrl
背景
近年来,生成式人工智能(Generative AI)技术的突破性进展,特别是文本到图像 T2I 生成模型的快速发展,已经使 AI 系统能够根据用户输入的文本提示(prompt)生成高度逼真的图像。从早期的 DALL・E 到 Stable Diffusion、Midjourney 等模型,这一领域的技术迭代呈现出加速发展的态势。
在基础 T2I 模型能力不断提升的背景下,图像定制化(Image Customization)需求日益凸显。所谓图像定制化,是指在对参考图像中的主体(subject)保持身份特征和本质属性的前提下,根据文本或视觉条件生成该主体的新表现形式。这一技术对于电子商务(如虚拟试衣)、数字内容创作(如个性化角色设计)、广告营销等应用场景具有重要价值。
当前,主流的图像定制化方法主要沿着三个技术路线发展:基于反演优化(inversion-based)的方法、基于多模态编码器(multimodal encoder-based)的方法,以及新兴的基于注意力控制(attention control-based)的方法。
尽管这些方法在特定场景下都取得了一定成效,但通过系统的实验评估和实际应用验证,我们发现现有技术方案仍然面临着若干关键性技术瓶颈。
1. 可控性不足:主流文本驱动方法难以精确控制背景、布局等元素。虽然 PhotoSwap 等新技术尝试引入图像条件,但仍局限于单一功能(替换或添加),无法实现统一控制。
2. 复杂视觉场景处理困难:面对多物体交互、遮挡等复杂场景时,常出现主体特征扩散问题,这源于模型在高响应区域生成的不准确性。
3. 背景融合不自然:在图像条件控制下,生成结果与原始背景的融合往往不自然。
方法
本文提出了一种无需微调的通用图像定制方法 — 多主体协同注意力控制 MCA-Ctrl,该方法利用扩散模型内部知识实现图像定制。其核心创新在于将条件图像 / 文本提示的语义信息与主体图像内容相结合,实现对特定主体的新颖呈现。MCA-Ctrl 主要针对三类任务:主题替换、主题生成和主题添加。
本方法分为通过条件图像和条件文本进行图像定制化,如下图(A)和(B)所示。具体而言,本方法首先引入主体定位模块(Subject Location Module,SLM)对图像进行精准定位,然后通过三个并行扩散过程中的自注意力注入与查询机制,在保持条件信息语义空间布局的同时捕获特定主体的视觉特征表示。
具体来说,MCA-Ctrl 在每个扩散步骤中,系统执行以下关键操作:
1)通过自注意力局部查询(Self-Attention Local Query,SALQ)目标过程从主体和条件信息中检索外观与背景内容,如图(C);
2)通过自注意力全局注入(Self-Attention Global Injection,SAGI)将主体和条件信息的注意力图直接注入目标过程,如图(D)。
1. 自注意力局部查询
从任务视角看,我们的目标是从主体图像提取外观特征,并从条件中查询背景内容与语义布局。受 MasaCtrl 启发,我们利用自注意力层的键值特征表征图像内容。如上图(C)所示,目标过程通过查询特征 Q 从主体和条件中检索前景 / 背景内容,并使用主题、背景掩码约束查询区域。这种设计既能确保布局一致性,又能实现特定对象的外观替换与背景对齐。
2. 自注意力全局注入
经过 SALQ 操作后,生成图像常存在两个问题:(1)细节真实性不足,和(2)特征轻微混淆。我们认为这是由于查询过程本质上是原始特征与查询特征的局部融合,难免导致特征交叉。为此,我们提出全局注意力混合注入机制来增强细节真实性与内容一致性。如上图(D)所示,首先计算条件与主体图像的完整注意力矩阵,再通过掩码过滤获得主体特征和背景特征,最后将其注入目标扩散过程。这种重构式特征替换直接增强了前景 / 背景细节表现,同时有效降低了特征混淆。
实验
下图展示了 MCA-Ctrl 的编辑和生成能力。前三行主要展示了主体编辑性能,包括主体替换、主体添加以及复杂视觉场景中的主体替换,充分证明了 MCA-Ctrl 在主体与背景定制方面的高度一致性和真实感表现。第四行重点呈现了 MCA-Ctrl 的零样本定制生成能力,在物体、动物和人物等不同类别上均能实现高质量、高一致性且富有创意的再现效果。
表 1 展示了基于 DreamEditBench 的主题替换任务量化评估结果。相较于 BLIP-Diffusion、DreamBooth 和 PHOTOSWAP 等方法,MCA-Ctrl 在各项指标上均展现出相当或更优的性能表现。表 2 呈现了 DreamBench 上主题生成任务的评估结果。统一参数测试时,MCA-Ctrl 表现优于 Text Inversion、Re-Imagen 和 IP-Adapter,但略逊于 DreamBooth 和 BLIP-Diffusion。经过参数优化后,MCA-Ctrl 取得了与 BLIP-Diffusion 和 DreamBooth 相当的结果。此外,表 3 的人工评估结果表明,MCA-Ctrl 在主体对齐度和文本对齐度方面均表现突出。
我们在下图中展示了对图像生成的影响。实验表明,在复杂场景下,若完全省略 SAGI 操作,会导致目标定位失败和全局特征混淆等问题。随着的逐步增加,主体特征会呈现越来越清晰的表现。但值得注意的是,当超过总去噪步骤的 60%(此为大多数案例的经验阈值)后,继续增加 SAGI 执行步数对图像质量的提升效果将趋于饱和。具体而言,这一现象揭示了两个重要发现:(1)在去噪过程的前期阶段,SAGI 能有效建立主体与背景的语义关联;(2)在去噪后期,过度的全局特征注入反而可能破坏已形成的细节特征。这种 “边际效应递减” 特性为算法参数优化提供了重要指导。
我们也在代码仓库中构建了图像定制化的演示系统,如下所示,用户可以方便地根据自身的需求使用本文提出的方法完成图像定制化任务。
总结
综上所述,该文章提出了一种无需训练的图像定制化生成方法 ——MCA-Ctrl。该模型通过三个并行扩散过程间的协同注意力控制,实现了高质量、高保真度的主体驱动编辑与生成。此外,MCA-Ctrl 通过引入主题定位模块,有效解决了复杂视觉场景中的特征混淆问题。大量实验结果表明,相较于大多数同期工作,MCA-Ctrl 在编辑和生成任务上表现更优。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]