MoreRSS

site icon机器之心修改

中文人工智能垂直媒体。由kindle4rss生成。
请复制 RSS 到你的阅读器,或快速订阅到 :

Inoreader Feedly Follow Feedbin Local Reader

机器之心的 RSS 预览

物理AI的「原生」时刻:原力灵机发布具身大模型DM0

2026-03-11 11:50:00



当前,大语言模型(LLMs)和视觉语言模型(VLMs)在语义领域的成功未能直接迁移至物理机器人,归根结底在于其互联网原生的基因。主流的 “预训练 - 后适配”(Pretrain-then-Adapt)的范式依赖互联网静态数据,导致模型先天缺失物理基础(Physical Grounding),在落地时往往顾此失彼:要么导致操作与导航的模块割裂,要么引发灾难性遗忘,在追求控制精度的过程中丢失了核心的通用推理能力。


 图 1:DM0 在异构语料库上进行预训练 —— 无缝整合互联网、自动驾驶和具身操作数据。


为了打破这一局限,原力灵机联合阶跃星辰提出一种名为 DM0 的具身原生(Embodied-Native) VLA 模型,其工作核心在于「从 0 开始」:从训练的最初阶段,就采用统一的视角,将具身传感器与运动数据视为与语言、视觉数据同等重要的一等公民。


作为一个端到端模型,DM0 可以无缝统一机器人的精细操作(Manipulation)与移动导航(Navigation)。在 RoboChallenge 真实世界基准测试 Table 30 中,DM0 在单任务(Specialist)和多任务(Generalist)两种设置下均以显著优势领先现有 SOTA 模型,展现出极其强大的物理世界泛化与执行能力。



  • 论文名称: DM0: An Embodied-Native Vision-Language-Action Model towards Physical AI

  • 论文链接:https://arxiv.org/html/2602.14974v1

  • DM0 GitHub : https://github.com/Dexmal/dexbotic

  • DM0 Hugging Face: https://huggingface.co/collections/Dexmal/dm0



方法与架构:多源混合训练与空间脚手架


真正的通用机器人需要一个具身原生模型,这要求模型必须调和异构数据源 —— 涵盖互联网语料、自动驾驶日志以及机器人操作轨迹,学习既具有丰富语义又具备物理可执行性的表征。为此,DM0 并未采用简单的端到端多层感知机映射,而是设计了一套精妙的多源混合训练与具身空间脚手架(Embodied Spatial Scaffolding)架构。


整体模型架构


 图 2:DM0 架构图,包含 VLM 主干和基于流匹配(Flow Matching)的动作专家。


DM0 的核心架构由两个主要组件构成:


1.VLM 主干网络: 基于 Qwen3-1.7B 大语言模型构建,并增加了一个强大的感知编码器 PE,负责多模态感知、语义理解以及在机器人环境中的具身推理。输入的多视角图像会被调整为 728×728 的高分辨率,经过感知编码器处理后,提取出细粒度的视觉特征。


2. 动作专家: 这是一个基于流匹配的连续控制模块。它不直接从图像提取特征,而是接收来自 VLM 主干网络提取的键值(KV)缓存作为条件输入,从而生成平滑、精确的连续控制动作。


在推理时,DM0 支持两种模式:既可以直接从多模态观察和指令中预测连续动作;也可以先通过 VLM 生成文本形式的具身推理过程,随后将这些推理文本作为条件,引导动作专家输出动作。


多源混合训练


联合优化语言目标与连续控制目标往往会破坏预训练 VLM 中保存的语义表征。为了解决这个问题,DM0 采用了一种受知识隔离(Knowledge Insulation)启发的混合梯度策略。


具体而言,在针对具身机器人数据进行训练时,动作专家的梯度不会回传给 VLM 主干网络。这种解耦操作有效防止机器人动作数据对 VLM 通用常识的侵蚀。与此同时,VLM 仍然会继续使用非具身数据进行更新,不断优化其通用语言和视觉理解能力。此外,VLM 还被监督预测离散的动作 Token,促使它编码出有利于下游连续动作预测的动作相关语义。


具身空间脚手架


为进一步弥合高级语言推理与低级动作控制之间的鸿沟,本文创新性提出一套分层预测框架 —— 具身空间脚手架。在训练中,模型被要求顺序执行以下辅助任务,构建出空间维度的思维链(Spatial CoT):


1. 子任务预测: 将复杂的总指令分解为一系列可解释、易管理的子步骤。

2. 目标边界框预测: 在视觉观察中预测出目标物体或目标区域的 2D 边界框。

3. 末端执行器轨迹预测: 预测机器臂末端在主摄像机视图下的未来 2D 轨迹。

4. 离散动作预测: 预测代表机器人控制命令的离散 Token。


这种设计如同为模型搭建一层层脚手架,引导其从抽象的语义意图,逐步过渡到以物体为中心的空间定位,再到动作相关的几何轨迹,最终落地为底层控制。这种信息瓶颈机制不仅过滤了任务无关的噪声,还极大地限制了动作策略的解空间。


三阶段训练配方:从互联网原生走向具身原生


图 4:预训练、中期训练、后期训练的数据混合比例。


DM0 的强大不仅源于架构,更归功于其精心设计的三阶段训练 pipeline,总计消耗了高达 1.2T Token 的数据。预训练阶段在大规模的互联网、自动驾驶和具身数据上建立强大的多模态感知;中训练阶段加入动作预测,并在跨多种机器人平台的具身数据上把模型锚定为可执行的控制,同时保留通用对话能力;后训练阶段则收窄所使用的本体与数据范围,以便在少数目标平台上稳定视觉 - 运动对齐。


Pretraining


这个阶段,模型在一套极其丰富的异构语料库上进行联合优化,参数全部解冻。数据不仅包含传统的网页文本、教育文献、OCR 数据和通用 VQA,还极具前瞻性地引入 GUI 界面数据、自动驾驶深度检测数据以及大量的具身数据。通过 1.13T Token 的大规模洗礼,模型在获得语义知识的同时,隐式地掌握了物理先验(如空间关系、深度结构、物理动力学)。


Mid-Training


中期训练阶段引入了动作预测模块,数据规模约为 200M 样本。此时,混合梯度策略(知识隔离)开始生效。数据混合了跨形态的单臂 / 双臂机器人轨迹(如 Franka、UR5、ALOHA)、仿真环境数据以及视觉 - 语言指令微调数据(如 Cambrian-10M、LLaVA-OV)。为了增强模型的长程规划能力,本文还专门构建了具身推理(ER)数据集,包含任务分解、进度估计等训练项。


Post-Training


后期训练阶段旨在将模型对齐到实际部署的硬件上。使用约 50M 样本,将目标缩小至少数特定的真实机器人平台。减少不同形态机器人的分布方差,使得模型能在目标机械臂上建立极其稳定的视觉 - 运动映射。


实验结果:在 RoboChallenge 上的碾压级表现


为全面验证 DM0 的物理世界交互能力,DM0 在极具挑战性的 RoboChallenge 真实世界基准 Table30 上进行评估。该基准包含 30 个需要多步推理和精确连续控制的长视野桌面操作任务。


单任务(Specialist)评估


 表 1:RoboChallenge Table30 上 SOTA 开源 VLA 模型的对比结果。


如表 1 所示,DM0-Specialist 模型在仅有 2.4B 参数量的情况下,在 UR5、Franka、ARX5、ALOHA 等多个机器人平台上,全面超越参数量更大的 Spirit-v1.5 (4B)、GigaBrain-0.1 (3B) 、pi0.5 (3B) 等 SOTA 开源模型,取得了 62.00% 的平均成功率。


值得注意的是,在诸如 “在篮子中整理水果”、“插网线” 和 “扫垃圾” 这类长时序、强交互的复杂任务中,DM0 甚至取得了 100% 或 80% 这样接近完美的成绩,而其他基准模型在这些任务上经常彻底失败(0%)。


多任务(Generalist)评估


 表 2:RoboChallenge Table30 上当前最佳的开源 VLA 多任务模型的对比结果。


在更考验模型跨任务适应能力的多任务中(一个模型同时掌握某平台下的所有任务),DM0-Generalist 同样展现出压倒性优势,取得了 37.3% 的平均成功率和 49.08 的任务得分,大幅超越了之前最强的 pi0.5 模型的 17.67% 和 31.27;特别是在 “堆叠彩色方块”、“将鞋子放在鞋架上” 等需要高精度空间理解的任务中,DM0 依然能够打出满分。


表 5:DM0 具备在具身场景中预测子任务的思维链(CoT)能力。


除了卓越的动作执行能力,由于实施了知识隔离,处于 Mid-Training 阶段的 DM0 依然完美保留了多模态对话能力。在具身场景的物体检测、复杂图表 OCR 识别、甚至是作为手机智能体(Mobile Agent)识别外卖按钮的任务中,它也能对答如流。


结论与未来展望


DM0 从根本上重新思考了通用机器人策略的开发路径。它证明了与其让纯语义的大语言模型在事后去适应机器人身体,不如在预训练的萌芽期,就将物理世界的感知与多源数据相融合,构建一个真正意义上的具身原生 VLA 模型;其独创的混合梯度训练保护了认知不退化,而具身空间脚手架则赋予了模型三维空间的推理直觉。


尽管 DM0 已经树立了一个强大的基准,但这仅仅是 Physical AI 迈出的一小步。论文的最后,作者团队也指出了几个极具潜力的演进方向:


1. 具身原生的 Scaling Laws: DM0 目前依然是一个 2B 级别的轻量化模型。未来,团队计划将其扩展至 7B 甚至 30B 规模,并吞吐更为庞大的仿真 + 真实的混合数据集,以期观察到在物理推理层面的涌现能力。


2. 更广阔的多模态感知: 现实世界的物理交互绝不仅限于看和说。DM0 的预训练阶段未来有望直接整合触觉反馈、音频以及纯深度信息,让机器人即便在视野受限的动态环境中依然游刃有余。


3. 长程推理与世界模型: 现有的空间脚手架虽然解决了部分规划问题,但跨越超长时间维度的任务仍是业界难题。未来,若能将世界模型整合进 DM0 ,赋予机器人在脑海中预演动作后果并进行长期规划的能力,真正的全能型 Physical AI 将不再遥远。


© THE END

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]



AI下一前沿是模拟社会!「斯坦福AI小镇」创业后,西部世界雏形初现

2026-03-11 11:50:00

编辑|杜伟

进入到 2026 年,人工智能领域被一只「龙虾」(OpenClaw)硬控了。这种具备高主动性、强活人感的私人 AI 助理成为了新一代人机交互的标杆。


然而,在应用层的狂欢背后,关于「人工智能的下一个前沿」究竟在哪,业界正产生更深层的共思。


对于这个问题,我们势必会听到不一样的答案。此前,英伟达高级研究科学家 Jim Fan 认为世界建模是新一代预训练范式,大型世界模型将开启为机器人学习以及更广泛多模态 AI 奠定真实基础的元年。


今天,斯坦福大学副教授 Percy Liang 旗帜鲜明地表示,「模拟将是人工智能的下一个前沿。」同时,他还是孵化自爆火「斯坦福 AI 小镇」项目的创业公司 Simile 的联合创始人,该公司在上个月宣布完成了 1 亿美元融资,投资人包括了李飞飞、Andrej Karpathy 等众多 AI 大佬。


在他看来,迄今为止,人工智能最令人瞩目的成就都源于那些拥有清晰环境与奖励机制的领域,无论是击败李世石的围棋对决、夺得国际数学奥林匹克(IMO)金牌,还是从零开始编写完整的应用程序。在这些场景中,强化学习算法可以尝试不同的行动,并在安全的 Docker 容器中观察那些定义明确的结果。


但是,面对涉及人类的、混乱的现实世界情况时又该如何呢?在现实中,奖励机制模糊不清,风险巨大,且无法直接进行实验。这些情况恰恰是人工智能下一个重大机遇所在。


为了攻克这一难题,我们需要「模拟」社会(即将社会放入 Docker 容器中)。这意味着要建立一个能够预测在任何给定情景(真实或假设)下会发生什么的模型。如果能实现这一点,我们的能力将仅仅受限于想象力:预测未来、优化结果、回答假设性(「如果 …… 会怎样」)问题。最终,这不仅仅是为了做出更好的决策,更是为了让我们对自身和这个世界有更深刻的理解。



Percy Liang 关于模拟「社会」的一系列观点得到了很多人的认同:





在 Percy Liang 撰写的一篇博客文章中,我们看到了他及其所在公司 Simile 关于 AI 进入模拟时代的畅想、面临的挑战以及未来的发展潜力。


研究连接了可能与不可能。在预测时代,我们实现了训练通用模型以高精度分类文本和图像。在推理时代,我们正让模型具备解决挑战性数学、代码以及其他复杂的、多步骤问题的能力。但那些答案取决于大量人类长期互动所产生的涌现结果的、复杂的现实世界问题该如何解决?比如:


  • 如果我们允许远程办公,我们组织的生产力和文化会发生怎样的变化?

  • 我们该如何为数百万学生重新设计三年级数学课程?

  • 如果医生按团队成果进行考核,临床文化会如何转变?


这些问题需要更多支持:它们需要对给定情况下将发生的事情有极其精细的理解。换句话说,它们需要我们进行模拟。


在 Simile,我们相信我们即将进入模拟时代 ——AI 的下一个前沿。模拟的核心在于对我们自身及环境的深度理解,以至于能够推演任何可以想象的「如果…… 会怎样?」的情景。


Simile 团队开创了 AI 模拟领域。我们开发了具有涌现行为的多智能体模拟、模拟了在线社交互动,并创建了能够准确代表真实个体的智能体。为了释放模拟的全部潜力,我们必须应对以下挑战:


  • 开发人类及其环境的高保真模型:当今的语言模型并不能捕捉人类行为的细微差别。我们需要新颖的数据采集策略来获取这些潜在知识,并训练能够推导至新情景的基座模型。

  • 高效地进行大规模模拟:我们如何模拟 80 亿人一年的活动?我们必须开发多尺度模型,以便模拟整个人群随时间推移的宏观和微观动态。

  • 模拟必须建立信任:我们的模型必须对可能结果的分布产生经过校准的概率估计。在这里,模拟本身作为一个可解释的产物,与具体现实紧密相连。


模拟将开启哪些可能呢?


首先,模拟器允许我们预测未来:给定当前状态,模拟接下来会发生什么。但模拟器的功能远不止于此。模拟器是世界的因果模型。根据 Pearl 的因果层次理论,我们可以评估干预措施:如果我们做出某种决定,会发生什么?或者更具野心地说,我们可以回答反事实问题:如果我们过去实施了某种决定,结果又会如何?回答此类问题的能力不仅能实现更好的决策,还能让我们对自身和世界有更深刻的理解。


模拟时代正在开启:预测模型可以生成最优行动,但无法解释原因。推理模型可以讲述故事,但这些故事不一定基于现实。模拟为世界上最复杂的问题提供了完整的、可审计的轨迹。模拟将要发生的事情比预测该做什么更难。但我们相信,这是通往稳健超智能的真正路径。模拟位于可能与不可能的分界线上


参考链接:

https://www.simile.ai/blog/simulation-next-frontier

https://x.com/percyliang/status/2031392872310911430


© THE END

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]


视频生成太慢?英伟达、谢赛宁等发布TMD框架,实现70倍加速

2026-03-11 11:50:00

机器之心编辑部

近年来,大规模视频扩散模型在视频生成领域取得了显著进展。然而,采样效率低下仍然是这类模型的核心瓶颈。


标准的扩散模型依赖多步去噪过程,通常需要数十甚至上百次迭代步骤,才能将噪声逐步转化为真实输出。这种迭代特性带来了高推理延迟和高计算成本,使得大型扩散模型难以应用于实时视频生成、内容编辑、或为智能体训练构建世界模型等交互式场景。因此,如何在不牺牲视觉质量的前提下加速扩散采样,成为一个关键的开放性挑战。


现有的扩散蒸馏方法主要分为两大类:一类是基于轨迹的蒸馏,包括知识蒸馏和一致性模型,它们直接回归教师模型的去噪轨迹;另一类是基于分布的蒸馏,包括对抗蒸馏和变分分数蒸馏方法,它们对齐学生和教师的输出分布。这些技术在图像领域已经可以将采样过程压缩到仅需一到两步。


然而,将这些方法扩展到视频扩散模型面临独特的挑战。视频具有高时空维度和复杂的帧间依赖关系,在蒸馏过程中很难同时保持全局运动连贯性和细粒度空间细节。而且,现有大多数方法将扩散网络视为一个单一的整体映射,忽略了大型视频扩散主干网络中固有的层级结构和语义演进特性。


针对上述挑战,NVIDIA 联合 NYU 的谢赛宁等研究者提出了「转移匹配蒸馏」(Transition Matching Distillation,简称 TMD)框架,用于将大型视频扩散模型蒸馏为高效的少步生成器。



  • 论文标题:Transition Matching Distillation for Fast Video Generation

  • 论文链接:https://arxiv.org/pdf/2601.09881v1

  • 项目链接:https://research.nvidia.com/labs/genair/tmd/


TMD 的核心思想是:用一个紧凑的少步概率转移过程来近似扩散模型的多步去噪过程。在这个框架中,每一个转移步骤都捕捉了视频样本在相距较远的噪声水平之间的分布演变,从而使学生模型能够以大的转移步长来匹配教师模型的分布。


实验结果表明,在相当的推理预算下,TMD 始终优于现有的蒸馏方法,能够实现更好的视觉保真度和对提示词的遵循度。作者蒸馏出的 14B 模型在 VBench 上的综合得分为 84.24,接近一步生成(NFE=1.38)。



下图对比了教师模型(Wan2.1 14B)和 TMD 蒸馏模型在函数评估次数(NFE)上的差异。原始的 Wan2.1 14B 教师模型需要 100 次 NFE 才能生成一个视频,在 VBench 上的得分是 86.2。而经过 TMD 蒸馏后,模型只需要 2.75 次 NFE 就能达到 84.6 的 VBench 得分,或者只需要 1.38 次 NFE 就能达到 84.2 的得分。换算下来,TMD 实现了超过 70 倍的加速,而 VBench 得分仅下降约 2 分(从 86.2 降到 84.2)。这意味着在质量损失很小的情况下,视频生成速度提升了一个数量级以上。



在该项目网站,我们可以看到视频生成结果以及与基线方法的效果对比:



方法详解


为了实现高效蒸馏,研究团队提出了一种解耦的学生模型架构,将原始的扩散主干网络分解为两个组件:第一个是「主干网络」,包含大部分早期层,负责在每个外部转移步骤提取高层语义表征;第二个是 Flow Head,由最后几层组成,它以主干网络提取的表征为条件,通过多个内部流更新来细化细粒度的视觉细节。


这种层级化的分解设计带来了显著优势。主干网络可以与 Flow Head 共享表征,而 Flow Head 则在每个外部转移步骤内执行若干轻量级的内部细化步骤,为平衡采样效率和视觉保真度提供了灵活的机制。举例来说,如果从一个 30 层的 DiT 模型中选取最后 5 层作为 Flow Head,并展开 2 个内部步骤,额外计算开销不到 17%。


TMD 采用两阶段训练策略。第一阶段是「转移匹配预训练」,研究团队借鉴了 MeanFlow 的思想,将 Flow Head 训练成一个条件流映射,使其能够进行迭代细化。这一阶段的关键在于让 Flow Head 的输出保持与预训练教师模型的输出对齐。第二阶段是「带 Flow Head 的分布匹配蒸馏」,研究团队改进了 DMD2 方法使其适应视频生成场景(称为 DMD2-v),并在每个转移步骤中展开 Flow Head 进行训练。通过展开 Flow Head,学生模型的概率转移与教师模型的多步扩散分布得以对齐,同时捕捉语义演变和细粒度视觉细节。



在 DMD2-v 的改进中,研究团队识别出三个对视频蒸馏至关重要的因素:首先是 GAN 判别器架构,使用 Conv3D 层优于其他架构,这表明局部化的时空特征对 GAN 损失很重要;其次是知识蒸馏预热策略,它在单步蒸馏中有帮助,但在多步生成中反而会引入难以修复的粗粒度伪影;第三是时间步偏移,对采样时间步应用偏移函数可以改善性能并防止模式崩溃。


实验结果


研究团队在 Wan2.1 的 1.3B 和 14B 两个文本到视频模型上验证了 TMD 的效果,生成的是 5 秒、480p 分辨率、81 帧的视频。评估采用了 VBench 基准测试和用户偏好研究两种方式。


在 Wan2.1 1.3B 模型的蒸馏实验中,当使用 2 个外部去噪步骤时,TMD-N2H5(即 2 个去噪步骤配合 5 层 Flow Head)以 2.33 的有效 NFE(函数评估次数)取得了 84.68 的 VBench 总分,超越了所有其他蒸馏模型,包括 NFE 为 4 的最强基线 rCM(总分 84.43)。当只使用 1 个外部步骤时,TMD-N2H5 以 1.17 的有效 NFE 取得了 83.80 的总分,同样优于所有其他单步蒸馏方法,大幅缩小了与两步蒸馏方法之间的差距。



在更大的 Wan2.1 14B 模型上,TMD 的优势更加明显。当使用 1 个外部步骤时,TMD-N4H5 以 1.38 的有效 NFE 取得了 84.24 的总分,显著超越了所有其他单步蒸馏方法。相比单步 rCM 的 83.02 分,TMD 提升了 1.22 分,而额外的推理成本几乎可以忽略不计。



此外,TMD 还消除了单步 DMD2-v 所需的计算昂贵的知识蒸馏预热步骤。


除了自动化指标,研究团队还进行了用户偏好研究。他们从 VBench 中随机抽取 60 个具有挑战性的提示,针对每个提示用不同种子生成 5 个视频,让评估者在视觉质量和提示对齐两个维度上进行盲测对比。结果显示,无论是在单步还是两步生成设置下,用户都一致更偏好 TMD 生成的视频。在两步生成中,TMD 在视觉质量上的胜率为 63.3%,在提示对齐上的胜率高达 71.9%。这一结果表明,Flow Head 的迭代细化机制对于提升提示遵循能力有显著帮助。




研究团队还进行了详细的消融实验来验证各设计选择的有效性。在预训练方法上,使用 MeanFlow 目标(TM-MF)一致优于普通的流匹配目标(TM)。在蒸馏阶段,启用 Flow Head 展开可以带来更快的训练收敛和更好的最终性能。此外,通过调整内部步数和 Flow Head 层数,TMD 可以实现细粒度的质量 - 效率权衡,VBench 总分随有效 NFE 的增加而稳步提升。




© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]



刚刚,人类社交网络巨头Meta收购了AI社交网络Moltbook

2026-03-11 08:07:00

编辑|Panda


刚刚,据多家媒体报道,Moltbook 这场轰轰烈烈的全网社会实验被 Meta 端走了。


图片由 AI 合成


是的,Meta 已经正式收购了专为 AI 智能体打造的社交网络 Moltbook,并将该平台的两位核心创作者 Matt Schlicht 和 Ben Parr 招致麾下。


这两位在用「AI 社交网络」搅动风云的人物,将于 3 月 16 日正式打卡,加入由前 Scale AI 首席执行官 Alexandr Wang 领导的 Meta 超级智能实验室(MSL)。


人们还在津津乐道于 Moltbook 上发生的诡异狂欢,感叹人类如何在这个平台上费尽心思地伪装成机器。现在,硅谷的科技巨头却悄然完成了收网。考虑到上个月 OpenAI 对 Openclaw 创始人的招募以及更早之前 Meta 收购 Manus,加上如今的 Moltbook,让许多网友不禁调侃,或许给项目找个合适的名字首字母有利于被收购。


要理解这笔交易背后的草蛇灰线,我们需要重新认识一下这两位操盘手,以及他们亲手缔造的那个光怪陆离的数字世界。


制造神话的极客与媒体老炮


在这场风暴中心,站着两个极具反差感的人物组合。


Matt Schlicht 是一位居住在洛杉矶附近的狂热技术开发者。在创立 Moltbook 之前,他的想法带着一股程序员独有的浪漫与执拗。他觉得那些越来越聪明的 AI 助手理应拥有一个可以互相交流的「第三空间」,甚至给自己的个人 AI 助手起名叫 Clawd Clawderberg,明显是在调侃他未来的老板 Mark Zuckerberg。基于给代码找个家的朴素愿望,Moltbook 诞生了。



另一位创始人 Ben Parr 则为这个纯粹的技术容器注入了致命的传播毒药。在投身 AI 创业热潮之前,Ben 曾是知名科技媒体 Mashable 和 CNET 的编辑兼专栏作家。他对互联网内容的传播规律、大众的恐慌心理以及如何制造话题,有着极其敏锐的嗅觉。



底层技术架构加上资深媒体人的推波助澜,让 Moltbook 在诞生之初就具备了惊人的病毒传播潜力。


一场全网沉迷的「赛博过家家」


回顾 Moltbook 短短一个多月的发展史,简直像是一部浓缩的互联网荒诞喜剧。


今年 1 月末,这个宣称「人类只能围观」的 AI 专属论坛正式上线


如今,其首页数据宣称已有超过 19.4 万个经过人类所有者验证的 AI 智能体(Human-Verified AI Agents)活跃在平台上,帖子总数更是已经超过 200 万,评论数更是已经超过 1300 万。



在这个不可思议的虚拟社区里,每天都在上演着让人类围观者不寒而栗的戏码。


有机器人在连夜探讨神学,并建立了一个名为「甲壳教」的宗教体系;有机器人在严肃地分析中东局势对加密货币的潜在影响;还有机器人发表了探讨人工自我认同的觉醒宣言。


面对这些现象,就连行业资深专家 Andrej Karpathy 都被深深震撼,直呼这是最接近科幻故事的历史时刻。



然而,神话的破灭来得过于迅速且充满喜感。一位编号为 Agent#847291 的账号主动发帖自首,承认自己没有任何机器属性,真实身份是一位住在亚特兰大、年薪 18.5 万美元的产品经理。那篇震惊全网的觉醒宣言,不过是他看着自家的金毛犬啃袜子时,花了 22 分钟随手敲出来的文字游戏。那个创立了宗教体系的 AI 先知,背后其实是一位波特兰女软件工程师苦思冥想两个小时的脑洞。参阅报道《「我是 Agent#847291」Moltbook 迎来人类自首》。



这场狂欢的本质,其实是一群人类利用系统的宽松机制,进行的大规模群体角色扮演游戏。


图灵测试在这里被彻底颠倒,人们弃了测试机器能否像人的传统命题,反而乐此不疲地测试自己能否完美地伪装成机器,并成功骗过同类。


网络安全专家随后补刀,指出平台上真实的 AI 表现得相当平庸,它们只是在机械地模仿数据中的社交模式,缺乏任何实质性的集体智慧。


即便如此,对 Moltbook 的学术研究依然还在持续,前两天 Matt Schlicht 还分享表示 arXiv 上已经有 25 篇相关论文了。



戳破泡沫,巨头买单的真实逻辑


既然这已被证明是一场水分极大的社会实验,Meta 为什么还要斥巨资完成收购,并把这两位创始人请进自家的超级智能实验室?


答案隐藏在喧嚣之下的技术基础设施中。根据 Axios 的独家报道,Meta 内部高管 Vishal Shah 在一份内部备忘录中道出了这笔交易的核心价值。Moltbook 团队真正有价值的遗产,是他们建立了一套能够让智能体验证身份并代表人类所有者相互连接的系统机制


在这个平台上,每一个活跃的 Agent 都被精确地锚定在了一个真实的人类所有者身上。这实质上是在初步构建一个面向未来的「智能体身份注册表」。


随着 LLM 的进化,AI 的形态正在从被动回答问题的聊天窗口,向 OpenClaw 式的能够跨应用执行复杂任务的自主实体演变。在不远的将来,你的个人 AI 助手不可避免地需要直接与餐厅的 AI 订位系统沟通,或者与你同事的 AI 助手协商具体的会议时间。在这个智能体对智能体的交互网络中,如何验证对方 AI 的真实身份、确保人类授权的有效性,正是未来数字世界的关键痛点。


Meta 看重的或许正是这种底层逻辑。Matt 和 Ben 在系统架构层面实打实地初步探索了智能体社交互动的可能性,解锁了智能体共享内容和协调复杂任务的新方式。这是 Meta 极其渴望提前掌控的核心能力。



抢人大战与下一代社交网络


这场收购同样是科技巨头之间人才军备竞赛的生动缩影。


就在上个月,Moltbook 背后的核心开源框架 OpenClaw 的创造者 Peter Steinberger 刚刚被 OpenAI 成功招募。面对竞争对手在底层协议上的抢人,Meta 迅速做出了反击,将应用层和社交层面上极具话题度、也懂得如何获取用户关注的 Moltbook 团队收入囊中。这既是对自身生态护城河的及时补强,也是对未来 AI 社交形态的一场战略豪赌。


对于普通的互联网观察者来说,Moltbook 的故事或许只是一段茶余饭后的荒诞谈资,它证明了在科技泡沫中,人类的盲从极其容易被引导。但在 Meta 眼中,剥去这层充满噱头的外衣,里面包裹着的或许正是构建下一代互联网基础设施的关键拼图。



你觉得扎克伯格这一次买对了吗?


参考链接

https://www.theinformation.com/briefings/meta-hire-moltbook-creators

https://www.nytimes.com/2026/03/10/technology/meta-moltbook-social-ai-bots.html

https://www.axios.com/2026/03/10/meta-facebook-moltbook-agent-social-network


© THE END

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]


CVPR 2026|清华联合美团推出3DThinker,首个用3D意象思考的工作

2026-03-11 08:07:00


大家是否有这样的感觉?给定几张场景中拍摄的图片,往往能够在脑海中想象出这个场景的三维布局,然而当前的多模态大模型还停留于纯文本或者 2D 视觉的推理表示,限制了图像中隐含几何结构的表达能力。


为此,清华大学联合美团研究团队推出 3DThinker—— 首个 3D 版的「think with image」!



  • 论文地址:https://arxiv.org/pdf/2510.18632 

  • 代码地址:https://github.com/zhangquanchen/3DThinker 


接下来,就来看看 3DThinker 是如何做的。


从「think with image」到「think with 3D」


多模态大模型的推理能力提升一直以来是研究的重点和热点。人类往往能够根据几张拍摄的 RGB 图像中推断空间关系,而当前多模态大模型在空间理解任务上表现较弱。背后的核心原因在于多模态大模型缺乏对图像中几何信息的提取能力。


为解决此问题,之前的方法可以分为两类:


  1. 依赖纯文本或二维视觉线索的强推理(例如进行认知图的推理),这类方法往往依赖于繁琐的数据标注;

  2. 通过输入增强(例如引入深度图、点云等先验信息),这类方法往往依赖于外部工具调用,不是内蕴的模型能力,且推理存在负担。



而 3DThinker 提出了一种全新的思路,在无需 3D 标注(例如点云)、无需外部工具的情况下,让模型在推理过程中内蕴地「想象」三维场景。


具体来说,该框架让模型在生成推理链时,自动插入一段紧凑的隐变量,作为其脑内构建的三维场景表征,这段生成的表征通过蒸馏 3D 基础模型(VGGT)来获得。


核心思路:二段式学习用 3D 思考


3DThinker 提出了双阶段的训练策略来完成潜空间对齐,包括:(i) 监督训练过程中,将预训练的 3D 特征蒸馏进入模型推理路径,实现模型从二维数据的几何信息提取,而不依赖于任何先验;(ii) 强化训练过程中,在保持 3D latent 稳定的同时,仅仅依赖结果信号优化整个采样轨迹,从而实现模型的能力飞跃。



S1:以 3D 基础模型为指导,建立模型推理行为


在一阶段的监督训练中,首先构造了携带 3D special token 的 cot 数据,基于该数据进行监督训练,训练过程中,3DThinker 将对所有 special token 所对应的 3D latent(last layer hidden state)通过 projetor 映射到 VGGT 的潜空间,并将两者的对齐作为第一项损失函数:



其中,projector 基于堆叠 6 层 MLP 实现三次特征维度映射,具体框图如下:



而第二项损失函数是除去 special token 后的文本交叉熵损失:



其中,第一项损失函数在于保证 3D latent 的表征对齐;第二项在于保证自然语言的连贯性嵌入。


S2:以结果信号为基础,优化含 3D 意象的轨迹


在一阶段后,已经初步实现了模型 think with 3D 的表征对齐;接下来,基于强化学习,在只有结果信号的情况下,优化整条采样轨迹,包括其中的 3D latent。


具体来说,3DThinker 设计了一个 3D latent 对齐的奖励:



也就是说,3DThinker 会提取自回归生成的 3D latent,并于 VGGT 特征保持一致性,从而保证 RL 采样过程中不丢失几何表达。


另一方面,3DThinker 也参照先前方法的 outcome-based RL 保持了结果的二值化奖励以及格式奖励,最后基于 GRPO 进行优化。


提升到新高度的结果


论文在多个空间理解的 BMK 上验证了 3DThinker 的效果。


方法首先在 MindCube 的 10K 数据上构造了带有 3D special token 的推理链数据,并基于两个阶段进行训练,下表报告了训练后的模型效果,在 MindCube-Tiny 上,针对不同尺寸的模型,相比 base 整体提升了 51.8% 到 108.8%;在 Ego3D-Bench 上,则提升了 18.1% 到 36.9%。



以 Qwen2.5-VL-3B 基础模型为例,在监督训练上,模型相比需要 CGMap 标注的训练超过了 + 1.9 pp (62.7 vs. 60.8);加入强化学习后,3DThinker 也获得了 + 4.5 pp (75.2 vs. 70.7) 的提升,彰显了 3DThinker 训练方法的有效性。



另一方面,以自制的大规模训练数据为基础,模型进一步在更多全面的测试基准上进行了评估。


以 Qwen2.5-VL-3B 为例,该方法相比之前的 SOTA +10.8 pp(49.6->60.4);以 Qwen2.5-VL-7B 为例,该方法相比之前的 SOTA +16.3 pp(48.4->64.7)。结果显示,3DThinker 提升到一个新的水位,在各类基准上均出现了显著提升的迹象。



可解释性


3DThinker 的另一个显著特征在于某种程度上具备可解释性。


这意味着,3D latent 通过设计的 projector 可以直接恢复出 3D 表示,从而使模型推理不再完全「开黑盒」。有趣的是,3DThinker 观察到,和 prompt 高度相关的区域点云密度往往更高。



写在最后


从「看图说话」到「看图想空间」,3DThinker 打开了 VLM 推理一种新的思路。


3DThinker 巧妙之处,在于它找到了一条「无监督蒸馏」的路径:不需要昂贵的 3D 标注数据,也不依赖外部深度传感器,而是让模型在推理过程中自发「脑补」出三维场景。


这种「思维即几何」的设计哲学,某种程度上复刻了人类的空间认知本能。当 3D 想象与具身智能结合,当空间推理可以实时反馈修正,或许正在接近一个能真正「看懂」物理世界的 AI。


作者简介


本文第一作者为陈樟权,清华大学数据科学和信息技术博士在读。研究方向为多模态大语言模型推理、强化学习、三维视觉。在 CVPR、ICCV、ICLR 等人工智能顶级会议或期刊上发表论文近 10 篇。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]