MoreRSS

site icon机器之心修改

中文人工智能垂直媒体。由kindle4rss生成。
请复制 RSS 到你的阅读器,或快速订阅到 :

Inoreader Feedly Follow Feedbin Local Reader

机器之心的 RSS 预览

宇树造了款民用高达!390万元起

2026-05-12 19:28:00

机器之心编辑部

真的太炸裂了。


从变形金刚,高达,到环太平洋,相信大家多少都怀揣一个机甲梦想。


2018 年 10 月,马斯克发了条推文说要造机甲。



8 年时间过去了,马斯克那边什么也没搞出来。


结果现在你跟我说,高达民用版已经来了,甚至还能变形?



刚刚,宇树真正搞了个大的,发布了全新的,全球首款可量产的载人变形机甲 GD01


  • 双足/四足可变形:可以直立行走,也可以趴下变成四足模式;

  • 载人重量约 500 公斤

  • 能撞穿墙壁

  • 起步价 390 万元人民币(或 65 万美元);

  • 民用车辆定位,潜在应用涵盖运输、探索和救援。


一个不成熟的猜测,GD01 很可能就是「高达01」的意思。


视频里,王兴兴亲自登上 GD01,非常酷炫,但他却面无表情…



王兴兴可能是有史以来第一个开上机甲还能这么严肃的人。



宇树官方发布推文时,特意附上了一句话,:「请大家务必以友好和安全的方式使用机器人。」


我们还在想,为什么一定要加上这么一句话。看到这个画面,恍然大悟。



友好,安全,一台能锤爆墙壁的机甲。


好的,明白了。


「环太平洋」「阿凡达」「铁驭」


视频一上 B 站,俨然掀起了一场集体赛博共鸣现场:


有《黑客帝国》的,《环太平洋》的,《阿凡达》的,甚至还有变形后像《挽救计划》Rocky的……





看热闹不嫌事大的我们发现影视飓风的留言,简单有力:「我买!」



不如一起等等影视飓风的怪东西评测。


一切都起源于影视作品,而电影的世界即将走入现实。


「造机甲」是件严肃的事儿


「我告诉过你,Unitree 还有很多杀手锏在袖子里。」机器人科技博主 CyberRobo 在推文里写道。


其实这话不夸张。宇树这几年的产品线,从 Go2 四足机器人到 G1 人形机器人,从 H2 到 Dex5 灵巧手,几乎以一种「每隔几个月就出一个让人下巴掉地上的东西」的节奏在推进。


GD01 算是这条产品线上,最高调、最具视觉冲击力的一次亮相。


严谨地讲,这东西还是有同类产品的。日本 Tsubame Industries 的 ARCHAX 已经做到了 4.5 米高的载人人形机器人,主打重型作业场景。这东西长这样:



很炫酷,但是笨笨的。但 宇树GD01 不仅速度更快,更灵活,还具备「变形」能力,让它在可玩性和适应性上多出了一个维度。


过去几年,宇树以极高的性价比和开源友好的姿态,在全球机器人圈积攒了大量开发者粉丝。G1 人形机器人的开箱视频、踢腿跳舞合集动辄几百万播放。


GD01 的发布,是宇树第一次真正走向「超大型载人机甲」这个级别的产品。从一台 12 公斤的四足小狗,到一台 500 公斤能撞墙的载人机甲,王兴兴用十年时间,把科幻里的东西变成了定价单上的商品。



欢迎来到 2026 年,机甲时代,正式开张。



图片


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]



文章原文

光轮智能与谷歌、英伟达共同定义物理AI仿真标准

2026-05-12 19:28:00

机器之心编辑部


过去十年,AI 卡的是算力;未来十年,物理 AI 卡的是数据。而数据的前提,是仿真。


没有可规模化的仿真世界,就没有可规模化的机器人数据;没有统一的仿真标准,就不会有真正的物理 AI 生态。


仿真,正在成为物理 AI 时代的 CUDA。


CUDA 曾经把 GPU 计算变成 AI 时代的统一底座。今天,仿真正成为物理 AI 时代新的标准层。


物理 AI 的核心瓶颈已经变了


回望过去的技术演进,每个阶段都有自己的关键瓶颈。


大语言模型时代,这个颈是算力不论是闭源的 GPT、Claude,还是开源的 Llama、Qwen、DeepSeek,这条赛道的核心命题始终只有一个:如何用更多算力、在更大数据集上跑通 Scaling Law。算力的天花板在哪里,模型能力的边界就在哪里。


支撑这一轮浪潮的底层基础设施,正是以 CUDA 为代表的统一计算标准。CUDA 把 GPU 从图形计算工具变成 AI 时代的通用计算底座,也让大模型训练第一次拥有了可规模化调用的计算基础设施。谁掌握算力入口,谁就拥有时代红利。


但进入物理 AI 时代,核心瓶颈正在从 “算力” 转向 “数据”。


过去的大模型,本质上是用互联网语料学习人类世界;而物理 AI,需要学习真实物理世界。语言模型学习的是文字之间的关系,机器人学习的则是力如何传递、接触如何发生、动作如何实现、世界如何反馈。


这意味着,物理 AI 所需要的数据,不再是互联网中天然存在的信息,而是必须在 “可交互、可执行、可验证” 的物理环境中被系统性生成。



数据的困境,来自机器人学习方式的根本差异。斯坦福教授李飞飞曾在谈及机器人智能与传统机器学习的差异时指出:“把数据带入机器人训练,远比收集图片困难得多。” 机器人模型要学会抓取、搬运、操作、行走,需要的不是静态图像,而是大量覆盖真实物理交互的高质量行动数据。


这类数据无法像网页文本一样从互联网爬取,也无法通过简单扩大算力凭空生成。自动驾驶尚有 “影子模式”:几百万辆量产车每天在真实道路上行驶,司机的每一个操作都可以成为天然监督信号;机器人并没有这样的基础设施


也正因如此,李飞飞进一步提出,可以用大量仿真数据训练机器人 “大脑”,再用更少量的真实数据弥合通往现实世界的差距。换句话说,机器人数据不是现成存在的互联网语料,而必须在可交互、可执行、可验证的环境中被系统性生产出来;没有成熟的仿真体系,就没有规模化的训练数据,也就没有具身智能的持续迭代。


除了数据数量,质量同样关键。过去谈据质量,往往联想到成功完成任务的样本;但物理 AI 更需要理解失败 —— 物体为什么滑落,动作为什么失稳,接触为什么偏离预期。只有不断暴露问题、纠错反馈,模型才可能从数据中真正获得学习信号。


因此,数据背后还有一个同等重要却更隐蔽的瓶颈:评测


大模型时代的评测相对成熟:训练损失是可靠的优化信号,标准化基准(MMLU、HumanEval 等)能直接反映模型能力进展。但在物理 AI 领域,这套逻辑失效了。训练损失的下降与实验室 Demo 的成功,已难以全面反映模型在真实环境中的综合能力;今天跑通的动作,换一个灯光、换一个物体表面,可能就失效了。


问题的核心在于:机器人的训练与评测,本质上都需要在符合真实物理规则的环境中反复执行。但真实世界不可无限重置、不可大规模并行,也难以系统性构造失败场景。没有统一、可复现、可并行、可量化的评测体系,数据就很难有效指导训练,模型也无法知道自己在哪里失败,更无法定向补充数据、提升能力。


因此,仿真不再是辅助工具,而是物理 AI 数据生产与能力评测的前提条件。谁能构建更大、更快、更真实的仿真世界,谁就同时打开了数据生产和能力评测两道门,也就掌握了通往通用具身智能的钥匙。


仿真

国际巨头争抢的物理 AI 战略高地 


如果说上述判断还停留在理论层面,那么过去十几年国际巨头的一系列动作早已用真金白银做出了表态。他们通过收购、开源、孵化、自研,不遗余力地要把仿真能力嵌入到自己的机器人技术栈与生态标准中。


NVIDIA 早在 2008 年就收购了当时最主流的物理引擎 PhysX,并深度绑定自家 GPU 硬件,将其逐步从游戏物理工具演进为 Omniverse 中的高精度仿真内核,成为 Isaac Sim 等机器人平台的核心物理基础设施。


Google DeepMind 在 2021 年收购了 MuJoCo—— 此前它已是机器人和强化学习圈的标配工具,成为论文、基准测试、开源代码的默认选项。由此,Google 顺理成章地拿到了整个机器人学术界的工具链主导权。


Drake 孵化自 MIT CSAIL,后被 Toyota Research Institute(TRI)接管,成为高可信动力学仿真的可扩展底座;Bullet 则随着创始人的入职而与 Google 生态实现深度绑定。


Disney Research 则走了一条自研路线:孵化出专攻闭链机构与极端工况运动求解的仿真引擎 Kamino,专攻非标准构型下如何稳定站立和运动,从而解决商业化机器人落地的高频痛点。


这些举措并非偶然,而是全球顶级机构在仿真赛道上有意识的战略卡位。过去行业以为,仿真只是一个工程工具;但今天全球巨头真正争夺的,已经不是 “谁的引擎更快”,而是谁能定义世界如何被建模、物理如何被表达、数据如何被生成、能力如何被评测、机器人如何被训练。


因为谁定义仿真,谁就定义了机器如何理解现实世界。这已经不是工具之争,而是世界定义权之争。


问题也随之出现:这些求解器长期分散在不同体系中,物理表达、资产标准、训练接口和评测流程彼此割裂。物理 AI 需要的,不是更多单点工具,而是一个能把这些能力整合进同一架构的中枢引擎。


Newton

全球物理 AI 基础设施第一次走向统一 



Newton 应运而生。


这不是一次普通的开源发布,而是全球物理 AI 基础设施第一次开始走向统一。过去十几年,GPU 并行计算、高精度接触动力学、复杂机构求解、强化学习仿真、工业级机器人验证,始终分散在不同体系中。Newton 第一次尝试把这些能力放进同一个开放架构中。


它想统一的是物理 AI 的底层世界模型。


2025 年 9 月,NVIDIA、Google DeepMind 与 Disney Research 联合开源物理仿真引擎 Newton Beta 版。它不是某一家公司的单点开源尝试,而是三家全球顶级机构投入数百名工程师与研究员、历时近两年持续开发,将各自最强的仿真能力放进同一个开放架构中的结果。


NVIDIA 贡献的是 GPU 原生加速、Warp 框架与 Isaac 生态。过去十几年,NVIDIA 持续推动 GPU 从图形计算走向通用计算,再走向 AI 训练与物理仿真。到了 Newton,这套能力被进一步延伸到机器人学习场景:高并行、可扩展,并可与现代 AI 训练基础设施深度结合。


Google  DeepMind 带来的是 MuJoCo 在机器人学习与高精度接触动力学上的长期积累。MuJoCo 曾是机器人强化学习和控制研究中最重要的仿真工具之一,而 Newton 将这一套高精度动力学能力迁移到 GPU 原生框架中,使其能够支撑更大规模的并行训练和评测。


Disney Research 则将 Kamino 等仿真能力纳入其中。与标准机器人形态不同,Disney 长期面对的是闭链机构、复杂结构、非标准构型与极端工况下的运动控制问题,这使其在复杂机构稳定求解上形成了独特积累。Newton 将这一路线吸收进统一架构,使机器人仿真不再局限于传统刚体系统,而是进一步覆盖复杂机构、柔性材料与多物理交互。


也就是说,Newton 实现了 GPU 并行计算、高精度接触动力学、复杂机构求解与机器人学习生态第一次在同一个开源架构中实现系统性汇合


模块化架构、GPU 原生加速、自动微分能力与跨生态协作机制,使 Newton 不只是一个物理引擎,更像是面向物理 AI 训练、评测与部署的统一仿真底座


这些特质,使 Newton 从诞生之初就站在了物理 AI 基础设施的关键位置


值得关注的是,在这个由全球顶级机构共同构成的物理 AI 仿真基础设施版图中,中国公司第一次出现在核心坐标上


中国公司第一次

进入全球物理 AI 标准定义层



今年三月,光轮智能正式受邀作为核心指导委员加入开源 GPU 加速物理引擎 Newton,在关键具身仿真技术方向上发挥主导作用,并与 NVIDIA、Google DeepMind、Disney Research, 共同引领推动下一代开源物理 AI 仿真标准。


同时加入的还有 Toyota Research Institute (丰田研究院)所带来的高可信动力学仿真的可扩展软件底座 Drake ,进一步拓展了 Newton 的技术能力。


第一次,中国公司以核心共建者身份进入全球物理 AI 仿真基础设施标准的定义层:过去二十年,操作系统生态由 Microsoft 与 Apple 定义,移动生态由 Apple 与 Google 定义,AI 训练框架与计算标准由 NVIDIA 与 Google 等巨头主导。而今天,物理 AI 的仿真标准终于开始有了中国公司的核心参与。


光轮加入 Newton TSC,是凭借全栈自研的 “求解—测量—生成” 三位一体技术平台


  • 首先,依托自研求解器与物理测量体系,主导 Newton 引擎核心能力的持续演进,包括求解器的物理验证与系统性标定、接触建模与多物理场能力优化,以及仿真结果与真实世界一致性的持续提升。

  • 其次,围绕 SimReady 体系,推动仿真资产在物理属性规范、数据格式、接口标准、验证流程与评测体系等方面的进一步统一,完善下一代仿真世界标准。

  • 第三,依托物理测量工厂与资产生成体系,持续提升规模化 SimReady 世界供给能力,构建高保真、可复用的仿真资产与场景库,为全球开发者提供可直接使用的仿真资源。


求解、测量、生成三者合在一起,构成从物理建模、引擎验证到工程落地的完整闭环,这使 Newton 不仅能算,而且可验证、可复用、可规模化进入真实工业流程。



也正因此,光轮成为 Newton TSC 核心共建格局中唯一一家中国公司。这标志着其在物理 AI 底层技术领域的能力与影响力,获得了国际生态的正式认可。


事实上,光轮在国际开源生态中的布局远不止于 Newton。


此前,光轮智能已联合 NVIDIA 开源发布 Isaac Lab-Arena 机器人策略评测基准框架,推动具身大模型评测走向可复现、可扩展、可规模化;自研 LeIsaac 仿真平台被 Hugging Face 官方文档收录,成为全球开发者进入具身仿真的标准工程框架;联手 World Labs,用 RoboFinals 解决世界模型评测难题;联合通义千问,通过 RoboFinals 共建可复现、可诊断的工业级评测闭环,推动具身智能评测从学术 benchmark 走向工业级基础设施。


从底层物理引擎,到开发者平台,再到评测框架与工业级闭环,光轮智能参与的并不是一个个孤立项目,而是一条清晰的生态路径:底层物理引擎负责 “世界如何运行”,仿真平台负责 “开发者如何使用”,评测框架负责 “模型如何被衡量”,工业级评测闭环则负责 “能力如何持续迭代”。


这条生态路径的价值已经在市场中得到验证。今天,光轮智能已成为全球物理 AI 仿真与数据基础设施的重要提供方,服务全球全部前五的世界模型团队;国际主流具身智能团队中,超过 80% 的仿真资产与合成数据来自光轮


在这条路径上,光轮智能的角色发生变化:它不只是为头部模型团队提供仿真资产与合成数据,更是在引领构建物理 AI 时代的开源基础设施、开发者平台与评测标准


中国公司第一次以核心技术共建者的身份,进入全球物理 AI 仿真基础设施标准形成的关键位置。



全球物理 AI 仿真 Top 5 专家天团


再看 Newton TSC 的人员构成,可谓高手云集。



  • Miles Macklin Ph.D.(NVIDIA)NVIDIA 仿真技术高级工程总监,Warp 框架的联合创造者。如果说 Newton 的速度优势有一个技术源头,就是 Macklin 和他的团队十几年来在 GPU 并行物理仿真上的积累。

  • Yuval Tassa Ph.D.(Google DeepMind)机器人仿真团队负责人,MuJoCo 联合创始人。他解决了 MuJoCo-Warp 的融合问题,让 MuJoCo 的物理精度在 GPU 上重生。Tassa 代表的是机器人学界最核心的一条高精度仿真路径。

  • 谢晨 Ph.D.(光轮智能光轮智能创始人兼 CEO,曾任 NVIDIA 及 Cruise  自动驾驶仿真负责人,长期推动仿真与合成数据在自动驾驶和物理 AI 中的产业化落地。国际首创将生成式 AI 融入仿真,主导确立光轮“求解—测量—生成”三位一体全栈自研仿真技术路线。

  • Moritz Bächer Ph.D.(Disney Research)Disney Research 负责人。Disney 的主题乐园可能是全球对娱乐机器人要求最苛刻的环境,Kamino 求解器就是在他手下诞生的。

  • Michael Sherman Ph.D.(TRI) 是机器人仿真基础设施领域的老兵。作为 TRI 机器人仿真的核心负责人之一,其职业轨迹横跨 SD/FAST、Simbody、OpenSim、Drake 等多代关键仿真平台。


和这四位全球仿真领域的核心奠基者相比,谢晨博士的独特之处在于:他不是从单一求解器、单一学术体系或单点工程模块中走来,而是在自动驾驶与物理 AI 两代产业浪潮中,持续主导仿真基础设施的工程化、规模化与系统化落地


他先后在 Cruise 和 NVIDIA 主导自动驾驶仿真体系建设,在 L4 自动驾驶一线验证了仿真与合成数据对算法迭代的价值,也在全球仿真基础设施从自动驾驶时代走向物理 AI 时代的承担了关键角色。


在这一过程中,谢晨博士形成了区别于传统仿真专家的系统性视角:仿真不是一个求解器、一套工具链,或一个用于测试的虚拟环境,而是一套贯穿数据生成、模型训练、能力评测与真实部署的完整教育系统。


自动驾驶时代,仿真主要服务于视觉感知、场景回放与回归测试;进入机器人与物理 AI 阶段,仿真还必须解决接触、力传递、材料形变、动作失败等真实物理交互问题,并支撑模型在可复现、可规模化的环境中持续学习


2023 年,光轮智能的创立正是要把这一判断系统化为可落地、可交付、可规模化的全栈仿真基础设施。光轮所构建的不是单点仿真工具,而是以求解、测量、生成、训练、评测与部署为核心的完整闭环,继续引领仿真从 “辅助验证工具” 走向物理 AI 的核心生产系统。


因此,他加入 Newton TSC,不只是个人入选,而是中国力量首次以核心构建者身份进入全球物理 AI 基础设施的核心坐标


仿真是物理 AI 时代的 CUDA 


过去十年卡算力,未来十年卡数据。而数据的前提,是仿真。


2006 年,NVIDIA 发布 CUDA。在那之前,GPU 仍主要被视为图形计算工具,普通开发者想调用其并行计算能力,门槛极高。CUDA 把 GPU 的计算能力抽象成一套标准接口,让开发者可以规模化调用。


CUDA 成功的关键,在于它在关键窗口期同时完成了三件事:建立统一底层标准,让碎片化算力可以被统一调用;构建 cuDNN 等一整套工具链,把底层算力翻译成开发者能直接调用的生产力;开放生态,让这套标准形成跨场景、跨开发者、跨模型训练流程的普适性。


今天,物理 AI 正处在相似的历史节点大模型时代,CUDA 定义的是 “如何调用计算”;物理 AI 时代,仿真要定义的是 “如何生成世界”,因为机器人需要的是更多可交互、可执行、可评测、可迁移的物理世界。因此,仿真正从工具层上升为标准层:它需要定义机器人的训练场景、世界的表征逻辑、数据生产与结果评测方式……


历史上,每一次基础设施标准窗口期关闭之后,后来者都很难再获得定义权。PC 时代,操作系统生态由 Microsoft 与 Apple 定义;移动时代,应用生态由 Apple 和 Google 定义;大模型时代,训练框架与计算标准由 CUDA 定义。


而今天,物理 AI 的仿真层,正处于规则尚未凝固的窗口期。谁能定义世界如何被表达,数据如何被生成,能力如何被评测,机器人如何被训练,谁就有机会定义物理 AI 的未来。


窗口不会永远打开。


而这一次,中国公司第一次站上了书写规则的位置。


© THE END

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]


文章原文

告别云端依赖!字节开源新作DreamLite让手机秒变 AI 画板

2026-05-12 19:28:00


近日,字节跳动智能创作部门(Intelligent Creation Lab)提出新作 DreamLite,一个主干网络仅有 0.39B 参数的轻量级统一扩散模型,在单一网络内同时支持文生图(Text-to-Image) 和图像编辑(Text-guided Image Editing)两个任务,是目前已知首个实现这一能力的端侧模型。



DreamLite 在 iPhone 17 Pro 上实现了约 3 秒生成或编辑一张 1024×1024 图像,完全在设备端运行,无需云端。在 GenEval、DPG、ImgEdit 等主流基准上,DreamLite 全面超越现有端侧模型,并与参数量大 10-30 倍的服务端模型表现相当。


目前,DreamLite 论文与推理代码已开源。



  • 论文链接:https://arxiv.org/abs/2603.28713

  • 项目主页:https://carlofkl.github.io/dreamlite/

  • GitHub 链接:https://github.com/ByteVisionLab/DreamLite

  • 在线 Demo:https://huggingface.co/spaces/carlofkl/DreamLite


扩散模型想 "搬进手机":两大痛点亟待解决


在使用 FLUX、HunyuanImage、Qwen-Image 这类大模型创作或修图时,用户正在习惯 "提词即生图、一句话改图" 的体验。但当这些能力想真正走进手机、走向离线场景时,却遇到两个现实的拦路虎:


痛点一:生成与编辑,要装两个模型


现有方案中,文生图和图像编辑往往依赖两个独立的 pipeline: 一个负责 "从零生成",一个负责 "看图改图"。对本就内存紧张、存储有限的移动设备而言,同时装下两套数十亿参数的模型,几乎不可承受。


痛点二:质量和速度,难以兼


把大模型压缩到端侧可用的体量后,生成质量往往断崖式下跌;而如果追求画质和指令跟随能力,推理延迟又会退回到 "按下按钮等待十几秒",彻底丧失实时交互的意义。


更关键的是,真实产品场景里,用户需要的是同一套应用里无缝切换 "生成一张图片" 和 "修改这张图片"。两个模型意味着两份显存占用、两份下载流量、两份维护成本,这在端侧尤其奢侈。


DreamLite:一个模型,两种能力



DreamLite 的核心思想非常直接:将把 "生成" 和 "编辑" 统一压进一个轻量级网络里,而不是分别训练两个模型。围绕这个思路,团队做了三项关键设计。


1. In-Context 空间拼接:用 "占位符" 统一两类任务


DreamLite 在剪枝后的 SDXL U-Net 主干上,引入了一种空间维度的 in-context 条件注入机制。具体而言,模型的输入始终是一对左右拼接的潜变量。对于文生图,输入的右侧参考图为全黑占位图,相当于 "没有视觉条件";对于编辑,输入的参考图为待编辑的原图。


在此之上,团队还在文本 prompt 前插入显式任务 token([Generate] 或 [Edit]),作为一种零参数的任务路由信号。这样一来,同一个 U-Net 就能根据输入自动分辨当下是 "文生图" 还是 "编辑",无需新增任何分支、适配器或额外模块,天然适配紧凑主干。


2. Task-Progressive Joint Pretraining(渐进式联合预训练)


直接联合训练生成和编辑任务会导致小模型的训练不稳定。团队提出了分阶段的渐进式策略:


  • 阶段一|T2I 预训练:用大规模图文数据,以及经典的文生图范式,训练模型的生成能力;

  • 阶段二|编辑预训练:激活 in-context 条件,让模型在保留原图结构的前提下,学会 "指令编辑";

  • 阶段三|统一联合预训练:在同一 in-context 范式下继续联合优化生成与编辑。


这种分阶段的策略,让一个 0.39B 的小模型也能稳定习得 "生成 + 编辑" 双重能力。


3. RLHF 对齐 + DMD2 步数蒸馏


预训练之后,DreamLite 还经历两轮 "打磨":


  • 高质量 SFT + RLHF 对齐:在精选高质量数据上监督微调,再通过强化学习做偏好对齐。生成任务以 HPSv3 作为 reward model,编辑任务以 EditReward 作为 reward model,并采用 ReFL 完成扩散模型的偏好优化。这一步显著提升了美学质量和指令跟随能力。

  • DMD2 步数蒸馏:通过 Distribution Matching Distillation 2,将采样步数从数十步压缩到仅 4 步。


两者叠加,DreamLite 真正具备了 "端侧实时" 的现实可行性。最后通过量化和部署,实现在手机端生成 / 编辑(如下图)。



实验结果:跻身轻量化模型第一梯队


1. 指标:同级压制,越级对标



在文生图侧,DreamLite 在 GenEval 拿到 0.72、DPG 拿到 85.8;在图像编辑侧,在 ImgEdit 拿到 4.11、GEdit 拿到 6.88。在一众基线的对比中,DreamLite 作为端侧模型,不仅领先于 SnapGen、SANA 等轻量级的单任务模型,与参数量高出其 10–30 倍的服务端统一模型(如 FLUX、OmniGen2)相比,也展现出了极具竞争力的表现。


2. 手机实机演示:全程离线、无需联网


在 iPhone 17 Pro 的实机演示中,DreamLite 可稳定支持以下典型工作流:


  • 人像生成 + 风格迁移:先生成人像写真,再一键转换为油画风格;



  • 风景生成 + 背景替换:先生成自然风景,再完成冬夏的季节切换;



  • 商品场景 + 增删替换:生成日常桌面场景,灵活替换物体。



完整流程全程端侧运行、无需联网、用户数据不出设备,对隐私敏感场景尤其友好。


意义与展望


DreamLite 给端侧生成式 AI 的落地,提供了一条相当工程化、也相当有说服力的路径:


  • 一个模型替代两个:统一生成与编辑,直接砍掉端侧 "双模型部署" 的内存、存储与调度开销;

  • 4 步出图、秒级可用:DMD2 步数蒸馏让实时交互成为可能,真正贴合 App 级别的产品体验;

  • 完全端侧、零数据外传:所有计算在设备本地完成,既降低云端推理成本,又从根本上规避了用户数据上传带来的隐私风险;

  • 硬件门槛大幅降低:0.39B 主干意味着在更广泛的中低端设备上,也有机会享受到扩散模型级别的创作能力。


DreamLite 的意义,不只是 "在手机上又能跑一个扩散模型"。它更像是在回答一个更根本的问题:当扩散模型进入生产级的移动端时代,"生成" 和 "编辑" 能否作为同一个能力、由同一个小模型来承担?


随着端侧算力的持续提升、模型组件的持续轻量化,像 DreamLite 这样的轻量统一模型,很可能成为 AI 创作工具走向大规模、人人可用的关键一步 —— 把生成式 AI 从 "云端算力密集型服务",变成 "口袋里随时可用的画板"。


作者介绍


Kailai Feng 为字节跳动实习生,Yuxiang Wei, Bo Chen, Yang Pan, Hu Ye, Songwei Liu, Chenqian Yan, Yuan Gao 均为字节跳动研究员


图片


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]



文章原文

Auto Research最后一块拼图,Frontier-Eng Bench登场,在工程闭环里死磕最优

2026-05-12 11:54:00

机器之心发布

科研,能被 AI 全程加速吗?


过去两年,Auto Research 被寄予厚望:读论文、找方向、写代码、跑实验,甚至生成新假设 ——AI 仿佛要成为科研全能助手。


但做过科研的人都知道,真正烧脑、耗时间的不是「能跑」,而是「够好」:调参数、改代码、看输出,再跑,再调…… 每一次优化都琐碎又重复,却几乎无法跳过。


于是问题来了:能不能把这些繁琐的迭代交给 AI?Researcher 只提供方向,后续的「看反馈 → 调代码 → 逼近最优」,全交给 Agent 自动完成?


Einsia AI 旗下 Navers Lab 的最新论文 Frontier-Eng 盯上的就是这件事。



  • 论文题目:Frontier-Eng: Benchmarking Self-Evolving Agents on Real-World Engineering Tasks with Generative Optimization

  • 项目主页:https://lab.einsia.ai/frontier-eng/

  • Arxiv: https://arxiv.org/abs/2604.12290

  • Github repo: https://github.com/EinsiaLab/Frontier-Engineering


这不是又一个「模型会不会做题」的 benchmark。恰恰相反,它在问一个更接近真实 Auto Research 的问题:AI 到底能把一个可行方案优化到多好?


当 Agent 不再只「答题」,而是真正开始做优化


过去两年,大家见过太多 Agent benchmark:有的考检索,有的考代码,有的看任务能不能完成。但这些测试,大多还是「对就是对,错就是错」的二元评估逻辑。


可真实世界里的 Research 从来不是这样的。


很多时候,一个方法已经能跑,结果也说得过去,但真正决定它有没有竞争力的,是后面那一点点持续「拱」出来的提升。


  • 实验快一点,意味着 researcher 少等几轮结果;

  • 显存省一点,意味着更大的模型、更长的上下文、更复杂的设置终于能跑起来;

  • 指标涨一点,意味着离 SOTA 更近一步,离榜单前排更近一步,甚至可能就是 paper 能不能站得住的差别。


在 Auto Research 里,最重要的不是 Agent 能不能一次性给出一个看起来合理的答案,而是它能不能接过这段漫长的迭代过程:持续读反馈、改方案、跑实验、压指标,把研究员们从最重复、最烦人的调优里解放出来。


而 Frontier-Eng Bench 想测的,正是 AI 能不能接过这一段过程。


Frontier-Eng 总览


论文把这类问题定义为一种新的评测范式:Generative Optimization(生成式优化)。它本质上是在让 Agent 不再只「交一次答案」,而是真正进入一个工程闭环:


  1. 提出方案

  2. 运行程序或仿真器

  3. 获取详细反馈

  4. 继续修改方案

  5. 在固定预算内不断逼近更优解


这其实就是科研人员和工程师们每天都在做的事情。不是拍脑袋给出一个最终答案,而是不断试、不断调、不断被现实打脸,再反过来修。


把 Agent 扔进大量真实工程问题里


为了把这件事做成一个靠谱的 benchmark,Navers Lab 搭了一个相当硬核的评测系统。


研究团队邀请了各个工程领域的 PhD 、Master student,提供他们在各自领域经常遇到的真实问题,并将其转化成安全、可靠、可验证的代码库。换句话说,Frontier-Eng 背后的每一个任务,都来自领域专家的一手经验。


Frontier-Eng v1 一共覆盖 47 个任务,横跨 5 大工程方向,包括:


  • 计算与量子信息

  • 运筹与决策科学

  • 机器人 / 控制 / 能源系统

  • 光学与通信系统

  • 物理科学与工程设计


任务类型也不是纸上谈兵,而是直接把 Agent 扔进了大量真实工程问题里,包括:


  • GPU kernel 优化

  • 电池快充策略

  • 机械臂运动时间压缩

  • 量子线路优化

  • 数据中心控制

  • 结构拓扑设计

  • 作业车间调度

  • 光学相位设计

  • 单细胞分析

  • 化学反应优化


Frontier-Eng Bench 与已有评测基准的对比


这意味着 Frontier-Eng Bench 测的不是某一个窄领域里的「技巧题」,而是在问:


当 Agent 面对不同学科、不同目标函数、不同仿真器、不同硬约束时,它持续优化的能力到底怎么样


一个专门防止 Agent「钻空子」,只拼「硬实力」的 Benchmark


Frontier-Eng Bench 明显吸取了过去很多评测容易 “被钻空子” 的教训。在这里:


  • 评测器和参考数据是只读的,Agent 改不了;

  • 候选方案在隔离环境里跑,没法直接碰评分器;

  • 最终分数来自 verifier 自己吐出来的日志,而不是 Agent 自己报喜不报忧。


也就是说,想拿高分,只有一条路:真的把方案做得更好


这件事为什么难?因为它要求的已经不是单点能力,而是能力的组合。


模型既要懂领域知识,知道电池为什么会析锂、机械臂为什么会撞、库存策略为什么会失效;又要会写和改代码,把这些想法变成可执行方案;还要会读反馈,理解 simulator 给出的结果到底意味着什么;最后还得在有限预算里做搜索决策:是大改一版,还是小修一刀?


论文里举了一个很典型的例子:电池快充任务。目标很简单,大家都能听懂 —— 充得越快越好。


但现实一点都不简单:电压、温度、析锂、老化全是硬约束。Agent 不能只为了快一路猛冲,它必须在充电速度、热安全和寿命损耗之间找平衡。


这就不是「会不会写一个函数」的问题了,而是能不能在真实物理反馈里做优化决策


这也是 Frontier-Eng 最有意思的地方:


它不再问「答案对不对」,而是问「你能不能在现实约束里持续变好」。


不同模型的详细评测结果


结果揭示:gpt 5.4 最稳健,但前路尚远


从结果看,这套 benchmark 也确实够难。


论文系统评测了多种前沿模型和代表性搜索框架,结论很直接:gpt 5.4 整体表现最稳健,但对所有模型来说,Frontier-Eng 都远没被做穿


换句话说,今天最强的一批模型,已经能在一些工程任务上展现出明显的优化能力,但距离「像资深工程师一样稳定地跨领域做复杂优化」,还差得很远。


比排名更有意思的,是这篇论文顺手揭示出的两个规律。


工程优化的双重幂律衰减


第一个规律是:越往后,提升越难


论文发现,Agent 的改进频率和幅度都呈现幂律衰减:改进频率 ∝ 1 / 迭代轮数,改进幅度 ∝ 1 / 改进次数。简单说就是:前面几轮涨得最快,后面越来越难、越来越小。


这很像真实研发:第一版能干掉大量低垂果实,但越往后越接近瓶颈,想再抠一点性能都得下狠功夫。


那是不是多开几条路并行试会更划算?答案在第二个规律。


深度 vs 宽度


第二个规律:宽度有用,但深度不可或缺


并行多跑几条线能避免卡壳,但预算固定时,每多开一条链就会压浅深度。很多工程突破不是靠「多试几次」,而是靠持续积累、不断修正,才出现结构性跃迁。


这提示了下一代 Agent 的方向:不是「一次出答案」的模型,而是能在长程反馈里持续迭代、自我进化的系统。


Frontier-Eng Bench:意义不止于榜单


Frontier-Eng Bench 把行业注意力从「能不能答对」拽到了更现实的问题上:AI 能不能替人扛下科研里那些最恶心、最琐碎、又绕不开的活儿


评测尺度变了 —— 不再是「对或错」,而是「你能优化到什么程度」。


从这个角度看,Frontier-Eng Bench 测的是:AI 距离成为帮人类干脏活累活的工程优化执行者,还有多远?


迭代优化是 Research 中永远无法规避的一环。绕开它,方案永远停在「差不多」。如果 AI 能扛下这一环呢?


对科研人员来说,意味着从磨人的调优中解放出来


对 Auto Research,则意味着能把方案落地到极致,才能真正地开启飞轮。


这比又一组刷榜数字,更值得行业认真对待。


© THE END

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]


文章原文

刚刚,Thinking Machines出手!首款交互模型来了,翁荔出镜实测

2026-05-12 11:54:00

编辑|冷猫


从遥远的 iPhone 4S 时代开始,人和机器的对话始终是单轮的「你来我往」。哪怕智能体如此发达的今天也是如此。


为什么和机器的对话总是一问一答,而从始至终不能像和人对话那样自然呢?


业界主流方案,仍然是在传统的 turn-based 大模型外面套一层 VAD(语音活动检测)外壳,硬把它逼进实时场景。


就在刚刚,大名鼎鼎的 Thinking Machines Lab 终于拿出了成立以来首个大模型 TML-Interaction-Small ,这是第一个同时具备强智能 / 指令遵循和交互性的模型。



出场即炸场,彻底打破了传统「一问一答」的人机交互模式,真正实现同时输出语音,内容,代码,全自然交互。


「人们在同一时间交谈、倾听、观看、思考和协作,实时进行。我们设计了一种与人类以相同方式协同工作的 AI。」



更值得一提的是,OpenAI 前应用研究 VP、Thinking Machines 联合创始人翁荔(Lilian Weng)亲自出镜,用一段连贯的故事演示了这款模型的核心能力。



按照 Thinking Machines 官方的描述:「Lilian 在讲故事的过程中,交互模型可以追踪她到底是在思考、在让出话语权、在自我纠正,还是在邀请回应;整个过程中没有任何专门的对话管理系统在工作。」


她在社交平台上写道:



「过去几个月,我们经历了大量的乐趣(和压力),最终产出了 12 个版本(外加大量子版本)和 137 页的训练日志。事实证明,要让人和 AI 协作得更好,先要靠人和人之间的协作。」


Thinking Machines 发布了技术博客,详细解读了模型的技术细节。



  • 博客链接:https://thinkingmachines.ai/blog/interaction-models/#introduction


核心创新:把「时间」缝进模型架构里


从评测数据看,TML-Interaction-Small 在交互质量与智能度的综合指标上压过了 GPT Realtime 2.0、Gemini 3.1 Flash Live 等一众闭源对手;在新提出的时间感知与视觉主动性评测上,与第二名拉开了一个数量级的差距



智能与交互前沿。模型在交互质量上表现卓越,同时比任何非思考模型都更加智能。实现了最佳响应速度,以用户与模型之间的轮次延迟来衡量。


这一交互模型之所以能做到这种程度,根本原因在于它的训练范式与传统大模型完全不同


200ms 一拍:时间对齐的 micro-turn


传统 LLM 的输入输出是被「拍平」成一个单线 token 序列的:人说一句,模型答一句,再人说一句,再模型答。模型对真实世界的时间没有任何感知。


Thinking Machines 的做法是:把音频、视频、文本三种模态都按 200ms 一个 chunk 切成连续的「微回合」(micro-turn)。每个 200ms 里,模型同时处理输入并产出输出,也就是说,模型一边在听你说,一边可能在生成回应、保持沉默、或者插入一句反馈。


200ms 这个数字并不随便。它接近人类听觉感知与口头反应的最短自然窗口,也是 backchannel(嗯嗯、对对这类小口癖)能够自然嵌入的时间粒度。


这种设计带来的直接好处是:「沉默」「重叠」「打断」这些过去被脚本特殊处理的场景,全部回归为模型本身的常规输出。需要说话就生成语音 token,不需要说话就生成「沉默」token,跟模型决定下一个文字 token 是什么没有本质区别。


抛掉编码器,从零训练


第二个关键设计,是「encoder-free early fusion」


主流的 omni 多模态模型,往往要先训一个 Whisper 类的音频编码器、一个 TTS 类的解码器,再把它们拼到 LLM 主干上。这一套组合拳的代价是:每个组件都要单独优化、单独维护,模态之间的信息很容易在边界处丢失。


Thinking Machines 直接抛弃了这种思路:


  • 音频用 dMel 表示,经过一个轻量级 embedding 层进入主干;

  • 图像被切成 40x40 的 patch,由 hMLP 模块完成编码;

  • 音频解码端用一个 flow head 直出 mel 频谱;

  • 所有这些组件,连同 transformer 主干,全部从零开始联合训练。


这意味着模型从训练第一秒起,就在同一个梯度流里学习如何协调音频、视频、文本三种信号。早期融合带来的好处是显而易见的:声音里的笑意、画面里的表情、文字里的犹豫,可以在同一层被模型捕捉到,而不是在三个独立模块里各自损耗。


双模型协同:实时门面 + 后台大脑


第三层巧思,是系统级的双模型架构


交互模型负责「现场」,要求严格的实时响应。而真正需要深度推理、检索、工具调用的任务,会被打包成完整的上下文,派发给一个异步运行的 background model 去做。结果回来之后,交互模型再选一个合适的时机,把信息自然插进当前对话。


「让用户同时享受 thinking 模型的智能和 non-thinking 模型的响应延迟」,这是 Thinking Machines 给这套架构的定位。


为了把 200ms 的延迟控制做到极致,他们还做了几件硬核工程:


  • 自研 streaming session 推理机制,已经把一个版本上游合入了 SGLang;

  • MoE kernel 用 gather+gemv 替代标准 grouped gemm,更适合 bidirectional serving 的张量形状;

  • 实现了 trainer 与 sampler 的 bitwise 级对齐,做到 batch-invariant 训练,端到端开销不到 5%。


最后这一条尤其值得一提。在大模型训练里,trainer 和 sampler 之间的浮点不一致,长期以来是 RL 调试的「玄学黑盒」。Thinking Machines 在 NVLS 通信、Attention Split-KV 等关键路径上重写了 kernel,把它彻底变成了确定性问题。


实验结果


具体数据很能说明问题。



在衡量交互质量的 FD-bench v1.5 上,TML-Interaction-Small 拿到 77.8 分,第二名 Gemini-3.1-flash-live (minimal) 只有 54.3 分;GPT-Realtime-2.0 (minimal) 是 46.8 分。


在衡量端到端响应延迟的 FD-bench v1 上,TML 把简单转换的延迟做到了 0.40 秒,对比 GPT-Realtime-2.0 (minimal) 1.18 秒、Gemini-3.1-flash-live (minimal) 0.57 秒,更智能的同时还更快。


加上后台 agent 之后,FD-bench v3(Audio + Tools)上的 Pass@1 是 68.0%,对比 GPT-2.0 (minimal) 的 52.0%、GPT-2.0 (xhigh) 的 58.0%,依然是榜首。


智能度方面,TML-Interaction-Small 在 Audio MultiChallenge 拿到 43.4 分,超过所有 instant 模型;BigBench Audio 在启用后台 agent 后达到 96.5%,与 GPT-Realtime-2.0 (xhigh) 的 96.6% 几乎打平。



主流 benchmark 之外,Thinking Machines 自己设计了几项专门衡量「时间感知」与「视觉主动性」的新评测。在这些任务上,TML-Interaction-Small 与第二名的差距,可以说是数量级的:


  • TimeSpeak(按用户指定时间主动开口):64.7 vs 4.3

  • CueSpeak(在合适的语义时点主动接话):81.7 vs 2.9

  • RepCount-A(视觉计数):35.4 vs 1.3

  • Charades(视觉动作时段定位):mIoU 32.4 vs 0


「目前没有任何已有模型能够有意义地完成这些任务。」官方在博客里直接写道。所有评测过的对照模型,要么沉默不语,要么给出错误回答,包括开了 high reasoning 的 thinking 版本。



写在最后


2025 年 7 月,Thinking Machines Lab 完成了一笔轰动硅谷的融资:约 20 亿美元种子轮,估值约 120 亿美元。这是有公开记录以来最大的种子轮之一,由 a16z 领投,英伟达、Accel、ServiceNow、Cisco、AMD、Jane Street 等纷纷跟进。一家成立不到半年、还没有任何产品的公司,凭借创始团队的研究信誉,直接拿到独角兽十倍门槛的估值,本身就是 AI 行业的一件标志性事件。


此后近一年时间里,Thinking Machines 的对外动作并不多,主要通过自家研究博客 Connectionism 释出阶段性成果。其中最广为讨论的一篇是 Horace He 主笔的《Defeating Nondeterminism in LLM Inference》,把大模型推理的不确定性问题拆得相当透彻,也为这次 Interaction Models 提到的 trainer-sampler bitwise 对齐打下了铺垫。


而这次的 Interaction Models 发布,是 Thinking Machines 第一次拿出真正意义上的「自研旗舰大模型」。120 亿美元估值压在身上一年多之后,他们终于交出了第一份对外答卷。


TML-Interaction-Small 只是起点。官方明确表示,更大尺寸的模型今年内会陆续推出,background agent 的协同方式也「刚开始挖掘」。


图片


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]


文章原文