MoreRSS

site icon机器之心修改

中文人工智能垂直媒体。由kindle4rss生成。
请复制 RSS 到你的阅读器,或快速订阅到 :

Inoreader Feedly Follow Feedbin Local Reader

机器之心的 RSS 预览

通向L3的正确范式?理想i8全球首发VLA高阶辅助驾驶,我们帮你试了试

2025-08-02 12:41:00

机器之心报道

作者:泽南

VLA「司机大模型」问世。


本周二,理想全新纯电 SUV 理想 i8 正式上市,其搭载的全新一代 VLA 辅助驾驶系统立刻引起了人们的关注。


作为全球第一个展示 VLA 辅助驾驶范式的车企,理想应用基于视觉-语言-行为大模型、新一代英伟达 Thor-U 芯片和禾赛 ATL 激光雷达的 VLA 司机大模型,让新车型的辅助驾驶能力实现大幅提升。


在理想 i8 发布之前,工程师向我们分享了他们基于最新 VLA 模型的辅助驾驶技术以及研发历程。



全球范围内,辅助驾驶系统刚刚经历了从无图智驾到端到端范式的革新,不过理想在大规模实践后认为,面向 L3,系统架构还需要再次演进。


自去年端到端辅助驾驶上线后,理想落地技术的 MPI(接管里程)水平在近 12 个月以内提升明显。自去年 7 月份开始小规模内测时,端到端辅助驾驶的成绩是十几公里,到今年 2 月上线 1000 万 clips 的版本之后,MPI 做到了 100 公里,7 个月翻了 10 倍。


然而在 1000 万 Clips 的成绩过后,只增加数据量带来的提升变得有限,有价值的训练数据也越来越少。理想尝试了「超级对齐」,通过后处理、一定的规则机制来规范模型输出效果,使之符合人类需求。与此同时,理想提升了筛选数据的标准,今年 3 月到 5 月,模型性能提升在两倍左右。


理想发现,端到端的方法如果只通过数据驱动升级会存在边际效应。无论如何配比数据都会面临难以克服的挑战,如会出现违反常理的行为(缺乏对于场景的理解);开车不够聪明(决策没有深度思考);行驶时让人类感觉安全感不足(没有根据场景做出「预防性驾驶」)等问题。


事实证明,「模仿学习」的路线不具备深度的逻辑思维能力。


去年,理想工程师开始试图在需要深度决策时为 AI 模型中加入更多推理能力。但当时基于 VLM 的推理速度很慢(当时为 2-3Hz),它也不能理解在执行任务的中间接受由人类提出的新指令。


在基于 VLA(Vision Language Action)架构的辅助驾驶方案中,最大的改进在于使用、依靠大模型的语言智能提供决策能力——空间智能的输入会转化成语言智能的理解表达编码,最后形成动作指令



也正是因为这样的架构变化,与目前 AI 领域的深度思考大模型类似,辅助驾驶系统拥有了很强的可交互能力。VLA 在使用上最明显的变化是:假如人类在中间有指令(Prompt),可以随时更改 AI 做出的决策。VLA 天生可以听懂人类的指令,并按照人类的指令来完成任务。


比如你可以直接跟 i8 说话,「理想同学前进 5 米」,它就会开出准确的 5 米距离。



VLA 在运行时会把看到的整个环境总结成语言,然后形成类似于人的思考。可以看到,在辅助驾驶开启的过程中,系统会把传感器传来的视频信息转化为文本再进行推理,目前可以实现的速度是 10Hz。



除了对现实世界的充分理解之外,VLA 辅助驾驶还带来了更好的平顺性。过去的端到端辅助驾驶上,AI 对于车辆操作的 Action 是生成轨迹点,然后连接点进行近似平滑的方式;现在模型做出的推理是由 Diffusion 生成的光滑轨迹。从实际驾驶体验上看,现在开车动作会更加丝滑,动作调整会变少,体验会更好。



此外还有驾驶风格的改进:在上代辅助驾驶,理想更多参考的是「老司机」提供的数据,这一代则更多是在模仿「专车司机」,更加稳健的风格会受到更多人欢迎。


总结一下,VLA 范式的特点包括:


  • 思维推理能力,利用 CoT(Chain of Thought,思维链)的推理,系统能够充分理解和感知环境,并由此生成驾驶决策;

  • 沟通能力,可以和驾驶者使用自然语言无缝交流,开快点、开慢点、左转、右转、超车等基本操作都可以;

  • 记忆能力,开到某一条路上,你可以跟大模型说「以 ×× 公里速度行驶」,下一次来到同样的道路,车辆可以记住上一次的设置;

  • 自主学习的能力,VLA 通过仿真环境自我迭代和提升,其中用到了大量生成数据。


简单来说就是「能思考、能沟通、能记忆、能自我提升」。在全面架构升级后,第一版 VLA 的体验相比端到端辅助驾驶的最新版本已有不小的提升。



基于 VLA,理想希望能够面向更广泛的用户群体提供一个「私人司机」。VLA 司机大模型将为用户带来驾驶体验的一系列升级。例如,VLA 辅助驾驶已经学会了防御性驾驶,区别于「遇到丁字路口就刹车」的决策,VLA 能够通过推理分析出道路上存在的盲区,从而提前刹车预防潜在的碰撞风险。



在狭窄的道路上,车辆也可以自行多次倒车调头。



理想汽车的辅助驾驶研发历程自 2021 年开始,从最初的 BEV 方案到无图辅助驾驶再到 2024 年开始落地的端到端架构,技术架构已经历了多轮的迭代。


截止目前,理想已经积累了 43 亿公里用户智驾总里程,其用户规模总计 134 万辆,理想为智驾算法准备的云端算力总计已达 13EFLOPS。


数据方面,理想自 2020 年开始收集数据进行迭代。到今年 7 月份已经累计了 12 亿公里的有效数据。理想积累了大量不同环境下的数据,并进行分类,例如不同天气、时间段、道路类型、车道路口类型、交通状况、目标车的场景、自车行为、合规行为、接管类型等维度。


「大家都可以做到 1000 万 clips,这可能等于 1000 到 2000 万公里的数据,但问题在于你是否能够构建出有价值的数据。我们针对长尾场景采用数据合成的方式,让场景分布更加均衡,才获得了一些性能提升,」理想汽车智能驾驶研发副总裁郎咸朋博士说道。「在一些难以获取数据的长尾场景上,我们更多地使用生成数据来进行训练。」


今年 2 月份起,理想调整优化了端到端模型的训练数据。通过世界模型负责场景的重建和生成,根据真实数据「举一反三」以提升 VLA 应对复杂场景的能力。


比如「高速 ETC 收费站」,同样一个地点可以生成不同天气、不同时间的场景。有些 corner case 危险场景的数据,也可以通过世界模型生成出来。



算法方面,理想的核心能力在于算法效率高,以及强化学习的应用。李想此前提到过,VLA 大模型生成需要五步。理想构建了 MindGPT 基座模型,经过后训练、RLHF(基于人类反馈的强化学习)、强化学习、构建 VLA 司机智能体几步实现了辅助驾驶系统。


在后训练过程中,VLA 模型在世界模型中进行仿真测试,世界模型生成「真题」(完全复现)和「模拟题」(新的场景)。所有条件完全可控,测试周期大幅缩短,成本降低,可以实现天级发版。理想甚至表示,「实际上版本迭代的速度只取决于显卡的数量。」


虽然显卡的价格很贵,对比极为耗费人力的实车测试,这样做不仅让成本大幅降低,辅助驾驶效果也可以持续提升。也正是因此,理想的辅助驾驶测试里程从 2023 年的实车测试 157 万公里,每公里成本 18.4 元,2024 年实车测试 122 万公里,仿真测试 514 万公里,每公里成本 4.84 元,进化到了今年截至 6 月 30 日的实车测试 2 万公里,仿真测试 4009 万公里。目前每公里成本只用 0.53 元


在工程能力方面,理想着力进行了模型量化,并提升部署效率。在 Thor-U 上部署的 4B 模型进行了 FP8、INT8 量化,在「旧版」硬件车辆的 Orin-X 上也能部署。预计在未来,通过 FP4 精度的推理,Thor-U 搭载芯片车辆的算力可实现翻倍,为 VLA 模型释放更大的算力空间。


最后还有 One more thing:在北京的理想总部,目前已经有正在运行的 MEGA Home 接驳车,可以实现全区域(包括地下停车场)的巡游。



理想基于世界模型,为自家总部构建了一个 1×1km 的完全仿真环境。作为庞大 3D 资产的集合,其中的每个交通参与者都重建了 3D 模型,并作为智能体有自己的行动逻辑,完全模仿真实的物理世界。理想表示,车辆在其中运行,训练速度会是真实世界训练速度的很多倍。


上一代技术能力的上限,是下一代技术能力的起点,未来 VLA 技术的迭代速度还会再次加快。理想表示,一年后大家看到一个 MPI 在 1000km 的辅助驾驶系统,就会真正相信智能驾驶快要到来了。



图片


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]


文章原文

19岁小哥伯克利辍学创业,获2800万美元融资,OpenAI投了

2025-08-02 12:41:00

机器之心报道

编辑:冷猫


硅谷创业故事大家可再熟悉不过了,莫过于「天才,辍学和车库」,这似乎已经成为了硅谷大佬的刻板印象。


这次要讲的这家创业公司的故事,听起来和那些经典创业故事别无二致,就像美剧《硅谷》里拍的那样。


由两位加州大学伯克利分校辍学生创立的营销自动化创业公司 Conversion,在 7 月 30 日宣布获得了 2800 万美元的 A 轮融资,领投方为 Abstract,参与投资方包括 True Ventures 和 HOF Capital,以及来自 OpenAI 和其他 AI 和 GTM 领域的顶级天使投资人参与投资。


image.png


经典硅谷创业故事


Conversion 创业公司的团队年轻的夸张。联合创始人兼 CEO 尼尔・泰瓦里(Neil Tewari)才 24 岁;联合创始人和兼 CTO 詹姆斯・焦(James Jiao),是乔瓦里在伯克利大学的室友。


Conversion founders Neil Tewari (left) James Jiao (right)

Neil Tewari 与 James Jiao


泰瓦里在高中时上课看 TechCrunch Disrupt 科技峰会的直播被留堂,当时就已经萌生了创业的热情。而詹姆斯也梦想创办自己的公司,因此两人尝试开发各种产品,比如一个帮助市场营销人员购买产品植入广告的工具。


当他们注册 HubSpot 以帮助他们处理营销任务时,他们偶然想到了创办 Conversion 的主意,并决定在其基础上构建一些额外的自动化功能。


「最初是为我们自己设计的,」泰瓦里谈到他的创业公司的技术时说。


联合创始人们非常享受构建这个内部营销工具的过程,于是开始思考是否可以将其对外销售,并着手联系市场营销高管,进行「客户调研」式的访谈。


尽管这些营销团队的工作流程中已经深度嵌入了各种工具,但他们对那些无法实现自动化的部分普遍存在相似的抱怨。


两位创始人由此找到了自己的创业方向。朋友又为他们引荐了更多市场营销高管,这也帮助他们成功完成了 200 万美元的种子轮融资。


那年他们只有 19 岁,随后决定辍学,全职投入到名为 Conversion 的项目中。


他们对融资资金使用极其节俭,和五位室友一起住在一套只有两个卧室和一个卫生间的公寓里:每间房住两人,有人睡在沙发上,甚至睡在衣柜里


image.png

Conversion 团队合影


当营销自动化赶上 AI 大时代


在业界普遍认知中,每个领域都值得使用大模型进行赋能,尤其是涉及自动化的部分。由自动化向智能化转型是行业浪潮的大方向。


在他们打磨产品的过程中,ChatGPT 横空出世。许多传统的营销自动化工具也开始陆续集成各种 AI 和聊天功能,但并非所有功能都能很好地支持这些。


相比之下,Conversion 从一开始就将 AI 深度集成,这使得它可以执行诸如线索整理、个性化跟进邮件自动化等任务。


Conversion 是一款快速、灵活的营销自动化平台(MAP),专为现代 B2B 营销团队打造。不将它简单地视为邮件工具或 AI 流程系统,而是定位为企业的增长引擎 —— 它整合产品与 CRM 数据,实时感知用户的购买意图,在正确的时间通过正确的渠道发送正确的信息。


随着 AI 热潮的兴起,Conversion 的前景也随之水涨船高。泰瓦里表示,在过去两年里,Conversion 的年经常性收入(ARR)已接近 1000 万美元,其中约 90% 的客户为中型企业,他们纷纷弃用了旧有的传统应用。


不过,营销自动化与 AI 的深度融合早已经是一片红海,不仅是硅谷创业者,领域内的各大企业都在 AI 大模型营销上下足了功夫。


在海外,除了 HubSpot、Adobe Marketo 和 Salesforce Pardot 等传统营销自动化工具外,还有 Jasper、Writer AI、Iterable、Copy.ai 等众多 AI 原生创业公司都在该领域参与竞争。


而在国内,「营销 + AI」领域也早就卷麻了。不仅仅是传统营销工具多如牛毛,AI 营销工具也如雨后春笋。在刚结束的 WAIC 上,智能体营销工具也已经成为了下一代营销自动化工具的发展方向之一,就比如我们之前报道过的钛动科技的全球营销 Agent Navos


不过,泰瓦里拥有典型硅谷创始人式的自信,即使身处拥挤赛道也不畏惧。


他似乎对公司的定位认知非常清晰,也并未在 AI 技术上产生什么突破和前沿研究,他的策略是专攻那些已经在使用传统营销工具的企业,而不是去争夺那些首次选型的初创公司。


让一切营销自动化无感易用且高效,是这家创业公司的成功秘诀。(当然不是睡衣柜)


泰瓦里还表示,公司目前已完成了种子轮和 A 轮共计 3000 万美元的融资。现在,他们的生活条件也大有改善 —— 两位创始人终于各自搬进了单人房,不再需要和室友们一起睡沙发或衣柜了


参考链接:

https://techcrunch.com/2025/07/30/how-2-uc-berkeley-dropouts-raised-28m-for-their-ai-marketing-automation-startup/

https://conversion.ai/blog/series-a


图片


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]



文章原文

ICCV 2025 | EPD-Solver:西湖大学发布并行加速扩散采样算法

2025-08-02 12:41:00


本文第一作者是自南洋理工大学的博后朱贝尔和西湖大学的博士生王若禹,主要研究方向分别是 Robust Machine Learning 和 Diffusion Model,该论文已被 ICCV 2025 录用。


近年来,扩散模型(Diffusion Models)凭借出色的生成质量,迅速成为图像、视频、语音、3D 内容等生成任务中的主流技术。从文本生成图像(如 Stable Diffusion),到高质量人脸合成、音频生成,再到三维形状建模,扩散模型正在广泛应用于游戏、虚拟现实、数字内容创作、广告设计、医学影像以及新兴的 AI 原生生产工具中。


其背后的核心机制是 「逐步去噪」 过程:从一张完全随机的图开始,模型通过上百次迭代逐步还原出清晰、真实的图像。这种逐步精化的策略虽然保证了生成质量,却也带来了显著的推理,成为制约其部署效率的瓶颈,尤其在移动设备、实时生成和大规模应用中表现尤为明显。


为了解决这一问题,研究者提出了三种主要的加速思路:一是通过数值求解器(ODE Solvers)减少迭代步数;二是采用模型蒸馏(Distillation)将多步过程压缩为少步甚至一步;三是借助并行计算(Parallelism)加速多个计算路径的推理。然而,每种方法都存在局限:数值求解器在迭代步数极少时往往会损失生成质量;蒸馏方法则需重新训练模型,成本高昂;并行方法虽具潜力,但在低步数场景下仍未被充分挖掘。


为此,西湖大学 AGI 实验室提出了一种融合三类优势的创新方案 ——Ensemble Parallel Direction Solver(EPD-Solver)。该方法以数值求解器为骨架,通过轻量级蒸馏学习获得少量可学习参数,并在每次迭代中并行计算多个方向的梯度,再以加权方式融合,从而有效减少数值积分误差。这种方式不仅无需对模型进行大规模改动,也不会带来额外的延迟开销,成功实现在 3–5 步采样下仍能生成高质量图像。


更进一步,EPD-Solver 还能以 「插件」 的形式应用于现有的主流求解器中,显著提升其生成质量和效率。大量实验表明,在相同计算延迟下,该方法在 CIFAR-10、FFHQ、ImageNet 等多个基准测试中取得了领先的图像生成效果,展示出其在低延迟高质量生成任务中的巨大潜力。



  • 论文题目:Distilling Parallel Gradients for Fast ODE Solvers of Diffusion Models

  • 论文地址:https://arxiv.org/abs/2507.14797

  • 项目地址:https://github.com/BeierZhu/EPD


动机


从宏观层面来看,各类 ODE 求解器都在 「如何利用有限的梯度估计去近似积分」 上下功夫,如下图所示:


  • DDIM 只利用起点梯度()近似积分

  • EDM 利用梯形法,利用起点梯度()和终点梯度()近似积分

  • AMED 通过轻量网络预测一个中间时刻,利用该时刻()梯度近似积分



EDM 和 AMED 在 DDIM 的基础上,增加了一次额外梯度评估( tₙ 与 sₙ )来提升积分近似精度。该方法的核心动机是将额外梯度评估扩展到多个时刻,提出 EPD-Solver:


  • 并行计算 K 个中间时刻的梯度(

  • 凸组合融合 K 个梯度,获得更精确的积分近似(

  • 由于所有梯度互相独立,不增加整体采样延迟


理论支撑(Mean value theorem for vector-valued functions)


对于在闭区间 [a,b] 上连续、在开区间 (a,b) 上可微的 n 维向量值函数 f,存在系数  和中间点 ,使得:



将其应用于去噪积分 ,即可等价地表示为「在若干中间时刻计算梯度并按简单形权重加权求和」,这正是 EPD‑Solver 的核心思想。


方法


参数定义与更新


在每个采样步骤 n 中定义参数集 Θₙ = {τₙᵏ, λₙᵏ, δₙᵏ, oₙ}ₖ₌₁ᴷ,其中:


  • τₙᵏ ∈ (tₙ₊₁, tₙ):第 k 个中间时刻

  • λₙᵏ ≥ 0 且 ∑ₖ λₙᵏ = 1:梯度融合权重

  • δₙᵏ:中间时刻偏移量

  • oₙ:输出尺度扰动参数


推理更新规则



蒸馏训练流程


1. 教师轨迹生成:采用高精度 ODE 解算器(如 DPM-Solver)在扩展时间表 𝒯ₜₑₐ 上生成参考状态;

2. 学生轨迹采样:在相同初始噪声 下,使用学生时间表 𝒯ₛₜᵤ 采样得到学生状态;

3. 目标函数:针对每步 n,最小化学生与教师状态差异



4. 端到端优化:通过 N 次反向传播,联合优化所有参数 Θ₁:ₙ


插件化集成


EPD‑Plugin 设计为可插拔模块,可无缝集成至现有多步 ODE 求解器(如 iPNDM)。用户仅需替换梯度计算与融合流程,即可在原框架下获得加速与质量提升。




实验结果



1. 性能全面领先:在 CIFAR-10、FFHQ、ImageNet 和 LSUN Bedroom 四个数据集的测试中,EPD-Solver (当 K=2 时) 在所有 NFE(函数求值次数)设置下,其 FID 分数均比基线求解器有持续且显著的提升 。


2. 低 NFE 场景优势明显:在极低的 NFE 设置(例如 3 NFE)下,EPD-Solver 的优势尤为突出 。例如,在 LSUN Bedroom 数据集上,EPD-Solver 的 FID 分数为 13.21,而次优的基线方法 AMED-Solver 的 FID 分数为 58.21 。


3. 插件(Plugin)性能出色:当作为插件(EPD-Plugin)应用于 iPNDM 求解器时,该方法同样表现出色 。尤其是在 NFE 大于 7 的场景,其性能普遍优于 EPD-Solver 。



通过可视化两个随机像素在生成过程中的演变路径,可以观察到 EPD-Solver 的轨迹与「教师」轨迹展现出高度的一致性。相比之下,DDIM、DPM-Solver 和 iPNDM 等其他求解器的轨迹相比教师轨迹明显偏离。



在 Stable Diffusion v1.5 模型上,EPD-Solver 通过在极低的采样步数下(如 8-20 NFE)生成质量远超 DPM-Solver++(2M) 和 AMED-Plugin 等先进求解器,从而展现出显著的加速效果。


结语


通过 EPD-Solver,西湖大学的研究人员展示了如何利用其创新的并行梯度评估机制 ,在不增加单步推理延迟的前提下 ,高效且精确地减小了生图模型每步采样的截断误差,缓解扩散模型在低步数采样下的图像质量退化问题 。


该方法的核心优势在于两点:


1.  并行效率与精度提升:通过引入多个可学习的中间时间步梯度评估并将其进行凸组合加权,显著提升了 ODE 积分近似的精度,从而降低了局部截断误差。尤为关键的是,这些额外的梯度计算因其独立性,可实现完全并行化,在保持单步推理零延迟增加的前提下提升了生成质量。


2.  训练轻量与即插即用:仅需通过蒸馏方式优化一个极小规模的可学习参数集,避免了代价高昂的扩散模型重训练或微调。该方法还可作为 EPD-Plugin 轻松集成至现有 ODE 采样器(如 iPNDM),进一步扩展其应用范围。


综上,EPD-Solver 突破了扩散模型在低延迟采样时速度与图像质量的核心权衡瓶颈,提供了一种高效、实用且易于部署的新方法。其在多个图像生成基准上显著优于现有先进求解器的实验表现,有力证明了并行计算是推动扩散模型高效采样发展的一个极具潜力的研究方向。


图片


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]



文章原文