MoreRSS

site icon机器之心修改

中文人工智能垂直媒体。由kindle4rss生成。
请复制 RSS 到你的阅读器,或快速订阅到 :

Inoreader Feedly Follow Feedbin Local Reader

机器之心的 RSS 预览

大模型「有心了」:首个情感大模型Echo-N1,32B胜过200B

2025-12-10 10:08:00

机器之心报道

机器之心编辑部


长期以来,大模型圈流传着一个诅咒:LLM 懂微积分、会写 Python,但在情感这件事上,它们全是「直男」。


即使是 GPT-4,在面对人类细腻的情感崩溃时,往往也只能吐出 “多喝热水”、“别难过,一切都会好起来的” 这种正确的废话。原因很简单:「情商」没有标准答案,传统的强化学习(RL)根本无从下手。


但今天,这个诅咒被打破了。


近日,来自 NatureSelect(自然选择)的研究团队 Team Echo 发布了首个情感大模型 Echo-N1,提出了一套全新的「情感模型训练方法」,成功将 RL 用在了不可验证的主观情感领域。


结果相当震撼:


  • 仅 32B 参数的 Echo-N1,在多轮情感陪伴任务中胜率(Success Rate)达到 46.7%。作为对比,拥有千亿参数量的商业模型 Doubao 1.5 Character,胜率仅为 13.3%。

  • 相比基座模型(Qwen3-32B)0% 的成功率,经过 RL 后性能直接起飞,对模型的共情模式带来了质变。

  • 团队首度提出了「共情的心理物理模型」(EPM),把玄学的「共情」变成了可计算的「物理做功」。



  • 论文标题:Echo-N1: Affective RL Frontier

  • 论文链接:https://arxiv.org/pdf/2512.00344v1


为什么你的 AI 对象总是「聊天终结者」?


在数学和代码领域,RLHF(基于人类反馈的强化学习)之所以好用,是因为答案非黑即白。但在情感陪伴中,真诚和冒犯、玩笑和油腻,往往只有一线之隔。


现有的模型(尤其是开源模型)普遍存在三大问题:


1. 无法量化: 用户一句 「I'm fine」 背后可能藏着崩溃、无奈甚至拒绝沟通,传统的标量奖励根本无法有效捕捉这种细微的情绪信号。


2. Reward Hacking: 模型为了拿高分自然学会了堆砌华丽辞藻,经常说些不痛不痒的美丽的废话,对缓解用户情绪不仅毫无帮助,甚至可能适得其反。


3. 评测失真: 通过基于 SOTA 闭源模型(GPT-4,Claude-4.5-sonnet,Gemini-2.5-pro)的打分研究不难发现,这些模型自己都分不清什么样的表达属于「像人」、什么样的属于「像 AI」。


为了解决这些问题,Team Echo 推翻现有的 RL 范式,给 AI 装上一颗真正的「心」


核心技术:给 RL 装上「读心术」


奖励模型:告别「打分」,开始「写评语」


团队意识到,仅依赖标量奖励(Scalar Reward)的信息维度过于单一。


情感是流动的、细腻的,简单的数值反馈难以捕捉用户在交互中的细腻情感变化,无法有效引导策略模型(Policy Model)对用户情绪做出合适的共情反馈。


受 O1、R1 等架构在复杂推理任务上成功的启发,团队的思考是:情感感知虽然主观,但本质上依然是基于上下文的复杂推理过程,只是思维模式与理科任务有所不同。


因此,Echo-N1 创新性地提出了生成式奖励模型(Generative Reward Model)。团队将思维链(CoT)的杠杆效应迁移至奖励端 —— 奖励模型在输出结果前,必须先生成一段辑严密的情感推理路径。在该路径下,模型需要先对用户画像进行深度侧写,再基于此推导出 “什么样的回答能引发共鸣”。通过将隐性的情感判断过程显化,模型的判别精度显著提升,从而实现对策略模型更精细、更准确的反馈引导。


在这一框架下,团队通过 RL 训练了两种生成式奖励模型:


  • Humanlike Reward(拟人度奖励): 旨在消除 “助手味”。它具备上下文感知(Context-aware)能力,能敏锐识别并惩罚那些逻辑不通、或为了凑字数而生成的 “幻觉” 内容,确保回复逻辑自洽且具备「活人感」。


  • Empathy Reward(共情奖励): 旨在实现 User-specific 的深度共情。先根据历史上文来推断用户的潜在画像(User Context Mining),再判断回复是否符合人类认知、情感、动机三种最本质的共情需求。由于人类偏好的多样性,团队提出了一种「从公理推定理」的新颖范式:将普世价值观视为 “公理”,将千人千面的个性化需求视为 “定理”,由此出发设计了一套共情偏好数据合成框架。为了校验自动化管线生成数据的可靠性,团队引入了「人机回环」验证机制,通过让原始标注员对模型推演的用户画像与回复策略进行一致性校验,确保了合成数据在 “客观准确” 与 “主观共情” 上的高度统一。


为保证生成式奖励模型的情感推理路径的准确性,团队在训练中额外引入了过程性奖励(Process Reward)引导推理路径的修正。此外,针对 RL 中常见的 Reward Hacking 问题,团队采用了离散化奖励(Discrete Rewards)参考答案锚定(Reference Anchoring)的策略。不追求分数的绝对值膨胀,而是通过与 Reference 对比进行相对优劣排序。实验表明,这些策略相比 Scalar Reward 极大提升了训练策略模型的稳定性。



评测革命:当「AI 共情」变成可计算的物理模型


大模型训练的下半场,静态刷榜已经没有意义,未来的决胜关键在于「动态交互」。尤其在情感陪伴这条终极赛道上,现有的 “真空式刷分评测” 根本无法衡量 AI 在长程、复杂的心理博弈中的真实表现。


为了打破空白和僵局,NatureSelect(自然选择)的研究团队首先解决了一个根本性的科学难题:


如何客观量化「共情」与「疗愈」?


EPM 情感物理模型 —— 给 “共情” 一把科学标尺


为了量化对话中复杂的心理博弈,Team Echo 以物理学定律为启发,结合认知科学和心理物理法,打造了一套全新的机器共情科学标尺 —— 将抽象的心理疗愈,转化为可计算的物理过程。


  • 心理势能 (Potential Energy): 用户的痛苦与情绪阻抗不再是模糊的形容词,而被建模为有待克服的心理「阻力」或高位的「负势能」。

  • 做功 (Work): AI 的每一次回复,本质上都是在对用户的心理场「施加作用力」,试图推动其状态向良性跃迁。有效共情就是有效做功。

  • 矢量空间 (Vector Space): 这种复杂的作用力被精准分解到可计算的 MDEP 三维心理空间 —— 认知重构(C)、情感共鸣(A)、主动赋能(P)。


有了 EPM,共情效果不再是主观猜测,而是可视化追踪的能量轨迹和可计算的物理功


拟人化认知沙盒 —— 一场关于心智计算的大戏


人类真实的共情对话,是人类大脑多重认知模块协同运作的结果 —— 实时的思考推理、鲜活的情绪反应、联想性的记忆检索,缺一不可。为了让 AI 真正像人一样思考和交流,Team Echo 进一步打造了一个 “拟人化认知沙盒”。这是一个由模拟人类 “中央执行脑区” 所统筹的多智能体协作系统,旨在共同演绎出有血有肉的真实互动。


这个多智能体系统最引人注目的地方,在于其动态、简洁、基于环境反馈的 Function Call 机制。整个系统是一个敏锐的幕后大脑,时刻捕捉着对话中的心理变化和深层情感流动 —— 它会根据现场情景灵活推理决策、调配记忆资源、激活特定故事;还能根据互动反馈,即时调整策略重点,掌控对话节奏和结束时机,确保每一轮交流都充满新鲜感和挑战性。凭借这种智能且不可预测的调度能力,沙盒测试得以真正实现多轮鲜活的复杂心智模拟。


残酷的大考:基座模型全面崩塌


有了这套残酷而真实的拟人化认知沙盒,我们终于可以对 AI 进行一场前所未有的 “社会共情能力的大考”。


结果令人震惊,却也在意料之中。


在覆盖 30 个高难度心理场景的压力测试下,未经 post-train 的基座模型 (Qwen3-32B) 全面崩塌,通过率为惊人的 0%。更具揭示性的是 EPM 3D 轨迹图:基座模型陷入无序的的随机游走和病态收敛,它的轨迹几乎全部指向了负能量区域 —— 不仅无法提供情感支持,反而让用户滋生了更负面的情绪和心理阻抗,在错误的道路上越走越远。


即便是千亿参数级别的商业模型 Doubao 1.5 Character,在这场严苛的测试中也显得力不从心,成功率仅为 13.3%


这些数据充分证明:真实的共情能力,绝非单纯堆砌参数就能涌现,它专门的、科学的训练范式



Echo-N1 的崛起:画像对齐,温柔坚定「做功」


在基座模型全面溃败的背景下,经过情感强化学习 (Affective RL) 训练的 Echo-N1 模型,实现了颠覆性的跨越。在同样的测试中,Echo-N1 的轨迹发生了根本性的逆转,它同时学会了多种画像对齐的策略,不仅能敏锐地捕捉用户的情绪落差,还能一步步把用户从负面泥潭里拉出来,推向良性的心理状态。



在这场残酷的沙盒大考中,Team Echo 反而拒绝以单一成败论英雄,而是深入到 “方向对齐率” 与 “有效能量投影” 等多维量化指标,透视模型共情策略的真实质量与做功效率。


为了实现物理基准与人文体验的双重互证,他们进一步引入 NEE(Narrative & Experience Evaluator) 机制,组织 GPT-4o、Claude-3.5 等顶尖 SOTA 模型专家团进行盲测审视。最终,将严谨的物理量化指标与深度的人文体验评分融为一体,形成证据闭环:Echo-N1 斩获了 73.54 分的综合高分,远超商业模型 Doubao 的 42.95 分和基座模型的 29.66 分,有力证明了其在科学精度与人文温度上的双重跨越。



迈向「有温度」的 AGI


Echo-N1 的诞生证明:AI 的「情商」并非无法量化,它本质上是可以被数学建模、被 RL 优化的硬核能力


这项研究不仅让 32B 小模型拥有了越级挑战千亿参数模型的共情能力,更重要的是,它为 RL 在主观、不可验证领域的应用打开了一种新的可能。


也许很快,你的 AI 伴侣不再只会说些无用的话、冷冰冰地列 To-Do List,而是那个与你超级对齐、能陪你一起面对这个世界不确定性的「灵魂伴侣」。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]



Percept-WAM:真正「看懂世界」的自动驾驶大脑,感知到行动的一体化模型

2025-12-10 10:08:00


在过去几年,自动驾驶圈流行一句话:「大模型会说话,但不会开车。」


一方面,大规模视觉语言模型(VLM)在文本理解和逻辑推理上突飞猛进;另一方面,一旦把它们放到真实道路上,让它们处理长尾场景、远距离目标和复杂博弈时,这些 “聪明大脑” 却常常犯低级错误:看不清、定位不准、反应不稳定。深层原因在于 —— 现有 VLM 在空间感知和几何理解上的能力,远远跟不上它们在语义层面的 “表达能力”


为了让大模型真的能 “看懂世界”,在很多现有方案中,研究者会在训练中加入一些 “感知类 QA” 问题,比如问 “左前方有没有车”“两车距离有多远”。但这类监督更多停留在语义标签和粗略相对关系层面,并没有让模型真正学会可用于控制决策的强 2D/3D 感知能力 —— 例如精确、稳定的检测框、分割结果和 BEV 感知信息。换句话说,今天很多 VLA 仍然停留在「会回答关于世界的问题」,而不是「真的看清这个世界」。这种 “弱感知的大模型”,显然不足以支撑自动驾驶和广义具身智能对空间理解的高要求。


近日,来自引望智能与复旦大学的研究团队联合提出了一个面向自动驾驶的新一代大模型 ——Percept-WAM(Perception-Enhanced World–Awareness–Action Model)。该模型旨在在一个统一的大模型中,将「看见世界(Perception)」「理解世界(World–Awareness)」和「驱动车辆行动(Action)」真正打通,形成一条从感知到决策的完整链路



  • 论文标题:Percept-WAM: Perception-Enhanced World-Awareness-Action Model for Robust End-to-End Autonomous Driving

  • 论文链接:https://arxiv.org/abs/2511.19221


整体架构 / 任务介绍


在架构设计上,如图 1 所示,Percept-WAM 基于具备通用推理能力的 VLM 主干构建,在保留其原有语言与推理优势的同时,引入 World-PV / World-BEV 世界 Token统一 PV / BEV 视角下的 2D/3D 感知表示:通过可学习的 BEV 级栅格 Token 将多视角 PV 特征隐式映射到 BEV 空间,并采用栅格条件(grid-conditioned)预测机制;在解码侧,则结合 IoU-aware 置信度输出与并行自回归解码等关键技术来提升输出的精度及效率,同时配备轻量级动作解码头,用于高效预测未来行车轨迹。


在训练任务上,Percept-WAM 接收多视角流式视频、LiDAR 点云 (可选) 以及文本查询作为输入,在同一模型上联合优化 PV 下的 2D 检测、实例分割、语义分割、单目 3D 检测任务等, BEV 下的 3D 检测与 BEV map 分割任务等,以及基于多帧输入的轨迹预测任务


图 1:Percept-WAM 模型整体架构图


核心设计:World-PV / World-BEV

把世界压成一组 Token


Percept-WAM 围绕 World–Awareness–Action 构建统一的世界 token 空间:多视角图像和 3D 场景被压缩为一小组结构化 World tokens。每个 token 显式携带语义特征、空间位置以及置信度,用作 2D/3D 感知、轨迹预测等下游任务的共享世界表征。


在图像平面,World-PV tokens 将每帧图像划分为规则栅格,每个栅格对应输出一组 token,联合编码局部外观与 2D/3D 几何信息(如像素坐标、归一化尺寸、视线方向等)。基于同一组 PV tokens,模型可以统一建模 2D 检测、实例 / 语义分割、单目 3D 检测等任务,后续再叠加栅格条件预测与 IoU-aware 评分机制,提升密集 2D 感知的稳定性和排序质量。


在鸟瞰 (BEV) 视角,World-BEV tokens (根据是否存在 Lidar 点云特征,可选的从 LiDAR 特征初始化或随机初始化) 对应覆盖前方场景的固定分辨率 BEV 网格单元。每个 BEV token 通过与多视角 PV 特征的交互,隐式建模 PV 到 BEV 上的映射,聚合该网格区域的占据状态、语义类别和运动属性(如速度、朝向等),在世界 token 空间中显式刻画道路结构与交通参与者的空间关系。


栅格条件预测 + IoU-aware:

稳定密集场景感知


为支撑城市场景中的高密度目标预测及对应物体预测置信度的矫正,Percept-WAM 在解码端引入 栅格条件预测(Grid-Conditioned Prediction) 和 IoU-aware 置信度回归 两项关键设计。


栅格条件预测借鉴了 UFO [1] 的思想,将整个特征空间按 PV/BEV 栅格划分为多个子区域,并围绕每个栅格构造局部自回归序列,其中 (i) 每个栅格对应一条局部自回归子序列,只回归该区域内对应的候选目标;(ii) 不同栅格之间通过注意力 mask 做隔离,限制跨区域的无关交互,进行并行训练及预测,显著缩短了单序列长度,减轻了超长序列导致的训练不稳定和目标间干扰,提升了高密度场景下的收敛性与训推效率。


IoU-aware 置信度预测则显式建模候选框的定位质量。在训练阶段监督置信度微调数据集(Confidence-tuning Dataset)的分值 token,在推理阶段输出预测框与真实框的 IoU 预测结果,并将该 IoU 置信度分数与分类分数联合用于整体置信度排序。相比仅依赖分类得分的传统方案,这一设计在小目标、远距离目标以及长尾类别上能够提供更一致的候选排序,减少 NMS 阶段的误删与误保留,从而整体提升密集检测的可靠性。


图 2:利用 IoU-aware 置信度来显式建模候选框的定位质量,(a) 不同产生 IoU score 训练数据集的方式对比;(b) 原有训练数据以及带 IoU Score 训练数据的不同 loss mask 方式对比


从感知到轨迹:

World–Action 打通决策链路


Percept-WAM 模型在感知类 world tokens 之上进一步引入 World–Action tokens,用于动作与轨迹预测的查询(queries)。这些 tokens 从 World-PV / World-BEV 等感知 tokens 中聚合多视角图像与 BEV 表征(以及可选 LiDAR)的信息,并与历史轨迹、车速、转向等车辆状态融合,在统一坐标系下直接生成未来规划轨迹或控制信号;相比 “先产出 BEV 特征、再交由独立规划网络 (Diffusion)” 的两阶段方案,World–Action 在同一 token 空间内完成从世界建模到决策输出,使感知与规划在表示空间和时空对齐上天然一致


在解码方式上,Percept-WAM 将未来轨迹离散为一系列关键点或片段,结合并行化策略进行加速,避免传统自回归 “一点一点推” 的 AR 推理的效率瓶颈。具体来说,在轨迹解码方式上,Percept-WAM 采用轻量级 MLP 解码头驱动的 query-based 轨迹预测:World–Action 由一组功能不同的查询组成,其中一部分查询仅关注自车状态特征(只与 Ego-state 交互),一部分查询仅关注 PV 侧特征(只与 World-PV 交互),一部分查询仅关注 BEV 侧特征(只与 World-BEV 交互),还有一部分同时汇聚所有输入特征的信息,在融合视角下输出最终轨迹。这种多组查询并行工作的方式,一方面保留了 PV / BEV 各自对局部几何与全局结构的优势,另一方面通过共享的 World tokens 建立统一的世界状态,避免轨迹预测任务过度依赖部分输出特征。


图 3:轨迹解码 head 结构可视化,不同组 query 关注不同的特征 (如自车,PV,BEV 特征),Qfull 关注所有的特征并输出最终轨迹


面向连续驾驶场景,Percept-WAM 引入 streaming inference:在时间维度上采用 streaming KV cache strategy 复用历史帧的注意力缓存,仅对新到达的帧做增量计算;同时通过 longer-clip training scheme 和 dual-recomputation KV cache mechanism 缓解训练–推理范式不一致带来的 distribution drift 与误差累积,从而在几乎不牺牲规划精度的前提下,显著降低多帧多视角端到端推理的时延与计算开销。


实验结果:

高水平感知 + 强力轨迹规划一体化模型


在公开基准上,Percept-WAM 在 PV 视角感知、BEV 视角感知以及端到端轨迹规划 三个层面相较于现有模型均展现出强竞争力。


1)PV 视角:统一 PV 场景下感知的 World-PV


在图像平面上,Percept-WAM 基于 World-PV tokens 统一建模 2D 检测、实例 / 语义分割与单目 3D 感知任务,具体表现为:


  • 与专用感知模型的对比


如表 1 所示,在 nuImages /nuScenes 的 PV 任务上,Percept-WAM 在 2D 与 Mono 3D 上整体匹配或超过专用模型 —— 在 2D detection 上达到 49.9 mAP,相比 Mask R-CNN 的 47.8 mAP 有明显提升;在 2D instance segmentation 上取得 41.7 mAP,高于 Mask R-CNN 的 38.6 mAP;在 mono 3D detection 上达到 33.0 mAP,同样优于 FCOS3D 的 32.1 mAP。


  • 2D–3D 协同与多任务联合训练增益


实验观察到明显的 2D–3D 协同效应:在统一 World-PV 表征下联合建模 2D 与 3D 检测,可带来约 +3.2 mAP 的 2D 检测增益。进一步在自动驾驶 PV 数据集上对所有 PV 任务进行联合训练,各基准上基本维持一致或提升,说明统一的 World-PV token 空间有利于在多任务之间共享有用的几何与语义信息。


表 1: PV 场景下 Percept-WAM 的效果与其他主流模型的对比


  • 置信度分数矫正的影响


该文章同时可视化了预测的置信度分数(x 轴)与对应框真实 IoU(y 轴)之间的关系。如下图所示,引入 IoU-based confidence prediction 后,散点分布整体向 y = x 附近收敛,而在基于 model-prediction 数据集进行训练的设置下,曲线与对角线的贴合度最高,说明预测分数与真实定位质量更加一致,更适合作为后续筛选与排序的依据。


图 4: PV 任务上置信度分数矫正前后分数分布对比,不同图像代表不同的置信度分数构建方式或者不同的带 IoU score 的训练数据生产方式


2)BEV 视角:World-BEV 承载 3D 场景理解


在 BEV 空间中,Percept-WAM 通过 World-BEV tokens 统一建模路面占据、动态目标与地图语义。如表 2 所示,即便在不使用时序信息、且采用相对较低图像分辨率(448×796)的设置下,仍在 nuScenes 上展现出强竞争力的 BEV 感知能力:


  • BEV 3D 检测性能


在 nuScenes BEV 3D detection 上,Percept-WAM 在无时序、低分辨率输入的条件下依然取得 58.9 mAP,整体表现优于经典 BEV 检测方法,如 PointPillars 与 SECOND 等 specialist 检测器。


  • BEV map segmentation 与静态语义建模


在 BEV map segmentation 任务上,基于 World-BEV tokens 的分割头可以同时刻画车道线、可行驶区域、行人横穿区等静态语义要素;在部分关键类别(如 drivable area、pedestrian crossing)上,Percept-WAM 的分割结果可以超过 BEVFusion 等专用 BEV 模型。


表 2: BEV 场景下 Percept-WAM 的效果与其他主流模型的对比


3)端到端轨迹规划:World–Action 连接世界与控制


在端到端轨迹规划上,如表 3 所示,搭载 World–Action 轨迹解码头的 Percept-WAM 在 nuScenes 与 NAVSIM 上都取得了有竞争力的表现,并优于多种现有 BEV-based 与 VLM-based 方案。具体来看:


  • nuScenes 开环轨迹评估


在 nuScenes 的 open-loop 轨迹指标上,Percept-WAM 的平均轨迹 L2 误差约为 0.36 m,在同等设置下优于多数 BEV-based 方法(如 UniAD)以及 VLM-based 方法(如 DriveVLM)。


  • NAVSIM 闭环驾驶性能


直接轨迹模仿学习难以兼顾开环与闭环指标,因此在 NAVSIM 的 closed-loop 评测中,Percept-WAM 采用对聚类轨迹打分的方式,获得约 90.2 的综合得分,同样优于大部分现有端到端方法。实验同时表明,两阶段训练策略(先在感知与中间任务上预训练,再在规划任务上进一步微调)可以进一步提升端到端驾驶性能。


表 3: 轨迹预测场景下 Percept-WAM 的效果与其他主流模型的对比


在定量结果之外,我们还给出三类代表性可视化示例:(i)PV 视角下的 2D 检测 / 实例分割与 mono 3D 检测结果,(ii)BEV 视角下的 3D 检测与 map 分割(iii)NAVSIM /nuScenes 场景中的端到端规划轨迹。


图 5: PV 感知上 Percept-WAM 预测结果可视化,图中展现了不同任务的可视化结果以及对道路上非白名单障碍物的检测情况


图 6: BEV 感知上 Percept-WAM 的 3D 检测及 Map Segmentation 结果


图 7: 轨迹预测任务上针对于路面难例 case,Percept-WAM 具有较强的预测鲁棒性


总结来看,Percept-WAM 指出了一条面向未来的演进路径:在统一大模型中做强世界感知,用 World tokens 一体化打通世界表征与行为决策,逐步沉淀可持续演进的自动驾驶世界模型。它的价值不在于 “又多了一个更大的模型”,而在于给出了一个更完整、工程上可落地的范式 —— 自动驾驶的大模型不应该只是会聊天、会问答的 “语文老师”,而应该是一个真正能构建世界、理解世界并在其中安全行动的 “世界大脑”。


参考文献:

[1] UFO: A Unified Approach to Fine-grained Visual Perception via Open-ended Language Interface


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]



谷歌TPU杀疯了,产能暴涨120%、性能4倍吊打,英伟达还坐得稳吗?

2025-12-09 16:40:00

选自A.I News Hub

机器之心编译

英伟达的「护城河」正在崩塌?谷歌TPU凭什么让巨头们疯狂倒戈?


谷歌这次要动真格了。


摩根士丹利最新研报透露了一个重磅消息:谷歌 TPU 的产能即将迎来爆炸式增长。更关键的是,供应链那边传来信号,TPU 供应的不确定性基本解决了,这意味着谷歌可以放开手脚对外卖芯片了。


摩根士丹利直接把预测往上猛调,2027 年 TPU 产量将达到 500 万块,2028 年更是要冲到 700 万块。要知道,之前的预测可是 300 万块和 320 万块,这波上调幅度分别高达 67% 和 120%。换句话说,未来两年谷歌要生产 1200 万块 TPU,而过去四年加起来才生产了 790 万块。


这笔生意有多赚?摩根士丹利给出一个测算,谷歌每卖出 50 万块 TPU 芯片,2027 年就能进账约 130 亿美元,每股收益增加 0.40 美元


战略层面看,谷歌的打法也很明确,直接向第三方数据中心销售 TPU,作为谷歌云平台 (GCP) 业务的重要补充。虽然大部分 TPU 仍会用在谷歌自家的 AI 训练和云服务上,但如此大的产能储备,显然是在为更广泛的商业化做准备。


摩根士丹利认为,这些迹象都是谷歌 TPU 销售战略的早期信号。眼下全行业对先进 AI 算力需求爆棚,谷歌显然不想错过这波红利。


受 AI 芯片需求强劲的影响,摩根士丹利顺手把联发科评级上调至「增持」,理由是整个芯片供应链都在受益。


英伟达在 AI 芯片市场一家独大的格局,可能要迎来真正的挑战者了。


(动图来自博主赛博轩Albert)


最近,谷歌 TPU 与英伟达 GPU 的技术较量成为业内热议话题。我们关注到一篇题为《2025 年 AI 推理成本:谷歌 TPU 为何比英伟达 GPU 性能高出 4 倍》的报道,全面解析了两者的技术差异和性能对比。至于报道中的观点,仅供参考


以下是机器之心编译:


在激烈的 AI 霸主之争中,英伟达长期以来一直稳坐霸主地位。其 GPU 推动了机器学习的爆炸式增长,将抽象的神经网络变为现实,并打造了一个价值数万亿美元的商业帝国。但随着 AI 格局的演变,英伟达的「盔甲」也开始出现裂痕。


从模型训练(英伟达的强项)到推理(即这些模型的实时应用),市场格局正在发生重塑。而引领这场变革的,正是谷歌的张量处理单元(TPU),它带来的无与伦比的效率和成本优势,或许将终结英伟达的垄断地位。


到 2030 年,推理将消耗 75% 的人工智能计算资源,创造一个规模达 2550 亿美元的市场,并以每年 19.2% 的速度增长。然而,大多数公司仍然以训练成本为优化目标。


这并非炒作,而是经济因素。训练是一次性的冲刺,而推理则是一场永无止境的马拉松。随着像 OpenAI 这样的公司疲于应对飞涨的推理成本(预计仅 2024 年就将达到 23 亿美元,远超训练 GPT-4 的 1.5 亿美元成本),谷歌的 TPU 凭借其高性价比脱颖而出。在这篇深度分析中,作者将探讨 TPU 如何赢得推理之战,并以行业领导者的实际迁移案例为佐证,同时解释为何这一转变预示着英伟达即将走向衰落。


AI 算力的分野:训练与推理


要了解正在发生的巨大转变,我们首先必须剖析人工智能计算的两大支柱:训练和推理。



训练:英伟达的巅峰之作


训练是将海量数据集输入神经网络,以「教会」它们模式、预测和行为的密集型过程。它需要大量的计算资源,需要数千个 GPU 进行并行处理,以完成矩阵乘法和反向传播等运算。英伟达正是凭借此建立了自己的帝国。其 CUDA 软件生态系统和 Hopper 架构(例如 H100 GPU)在处理这种高强度计算任务方面表现出色,从而实现了 GPT-4 和稳定扩散等突破性成果。


但训练是有限的,一旦模型被训练完成,繁重的工作就停止了。成本是前置的:单次运行可能消耗数百万 GPU 小时,但它是有限的。对于 GPT-4 来说,这笔一次性账单达到了 1.5 亿美元英伟达的 GPU 凭借其在图形、模拟和通用计算方面的多功能性,成为这一阶段的首选。到 2023 年,英伟达控制了超过 80% 的 AI 芯片市场,仅数据中心销售就带来 600 亿美元的收入。


推理:永无止境的钱坑


推理则完全不同。这是部署阶段:每次 ChatGPT 查询、图像生成或推荐算法都会在新数据上运行已训练的模型。与训练不同,推理是持续进行的:处理的每一个 token、每一次用户交互、每一秒的操作都会产生成本。


接下来,残酷的数学计算将揭示真相。推理需求并非一次性的,而是随着使用量的增长而呈指数级增长。OpenAI 2024 年的推理支出飙升至 23 亿美元,是 GPT-4 训练成本的 15 倍。在全球范围内,随着 AI 集成到从自动驾驶汽车到个性化广告等各种应用中,机器学习推理成本正在爆炸式增长。分析师估计,到 2026 年,推理需求将比训练需求高出 118 倍。到 2030 年,推理计算可能占人工智能总计算量的 75%,从而推动 7 万亿美元的基础设施投资。


英伟达的 GPU 虽然针对训练的高吞吐量并行性进行了优化,但在这里表现不佳。它们会消耗大量的电力和内存来处理持续的查询,导致效率低下。进入推理时代:在未来,每次查询的成本至关重要。


谷歌的 TPU:专为推理时代而设计


谷歌并非偶然发现了 TPU。它为自身庞大的网络帝国精心打造了 TPU,为搜索、YouTube 推荐和全球规模的翻译服务提供强大支持。TPU 于 2016 年推出,是一种专用集成电路(ASIC),专为张量运算而设计,而张量运算正是人工智能的核心数学运算。


架构优势:为什么 TPU 能碾压推理



TPU 在流式阵列中表现出色,这种硬件网格能够高效地传输数据,无需频繁的内存读取,从而大幅降低延迟和能耗。而英伟达 GPU 则如同功能强大的瑞士军刀,能够即时解码指令,但这会增加额外的开销。对于推理任务而言,这意味着在 LLM 等工作负载下,TPU 的性价比是英伟达 H100 的四倍谷歌最新的 Ironwood (v7) TPU 的速度是 v6 的四倍,峰值计算能力是 v5p 的十倍,每一代产品都能带来 2-3 倍的性价比提升


能效是另一项杀手级优势。TPU 采用垂直供电设计,在执行搜索查询时比 GPU 节能 60-65%。在 MLPerf 基准测试中,TPU v5e 在 9 个推理类别中的 8 个类别中领先,例如 BERT 服务等任务的完成速度比 A100 GPU 快 2.8 倍。


价格是决定性因素,按需使用的 TPU v6e 起价为每小时 1.375 美元,签订长期合约后可降至每小时 0.55 美元,并且无需支付英伟达的授权费。用户反馈,一个 v5e 扩展舱相比八个 H100 扩展舱,「价格更低」,性价比更高。


2025 年 AI 芯片对比:TPU 与 GPU 正面交锋



英伟达优势逐渐消失


在纯粹的推理领域,英伟达的优势(灵活性)反而成了劣势。GPU 虽然能处理各种任务,但在非 AI 操作上却会浪费大量资源。随着推理逐渐占据主导地位,像 TPU 这样的专用 ASIC 芯片正在削弱英伟达的这一优势。谷歌云的高管们预计,仅 TPU 的采用就能占到英伟达 10% 的收入。英伟达的毛利率高达 70-80%,来自高效竞争对手的价格压力可能会挤压其利润空间。


ASIC 与 GPU 的 AI 之争:为什么专用芯片主导深度学习推理?



要理解为什么 TPU 正在瓦解英伟达的霸主地位,我们需要掌握 ASIC(专用集成电路)和 GPU(图形处理器)之间根本的架构差异。这不仅仅是技术细节的问题,而是决定数十亿美元计算支出成败的关键所在。


什么是 ASIC 芯片?它与 GPU 有何不同?


GPU 是通用型处理器。 最初设计用于图形渲染(因此得名「图形处理单元」),英伟达利用其并行处理能力,将其重新应用于人工智能领域。像 H100 这样的 GPU 包含数千个 CUDA 核心,可以处理各种工作负载:游戏、视频编码、科学模拟、加密货币挖矿,当然还有神经网络。这种多功能性使 GPU 成为人工智能早期时代的瑞士军刀。


专用集成电路(ASIC)是专业芯片。它们从一开始就为单一用途而设计, 牺牲灵活性以换取极高的效率。谷歌的 TPU 专为矩阵乘法和张量运算而硬编码,这是神经网络的数学基础。每个晶体管、每条电源轨、每条数据通路都针对一个目标进行优化,以闪电般的速度和最小的能量损耗完成张量运算。


不妨这样理解,GPU 就像一位多才多艺的运动员,精通多项运动;而 ASIC 则像一位奥运短跑运动员,在某一方面技高一筹。对于需要 24✖️7✖️365 全天候运行的推理工作负载,你需要的是这位短跑运动员。


ASIC 优势:为什么专业化能够规模化制胜?


能效方面: ASIC 芯片消除了指令解码的开销。GPU 动态地获取、解码和执行指令,消耗大量周期和电力。TPU 则在硬件中执行固定操作,在相同工作负载下能耗降低 60-65%。在数据中心规模下,这意味着节省数百万美元的电力成本并减少冷却基础设施。


降低延迟: TPU 中的脉动阵列可创建确定性的数据流,信息在芯片内同步流动,如同精心编排的装配线,而 GPU 依赖于具有不可预测访问模式的内存层次结构(L1/L2 缓存、HBM),从而引入延迟峰值。对于实时推理(聊天机器人、自动驾驶汽车、金融交易)而言,毫秒级的延迟至关重要。


每次操作成本: ASIC 通过去除未使用的电路,以更少的投入提供更高的计算能力。在 Transformer 型号上,TPU 的每美元性能是 H100 的四倍,因为每一平方毫米的硅片都物尽其用。GPU 则承载着诸多冗余:纹理单元、光栅化操作、显示控制器等等,所有这些在 AI 推理期间都处于闲置状态。


可扩展性: ASIC 可以紧密集成到定制系统中。谷歌的 TPU pod 通过定制互连连接 4096 个芯片,实现了 PCIe 受限 GPU 无法实现的近乎线性的扩展。这种架构上的自由度使超大规模数据中心能够构建完全符合自身需求的推理集群。


权衡取舍:灵活性与效率


ASIC 芯片并非万能,它们的专用性也是它们的局限性。训练新的模型架构、尝试新的层或运行非 AI 工作负载都需要 GPU 的灵活性。因此,未来并非「ASIC vs GPU」之争,而是战略部署:GPU 用于研究和训练,ASIC 用于生产推理


新兴的 ASIC 芯片格局: 除了 TPU 之外,亚马逊的 Trainium、微软的 Maia 以及 Cerebras 和 Groq 等初创公司正以各种专用芯片涌入市场。每款芯片都针对特定的细分领域(LLM 推理、训练、稀疏模型),从而打破了曾经由英伟达统一的 CUDA 王国。


结论是什么?对于以推理为主导的未来(到 2030 年将占计算总量的 75%),ASIC 芯片不仅具有竞争力,而且势在必行。物理定律决定了这一点:大规模专业化是无法超越的。英伟达深谙此道,因此大力推进像 Blackwell 这样针对推理优化的架构,但他们试图让一把瑞士军刀比手术刀更锋利。


现实世界的胜利:AI 巨头押注 TPU


迁移案例就是最好的证明。全球顶尖的人工智能运营商正在放弃英伟达处理器,转而使用 TPU,从而大幅降低成本,并以前所未有的方式扩展推理能力。


Midjourney 的 65% 成本削减


图像生成器 Midjourney 曾是 GPU 的主力军,但在 2024 年转向 TPU 后,便再也没有回头。推理成本骤降 65%,从每月 200 万美元降至 70 万美元。根据 Cohere 的类似基准测试,使用 TPU v6e 后,生成任务的吞吐量提升了 3 倍。「TPU 在推理工作负载方面的经济效益」被证明具有变革性意义,释放了研发资金。


Anthropic 的百万 TPU 登月计划


Claude 的开发商 Anthropic 公司与谷歌达成了一项价值数百亿美元的交易,承诺提供多达一百万个 TPU。到 2026 年,这将释放超过 1GW 的计算容量,并将 TPU 与亚马逊 Trainium 和英伟达的相结合,构建多元化的技术栈。首席执行官 Thomas Kurian 表示,「卓越的性价比和效率」是促成此次交易的关键因素。自 2023 年以来,TPU 一直为 Claude 提供计算动力。


Meta 的数十亿美元转向


Meta 是英伟达最大的客户(计划 2025 年支出 720 亿美元),目前正就一项价值数十亿美元的 TPU 部署进行深入洽谈。Meta 计划从 2026 年通过谷歌云租赁 TPU 开始,并计划在 2027 年之前部署本地 TPU,用于 Llama 微调等需要大量张量的工作负载。这种混合策略(英伟达提供灵活性,TPU 提供效率)预示着更广泛的资源迁移趋势。


这些并非个例。Salesforce 和 Cohere 都实现了 3 倍的增长,谷歌的 Gemini 运行在数万个 TPU 上。那些精明的运营商纷纷抛售英伟达的溢价产品,转而选择谷歌的性价比更高的产品。


何时选择 TPU 与英伟达显卡:AI 基础设施的决策矩阵



选择 TPU 还是英伟达 GPU 并非非此即彼。这取决于您的工作负载、规模和基础架构策略。以下是一个基于实际部署的实用框架:


如果您符合以下条件,请选择 TPU:


成本阈值: 推理成本超过每月 5 万美元。在此规模下,TPU 节省的成本(40-65%)足以抵消迁移带来的额外开销。


工作负载适用性: 大规模运行 LLM 服务、推荐系统、图像生成或视频处理。这些张量密集型操作正是 TPU 的优势所在。


云平台部署: 熟悉 Google Cloud 生态系统或愿意采用 TensorFlow/JAX 框架。


可持续发展目标: 环境和能源效率是重中之重。TPU 的功耗比同等 GPU 配置低 60-65%,这对实现 ESG 目标至关重要。


可预测的扩展 具有一致流量模式的大容量生产推理,而不是实验性研究。


如果您需要以下功能,请选择英伟达显卡:


训练灵活性: 构建自定义架构、多模态模型,或进行需要 CUDA 特定库和工具链的研究。


多云战略: 要求硬件能够在 AWS、Azure 和本地数据中心之间移植,且不受供应商锁定。


多样化的工作负载: 除了机器学习任务外,还可以运行图形渲染、模拟、游戏或非人工智能计算。


预算限制: 每月 AI 计算预算低于 2 万美元。设置开销和迁移成本使得 TPU 在小规模应用中不太划算。


前沿模型: 尝试使用尚未针对 TPU 编译进行优化或需要自定义内核的架构。


混合战略:企业行动指南


遵循 Meta 的模式:部署 Nvidia H100 用于训练、实验和模型开发,使用 TPU v6e/v7 进行生产推理服务。这种模式兼顾了灵活性和成本优化,在保持研究灵活性的同时,可节省 40-50% 的总计算资源。


实施时间表: 大规模 TPU 迁移预计需要 2-6 个月,包括代码库适配、测试和流量逐步转移。像 Midjourney 这样的公司通过降低成本,在 3-4 个月内即可实现投资回报。


未被定价的未来:推理的 75% 愿景与大规模 AI 的隐性成本


没人真正定价的是什么?推理的规模是无限的。训练只是一个里程碑,推理才是经济的命脉。每一次查询(每天数十亿次)都会持续增加成本。OpenAI 23 亿美元的账单,那只是 2024 年的费用;如果规模扩大到 2030 年占据 75% 的市场份额,那将是数万亿美元。


预测结果描绘出一幅鲜明的画面:


市场增长: 到 2030 年,人工智能推理市场规模将达到 2550 亿美元,复合年增长率达 19.2%。这将远远超过训练市场,后者随着基础模型的成熟而趋于平稳。


能源危机: 用于前沿模型的 5GW 集群,堪比小国的电网。随着推理集群的扩张,数据中心面临容量限制。


成本倍数: 训练基线成本为 15 倍,但实际使用量会进一步推高成本。每增加一个用户、每增加一项功能、每次实时交互都会增加费用。


总拥有成本 (TCO): 除了硬件成本外,还要考虑冷却、电力基础设施和碳信用额度。如果将这些运营成本考虑在内,TPU 的效率优势将提升至 2-3 倍。


未解决的问题:环境代价。推理的排放量可能远超训练。仅 ChatGPT 每年就排放 12800 公吨二氧化碳,是 GPT-3 训练的 25 倍。TPU 的效率(比上一代高出 15 倍)使谷歌成为可持续发展的选择,这在监管日益严格的今天至关重要。


深度学习推理优化的挑战不仅仅是技术性的,更是关乎企业生存的。忽视这一转变的公司将面临成本结构失衡的风险,导致无法大规模盈利。


对利益相关者的意义:TPU 革命的连锁反应



TPU 与 GPU 之争并非抽象概念,它重塑了整个商业模式、投资理念和职业发展轨迹。以下是不同参与者应该如何应对。


对于 AI 初创公司:大均衡化


TPU 降低了推理成本,使精简团队也能与巨头竞争。Midjourney 节省了 65% 的成本,从而延长了资金使用周期并加快了扩展速度。种子轮公司如果使用 TPU 进行推理,就能实现以往只有拥有巨额 GPU 预算的 B 轮及以后融资阶段的公司才能达到的成本结构。


审核您的推理费用。如果您每月在英伟达显卡上的支出超过 2 万美元,请开展 TPU 试点项目。TensorFlow 模型优化和 JAX 等工具可使迁移过程比以往任何时候都更加顺畅。


对于企业 CTO:战略必要性


15 倍的推理成本倍增效应要求我们现在就做出战略性的硬件选择,而不是以后。到 2026 年,将高容量推理迁移到 TPU 可以节省 40-60% 的计算预算,从而将资金用于创新而不是基础设施建设。


隐藏的好处: TPU 的低功耗可降低数据中心冷却成本 30-40%,同时满足预算和可持续性要求。


风险: 行动迟缓意味着竞争对手将获得成本优势,而且这种优势会逐季度累积。例如,竞争对手每年在推理方面节省 500 万美元,并将其重新投入到更优的模型中,从而导致差距不断扩大。


对于英伟达投资者:利润率压缩的威胁


尽管英伟达 2024 年数据中心业务营收预计将达到 600 亿美元,但 TPU 的普及应用却带来了长期的利润风险。如果谷歌能够占据哪怕 10% 的推理工作负载(考虑到目前的迁移情况,这还是保守估计),那么每年英伟达的利润就将面临超过 60 亿美元的损失。


对位:  英伟达的 Blackwell 架构 (预计 2025 年发布)承诺提升推理效率。然而,早期基准测试表明,在纯粹的大规模推理方面,TPU 仍保持着 2-3 倍的成本优势,这限制了 Blackwell 的影响。


密切关注英伟达 2026 年第一季度财报。如果推理驱动的收入环比增长放缓至 15% 以下,则表明 TPU 蚕食效应确实存在。


对于开发者和机器学习工程师:职业未来保障


CUDA 生态系统长达 15 年的护城河正在逐渐消失。随着 JAX、TensorFlow 和 TPU 优化技术的普及,学习这些技术能够确保职业发展的未来竞争力。2024 年,「TPU 优化工程师」的职位发布量同比增长了 340%。


技能转变: 从通用 GPU 编程转向 ASIC 感知模型设计。理解脉动阵列的编译器优化,其价值堪比 2020 年的 CUDA 内核调优。


机遇: 早期 TPU 专业知识可获得 20-30% 的薪资溢价,因为公司都在争相寻找人才来执行迁移。


华尔街的英伟达大撤退:为何精英投资者抛售 60 亿美元 GPU 股票



随着推理革命的加速,英伟达曾经不可撼动的统治地位正面临着华尔街最敏锐的投资者们的严峻现实检验,他们正悄然退出市场。


科技远见家彼得・蒂尔 (Peter Thiel) 旗下的对冲基金 Thiel Macro LLC 在 2025 年第三季度抛售了其持有的全部 537742 股英伟达股票(截至 9 月底,价值约 1 亿美元),并将所得资金重新投资于苹果和微软等更具防御性的股票,以应对日益增长的人工智能泡沫破裂的担忧。


这并非孤例。就在几周前,日本软银也抛售了其持有的全部 3210 万股股票,套现高达 58.3 亿美元,并将资金投入 OpenAI,以期从硬件炒作转向软件生态系统。就连预言了 2008 年金融危机的《大空头》预言家迈克尔・伯里,也在 2025 年末斥资 920 万美元买入了针对英伟达的看跌期权,押注随着 Meta 和 Oracle 等超大规模数据中心运营商面临数据中心过剩和 GPU 库存贬值的问题,英伟达的估值将会暴跌。


这些精英投资者并非放弃人工智能。他们只是在抛售英伟达高达 70 倍预期市盈率的股票,因为谷歌 TPU 的竞争日益激烈,以及随着训练阶段的辉煌逐渐褪去,推理成本不断攀升侵蚀利润率的担忧令他们感到不安。尽管英伟达盈利强劲,但其股价仍较 10 月份的高点下跌了 12%,机构投资者的资金外流也反映了科技行业的整体焦虑情绪。


这波超过 60 亿美元的资金外流凸显了一个残酷的现实:当推理运算的结果对 ASIC 芯片比对 GPU 芯片更有利时,即使是人工智能领域的巨头也不得不屈服于谨慎的资本外逃浪潮。


解码抛售潮:精明投资者看到的三个危险信号


供应过剩和贬值: 超大规模数据中心在 2023-2024 年间大量购入 H100 显卡,为训练数据激增而扩容,但这些激增并未完全实现。如今,数据中心使用的资产正在贬值(GPU 价值每年下降 30-40%),而推理需求却需要更便宜的 ASIC 芯片。这种供需不匹配令那些预期 GPU 将持续升级的成长型投资者感到恐慌。


利润率即将压缩: TPU 将主导推理任务(未来 75% 的计算量),这意味着英伟达必须在价格上展开竞争。其 70-80% 的毛利率将面临不可避免的挤压。即使毛利率下降 10 个百分点,也会使目前的估值倍数大幅下滑。


多元化现实: 像 Meta 这样的客户并没有完全放弃英伟达,但他们正在积极进行多元化投资。客户在 TPU 上的每一美元支出,都意味着英伟达少赚一美元。随着 Meta、Anthropic 和 Midjourney 等公司公开拥抱替代方案,英伟达的收入集中度风险已变得岌岌可危。


当然也有不同观点,英伟达仍然占据 80% 的市场份额,布莱克威尔即将加入,CUDA 的护城河也不会在一夜之间崩塌。


挑战与未来之路


TPU 并非完美无缺。与英伟达的 CUDA 通用性相比,其生态系统与 TensorFlow/JAX 的紧密联系限制了灵活性。扩展 TPU(最多可达 4096 个芯片)需要 Google Cloud 的投入,而本地部署的 TPU 市场尚处于起步阶段,混合架构将会持续存在:Nvidia 用于训练的极端情况,TPU 用于推理的大规模应用。


新兴竞争: 亚马逊的 Trainium 和微软的 Maia 芯片瞄准相似的细分市场,加剧了 ASIC 市场的碎片化。然而,这两款芯片的成熟度(已发展九代)和规模(为谷歌的万亿查询基础设施提供支持)都无法与 TPU 相提并论。


供应链: 谷歌与博通和台积电合作,加速 v7 芯片的生产,以解决产能问题。到 2026 年第二季度,TPU 的供应量应该能够满足需求,从而消除市场采用障碍。


目前的势头对谷歌有利。随着 v7 TPU 在 2025 年量产,以及博通 / 台积电等合作伙伴加速生产,供应链正在逐步完善。随着推理能力的激增,TPU 的应用也将随之扩展。


2025 年人工智能工作负载中 TPU 与 Nvidia GPU 的比较


对于所有人工智能工作负载,TPU 都比 Nvidia GPU 更好吗?


不。TPU 在推理和张量密集型操作方面表现出色,在运行 LLM、图像生成和推荐等模型时,性价比比 GPU 高出 4 倍。Nvidia GPU 在训练各种模型、需要灵活性的研究以及游戏、图形渲染和通用计算等非张量工作负载方面仍然更胜一筹。最佳策略通常是混合使用:TPU 用于生产推理,GPU 用于实验。


我可以在 Google Cloud 之外使用 TPU 吗?


目前,TPU 主要通过 Google Cloud Platform 提供,但大型企业客户(例如 Meta 的 2027 年计划)也开始采用本地部署方案。Nvidia 在 AWS、Azure 和本地部署方面的广泛可用性仍然是多云战略的优势。不过,Google 正在通过合作伙伴关系和托管选项来扩展 TPU 的访问权限。


英伟达的 Blackwell 芯片能否在推理方面与 TPU 展开竞争?


英伟达的 Blackwell 架构(预计 2025 年发布)承诺通过 FP4 精度和更高的内存带宽等特性来提升推理效率。然而,早期基准测试和架构分析表明,由于 ASIC 芯片的专用性,TPU 在大规模纯推理方面仍保持着 2-3 倍的成本优势。Blackwell 架构将比 Hopper(H100)更具竞争力,但可能无法完全弥补在高容量推理工作负载方面的差距。


从英伟达平台迁移到 TPU 的成本和时间是多少?


迁移需要将代码从 CUDA/PyTorch 适配到 TensorFlow/JAX,大型部署通常需要 2-6 个月,具体时间取决于模型复杂度。成本包括工程时间(大型迁移需要 4-8 个全职员工月)以及过渡期间的并行基础设施。然而,像 Midjourney 这样的公司可以通过持续节省 40-65% 的成本,在 3-4 个月内收回这些成本。规模较小的项目(每月推理成本低于 5 万美元)可能不值得投入这些额外费用。


TPU 如何处理自定义 AI 模型和架构?


TPU 在标准架构(Transformer、CNN、RNN)上表现出色,但对于自定义操作则需要重新编译。JAX 的 XLA 编译器可以自动处理大多数情况,但对于特殊架构可能需要优化。英伟达的 CUDA 为实验性工作提供了更大的灵活性。最佳实践:先在 GPU 上进行原型设计,待架构稳定后再针对 TPU 优化生产模型


那么,像 AMD 或 Intel 芯片这样的 GPU 替代方案,用于人工智能推理又如何呢?


AMD 的 MI300 和英特尔的 Gaudi 芯片面向相似的市场,但在生态系统成熟度和规模化应用方面略逊一筹。AMD 的产品相比英伟达的产品可节省 30-40% 的成本,但其效率仍不及 TPU。英特尔的 Gaudi 芯片展现出一定的潜力,但目前量产部署有限。展望 2025-2026 年,TPU 仍然是推理优化领域相对于英伟达的最佳选择,其他方案则作为备选。


结论:TPU 驱动的人工智能世界即将到来


英伟达凭借训练技术的辉煌历史建立起了庞大的计算帝国,但推理才是未来,在这个领域,英伟达的架构优势正在逐渐消失。谷歌的 TPU 拥有四倍的性价比,正吸引着 Midjourney(成本降低 65%)、Anthropic(100 万颗芯片)和 Meta(数十亿美元的谈判)等巨头。


参考链接:

https://www.ainewshub.org/post/ai-inference-costs-tpu-vs-gpu-2025

https://www.investing.com/news/stock-market-news/alphabet-could-see-billions-in-added-revenue-from-tpu-sales-morgan-stanley-says-4383972?utm_source=chatgpt.com


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]


Light-X来了!全球首个「镜头×光照」双控4D视频生成框架,单目视频秒变电影级

2025-12-09 16:40:00

图片


仅凭一段随手拍摄的单目视频,是否能够让镜头在空间中自由飞行,让光线随意变换,让原本固定的真实场景在全新的视角与照明条件下被再次「拍摄」?这一过去被视作科幻设想的问题,如今迎来了明确答案。


近日,新加坡南洋理工大学 S-Lab、北京智源人工智能研究院(BAAI)、华中科技大学、清华大学智能产业研究院(AIR)等多家科研机构联合推出 Light-X —— 全球首个实现「镜头 × 光照」双维度可控 的 4D 视频生成框架。Light-X 让「按用户意图重新导演一段视频」成为现实:既能自由规划镜头轨迹、生成任意新视角内容,也能灵活调整光源方向、亮度与风格 —— 从电影级布光到赛博霓虹氛围,都能在一段普通视频中轻松实现。



  • 论文名称:Light-X : Generative 4D Video Rendering with Camera and Illumination Control

  • 论文链接:https://arxiv.org/abs/2512.05115

  • 项目主页:https://lightx-ai.github.io/

  • 开源代码:https://github.com/TQTQliu/Light-X



研究背景


现实世界的视觉体验由几何、运动和光照共同构成,而我们日常拍摄的单目视频,只是这一复杂四维时空的二维投影。若能在拍摄后重新控制镜头位置、自由调节光照条件,那么普通视频就能具备「可重拍摄」、「可再导演」的能力。无论是电影制作、虚拟拍摄,还是 AR/VR 内容生成,都将受益匪浅。


现有研究大多沿着两条彼此独立的路线发展:


  • 视频重打光:如 Light-A-Video 在单帧 IC-Light 的基础上扩展到视频级光照编辑,但仍难以兼顾光照质量与时间一致性,更无法支持视角变化。

  • 相机可控的视频生成:最近的 TrajectoryCrafter、ReCamMaster 等方法能够生成全新镜头,但完全不涉及光照变化。


然而,真实场景的观感由几何、运动和光照共同决定,仅操控其中单一因素难以实现真正自然、可信的重渲染。在单目视频中同时实现「镜头 × 光照」联合控制,是此前从未被解决的问题。


其核心挑战主要包括:


  • 缺乏成对数据:真实世界几乎不存在「同一动态场景 × 多光照 × 多视角」的视频数据,使模型难以同时学习光照调节与视角变化的联合控制规律。

  • 多维因素耦合:光照变化、相机运动与场景几何相互影响,任一维度的变化都可能引入光照闪烁或几何不稳定。要在生成新视角的同时保持光照逼真与时序连贯性,其难度远高于单独完成其中任一任务。


在这一背景下,Light-X 的提出填补了关键空白:它第一次在单目视频场景中统一解决了相机轨迹控制与光照控制,让视频具备真正意义上的 4D 多维可编辑能力。


方法架构


Light-X 的核心思路,是将相机控制与光照控制先解耦,再在扩散模型中统一融合,从而在单目视频中实现真正的「镜头 × 光照」双可控生成。


显式解耦相机与光照


Light-X 首先从输入视频中分别构建两条分支:1)动态点云(用于相机控制):从视频估计深度,反投影成随时间变化的动态点云。再根据用户的相机轨迹,将其投影成新视角的几何渲染图和可见性掩码。2)重打光点云(用于光照控制):对输入视频选取某一帧做重光照,再反投影成光照点云,并投影到目标视角,得到光照渲染与光照掩码。通过分别构建「几何分支」和「光照分支」,Light-X 在建模阶段将两种因素成功解耦。


联合条件的视频扩散模型


在生成阶段,Light-X 会将两条分支的线索统一输入扩散模型:1)细粒度几何与光照线索:几何渲染提供场景结构与运动信息;光照渲染提供逐像素的光照变化线索。2)全局光照 token 保持风格一致:模型从重光照帧中提取全局光照 token,用于维持长时间段的光照风格、亮度和方向一致性。


图 1 Light-X 框架总览


数据构建


为训练具备「镜头 × 光照」联合控制能力的模型,Light-X 需要成对的几何对齐、多光照、多视角训练数据。然而真实世界几乎不存在这样的数据。为此,我们构建了 Light-Syn,一种从单目视频自动合成训练数据的流程。


退化:把真实视频变成「输入视频」

Light-Syn 以普通视频作为目标视频,然后通过现有算法合成一个品质更低的「输入视频」。


逆向映射:恢复训练所需的条件线索

基于退化过程的记录,Light-Syn 自动生成:

  • 对齐的几何渲染与可见区域

  • 稀疏的重光照视频

  • 重光照后的渲染与掩码

这些信号构成 Light-X 学习「该看到什么」和「光该如何变化」的条件。


多来源数据覆盖更多场景

Light-Syn 构建的数据来自三类视频:

  • 静态场景视频(多视角几何更稳定)

  • 动态场景视频(运动更真实)

  • AI 生成视频(光照风格更丰富)

这种多来源设计让模型既能学到真实的运动结构,又能适应多样化的光照风格。


图 2 数据管线 Light-Syn 总览


方法框架和数据管线灵活性


得益于 Light-X 的统一建模方式,它可以同时支持多种形式的光照输入,包括:HDR 环境光,参考图光照,文本 / 背景图光照,不同光照模式在训练中通过软掩码区分,使同一个模型即可泛化到多种光照条件,无需为每种模式分别训练。


图 3 多模态光照数据构建与条件机制示意图


实验结果


Light-X 在两个核心任务上进行了系统评测:(1)镜头 × 光照联合控制 和 (2)视频重打光。在所有基准上,Light-X 都显著优于现有方法。


镜头 × 光照联合控制


由于此前没有能同时做「新视角生成 + 重光照」的方法,论文构建了多种组合式 baseline,例如 TrajectoryCrafter + IC-Light、Light-A-Video + TrajectoryCrafter 等。如表 1 和图 4 所示,Light-X 在图像质量、视频平滑性以及用户偏好等多项指标上均取得显著领先,实现了当前最优的联合控制效果。


表 1 镜头 × 光照联合控制任务的定量结果。用户偏好表示选择我们方法的参与者比例


图 4 镜头 × 光照联合控制的视频对比


视频重打光


表 2  和图 5 展示了视频重打光任务的定量和定性结果。相比 IC-Light、Light-A-Video 等方法,Light-X 在图像质量、时间一致性和用户偏好上均取得明显优势,整体呈现出更高的光照真实性与视频稳定性。


表 2 视频重打光任务的定量结果


图 5 视频重打光的视频结果对比


消融实验


消融实验(表 3)从数据构建、模型结构与光照机制条件设计三个方面进行分析。结果表明:多源数据(静态、动态与 AI 生成)对于提升新视角质量、运动稳定性及光照多样性至关重要;细粒度光照线索与全局光照控制显著改善光照一致性和稳定性;训练策略中的软掩码与单帧重打光设计同样关键,可避免光照域混淆并提升时序一致性。


表 3 消融实验定量结果


图 6 Light-X 多维度控制能力展示


图 7 Light-X 支持交互式调节视频中的光照区域与方向,实现细粒度、可控的重打光效果


总结


Light-X 提出了首个能够从单目视频同时控制镜头运动与光照的 4D 视频生成框架。通过将相机与光照因素显式解耦,利用动态点云提供几何与运动先验,并通过重打光帧构建光照线索,Light-X 在统一的扩散模型中实现了稳定、高保真的联合调控。同时提出了 Light-Syn 数据管线,使模型无需真实的多视角、多光照采集即可完成训练。大量实验表明,Light-X 在「镜头 × 光照」联合控制和视频重打光任务上均显著优于现有方法,并能灵活适配多种光照模式。


尽管如此,Light-X 仍依赖单帧重打光质量和深度估计精度,在极端光照、错误深度或大范围相机运动下仍可能受到影响。此外,扩散模型的多步去噪也带来一定的计算成本。未来工作可探索更强的视频生成 backbone、更稳健的几何建模策略以及长视频生成技术,以进一步提升质量与适用性。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]


地平线首曝BPU「黎曼」架构,用数学流形重构AI计算

2025-12-09 16:40:00

机器之心报道

机器之心编辑部


2012 年 12 月,美国太浩湖畔 Harrah's 酒店的 731 房间,一场足以载入 AI 史册的秘密竞拍正在进行。


彼时,余凯代表百度,与 Google、微软以及当时还名不见经传的 DeepMind,共同竞购「深度学习之父」杰夫·辛顿(Geoff Hinton)及其学生组成的初创团队。那场竞拍最终以 Google 胜出告终,但正如余凯在《深度学习革命》序言中所写,那是「深度学习推动全球科技产业变革的发令枪」。


正是在那段时期,余凯敏锐地观察到:GPU 虽然让深度学习成为了可能,但它本质是为图形渲染设计,「无心插柳」的效率并不极致。「如果专门为深度学习设计加速芯片,会不会效率更高?」这个反思,直接促成了地平线的诞生。


13 年后的今天,站在从「数字智能」向「物理智能」跨越的拐点,余凯似乎再次扣动了扳机。


在深圳前海的聚光灯下,地平线创始人余凯博士并没有直接抛出参数,而是先谈起了一场跨越十年的「星际探索」:2015 年 7 月 14 日,人类探索宇宙的历程迎来了另一个里程碑,NASA 的「新视野号」(New Horizons)探测器飞掠冥王星,将人类的认知边疆推向了太阳系边缘。就在同一天,地平线(Horizon Robotics)的公司在北京正式注册成立,开启了向人工智能算力高峰的攀登。



12 月 8 日,在深圳举办的 2025 地平线技术生态大会上,地平线不仅交出了全场景智驾(HSD)的量产答卷,更通过全新的 BPU「黎曼」架构、HSD Together 算法服务以及开源具身智能模型,试图为物理 AI(Physical AI)世界构建底层的「Wintel」生态。


以数学之名,定义 AI 计算新定律


从「伯努利」到「黎曼」,数学重构算力


地平线的芯片架构迭代逻辑,始终建立在对 AI 本质的数学理解之上。余凯在演讲中提出,不同于互联网产品基于大数据的「用户行为拟合」,人工智能在物理世界的任务是「逼近真理」。


基于此,地平线 BPU(Brain Processing Unit)架构经历了以下演进:


  • 伯努利(Bernoulli)架构:面向感知计算。针对早期目标检测需求,采用定点计算优化功耗,应用于征程 2、征程 3 芯片,解决 ADAS 场景。


  • 贝叶斯(Bayes)架构:面向预测计算。引入概率预测能力,支持高速 NOA 场景,应用于征程 5 芯片。


  • 纳什(Nash)架构:面向博弈决策。受博弈论启发,解决城区复杂人车交互问题,应用于征程 6 系列。


而面对未来的通用机器人和 L4/L5 级自动驾驶,地平线选择了「黎曼」(Riemann)。余凯解释道,现实世界纷繁复杂的表象下,隐藏着简洁的低维流形结构(Manifold),而黎曼正是非欧几何与流形理论的奠基人。



相比上一代,关键算子性能提升 10 倍,高精度算子支持数量增加 10 倍。面向 LLM 能效提升 5 倍,从 Tensor(张量)扩展至 Vector(向量)计算,全面支持浮点计算。搭载黎曼架构的征程 7(Journey 7)系列芯片正在酝酿中,目标是直接对标特斯拉下一代 AI5 芯片。


引入强化学习,全面迈入「AI 驱动编译」时代


硬件决定算力上限,编译器决定实际利用率。地平线发布了第四代编译器「天工开物 OpenExplorer 4.0」。


针对传统编译器在处理离散优化问题时的瓶颈,新版编译器引入了 AI 驱动的优化策略,包括强化学习和蒙特卡洛树搜索(MCTS)。



编译速度从「小时级」缩短至「分钟级」。通过指令并行和计算融合优化,模型性能提升 20%。在 HSD(Horizon SuperDrive)量产实践中,将端到端延迟从通常的 300ms 优化至 160ms。


从「算法服务」到「智驾平权」


打破「黑盒」,HSD Together 重新定义乙方


在智驾行业,「自研」曾是车企的执念,但高昂的试错成本正在吞噬利润。余凯指出,当前行业面临三重挑战:模型训练成本动辄数十亿、顶级 AI 人才极度稀缺、算法迭代以月为单位。对此,地平线推出了 HSD Together 模式。


不同于传统的「卖芯片 + 送参考算法」,HSD Together 是一种全栈算法服务。地平线将自身耗资巨大的全场景智驾系统(HSD)作为一个经过验证的「样板间」,向合作伙伴开放。


  • 开放形式:提供白盒或黑盒授权,甚至包括最核心的基座模型。


  • 降本增效:合作伙伴只需聚焦于集成和差异化,预计可将人力、算力和时间成本降低 90%。


这意味着,地平线正在从「卖铲子的人」转变为「施工队队长」,亲自下场扶车企「上马」。



让 10 万级车型拥有「老司机」


高端智驾通常是 20 万以上车型的专属,但地平线显然不满足于此。余凯在现场抛出了一个犀利的问题:「占据中国市场半壁江山、价格在 10 万元级的国民车,难道就不配拥有好用的城区辅助驾驶吗?」


地平线的答案是:单颗征程 6M 芯片搞定城区智驾。



现场展示的视频显示,基于单颗 J6M 的方案在深圳华强北等复杂路段,实现了丝滑的无保护左转、窄道博弈和施工绕行。这套方案最大的杀手锏在于「极致性价比」与「被动散热」(风冷),这意味着它不仅适用于新能源车,甚至能让庞大的燃油车市场也能搭载高阶智驾。


目前,博世、卓驭、轻舟智航等 Tier 1 已基于此方案与地平线达成合作,目标直指「千万级量产」。


开源「大脑」与「小脑」,构建机器人生态


「如果做不好自动驾驶,恐怕就无法在机器人时代占据一席之地。」余凯在演讲中不仅定义了车,更定义了机器人。他认为,智能驾驶大模型正是物理 AI 基座模型的开端,其本质是处理「Video in, Control out」的高维序列。


作为「One More Thing」,地平线在地瓜机器人业务上甩出了重磅开源炸弹:


  • HoloMotion(小脑)专注于运动智能。一个模型支持多种形态(狗、人形、轮足),在 S100 芯片上可实现 50Hz 高帧率运行。



  • HoloBrain(大脑)专注于操作智能。基于 VLA(视觉-语言-动作)架构,赋予机器人理解指令和细腻操作的能力。



目前,HoloMotion 已在 GitHub 开源,并获得斯坦福、清华等机构的使用。地平线方面表示,短期内具身智能将优化 VLA 和动作建模,长期目标是构建包含物理属性(摩擦力、重力等)的真实世界模型。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]