MoreRSS

site iconMeituan Tech | 美团技术团队修改

美团技术团队的博客
请复制 RSS 到你的阅读器,或快速订阅到 :

Inoreader Feedly Follow Feedbin Local Reader

Meituan Tech | 美团技术团队的 RSS 预览

从月球漫步到赛博都市,WBench 测出了世界模型的边界

AI 视频的进化速度突飞猛进。是否想过有一天能真正走进这些由 AI 生成的世界里,亲自感受一下?

点击查看视频

像这样,在月球上自由漫步,是什么感觉?它们是真的理解了世界,还是仅仅在模仿视频?目前的模型距离这个目标还有多远?

为了彻底搞清这个问题,美团 LongCat 团队提出了 WBench,它是首个面向交互式视频世界模型的系统性多轮评测基准。它就像一台“CT扫描仪”,能精准定位当前世界模型在从“被动观看”到“主动交互”的过程中,到底卡在了哪里。

我们用 WBench 对 20 个前沿模型(包括 Kling 3.0、HY-World 1.5、Genie 3 等)进行了全面"扫描",最核心的发现可以总结为以下几点:

  • 不存在全能模型: 不同模型各有专长,文本驱动模型更擅长理解场景,而专用世界模型在交互控制上突出。
  • 导航是一项独立的技能: 模型的视频画质好坏,和它的导航控制能力基本没关系。
  • 多轮交互是核心难点: 所有模型在连续交互后表现都会变差,导航能力尤其严重,平均分下降了整整 33 点。
  • 开源模型表现出色: 在一些特定能力上,开源模型甚至超过了闭源模型,比如 HY-World 1.5 的导航能力在所有模型里突出。

01 WBench 是如何测出这些问题的?

能得出这些结论,得益于 WBench 的核心设计。我们认为,一个强大的世界模型评测框架,应包含四大核心要素:

世界模型评测框架 = 世界定义 (World Definition) + 指令集 (Instruction Set) + 统一交互接口 (Unified Interaction Interface) + 评测套件 (Evaluation Suite)。

WBench 正是基于这一理念构建的,下图完整展示了它的设计蓝图:

1.1 全面多样的“测试用例”

WBench 包含 289 个测试案例1058 个交互轮次,覆盖了丰富的世界定义和指令集。

你可以让 AI 在充满未来感的城市中穿梭,也可以让它置身于一幅流动的油画里。

你不仅可以选择成为游戏中的主角,以第三人称视角掌控一切;还可以化身第一人称,身临其境地探索世界。

1.2 交互方式:在舞台上设计丰富的“剧本”

有了舞台,还需要丰富的“剧本”。WBench 设计了导航、主体动作、事件编辑和视角切换这四种核心交互方式,它们可以像搭积木一样自由组合,形成一个复杂的多轮任务。

比如,除了常规的移动(导航),你还可以让角色完成特定动作(主体动作)。

甚至改变整个环境(事件编辑)。

最酷的是,你还可以在不同视角间无缝切换(视角切换),比如从第一人称视角瞬间切换到第三人称视角。

通过这种“舞台”与“剧本”分离的设计,WBench 实现了对视频质量、设定遵循度、交互遵循度、一致性、物理真实性这五个维度的精准测量。我们为每个指标都设计了严谨的计算方法,更多关于 NavScore、Gated Spatial Consistency 等硬核指标的实现细节,欢迎访问我们的项目主页

02 核心洞察:用数据看清模型的“短板”

WBench 不仅给出了结论,更用数据揭示了这些问题的根源。从具体模型表现来看,普通用户最关心的“谁最强”这个问题,答案是“看情况”。

  • 如果你追求模型能精准理解你的想法: 那么 Kling 3.0 和 Wan 2.7 无疑是第一梯队。它们在设定遵循度和主体动作/事件编辑上表现突出。
  • 如果你想要丝滑的运镜和精准的导航控制: 那么专用的世界模型优势明显。HY-World 1.5 和 Genie 3 在这一项上遥遥领先,远超文本驱动模型。
  • 在保持一致性上: LingBot-World 表现较为突出,是所有模型里最"稳"的。
  • 在物理真实性方面: Wan 2.7 表现最佳,尤其在因果关系上理解得更深刻。
  • 所有模型都面临一个共同的难题: 视角切换,这是所有交互类型中最难的一项,平均分只有 30.7,说明这块技术还远未成熟。

洞察一:导航能力为何与其他维度“脱钩”?

这张相关性矩阵图非常直观。导航那一列/行,与其他所有维度(如视频质量 Qual、一致性 Cons)的相关系数都接近于零。

这说明,当前模型在学习渲染一个好看的世界时,并没有顺便学会如何在其中可控地移动。究其原因,是因为导航能力依赖于一个独立的、专门的"空间状态表示"能力,而其他能力(如画质、语义理解)则更多依赖于模型的通用生成先验。

换句话说,模型"知道"世界长什么样,但并不"理解"自己在世界中的位置和方向。

洞察二:模型在多轮交互中如何“迷路”?

这张图展示了模型在连续交互中的能力衰减情况。导航曲线的"雪崩式"下跌清晰可见,从第一轮到第四轮及以后,分数下降了 33 点。这有力地证明了位姿误差逐轮累积是当前迭代式生成范式的结构性缺陷。

洞察三:并非所有“世界”都生而平等

分析还发现,不同的世界设定会带来结构性的难度差异。例如:第一人称视角让导航更容易(z=+1.0),但保持场景设定更难;动物主体(z=-1.9)因其复杂的动态性,对模型挑战最大。

03 WBench 的价值:定义下一代评测范式

3.1 范式转移:从“被动生成”到“主动交互”

WBench 不仅是一个评测工具,更代表了研究范式的一次重要演进。通过与同类基准的对比可以看出,WBench 是目前唯一一个真正统一的评测基准

它不仅同时覆盖了开放域、双视角、四种交互类型和多轮闭环评测,更重要的是,它还首次实现了对不同输入范式模型的统一评测。无论模型是接收文本指令、相机位姿,还是离散的键盘按键,WBench 都能通过其统一交互接口进行公平评估。

这打破了不同技术流派之间的壁垒,让所有"选手"都能在同一个"赛场"上竞技。

3.2 可靠性验证:与人类偏好高度对齐

至关重要的是,WBench 的自动评分结果与 400 名人类标注者的偏好判断高度一致(Spearman ρ ≥ 0.94),证明了这把"标尺"的准确性和可靠性。

04 总结与展望

WBench 的提出,算是我们向真正的"交互世界"迈出的一小步尝试。它清晰地揭示了当前技术的边界。我们希望它能成为交互式世界模型走向系统化评测的一个起点,激发更多后续研究,推动世界模型的发展。

WBench 已开源,欢迎所有世界模型来跑分。

ACL 2026美团论文精选:从能力评测到推理优化,构建生成新范式

ACL(Annual Meeting of the Association for Computational Linguistics)是计算语言学和自然语言处理(NLP)领域的国际顶级学术会议。自 1962 年创办以来,ACL 已成为 NLP 领域规模最大、影响力最高的学术盛会,汇聚了来自全球学术界和工业界的顶尖研究者。

本文解读了被 ACL 顶会收录的其中 6 篇论文,技术方向覆盖大模型评测、复杂流程推理、竞赛级数学思维优化、强化学习优化、生成式推荐等领域,欢迎大家一起交流学习。

01 CoreCodeBench: Decoupling Code Intelligence via Fine-Grained Repository-Level Tasks

CoreCodeBench:通过细粒度仓库级任务解耦代码智能

论文下载PDF

论文简介: 本论文提出了 CoreCodeBench,一种面向大语言模型编程能力的细粒度评测基准。该基准利用 COREPIPE 框架,从 12 个 Python 开源库自动生成 1,524 个结构化任务,涵盖开发、修复、测试驱动开发等多种软件工程场景,有效区分不同认知负载并动态调整任务复杂度。实验表明,其有效性达 78.55%,显著优于现有方法,揭示了模型在不同任务类型上的能力错配现象。CoreCodeBench 还支持多任务组合评测,模拟真实开发环境,具备高自动化、强鲁棒性和可复现性,为代码智能评测提供了更全面、精准的框架。

02 SOP-Maze: Evaluating Large Language Models on Complicated Business Standard Operating Procedures

SOP-Maze:评估大语言模型在复杂业务标准操作流程上的表现

论文下载PDF

论文简介: 随着大模型越来越多地被用作各领域的智能体,现有的评测大多关注它们遵循指令、做决策的能力,但真实业务场景往往涉及复杂的标准操作流程(SOP),而这方面的能力评估还没有被充分探索。为填补这一空白,研究者基于真实业务数据构建了 SOP-Maze,包含来自 23 个复杂 SOP 场景的 397 个实例和 3422 个子任务。

论文把 SOP 任务分成两大类:「侧根系统」(LRS)代表选项众多、需要精准选择的宽广型任务;「主根系统」(HRS)则强调带有复杂分支的深度逻辑推理。

实验结果显示,几乎所有最先进的模型在 SOP-Maze 上都表现吃力。作者归纳出三类主要错误:一是「路线盲区」(难以遵循流程);二是「对话脆弱性」(无法处理真实对话中的细微之处);三是「计算错误」(在复杂语境下的时间或算术推理出错)。

简单来说,这是一个聚焦「模型能不能真正照着复杂业务流程办事」的评测,既考验广度也考验深度,结果表明当前模型在这方面还有明显短板。

03 AMO-Bench: Large Language Models Still Struggle in High School Math Competitions

AMO-Bench:大语言模型在高中数学竞赛中仍面临挑战

论文下载PDF

论文简介: 本文提出 AMO-Bench,一个包含 50 道人工命题的极高难度数学推理基准。鉴于顶尖大模型在 AIME 等现有竞赛上性能趋于饱和,本基准确保:

  1. 经专家验证达国际奥数(IMO)或更高难度;
  2. 完全原创以杜绝数据污染;
  3. 仅需最终答案,支持自动评测。

对 26 款大模型的评测显示,最强模型准确率仅 52.4%,多数不足 40%。尽管增加「测试时计算」展现出良好的扩展潜力,大模型推理能力仍有巨大提升空间。

04 The Evolution of Thought: Tracking LLM Overthinking via Reasoning Dynamics Analysis

思维的进化:通过推理动态分析追踪大语言模型的过度思考

论文下载PDF

论文简介: 论文研究大语言模型长链推理中的过度思考现象,分析模型在答案已经形成后为何仍继续生成冗余 thinking。论文从两类 reasoning dynamics 入手:一是 thinking 长度与 content 长度之间的补偿关系,二是语义表示从探索到收敛的轨迹变化。

基于这些现象,论文提出实例级 Reasoning Completion Point(RCP),用于区分答案形成前的有效探索和答案稳定后的冗余延伸,并进一步设计 RCP 检测器,在 AIME、GPQA 等任务上减少生成 token,同时基本保持模型准确率。

05 MASPO: Unifying Gradient Utilization, Probability Mass, and Signal Reliability for Robust and Sample-Efficient LLM Reasoning

MASPO:统一梯度利用、概率质量和信号可靠性以实现鲁棒且样本高效的大语言模型推理

论文下载PDF

论文简介: MASPO 提出了一种面向大模型推理后训练的强化学习优化方案。它在 RLVR(可验证奖励的强化学习)场景下,旨在解决现有 GRPO 等方法在训练稳定性和样本效率上的不足。现有方法依赖固定、对称的硬截断信任域,与 token 长尾分布、稀疏奖励及正负样本可靠性差异不匹配。

为此,MASPO 提出三大创新:

  1. Soft Gaussian Gating 替代硬裁剪,保留有效梯度;
  2. Mass-Adaptive Limiter 根据 token 概率动态调整约束,提升长尾探索;
  3. Asymmetric Risk Controller 区分正负样本可靠性,谨慎处理噪声负样本。

实验证明,MASPO 在多个数学推理基准和不同模型规模上,相比基线取得了更优的 Avg@32 与 Pass@32 表现,展现出更好的鲁棒性和可扩展性。

06 Factorized Latent Reasoning for LLM-based Recommendation

基于分解式隐式推理的生成式推荐

论文下载PDF

论文简介: 在生成式推荐任务中,现有的隐式推理方法通常采用单一隐向量来表征用户意图,这难以捕捉用户偏好中固有的多维性。

本文提出 FLR,将隐式推理分解为多个语义解耦的偏好因子,并引入轻量级多因子注意力模块,在隐式思维空间中进行多维推理。进一步提出 FLR-GRPO,利用噪声注入与无噪声组内对比实现稳定对齐。在 Amazon 数据集上,FLR 相比最强基线 LatentR3 平均提升 3.2%,其中 Games 子集提升达 10.26%,实现了隐式推理的语义透明化与性能提升。

从高拟真到真可用,LongCat-Video-Avatar 1.5 正式开源

美团正式开源 LongCat-Video-Avatar 1.5,作为一款从开源 SOTA 迈向商业级应用的数字人视频模型。在唇形同步、物理合理性、长视频稳定性、多人互动和高效推理上实现了全面跃升。LongCat-Video-Avatar 1.5 即便在复杂商业场景里,也能稳定、自然地输出高质量内容,让数字人视频生成从彩排室的完美演练,走向千人千面的真实舞台。

为了让数字人"更稳定、更自然"地动起来,我们在以下三方面实现能力升级:

  • 基础体验全面商用化:在长句、快语速、歌唱等复杂语音输入下,唇部运动更精准平滑,面部表情、头部姿态和肢体动作更协调,整体表达自然稳定;
  • 支持更丰富的场景:借助高质量数据体系,模型能稳定处理真人、动漫、动物等多类主体,多人对话更加自然且准确区分说话者与聆听者;
  • 推理部署更高效:采用 DMD 蒸馏至 8 步生成,效率提升约 15 倍,更适配规模化应用和真实业务场景。

查看演示视频

开源链接

一、不止于“嘴动”,更有真实的交互力与戏剧感

1.1 音频编码器升级:让口型更精准自然

在音频特征提取环节,我们将编码器从 Wav2Vec2 升级为 Whisper-large。更大的参数量和更丰富的多语言先验,让模型能够更细致地捕捉音素变化、发音节奏和多语言韵律,准确理解"每一刻应该如何开口"。这一升级同时提升了唇形同步与全身时序稳定性——面部表情、头部姿态、肩颈和肢体动作与语音更自然地协同,大幅减少了长视频中的抖动、跳帧、画面冻结和身份漂移。

综合评测中,LongCat-Video-Avatar 1.5 的自然度、真实感和稳定性均优于部分头部闭源模型,基础生成能力满足商用需求

查看演示视频

1.2 高质量数据体系:让模型在复杂场景中应对更自如

商业场景中数字人形态多样(真人、虚拟偶像、动漫角色甚至动物),要求模型具备强开放域泛化能力。数据质量直接决定生成上限,为此我们构建了一套多阶段数据处理流程

  • 离线标注:提取人脸关键点、人物数量、身体构图、音画同步等属性。
  • 在线验证:自动过滤转场、黑帧、闪烁、跳帧等低质量片段。

同时,我们专门构建了三类增强数据来应对虚拟人生成的典型难点:

  • 多人数据:通过主动说话人检测,保留同一时刻只有单一说话人发声的片段,从源头降低多人场景的音画歧义。
  • 静默数据:筛选人物未说话的视频,让模型学习无语音状态下自然的微表情、视线与身体动态,避免非说话角色嘴部乱动。
  • 情绪数据:结合多模态初筛与帧级情绪识别精筛,注入情绪变化过程,使模型更好理解语音、表情与身体反应的关联。

这套数据体系为模型在复杂场景中的稳定输出奠定了坚实基础。

查看演示视频

1.3 逐帧级 GRPO 偏好对齐:让多人交互场景更生动自然

在高质量数据的基础上,我们进一步针对手部稳定性和动作连续性进行专项优化。引入 GRPO(Group Relative Policy Optimization) 进行人类偏好对齐,将奖励信号细化到逐帧层面,精准修正动作不连贯、手部变形、短时结构崩塌及表情与语音不匹配等局部问题。

针对图像到视频和视频续写任务,我们还加入首帧手部检测机制,优先提高含可见手部样本的训练比例,显著缓解手部畸变。得益于此,模型在电商直播、产品展示、教学演示等场景中的自然度与稳定性得到进一步提升。

查看演示视频

1.4 八步生成,效率提升十五倍

商业级数字人不仅要"像",还要"快"。推理成本降不下来,再好的效果也只能待在实验室里。

LongCat-Video-Avatar 1.5 采用 DMD(Distribution Matching Distillation)蒸馏,将原本 50 步的生成过程压缩到 8 步。同时,我们用一个共享基础模型 + 多个 LoRA 适配器替代传统三模型并行的方案,大幅降低显存开销。

实际测试中,实现约 15 倍推理效率提升,生成 10 秒视频仅需约 1 分钟。

二、模型性能:在真实场景中验证模型能力

我们基于 EvalTalker 构建了综合评测基准,覆盖新闻、教育、娱乐、商业等场景,并按音频(语速、情绪)和视觉(人数、姿态、遮挡)设置不同难度。由 770 名评估者完成 13,240 条主观评分,并由 10 名领域专家进行结构化质量分析。

真实场景通测:雷达面积全面领先

在物理合理性、时间稳定性、身份一致性和音视频协调性四个维度上,LongCat‑Video‑Avatar 1.5 的雷达图面积处于领先水平,其在画面物理合理性、时间稳定性、身份一致性和音视频协调等方面表现更均衡。在用户偏好方面,LongCat-Video-Avatar 1.5 相比 Kling Avatar 2.0 胜率 65.9%,相比 OmniHuman‑1.5 胜率 61.1%,相比 HeyGen 胜率 54.3%,整体优于其他商业系统。

单人 & 多人场景

  • LongCat-Video-Avatar 1.5 单人场景得分 3.336,显著高于 HeyGen、OmniHuman-1.5 等产品;
  • LongCat-Video-Avatar 1.5 多人场景得分 2.730,大幅领先 InfiniteTalk(2.339),在说话者/聆听者区分上优势明显。

物理合理性与长时序稳定性

  • 在主体变形和背景变形等问题上,主体变形问题率仅为 23.1%,低于所有对比模型;背景变形问题率为 9.4%,整体保持在较低水平。
  • 在画面跳帧、色调误差累积等指标上,LongCat-Video-Avatar 1.5 表现稳定,其中跳帧问题率仅为 0.8%,是所有对比模型中最低,模型在长视频连续生成中能够更好地保持画面流畅性。

音视频协调

在面部-身体同步和唇形同步方面,LongCat-Video-Avatar 1.5 同样取得最佳表现。面部-身体同步问题率为 5.1%,唇形同步问题率为 29.8%,均低于其他对比模型,说明模型在说话人的音频、唇形、表情和动作的整体协同上更加自然。

整体来看,LongCat-Video-Avatar 1.5 在效率提升的同时,仍保持了高质量的生成能力。不仅在单人场景的自然度和真实感上保持 SOTA 表现,也在多人互动、长时序稳定性、物理合理性和音视频协调性等关键维度上展现出更强的商用潜力

三、开源是为了走向更真实的场景

LongCat-Video-Avatar 1.5 的开源,不只是模型版本的更新,更是面向开发者和创作者的邀请。

数字人视频生成正在从"展示效果"走向"真实使用"。在这个过程中,模型会遇到更多开放场景:不同角色、不同语言、不同内容形态,以及更复杂的业务需求。我们希望 LongCat-Video-Avatar 1.5 能成为一个可验证、可改进、可共建的技术基座,让更多人基于它探索数字人视频的真实应用边界。

模型和代码已经开放。欢迎大家在自己的场景中使用、测试和反馈,也期待和社区一起,把开源数字人视频模型继续向前推进。

开源链接

美团 LongCat 开源 General 365:树立推理评测新标尺

大模型在 AIME、IMO 等高难度竞赛中拿奖拿到手,仿佛已经进化出了“人类最强大脑”。但与此同时,如果你问大模型:“离洗车店只有 50 米,我是开车去还是走路去?”。这些号称满分推理的模型,依然会一本正经地为你规划导航路线。

这种看似知识丰富,但没常识的现象,正是当前大模型评测的死穴:大模型虽然擅长记忆复杂的公式,却常常连一道简单的逻辑题都答不对。

基于此,美团 LongCat 团队正式发布 General 365。我们发现,在对 26 款主流模型的实测中,目前地表最强的 Gemini 3 Pro 准确率仅为 62.8%,而绝大多数模型甚至没能摸到 60 分的及格线。

这份基准将焦点从“学科推理”拓展到“通用推理”,第一次清晰地勾勒出了当前大模型在通用逻辑推理上的真实能力边界。

01 研究背景:大模型真的会“思考”吗?

过去两年,大模型推理评测高度集中在数学、物理、编程等依赖专业知识的任务上,头部模型在各大题库上甚至逼近满分。然而,学科推理得分高,并不等于通用推理强——高分可能源于模型对训练语料的暴力记忆与模式匹配,而非可泛化的逻辑推演能力。现有通用推理基准(如 BBH、BBEH)面临两大瓶颈:任务模板化导致逻辑同质严重,性能饱和导致区分度断崖式下降。

General 365 的设计目标由此明确:将背景知识限定在 K-12 水平,显式解耦推理能力与专业知识,系统地评估模型在日常场景下的通用推理水平。它具备五项核心特征:

  • 高多样性:365 道原创种子题目及 1095 个扩展变体,全面覆盖八大挑战类型,避免重复特征与死记硬背;
  • 高挑战性:SOTA 模型在此基准上也仅能勉强及格;
  • 聚焦推理:知识范围严格限定在 K-12,纯粹衡量逻辑推理,而非知识检索;
  • 严格人工质检:全量题目均经过人工审核,覆盖题目设计、推理轨迹与最终答案;
  • 精准评分:采用混合规则与模型的打分方法,人工抽样验证,评分准确率达 99.6%。

02 设计理念:通用推理能力如何被量化?

2.1 八大维度,圈定通用推理的“考纲”

要衡量通用推理,首先要明确它包含哪些核心挑战?General 365 将其拆解为八个维度,每道题至少对应其一:

  • 复杂约束:多条件交织下的全局一致性维护;
  • 分支与枚举:解空间的系统性遍历与边界覆盖;
  • 时空推理:空间关系与时间序列的动态推演;
  • 递归与回溯:假设—验证—推翻的迭代纠错;
  • 语义干扰:跨越认知陷阱,严格遵循题设规则;
  • 隐式信息:从碎片线索推断底层逻辑结构;
  • 最优策略:多路径方案中的效用权衡与规划;
  • 概率与不确定性:不完全信息下的概率推断。

八个类别的题目数量分布

如上图所示,“复杂约束类”题目占比最大,“概率与不确定性类”也包含超 20 道题目,确保了每个维度都有充足的样本支撑。

多标签题目的数量分布

如图所示,近 70% 的题目同时具备两个或以上的类别标签,这种复合型的推理任务设计更贴近真实世界的逻辑复杂度。

2.2 告别模板化,经得起检验的多样性

题目质量是评测基准可靠性的根基。General 365 的种子题目全部人工原创,并经难度过滤、多样性扩充、数据后处理、模型扩题与人工审核,最终形成 1460 道高质量题目。为确保多样性经得起检验,团队从以下两个维度进行了验证:

  • 语义分布:t-SNE 可视化中 General 365 的题目嵌入的分布均匀分散,而 BBH 和 BBEH 均出现明显的聚集现象,暴露了其潜在的逻辑冗余。

三个基准的 t-SNE 语义分布对比

  • 逻辑独立性:由 Gemini 3 Pro 对语义相近的题目对进行推理路径相似度评分(0-5 分),General 365 平均仅得 2.16 分,远低于 BBH 和 BBEH。这意味着在 General 365 中,模型无法再靠"背模板"蒙混过关。

三个基准的推理路径相似度评分分布

03 实验发现:26款模型的能力边界与效率分化

手握这把精心校准的“标尺”,LongCat 团队对 26 款主流大模型展开了全面摸底。

3.1 整体表现:Gemini 3 Pro领跑,仅2款模型“及格”

26 款模型准确率排行

实测结果显示,Gemini 3 Pro 以 62.8% 的成绩艰难夺冠,绝大多数模型则深陷 50%-60% 之间未能触及及格线。值得注意的是,尽管非推理模型整体略逊一筹,但 Qwen 3 Max Instruct 等个别模型依然展现出了亮眼的表现。

3.2 寻根溯源:到底错在哪里?

各模型在八个类别上的准确率明细

将成绩按八大维度分解后,我们清晰地看到,“语义干扰”与“最优策略”成为主要的性能洼地。模型在这两项上的得分普遍比整体准确率低了约 10 个百分点。这不仅暴露出大模型极易被题干中的干扰信息带偏,更凸显了其在多步全局规划能力上的匮乏。

不同模型系列在八个类别上的雷达图

如雷达图所示,不同系列的模型在"隐式信息"等任务上展现出了明显的能力分化。

3.3 谁是真正的“效率之王”

准确率与平均输出 token 长度的关系

在关注“答得对不对”的同时,“花了多少算力答对”同样重要。如图所示,Gemini 3 Pro 仅用约 14k tokens 就拿下了最高分,而取得相近准确率的其他模型,其输出长度普遍暴涨至 25k-30k tokens。

3.4 跨基准对比:General 365的难度含金量

三个基准性能对比

General 365 的难度究竟提升了多少?如图09横向对比所示,各大模型在 General 365 上的准确率较 BBH/BBEH 都普遍出现了大幅下降的情况。其中 GPT-5-Thinking 在 BBH 上准确率为 92.0%,在 General 365 上仅为 58.6%。

更重要的是,如下图所示,模型在 General 365 上虽然准确率明显偏低,但平均输出长度却显著增加。这有力证实了其难度来自更深的逻辑链条,而非毫无意义的字数堆砌。

三个基准上准确率与输出长度的关系

04 结语:通用推理的“深水区”,才刚刚被照亮

General 365 将推理评测从专业知识依赖中剥离出来,让我们直观地看到了大模型在真实世界的通用推理任务上的短板。General 365 的初衷不是为了在榜单上再多一个 99% 的高分,而是为了寻找那条让模型从“做题机器”走向“人类智慧”的必经之路。毕竟,一个能解出 IMO 难题却回答不出「走路洗车」的模型,还不能被称为真正的智能。

我们诚邀广大社区开发者与研究者加入,共同探寻大模型逻辑进化的下一个奇点。

开源链接

项目已全面开源,并会持续维护和更新,欢迎体验与探讨:

用Agent评测思路管理AI Coding —— 31万行代码AI重构的实践

当团队 90% 以上的代码由 AI 生成,31 万行的复杂业务系统还在高速膨胀,你会发现一个反直觉的事实:AI Coding 不会自动收敛复杂度 —— 没有统一规范的约束,不同人用 AI 写出的代码风格各异,系统反而会加速腐化。

本文记录了我们如何在不停止业务交付的前提下,完成这场重构。在这个过程中,我们积累了三个关键经验,希望这篇实战经验能提供一些可复用的思路。

  • 经验一:用Agent评测思路管理AI Coding。我们团队负责 Agent 评测业务,在实践中沉淀出一套核心标准对齐理念:“人人对齐→人机对齐”。我们发现管理 AI Coding 的底层逻辑一模一样 —— 先让团队形成统一共识(人人对齐),再将共识固化为 AI 可执行的约束(人机对齐)。本质上,就是同一套方法论在两个领域的复用。
  • 经验二:AI 正在重新定义“经验”的价值边界。利用 AI 工具,工程师短时间内就发现了 10 个性能隐患——过去需要长期积累才能建立的代码全局感,现在借助 AI,团队中的每个人都能快速具备。经验的价值正在从“能看全”转移到“能判断什么重要”。
  • 经验三:技术债可以像业务需求一样被迭代消化。 行业谈重构,要么推倒重来,要么申请专项。我们给出了第三条路:把技术债拆解为业务需求的“顺带动作”,借着迭代渐进式消化。

一、背景

Agent评测系统长期承载多个核心业务场景,它同时承担了数据生产、流程编排、质量控制与多人协作等复杂能力,业务复杂度和工程复杂度都很高。具体来看,我们面对的复杂性主要体现在三个维度:

  • 业务仍处于探索期,导致需求高度模糊:全行业都在探索 Agent 评测,用户也不了解应该如何评测。这个大背景导致评测的需求又急又模糊。急,希望快速试错;模糊,业务方也不确定这条路是否真的有价值。
  • 庞大且高频的迭代体量:系统从 2025 年 6 月约不足 5 万行代码快速扩展至 31 万行,保持着月均 16 个需求(80% 业务需求 + 20% 技术需求)的高负荷运转。
  • “笛卡尔积”级别的业务场景矩阵:系统底层支持 6 种多模态数据评测,上层构建了多种核心任务视图和精细化业务动作,并配套了十余种质检机制。这些能力交织着多种标签体系与动态分配策略,意味着系统每天都需要稳健处理成百上千种截然不同的复杂业务流组合。

二、为什么要重构?

当业务进入快速迭代与试错期,上述庞大的业务体量与原有底层架构之间的矛盾就会集中爆发,迫使我们必须启动本次大规模重构。核心动因直指以下三个痛点:

1. 业务模型亟需升级,旧架构无法支撑探索性业务

随着业务交互的丰富度和复杂度增加,旧有数据模型扩展能力不足导致“烟囱式”功能开发,几乎每新增业务形式都需要新增代码来实现。

2. 代码严重腐化,技术债拖垮迭代效率

过去长期采用“按需求建包”的模式开发,代码缺乏合理的工程分层,Controller 等各种复杂逻辑揉在一个包内,形成了严重的“面条式代码”。在 31 万行代码的体量下,这种深度的技术债让日常开发“牵一发而动全身”,导致一线同学开发异常痛苦,交付效率遭遇严重瓶颈。

3. 协作模式风险放大,缺乏规范的 AI Coding 加速系统腐化

一年左右的时间,团队成员规模增至 3 倍,并且团队成员技术背景复杂,涵盖高并发、机器学习离线训练、管理后端开发以及实习生,复杂业务系统开发经验不足。在这样一个高人员流动和跨技术栈的背景下,再叠加 90% 以上代码由 AI 辅助编写这一事实,如果不建立硬性的底层架构规范,不同背景的同学各自用 AI Coding,系统必将以极快的速度产生不可控的腐化与新债。

因此,我们不仅需要工程重构,而且要建设符合 AI Coding 规范的工程重构。规范才可以帮助我们团队消灭旧技术债,规避新技术债。

三、重构时间线与执行路径

阶段一:定义问题,借助 AI 梳理技术债(2026 年2月启动)

在需求高压背景下,要梳理技术债面临着一个极其现实的困境:量太大,根本看不完,也看不全

面对膨胀至 31 万行以上的代码库,试图靠人力逐行阅读来建立全局的可靠认知是不现实的。我们的代码库中同样伴随着典型的高危特征:很多地方文档不全、大量隐式逻辑和历史兼容分支藏在细节里。一个看起来不起眼的接口,背后可能挂着一串极长的调用链。所以,梳理技术债最大的难点,在于人力永远无法在短时间内穷举和穿透这些错综复杂的关联逻辑 —— 单段代码谁都能读懂,但没人能在短时间内把 31 万行的调用链全部穿透

我们采用的是一种更适合复杂系统的方式:“专家经验定向 + AI 辅助排查”。

不再试图人工遍历,而是由核心开发圈定高危的排查边界,然后把穷举和扫描的脏活累活交给 AI。通过这种方式,我们快速摸清了系统底层的 P0/P1 级技术债(如业务模型缺陷、数据库查询性能隐患、状态管理技术债、索引技术债等)。

这一步中,我们最大的体会是 AI 很适合帮我们把问题“看全”,但什么问题最重要,什么问题值得优先改,还是要由人来判断。具体来说,人负责圈定 P0/P1 级问题和优先级,AI 负责在圈定的方向上做穷举扫描——比如梳理业务模型问题、定位大数据量性能隐患、排查状态管理和索引层面的技术债。

实践下来,这一步的 ROI 很高。我们仅仅投入了有限的资源,就完成了 3 个 P0 技术债和 2 个 P1 技术债的梳理。但最让我们意外的是下面这件事:

短时间内,工程师就利用 AI 辅助精准定位了 10 个隐藏极深、靠肉眼极难发现的性能隐患。 这些隐患藏在复杂的调用链深处,即使是资深工程师逐行阅读也很难穷举到。这在纯人工阅读代码的模式下是几乎不可能的。

这个结果迫使我们重新思考“经验”的定义。过去,“能看全”是资深工程师的核心壁垒 —— 你需要在系统里泡三年,才能建立起对调用链、隐式依赖和历史兼容逻辑的全局感知。但 AI 把“看全”的门槛打到了几乎为零。经验的价值正在从“能看全”转移到“能判断什么重要”——这才是人不可替代的部分

这一步对我们后面的启发很大,因为只有问题定义清楚了,后面的规范、分层和迁移,才不会做成无源之水。

阶段二:调研并制定 AI 友好的研发规范(2026年2月底完成)

通过技术债梳理,我们解决了重构哪里的问题,那么接下来要解决的就是“代码应该怎么写”。在全员 90% 代码依赖 AI Coding 的现状下,核心要解决的问题是“如何将一两个用好 AI 的人的经验,高质量泛化到全组”。

为什么规范的价值被放大了?

在传统研发模式下,开发规范的主要作用是帮助团队协作、Code Review 和新人上手。但当 AI 已经成为主要编码产能后,规范的意义发生了本质变化。大模型生成代码时,会强依赖当前上下文和现有代码模式。如果代码库本身风格混乱、团队对规范理解不一致,AI 不会自动纠偏,反而会把差异进一步放大,导致多人协作下持续产出”千人千面”的代码。因此,AI Coding 时代的研发规范已经升级为约束 AI 产出、阻止系统继续长新债的基础设施,远不止协作建议那么简单。

用评测 Agent 的方式,管理 AI Coding

但只让 AI 遵循规范还不够 —— AI 只能执行输入,不能替代团队形成统一判断。如果团队成员自己没有先对齐分层原则、建模方式和依赖边界,同一份规范就会被不同人解释成不同版本。

这个问题让我们想到了自己的本职工作。我们团队负责 Agent 评测业务,在长期实践中沉淀出一套核心理念:

  • 标准对齐(人人对齐):需要 1 位强有力的角色拉齐产品、运营、算法、QA 等所有角色的评测标准 —— 1个”独裁者”好过 10 个”民主者”。
  • 人机对齐:评测标准对齐后,通过模型选型和评测指标的优化,实现人机对齐,人机一致率达到基本阈值(例如 90%),才能认为机器的评价可信。

我们发现,管理 AI Coding 与评测 Agent 的底层逻辑一模一样。 先通过规范拉齐团队的工程标准(人人对齐),再通过 AI Rule 和 Skill 约束大模型的生成结果(人机对齐)。一个做 AI 评测的团队,用评测的思维解决了工程治理问题。

顺序至关重要:先”人人对齐”,再”人机对齐”。 很多团队以为配置好 AI Rule 就完事了,但真正的瓶颈在人,不在工具。团队自己没有统一共识,AI Rule 写得再好也会被不同人解释成不同版本。人的共识是 AI 约束的前提。

将规范转化为 AI 的执行约束

我们先调研了业内成熟团队的研发规范,并结合自身流程,沉淀出一套 AI 友好的工程约束,包括工程分层规范、业务域模型规约和仓储层规约。关键一步是没有把规范停留在文档层面,而是将其落地为 always 级别的 AI Rule,用于约束 AI 编码过程,并前置到预 CR 环节,帮助研发在提交前完成基础规范校验。

与此同时,针对最容易产生分歧的领域职责划分问题,我们围绕”编排类”与”能力类”的职责边界进行了组内统一,并将共识沉淀为编码时渐进式加载的 Skill。

阶段三:建立 SOP,“见缝插针”完成渐进式重构(2026年3月- 4月)

Action 1:100% 借助 AI 完成工程分层与解耦重构

我们将过去“按需求建包”的面条式代码,逐步迁移到标准四层架构(Starter / Application / Infrastructure / Common)以及按业务域组织的新结构中。但这次重构的重点,并不只是物理目录的调整,而是借此机会系统性治理历史代码中长期存在的深度耦合问题,尤其是底层数据对象 PO 在全链路中的泄露与上浮。围绕这一问题,我们分三步推进:第一步,补齐业务对象与数据转换层,收口散落各处的转换逻辑;第二步,在 Application 层重建接口契约,严格阻断底层数据对象向上层泄露;第三步,基于新契约修复上游全链路的参数依赖。

这类重构的特点是:改造规则相对明确,但涉及范围极广、重复劳动密集。我们的做法是先由重构主 R 亲自完成两个最复杂包的迁移,在过程中沉淀出一套可让 AI 执行的标准化迁移 SOP。有了这套 SOP,重构工作不再依赖某一个人的经验——团队其他成员只需按照 SOP 指导 AI 完成剩余包的迁移,研发本人聚焦业务语义验收和 Code Review 即可。通过这种“主 R 打样 → SOP 分发 → 全组并行执行”的方式,我们快速完成了十余个核心包的工程结构迁移。

Action 2:零排期重构——借着业务需求“渐进式重构业务模型”

本次重构的深水区。行业里谈重构,通常只有两条路:要么推倒重来,要么申请专项排期。我们走了第三条路 —— 把技术债拆解为业务需求的“顺带动作”,借着迭代渐进式消化,没有申请一天专门的重构时间

具体做法是将技术债拆解到日常高优需求中。例如,借着某个核心功能迭代需求,顺势设计并落地了全新的业务模型;借着另一个功能升级需求,我们设计了全新的质检业务模型,并在 3 月下旬完成了全量迁移(一举兼容了多条业务链路,以及多视图、多区域的复杂交叉验证)。

这条路的难点在于拆解的精度——哪些业务需求能“顺带”消化哪些技术债,需要逐个判断:既不能让重构拖慢业务交付,也不能让业务需求绕过技术债继续堆新债。最终我在不停止业务交付的前提下,完成了核心数据模型的平滑升级。

Action 3:重构质量保证

1. 建设 AI CR 与 Pre-PR 机制

随着 AI 编码效率飞跃式提升,我们很快遇到了“木桶效应”:Code Review 成了全链路中最拥堵的瓶颈:AI 极大地压缩了编码时间,压力系统性地向下游 CR 环节集中。如果 CR 效率不提升,AI Coding 的提效红利会被 CR 瓶颈吞掉

我们团队达成的共识:

  • 人工CR的价值,应该从“你写得对吗?”转变为“我们是否在正确的约束下解决正确的问题?”
  • AI 审查规范类问题,做业务逻辑初筛;
  • 人重点在前置技术方案评审环节把关,Review 最终代码实现是否符合技术方案、代码业务逻辑问题。

我们的实践经验:

1、引入 Pre-PR(预审)机制

  • 提交代码前,要求 RD 必须先用 AI 审查代码进行多轮自查,修复所有 AI 能发现的问题(规范类、Bug类、异常处理、一致性、可扩展性及性能问题等)。
  • 确认通过后,提交标准的 PR 文档(重点说明改动点、影响范围、需重点 Review 的业务逻辑,AI 根据代码改动按模板生成)。
  • 这样 Reviewer 拿到的就是一份“已过滤掉基础规范错误”的高质量代码,只需聚焦核心业务语义,认知负担大幅降低。

2、高阶模型审查低阶模型:使用高配模型作为 Judge Model,审查低阶模型产出的编码。

3、不同厂商模型对抗互相审核:使用不同厂商的模型互相审查对方的编码产出,通过差异化的模型能力形成互补,实测下来 CR 覆盖面更全。

2. 调研取经,建立AI 辅助测试用例生成规范

我们团队 100% 的需求由研发兼任测试(RD as QA)。在探索 AI 辅助自测时,团队自然演化出两条路线:路线 A 让 AI 全自动生成用例,人只做最后把关;路线 B 由人界定测试范围和风险级别,AI 负责代码扫描和用例步骤填充。

实践下来,路线 A 很快暴露出严重的工程问题 —— AI 缺乏全局业务认知,极度依赖 PRD 质量,容易漏掉隐性关联的高危场景,同时发散出大量无价值的边缘用例,反而增加 Review 负担。与专业 QA 团队交流后,我们确认了路线 B(人工主导,AI 辅助)的方向,并沉淀为一套 Human-in-the-loop 的测试 SOP:

| 步骤 | 目标 | 人做什么 | AI做什么 | AI提效点 | |

LARYBench 发布:定义具身动作表征 ImageNet,首次度量从人类视频学习的泛化表征

如果你看过今年春晚武术节目《武BOT》,一定会对那群与人类武者同台对打的机器人印象深刻。但在流畅的武术动作背后,是一个工程师团队连续数周针对特定舞台、特定灯光反复调试后才可能达到的动作丝滑。

为什么机器人在固定场景下表现良好,但换一个环境、任务,泛化能力就会明显下降?

究其根源,是具身行业缺少带动作标注的训练数据进行泛化学习,而互联网上大规模人类数据是极具潜力的数据来源。为了指引具身智能走向GPT时刻,像大模型一样走通大规模数据学习范式,通过人类视频数据学习通用的、跨本体的隐式动作表征是关键。

为此,我们提出了 LARYBench (Latent Action Representation Yielding Benchmark) ,一个指引从大规模的视觉数据学习到通用的隐式动作表征的系统化评测基准。实验结果表明:在动作泛化和控制精度上,通用视觉模型的表现均显著优于专门为具身智能设计的动作专家模型,具身动作表征可以从大规模人类视频数据中涌现。

01 背景:缺一把从视频到动作的标尺

当前主流的 Vision-Language-Action(VLA)模型,其泛化能力受限于一个核心矛盾:互联网上存在海量的人类视频,视觉信号极其丰富,但如何将这些视觉信息转化为机器人可用的动作表征,始终缺少高效的路径。具体表现为三个层面:

  • 数据瓶颈:带精确动作标注的机器人数据依赖遥操作采集,成本高、规模小;而人类视频虽体量庞大,却天然缺失机器人可执行的动作标签,画面与动作之间存在模态断层。
  • 表征瓶颈:即便从人类视频中提取信息,传统做法输出的本体动作数据高度绑定特定硬件,难以跨形态迁移。隐式动作表征通过学习“帧与帧之间的变化”来抽象与本体无关的动作语义,为打通从视觉到动作的链路提供了更具泛化潜力的中间表示。
  • 范式瓶颈:长期依赖人工标注使得具身智能局限于“固定场景精调”,无法像大语言模型那样从规模化数据中涌现能力。隐式动作表征路线的本质,正是试图以无标注的人类视频驱动规模化预训练,让从视觉到动作的学习也能走上数据驱动的扩展轨道。

自 2024 年 LAPA 等早期工作提出以来,基于隐式动作表征的研究已陆续展开。然而,现有评测大多只看端到端任务成功率,始终缺少一个能独立衡量中间表征质量的标准基准——动作表征领域,还没有自己的 ImageNet。具体表现为:表征与下游策略难以解耦、跨本体泛化能力无法检验、训练策略的系统性分析缺失。

02 LARYBench :如何构建动作表征的标准化评测

为填补这一空白,我们提出了 LARYBench ,一个从本体动作和语义动作两个粒度出发,系统评估隐式动作表征质量的基准。如图1所示,评测数据集涵盖超过一百万段精心标注的视频(总时长超过1000小时),涉及151种不同类型的动作,同时包含62万对图像和59.5万条运动轨迹,覆盖了多样化的机器人形态与操作环境。

LARYBench概览

2.1 任务定义与评测流程

评测的核心逻辑如图2所示:输入一段视频或图像序列,通过待测的隐式动作模型(Latent Action Model, LAM)提取出动作表征 z ,随后通过浅层探测头(probing)来验证 z 的质量。

LARYBench整体流程

动作的定义由细到粗分为三个层级:

  • 本体动作:机器人操作的控制信号,主流使用末端位姿,包括腕部3D坐标、3D旋转角及夹爪开闭等。
  • 原子语义动作:本体动作聚合为可用自然语言描述的原子操作,如上下左右前后移动、夹爪开闭。
  • 复合语义动作:原子动作进一步聚合为有完整语义的行为,如拿起、放下、擦拭等。

针对不同粒度的动作,评测采用不同的验证方式:

  • 语义动作分类:对提取的表征 z 接入 Attentive Probing 结构,进行动作类别分类,以准确率衡量表征对高层动作语义的捕捉能力。
  • 本体动作回归:对表征 z 接入 Action Expert 解码器(MLP),进行连续动作回归,以均方误差(MSE)衡量表征对底层控制信号的还原能力。

2.2 数据构建

针对多种粒度的动作,我们收集了主流常用的第一视角人类数据以多视角、跨本体的机器人数据,并通过自动化数据处理流程构建为动作表征数据集。处理流程包括,动作片段切片、视频描述、动作提取和归一化,最后通过人工抽检做质检校验,确保训练集准确率在85%以上,测试集准确率在95%以上。数据集涵盖151个明确定义的动作,以及对应的121.5万个标注样本。数据集覆盖的人类活动范围广泛,从常见的"pick"和"place"动作,到长尾分布的"shovel"(snow)和"float"(balloon)动作均有涉及。

LARYBench 数据构建流程

为确保形态多样性,数据集涵盖11种不同的机器人形态,从广泛使用的Franka单臂操作器,到AgiBot G1、Agilex Cobot和Realman系列等复杂的双臂及半人形平台,同时包含大量人类第一视角交互数据。

为保证环境多样性,数据集记录了数千种独特的物体操作场景,涵盖模拟桌面、真实住宅厨房、商业场所和工业场景等非结构化环境。

数据分布信息如下:

  • 可视化云图

  • 动作分布

2.3 实验设置

评测按任务类型分为两类。本体动作任务以起始帧与结束帧构成的图像对作为输入,通过浅层 Action Expert 模块将动作表征映射为末端执行器位姿参数,以均方误差(MSE)衡量回归精度。语义动作任务同样输入图像对,通过浅层分类头进行多类别分类,以分类准确率作为评估指标。

待评测模型覆盖四类动作表征范式,包括专为具身智能设计的隐式动作模型、语义级与像素级通用视觉编码器,以及在通用编码器基础上训练的隐式动作模型,以形成从专项到通用的完整能力参照。

03 实验结果:通用视觉模型的全面领先

论文实验部分围绕三个核心问题展开:

  • 动作表征是否足够编码精细的控制信息
  • 动作表征是否能覆盖多样化的动作类型
  • 以及如何构建有效的隐式动作模型

以下从本体动作回归、语义动作分类、可视化分析和消融实验四个维度展开。

3.1 本体动作回归:第一/三人称机器人动作预测

本体动作回归任务评估的是模型将视觉信号还原为末端执行器绝对位姿的能力。评测覆盖四个数据集:CALVIN(第三人称仿真单臂)、VLABench(第三人称仿真单臂)、RoboCOIN(第一人称真机双臂)和 AgiBotWorld-Beta(第一人称真机双臂)。所有模型均以均方误差(MSE)作为评估指标,数值越低表示回归精度越高。

综合来看,DINOv3 在四个数据集上的平均 MSE 低至 0.19,而具身专项模型 LAPA 的平均 MSE 高达 0.97。语义级表征(V-JEPA-2、DINOv3)的回归误差普遍略低于像素级表征(Wan2.2 VAE、FLUX.2-dev VAE),说明本体动作信息同样可以在语义级特征空间中得到有效保留。

3.2 语义动作分类

语义动作分类评估模型对高层动作语义的识别能力,按数据来源分为原子动作、复合人类动作和复合机器人动作三类任务。综合来看,语义级通用编码器在三类任务上持续领先,具身专项模型表现普遍偏低,通用 LAM 居中。视觉自监督学习在动作语义捕捉上优于图文对比学习,前者能够兼顾视觉中的动作语义与控制细节。

3.3 可视化分析

为了进一步探讨以上实验结论所表现出的原因,我们进行了以下定性的可视化分析实验。

3.3.1 长尾分布分析

从Composite Human数据集上的分类性能随样本频率变化的分布来看,各方法在高低频动作上的趋势基本一致。在长尾部分(样本量较少的动作类别),强模型与弱模型之间的性能差距进一步拉大。这表明表征能力更强的模型在低频场景下具有更好的泛化表现。

复合人类数据集中动作分类性能在长尾分布上的表现

3.3.2 表征可视化分析

对“倾倒”动作序列的可视化显示,语义级表征模型 V-JEPA-2 和 DINOv3 的注意力能够较为精准地聚焦于手部与物体的交互区域。相比之下,像素级表征模型 FLUX.2-dev VAE 和 Wan2.2 VAE 的注意力分布更为分散,部分落在手臂阴影等与动作语义关联较弱的区域。具身专项模型 LAPA 的注意力则几乎不具备明确的聚焦区域,呈现大范围的弥散分布。

这一现象的原因可能在于,像素级编码器倾向于捕捉逐像素的视觉变化(如光影、遮挡),而这些底层信号容易与动作本身的位移信息混杂。当模型未能有效区分动作相关与无关的视觉变化时,提取出的表征质量会受到影响。

不同模型在9帧“倾倒”动作序列上时序池化器的交叉注意力热力图

3.4 LAM消融实验

为探究构建有效隐式动作表征的关键参数配置,实验基于 LAPA-DINOv3 框架对码本大小、序列长度、隐空间维度及学习率等因素进行了消融分析,性能演进路径如下图所示。

隐式动作模型性能演进路径

综合来看,在数据量一定的条件下,调整码本大小、序列长度、隐空间维度和学习率等超参可以有效提升动作表征效果。其中,序列长度与隐空间维度在合理范围内适当增大有利于性能提升,而码本大小存在最优区间,并非越大越好。

04 LARYBench 价值与展望

LARYBench 作为首个在动作泛化和机器人控制上对隐式动作表征进行量化评估的系统性基准,其核心价值体现在:

  • 提供了一套解耦的、跨本体、多粒度的评测标准。 通过将动作表征质量与下游策略解耦,LARYBench 使得研究者能够独立衡量通用动作表征的能力,加速指引data-driven的人类视频预训练朝着具身泛化方向进行迭代。评测覆盖第一人称与第三人称、真机与仿真环境、单臂与双臂平台,为跨本体泛化能力提供了统一的检验尺度。
  • 揭示了当前隐式动作模型的真实能力边界与改进方向。 通用视觉基础模型在语义理解与控制精度上整体优于专门的具身 LAM ,说明有效的动作表征能够在大规模视觉预训练中自然涌现,而专门的 LAM 则可能因数据规模有限或过早受限于领域特定的低级控制,面临表征坍缩的风险。这一发现为后续模型设计提供了明确的参照系。
  • 验证了人类视频数据在动作表征学习中的规模化价值。 实验结果表明,通用视觉编码器无需显式动作监督,即可从海量人类视频中习得跨形态、跨场景的动作语义。这一发现表明,与其在稀缺的机器人标注数据上从头构建动作空间,不如充分利用互联网规模的人类视频资源——通过隐式动作表征从中提取与本体无关的动作先验,再将控制策略对齐至通用视觉模型已有的鲁棒特征空间。这条路径有望帮助 VLA 模型突破数据瓶颈,真正释放人类视频的规模化红利。

我们已将 LARYBench 评测数据集及配套代码开源,并会持续维护和更新:

开源链接:

欢迎社区开发者与研究者使用、反馈及贡献,共同完善动作表征评估体系。