AI 视频的进化速度突飞猛进。是否想过有一天能真正走进这些由 AI 生成的世界里,亲自感受一下?
像这样,在月球上自由漫步,是什么感觉?它们是真的理解了世界,还是仅仅在模仿视频?目前的模型距离这个目标还有多远?
为了彻底搞清这个问题,美团 LongCat 团队提出了 WBench,它是首个面向交互式视频世界模型的系统性多轮评测基准。它就像一台“CT扫描仪”,能精准定位当前世界模型在从“被动观看”到“主动交互”的过程中,到底卡在了哪里。
我们用 WBench 对 20 个前沿模型(包括 Kling 3.0、HY-World 1.5、Genie 3 等)进行了全面"扫描",最核心的发现可以总结为以下几点:
能得出这些结论,得益于 WBench 的核心设计。我们认为,一个强大的世界模型评测框架,应包含四大核心要素:
世界模型评测框架 = 世界定义 (World Definition) + 指令集 (Instruction Set) + 统一交互接口 (Unified Interaction Interface) + 评测套件 (Evaluation Suite)。

WBench 正是基于这一理念构建的,下图完整展示了它的设计蓝图:

WBench 包含 289 个测试案例和 1058 个交互轮次,覆盖了丰富的世界定义和指令集。

你可以让 AI 在充满未来感的城市中穿梭,也可以让它置身于一幅流动的油画里。


你不仅可以选择成为游戏中的主角,以第三人称视角掌控一切;还可以化身第一人称,身临其境地探索世界。


有了舞台,还需要丰富的“剧本”。WBench 设计了导航、主体动作、事件编辑和视角切换这四种核心交互方式,它们可以像搭积木一样自由组合,形成一个复杂的多轮任务。
比如,除了常规的移动(导航),你还可以让角色完成特定动作(主体动作)。
甚至改变整个环境(事件编辑)。
最酷的是,你还可以在不同视角间无缝切换(视角切换),比如从第一人称视角瞬间切换到第三人称视角。
通过这种“舞台”与“剧本”分离的设计,WBench 实现了对视频质量、设定遵循度、交互遵循度、一致性、物理真实性这五个维度的精准测量。我们为每个指标都设计了严谨的计算方法,更多关于 NavScore、Gated Spatial Consistency 等硬核指标的实现细节,欢迎访问我们的项目主页。
WBench 不仅给出了结论,更用数据揭示了这些问题的根源。从具体模型表现来看,普通用户最关心的“谁最强”这个问题,答案是“看情况”。

这张相关性矩阵图非常直观。导航那一列/行,与其他所有维度(如视频质量 Qual、一致性 Cons)的相关系数都接近于零。
这说明,当前模型在学习渲染一个好看的世界时,并没有顺便学会如何在其中可控地移动。究其原因,是因为导航能力依赖于一个独立的、专门的"空间状态表示"能力,而其他能力(如画质、语义理解)则更多依赖于模型的通用生成先验。
换句话说,模型"知道"世界长什么样,但并不"理解"自己在世界中的位置和方向。


这张图展示了模型在连续交互中的能力衰减情况。导航曲线的"雪崩式"下跌清晰可见,从第一轮到第四轮及以后,分数下降了 33 点。这有力地证明了位姿误差逐轮累积是当前迭代式生成范式的结构性缺陷。
分析还发现,不同的世界设定会带来结构性的难度差异。例如:第一人称视角让导航更容易(z=+1.0),但保持场景设定更难;动物主体(z=-1.9)因其复杂的动态性,对模型挑战最大。

WBench 不仅是一个评测工具,更代表了研究范式的一次重要演进。通过与同类基准的对比可以看出,WBench 是目前唯一一个真正统一的评测基准。
它不仅同时覆盖了开放域、双视角、四种交互类型和多轮闭环评测,更重要的是,它还首次实现了对不同输入范式模型的统一评测。无论模型是接收文本指令、相机位姿,还是离散的键盘按键,WBench 都能通过其统一交互接口进行公平评估。
这打破了不同技术流派之间的壁垒,让所有"选手"都能在同一个"赛场"上竞技。

至关重要的是,WBench 的自动评分结果与 400 名人类标注者的偏好判断高度一致(Spearman ρ ≥ 0.94),证明了这把"标尺"的准确性和可靠性。

WBench 的提出,算是我们向真正的"交互世界"迈出的一小步尝试。它清晰地揭示了当前技术的边界。我们希望它能成为交互式世界模型走向系统化评测的一个起点,激发更多后续研究,推动世界模型的发展。
WBench 已开源,欢迎所有世界模型来跑分。
ACL(Annual Meeting of the Association for Computational Linguistics)是计算语言学和自然语言处理(NLP)领域的国际顶级学术会议。自 1962 年创办以来,ACL 已成为 NLP 领域规模最大、影响力最高的学术盛会,汇聚了来自全球学术界和工业界的顶尖研究者。
本文解读了被 ACL 顶会收录的其中 6 篇论文,技术方向覆盖大模型评测、复杂流程推理、竞赛级数学思维优化、强化学习优化、生成式推荐等领域,欢迎大家一起交流学习。
CoreCodeBench:通过细粒度仓库级任务解耦代码智能
论文下载:PDF

论文简介: 本论文提出了 CoreCodeBench,一种面向大语言模型编程能力的细粒度评测基准。该基准利用 COREPIPE 框架,从 12 个 Python 开源库自动生成 1,524 个结构化任务,涵盖开发、修复、测试驱动开发等多种软件工程场景,有效区分不同认知负载并动态调整任务复杂度。实验表明,其有效性达 78.55%,显著优于现有方法,揭示了模型在不同任务类型上的能力错配现象。CoreCodeBench 还支持多任务组合评测,模拟真实开发环境,具备高自动化、强鲁棒性和可复现性,为代码智能评测提供了更全面、精准的框架。
SOP-Maze:评估大语言模型在复杂业务标准操作流程上的表现
论文下载:PDF

论文简介: 随着大模型越来越多地被用作各领域的智能体,现有的评测大多关注它们遵循指令、做决策的能力,但真实业务场景往往涉及复杂的标准操作流程(SOP),而这方面的能力评估还没有被充分探索。为填补这一空白,研究者基于真实业务数据构建了 SOP-Maze,包含来自 23 个复杂 SOP 场景的 397 个实例和 3422 个子任务。
论文把 SOP 任务分成两大类:「侧根系统」(LRS)代表选项众多、需要精准选择的宽广型任务;「主根系统」(HRS)则强调带有复杂分支的深度逻辑推理。
实验结果显示,几乎所有最先进的模型在 SOP-Maze 上都表现吃力。作者归纳出三类主要错误:一是「路线盲区」(难以遵循流程);二是「对话脆弱性」(无法处理真实对话中的细微之处);三是「计算错误」(在复杂语境下的时间或算术推理出错)。
简单来说,这是一个聚焦「模型能不能真正照着复杂业务流程办事」的评测,既考验广度也考验深度,结果表明当前模型在这方面还有明显短板。
AMO-Bench:大语言模型在高中数学竞赛中仍面临挑战
论文下载:PDF

论文简介: 本文提出 AMO-Bench,一个包含 50 道人工命题的极高难度数学推理基准。鉴于顶尖大模型在 AIME 等现有竞赛上性能趋于饱和,本基准确保:
对 26 款大模型的评测显示,最强模型准确率仅 52.4%,多数不足 40%。尽管增加「测试时计算」展现出良好的扩展潜力,大模型推理能力仍有巨大提升空间。
思维的进化:通过推理动态分析追踪大语言模型的过度思考
论文下载:PDF

论文简介: 论文研究大语言模型长链推理中的过度思考现象,分析模型在答案已经形成后为何仍继续生成冗余 thinking。论文从两类 reasoning dynamics 入手:一是 thinking 长度与 content 长度之间的补偿关系,二是语义表示从探索到收敛的轨迹变化。
基于这些现象,论文提出实例级 Reasoning Completion Point(RCP),用于区分答案形成前的有效探索和答案稳定后的冗余延伸,并进一步设计 RCP 检测器,在 AIME、GPQA 等任务上减少生成 token,同时基本保持模型准确率。
MASPO:统一梯度利用、概率质量和信号可靠性以实现鲁棒且样本高效的大语言模型推理
论文下载:PDF

论文简介: MASPO 提出了一种面向大模型推理后训练的强化学习优化方案。它在 RLVR(可验证奖励的强化学习)场景下,旨在解决现有 GRPO 等方法在训练稳定性和样本效率上的不足。现有方法依赖固定、对称的硬截断信任域,与 token 长尾分布、稀疏奖励及正负样本可靠性差异不匹配。
为此,MASPO 提出三大创新:
实验证明,MASPO 在多个数学推理基准和不同模型规模上,相比基线取得了更优的 Avg@32 与 Pass@32 表现,展现出更好的鲁棒性和可扩展性。
基于分解式隐式推理的生成式推荐
论文下载:PDF

论文简介: 在生成式推荐任务中,现有的隐式推理方法通常采用单一隐向量来表征用户意图,这难以捕捉用户偏好中固有的多维性。
本文提出 FLR,将隐式推理分解为多个语义解耦的偏好因子,并引入轻量级多因子注意力模块,在隐式思维空间中进行多维推理。进一步提出 FLR-GRPO,利用噪声注入与无噪声组内对比实现稳定对齐。在 Amazon 数据集上,FLR 相比最强基线 LatentR3 平均提升 3.2%,其中 Games 子集提升达 10.26%,实现了隐式推理的语义透明化与性能提升。
美团正式开源 LongCat-Video-Avatar 1.5,作为一款从开源 SOTA 迈向商业级应用的数字人视频模型。在唇形同步、物理合理性、长视频稳定性、多人互动和高效推理上实现了全面跃升。LongCat-Video-Avatar 1.5 即便在复杂商业场景里,也能稳定、自然地输出高质量内容,让数字人视频生成从彩排室的完美演练,走向千人千面的真实舞台。
为了让数字人"更稳定、更自然"地动起来,我们在以下三方面实现能力升级:
开源链接
在音频特征提取环节,我们将编码器从 Wav2Vec2 升级为 Whisper-large。更大的参数量和更丰富的多语言先验,让模型能够更细致地捕捉音素变化、发音节奏和多语言韵律,准确理解"每一刻应该如何开口"。这一升级同时提升了唇形同步与全身时序稳定性——面部表情、头部姿态、肩颈和肢体动作与语音更自然地协同,大幅减少了长视频中的抖动、跳帧、画面冻结和身份漂移。
综合评测中,LongCat-Video-Avatar 1.5 的自然度、真实感和稳定性均优于部分头部闭源模型,基础生成能力满足商用需求。
商业场景中数字人形态多样(真人、虚拟偶像、动漫角色甚至动物),要求模型具备强开放域泛化能力。数据质量直接决定生成上限,为此我们构建了一套多阶段数据处理流程:

同时,我们专门构建了三类增强数据来应对虚拟人生成的典型难点:
这套数据体系为模型在复杂场景中的稳定输出奠定了坚实基础。
在高质量数据的基础上,我们进一步针对手部稳定性和动作连续性进行专项优化。引入 GRPO(Group Relative Policy Optimization) 进行人类偏好对齐,将奖励信号细化到逐帧层面,精准修正动作不连贯、手部变形、短时结构崩塌及表情与语音不匹配等局部问题。
针对图像到视频和视频续写任务,我们还加入首帧手部检测机制,优先提高含可见手部样本的训练比例,显著缓解手部畸变。得益于此,模型在电商直播、产品展示、教学演示等场景中的自然度与稳定性得到进一步提升。
商业级数字人不仅要"像",还要"快"。推理成本降不下来,再好的效果也只能待在实验室里。
LongCat-Video-Avatar 1.5 采用 DMD(Distribution Matching Distillation)蒸馏,将原本 50 步的生成过程压缩到 8 步。同时,我们用一个共享基础模型 + 多个 LoRA 适配器替代传统三模型并行的方案,大幅降低显存开销。
实际测试中,实现约 15 倍推理效率提升,生成 10 秒视频仅需约 1 分钟。
我们基于 EvalTalker 构建了综合评测基准,覆盖新闻、教育、娱乐、商业等场景,并按音频(语速、情绪)和视觉(人数、姿态、遮挡)设置不同难度。由 770 名评估者完成 13,240 条主观评分,并由 10 名领域专家进行结构化质量分析。


在物理合理性、时间稳定性、身份一致性和音视频协调性四个维度上,LongCat‑Video‑Avatar 1.5 的雷达图面积处于领先水平,其在画面物理合理性、时间稳定性、身份一致性和音视频协调等方面表现更均衡。在用户偏好方面,LongCat-Video-Avatar 1.5 相比 Kling Avatar 2.0 胜率 65.9%,相比 OmniHuman‑1.5 胜率 61.1%,相比 HeyGen 胜率 54.3%,整体优于其他商业系统。

在面部-身体同步和唇形同步方面,LongCat-Video-Avatar 1.5 同样取得最佳表现。面部-身体同步问题率为 5.1%,唇形同步问题率为 29.8%,均低于其他对比模型,说明模型在说话人的音频、唇形、表情和动作的整体协同上更加自然。
整体来看,LongCat-Video-Avatar 1.5 在效率提升的同时,仍保持了高质量的生成能力。不仅在单人场景的自然度和真实感上保持 SOTA 表现,也在多人互动、长时序稳定性、物理合理性和音视频协调性等关键维度上展现出更强的商用潜力。
LongCat-Video-Avatar 1.5 的开源,不只是模型版本的更新,更是面向开发者和创作者的邀请。
数字人视频生成正在从"展示效果"走向"真实使用"。在这个过程中,模型会遇到更多开放场景:不同角色、不同语言、不同内容形态,以及更复杂的业务需求。我们希望 LongCat-Video-Avatar 1.5 能成为一个可验证、可改进、可共建的技术基座,让更多人基于它探索数字人视频的真实应用边界。
模型和代码已经开放。欢迎大家在自己的场景中使用、测试和反馈,也期待和社区一起,把开源数字人视频模型继续向前推进。
开源链接
大模型在 AIME、IMO 等高难度竞赛中拿奖拿到手,仿佛已经进化出了“人类最强大脑”。但与此同时,如果你问大模型:“离洗车店只有 50 米,我是开车去还是走路去?”。这些号称满分推理的模型,依然会一本正经地为你规划导航路线。
这种看似知识丰富,但没常识的现象,正是当前大模型评测的死穴:大模型虽然擅长记忆复杂的公式,却常常连一道简单的逻辑题都答不对。
基于此,美团 LongCat 团队正式发布 General 365。我们发现,在对 26 款主流模型的实测中,目前地表最强的 Gemini 3 Pro 准确率仅为 62.8%,而绝大多数模型甚至没能摸到 60 分的及格线。
这份基准将焦点从“学科推理”拓展到“通用推理”,第一次清晰地勾勒出了当前大模型在通用逻辑推理上的真实能力边界。
过去两年,大模型推理评测高度集中在数学、物理、编程等依赖专业知识的任务上,头部模型在各大题库上甚至逼近满分。然而,学科推理得分高,并不等于通用推理强——高分可能源于模型对训练语料的暴力记忆与模式匹配,而非可泛化的逻辑推演能力。现有通用推理基准(如 BBH、BBEH)面临两大瓶颈:任务模板化导致逻辑同质严重,性能饱和导致区分度断崖式下降。
General 365 的设计目标由此明确:将背景知识限定在 K-12 水平,显式解耦推理能力与专业知识,系统地评估模型在日常场景下的通用推理水平。它具备五项核心特征:
要衡量通用推理,首先要明确它包含哪些核心挑战?General 365 将其拆解为八个维度,每道题至少对应其一:

如上图所示,“复杂约束类”题目占比最大,“概率与不确定性类”也包含超 20 道题目,确保了每个维度都有充足的样本支撑。

如图所示,近 70% 的题目同时具备两个或以上的类别标签,这种复合型的推理任务设计更贴近真实世界的逻辑复杂度。
题目质量是评测基准可靠性的根基。General 365 的种子题目全部人工原创,并经难度过滤、多样性扩充、数据后处理、模型扩题与人工审核,最终形成 1460 道高质量题目。为确保多样性经得起检验,团队从以下两个维度进行了验证:


手握这把精心校准的“标尺”,LongCat 团队对 26 款主流大模型展开了全面摸底。

实测结果显示,Gemini 3 Pro 以 62.8% 的成绩艰难夺冠,绝大多数模型则深陷 50%-60% 之间未能触及及格线。值得注意的是,尽管非推理模型整体略逊一筹,但 Qwen 3 Max Instruct 等个别模型依然展现出了亮眼的表现。

将成绩按八大维度分解后,我们清晰地看到,“语义干扰”与“最优策略”成为主要的性能洼地。模型在这两项上的得分普遍比整体准确率低了约 10 个百分点。这不仅暴露出大模型极易被题干中的干扰信息带偏,更凸显了其在多步全局规划能力上的匮乏。

如雷达图所示,不同系列的模型在"隐式信息"等任务上展现出了明显的能力分化。

在关注“答得对不对”的同时,“花了多少算力答对”同样重要。如图所示,Gemini 3 Pro 仅用约 14k tokens 就拿下了最高分,而取得相近准确率的其他模型,其输出长度普遍暴涨至 25k-30k tokens。

General 365 的难度究竟提升了多少?如图09横向对比所示,各大模型在 General 365 上的准确率较 BBH/BBEH 都普遍出现了大幅下降的情况。其中 GPT-5-Thinking 在 BBH 上准确率为 92.0%,在 General 365 上仅为 58.6%。
更重要的是,如下图所示,模型在 General 365 上虽然准确率明显偏低,但平均输出长度却显著增加。这有力证实了其难度来自更深的逻辑链条,而非毫无意义的字数堆砌。

General 365 将推理评测从专业知识依赖中剥离出来,让我们直观地看到了大模型在真实世界的通用推理任务上的短板。General 365 的初衷不是为了在榜单上再多一个 99% 的高分,而是为了寻找那条让模型从“做题机器”走向“人类智慧”的必经之路。毕竟,一个能解出 IMO 难题却回答不出「走路洗车」的模型,还不能被称为真正的智能。
我们诚邀广大社区开发者与研究者加入,共同探寻大模型逻辑进化的下一个奇点。
项目已全面开源,并会持续维护和更新,欢迎体验与探讨:
当团队 90% 以上的代码由 AI 生成,31 万行的复杂业务系统还在高速膨胀,你会发现一个反直觉的事实:AI Coding 不会自动收敛复杂度 —— 没有统一规范的约束,不同人用 AI 写出的代码风格各异,系统反而会加速腐化。
本文记录了我们如何在不停止业务交付的前提下,完成这场重构。在这个过程中,我们积累了三个关键经验,希望这篇实战经验能提供一些可复用的思路。
Agent评测系统长期承载多个核心业务场景,它同时承担了数据生产、流程编排、质量控制与多人协作等复杂能力,业务复杂度和工程复杂度都很高。具体来看,我们面对的复杂性主要体现在三个维度:
当业务进入快速迭代与试错期,上述庞大的业务体量与原有底层架构之间的矛盾就会集中爆发,迫使我们必须启动本次大规模重构。核心动因直指以下三个痛点:
1. 业务模型亟需升级,旧架构无法支撑探索性业务
随着业务交互的丰富度和复杂度增加,旧有数据模型扩展能力不足导致“烟囱式”功能开发,几乎每新增业务形式都需要新增代码来实现。
2. 代码严重腐化,技术债拖垮迭代效率
过去长期采用“按需求建包”的模式开发,代码缺乏合理的工程分层,Controller 等各种复杂逻辑揉在一个包内,形成了严重的“面条式代码”。在 31 万行代码的体量下,这种深度的技术债让日常开发“牵一发而动全身”,导致一线同学开发异常痛苦,交付效率遭遇严重瓶颈。
3. 协作模式风险放大,缺乏规范的 AI Coding 加速系统腐化
一年左右的时间,团队成员规模增至 3 倍,并且团队成员技术背景复杂,涵盖高并发、机器学习离线训练、管理后端开发以及实习生,复杂业务系统开发经验不足。在这样一个高人员流动和跨技术栈的背景下,再叠加 90% 以上代码由 AI 辅助编写这一事实,如果不建立硬性的底层架构规范,不同背景的同学各自用 AI Coding,系统必将以极快的速度产生不可控的腐化与新债。
因此,我们不仅需要工程重构,而且要建设符合 AI Coding 规范的工程重构。规范才可以帮助我们团队消灭旧技术债,规避新技术债。

在需求高压背景下,要梳理技术债面临着一个极其现实的困境:量太大,根本看不完,也看不全。
面对膨胀至 31 万行以上的代码库,试图靠人力逐行阅读来建立全局的可靠认知是不现实的。我们的代码库中同样伴随着典型的高危特征:很多地方文档不全、大量隐式逻辑和历史兼容分支藏在细节里。一个看起来不起眼的接口,背后可能挂着一串极长的调用链。所以,梳理技术债最大的难点,在于人力永远无法在短时间内穷举和穿透这些错综复杂的关联逻辑 —— 单段代码谁都能读懂,但没人能在短时间内把 31 万行的调用链全部穿透。
我们采用的是一种更适合复杂系统的方式:“专家经验定向 + AI 辅助排查”。
不再试图人工遍历,而是由核心开发圈定高危的排查边界,然后把穷举和扫描的脏活累活交给 AI。通过这种方式,我们快速摸清了系统底层的 P0/P1 级技术债(如业务模型缺陷、数据库查询性能隐患、状态管理技术债、索引技术债等)。
这一步中,我们最大的体会是 AI 很适合帮我们把问题“看全”,但什么问题最重要,什么问题值得优先改,还是要由人来判断。具体来说,人负责圈定 P0/P1 级问题和优先级,AI 负责在圈定的方向上做穷举扫描——比如梳理业务模型问题、定位大数据量性能隐患、排查状态管理和索引层面的技术债。
实践下来,这一步的 ROI 很高。我们仅仅投入了有限的资源,就完成了 3 个 P0 技术债和 2 个 P1 技术债的梳理。但最让我们意外的是下面这件事:
短时间内,工程师就利用 AI 辅助精准定位了 10 个隐藏极深、靠肉眼极难发现的性能隐患。 这些隐患藏在复杂的调用链深处,即使是资深工程师逐行阅读也很难穷举到。这在纯人工阅读代码的模式下是几乎不可能的。
这个结果迫使我们重新思考“经验”的定义。过去,“能看全”是资深工程师的核心壁垒 —— 你需要在系统里泡三年,才能建立起对调用链、隐式依赖和历史兼容逻辑的全局感知。但 AI 把“看全”的门槛打到了几乎为零。经验的价值正在从“能看全”转移到“能判断什么重要”——这才是人不可替代的部分。
这一步对我们后面的启发很大,因为只有问题定义清楚了,后面的规范、分层和迁移,才不会做成无源之水。

通过技术债梳理,我们解决了重构哪里的问题,那么接下来要解决的就是“代码应该怎么写”。在全员 90% 代码依赖 AI Coding 的现状下,核心要解决的问题是“如何将一两个用好 AI 的人的经验,高质量泛化到全组”。
在传统研发模式下,开发规范的主要作用是帮助团队协作、Code Review 和新人上手。但当 AI 已经成为主要编码产能后,规范的意义发生了本质变化。大模型生成代码时,会强依赖当前上下文和现有代码模式。如果代码库本身风格混乱、团队对规范理解不一致,AI 不会自动纠偏,反而会把差异进一步放大,导致多人协作下持续产出”千人千面”的代码。因此,AI Coding 时代的研发规范已经升级为约束 AI 产出、阻止系统继续长新债的基础设施,远不止协作建议那么简单。
但只让 AI 遵循规范还不够 —— AI 只能执行输入,不能替代团队形成统一判断。如果团队成员自己没有先对齐分层原则、建模方式和依赖边界,同一份规范就会被不同人解释成不同版本。
这个问题让我们想到了自己的本职工作。我们团队负责 Agent 评测业务,在长期实践中沉淀出一套核心理念:
我们发现,管理 AI Coding 与评测 Agent 的底层逻辑一模一样。 先通过规范拉齐团队的工程标准(人人对齐),再通过 AI Rule 和 Skill 约束大模型的生成结果(人机对齐)。一个做 AI 评测的团队,用评测的思维解决了工程治理问题。
顺序至关重要:先”人人对齐”,再”人机对齐”。 很多团队以为配置好 AI Rule 就完事了,但真正的瓶颈在人,不在工具。团队自己没有统一共识,AI Rule 写得再好也会被不同人解释成不同版本。人的共识是 AI 约束的前提。
我们先调研了业内成熟团队的研发规范,并结合自身流程,沉淀出一套 AI 友好的工程约束,包括工程分层规范、业务域模型规约和仓储层规约。关键一步是没有把规范停留在文档层面,而是将其落地为 always 级别的 AI Rule,用于约束 AI 编码过程,并前置到预 CR 环节,帮助研发在提交前完成基础规范校验。
与此同时,针对最容易产生分歧的领域职责划分问题,我们围绕”编排类”与”能力类”的职责边界进行了组内统一,并将共识沉淀为编码时渐进式加载的 Skill。


我们将过去“按需求建包”的面条式代码,逐步迁移到标准四层架构(Starter / Application / Infrastructure / Common)以及按业务域组织的新结构中。但这次重构的重点,并不只是物理目录的调整,而是借此机会系统性治理历史代码中长期存在的深度耦合问题,尤其是底层数据对象 PO 在全链路中的泄露与上浮。围绕这一问题,我们分三步推进:第一步,补齐业务对象与数据转换层,收口散落各处的转换逻辑;第二步,在 Application 层重建接口契约,严格阻断底层数据对象向上层泄露;第三步,基于新契约修复上游全链路的参数依赖。

这类重构的特点是:改造规则相对明确,但涉及范围极广、重复劳动密集。我们的做法是先由重构主 R 亲自完成两个最复杂包的迁移,在过程中沉淀出一套可让 AI 执行的标准化迁移 SOP。有了这套 SOP,重构工作不再依赖某一个人的经验——团队其他成员只需按照 SOP 指导 AI 完成剩余包的迁移,研发本人聚焦业务语义验收和 Code Review 即可。通过这种“主 R 打样 → SOP 分发 → 全组并行执行”的方式,我们快速完成了十余个核心包的工程结构迁移。

本次重构的深水区。行业里谈重构,通常只有两条路:要么推倒重来,要么申请专项排期。我们走了第三条路 —— 把技术债拆解为业务需求的“顺带动作”,借着迭代渐进式消化,没有申请一天专门的重构时间。
具体做法是将技术债拆解到日常高优需求中。例如,借着某个核心功能迭代需求,顺势设计并落地了全新的业务模型;借着另一个功能升级需求,我们设计了全新的质检业务模型,并在 3 月下旬完成了全量迁移(一举兼容了多条业务链路,以及多视图、多区域的复杂交叉验证)。
这条路的难点在于拆解的精度——哪些业务需求能“顺带”消化哪些技术债,需要逐个判断:既不能让重构拖慢业务交付,也不能让业务需求绕过技术债继续堆新债。最终我在不停止业务交付的前提下,完成了核心数据模型的平滑升级。
1. 建设 AI CR 与 Pre-PR 机制
随着 AI 编码效率飞跃式提升,我们很快遇到了“木桶效应”:Code Review 成了全链路中最拥堵的瓶颈:AI 极大地压缩了编码时间,压力系统性地向下游 CR 环节集中。如果 CR 效率不提升,AI Coding 的提效红利会被 CR 瓶颈吞掉。
我们团队达成的共识:
我们的实践经验:
1、引入 Pre-PR(预审)机制:
2、高阶模型审查低阶模型:使用高配模型作为 Judge Model,审查低阶模型产出的编码。
3、不同厂商模型对抗互相审核:使用不同厂商的模型互相审查对方的编码产出,通过差异化的模型能力形成互补,实测下来 CR 覆盖面更全。

2. 调研取经,建立AI 辅助测试用例生成规范
我们团队 100% 的需求由研发兼任测试(RD as QA)。在探索 AI 辅助自测时,团队自然演化出两条路线:路线 A 让 AI 全自动生成用例,人只做最后把关;路线 B 由人界定测试范围和风险级别,AI 负责代码扫描和用例步骤填充。
实践下来,路线 A 很快暴露出严重的工程问题 —— AI 缺乏全局业务认知,极度依赖 PRD 质量,容易漏掉隐性关联的高危场景,同时发散出大量无价值的边缘用例,反而增加 Review 负担。与专业 QA 团队交流后,我们确认了路线 B(人工主导,AI 辅助)的方向,并沉淀为一套 Human-in-the-loop 的测试 SOP:
| 步骤 | 目标 | 人做什么 | AI做什么 | AI提效点 | |
如果你看过今年春晚武术节目《武BOT》,一定会对那群与人类武者同台对打的机器人印象深刻。但在流畅的武术动作背后,是一个工程师团队连续数周针对特定舞台、特定灯光反复调试后才可能达到的动作丝滑。
为什么机器人在固定场景下表现良好,但换一个环境、任务,泛化能力就会明显下降?
究其根源,是具身行业缺少带动作标注的训练数据进行泛化学习,而互联网上大规模人类数据是极具潜力的数据来源。为了指引具身智能走向GPT时刻,像大模型一样走通大规模数据学习范式,通过人类视频数据学习通用的、跨本体的隐式动作表征是关键。
为此,我们提出了 LARYBench (Latent Action Representation Yielding Benchmark) ,一个指引从大规模的视觉数据学习到通用的隐式动作表征的系统化评测基准。实验结果表明:在动作泛化和控制精度上,通用视觉模型的表现均显著优于专门为具身智能设计的动作专家模型,具身动作表征可以从大规模人类视频数据中涌现。
当前主流的 Vision-Language-Action(VLA)模型,其泛化能力受限于一个核心矛盾:互联网上存在海量的人类视频,视觉信号极其丰富,但如何将这些视觉信息转化为机器人可用的动作表征,始终缺少高效的路径。具体表现为三个层面:
自 2024 年 LAPA 等早期工作提出以来,基于隐式动作表征的研究已陆续展开。然而,现有评测大多只看端到端任务成功率,始终缺少一个能独立衡量中间表征质量的标准基准——动作表征领域,还没有自己的 ImageNet。具体表现为:表征与下游策略难以解耦、跨本体泛化能力无法检验、训练策略的系统性分析缺失。
为填补这一空白,我们提出了 LARYBench ,一个从本体动作和语义动作两个粒度出发,系统评估隐式动作表征质量的基准。如图1所示,评测数据集涵盖超过一百万段精心标注的视频(总时长超过1000小时),涉及151种不同类型的动作,同时包含62万对图像和59.5万条运动轨迹,覆盖了多样化的机器人形态与操作环境。

评测的核心逻辑如图2所示:输入一段视频或图像序列,通过待测的隐式动作模型(Latent Action Model, LAM)提取出动作表征 z ,随后通过浅层探测头(probing)来验证 z 的质量。

动作的定义由细到粗分为三个层级:

针对不同粒度的动作,评测采用不同的验证方式:
针对多种粒度的动作,我们收集了主流常用的第一视角人类数据以多视角、跨本体的机器人数据,并通过自动化数据处理流程构建为动作表征数据集。处理流程包括,动作片段切片、视频描述、动作提取和归一化,最后通过人工抽检做质检校验,确保训练集准确率在85%以上,测试集准确率在95%以上。数据集涵盖151个明确定义的动作,以及对应的121.5万个标注样本。数据集覆盖的人类活动范围广泛,从常见的"pick"和"place"动作,到长尾分布的"shovel"(snow)和"float"(balloon)动作均有涉及。

为确保形态多样性,数据集涵盖11种不同的机器人形态,从广泛使用的Franka单臂操作器,到AgiBot G1、Agilex Cobot和Realman系列等复杂的双臂及半人形平台,同时包含大量人类第一视角交互数据。
为保证环境多样性,数据集记录了数千种独特的物体操作场景,涵盖模拟桌面、真实住宅厨房、商业场所和工业场景等非结构化环境。


数据分布信息如下:


评测按任务类型分为两类。本体动作任务以起始帧与结束帧构成的图像对作为输入,通过浅层 Action Expert 模块将动作表征映射为末端执行器位姿参数,以均方误差(MSE)衡量回归精度。语义动作任务同样输入图像对,通过浅层分类头进行多类别分类,以分类准确率作为评估指标。
待评测模型覆盖四类动作表征范式,包括专为具身智能设计的隐式动作模型、语义级与像素级通用视觉编码器,以及在通用编码器基础上训练的隐式动作模型,以形成从专项到通用的完整能力参照。
论文实验部分围绕三个核心问题展开:
以下从本体动作回归、语义动作分类、可视化分析和消融实验四个维度展开。
本体动作回归任务评估的是模型将视觉信号还原为末端执行器绝对位姿的能力。评测覆盖四个数据集:CALVIN(第三人称仿真单臂)、VLABench(第三人称仿真单臂)、RoboCOIN(第一人称真机双臂)和 AgiBotWorld-Beta(第一人称真机双臂)。所有模型均以均方误差(MSE)作为评估指标,数值越低表示回归精度越高。
综合来看,DINOv3 在四个数据集上的平均 MSE 低至 0.19,而具身专项模型 LAPA 的平均 MSE 高达 0.97。语义级表征(V-JEPA-2、DINOv3)的回归误差普遍略低于像素级表征(Wan2.2 VAE、FLUX.2-dev VAE),说明本体动作信息同样可以在语义级特征空间中得到有效保留。

语义动作分类评估模型对高层动作语义的识别能力,按数据来源分为原子动作、复合人类动作和复合机器人动作三类任务。综合来看,语义级通用编码器在三类任务上持续领先,具身专项模型表现普遍偏低,通用 LAM 居中。视觉自监督学习在动作语义捕捉上优于图文对比学习,前者能够兼顾视觉中的动作语义与控制细节。

为了进一步探讨以上实验结论所表现出的原因,我们进行了以下定性的可视化分析实验。
从Composite Human数据集上的分类性能随样本频率变化的分布来看,各方法在高低频动作上的趋势基本一致。在长尾部分(样本量较少的动作类别),强模型与弱模型之间的性能差距进一步拉大。这表明表征能力更强的模型在低频场景下具有更好的泛化表现。

对“倾倒”动作序列的可视化显示,语义级表征模型 V-JEPA-2 和 DINOv3 的注意力能够较为精准地聚焦于手部与物体的交互区域。相比之下,像素级表征模型 FLUX.2-dev VAE 和 Wan2.2 VAE 的注意力分布更为分散,部分落在手臂阴影等与动作语义关联较弱的区域。具身专项模型 LAPA 的注意力则几乎不具备明确的聚焦区域,呈现大范围的弥散分布。
这一现象的原因可能在于,像素级编码器倾向于捕捉逐像素的视觉变化(如光影、遮挡),而这些底层信号容易与动作本身的位移信息混杂。当模型未能有效区分动作相关与无关的视觉变化时,提取出的表征质量会受到影响。

为探究构建有效隐式动作表征的关键参数配置,实验基于 LAPA-DINOv3 框架对码本大小、序列长度、隐空间维度及学习率等因素进行了消融分析,性能演进路径如下图所示。

综合来看,在数据量一定的条件下,调整码本大小、序列长度、隐空间维度和学习率等超参可以有效提升动作表征效果。其中,序列长度与隐空间维度在合理范围内适当增大有利于性能提升,而码本大小存在最优区间,并非越大越好。
LARYBench 作为首个在动作泛化和机器人控制上对隐式动作表征进行量化评估的系统性基准,其核心价值体现在:
我们已将 LARYBench 评测数据集及配套代码开源,并会持续维护和更新:
开源链接:
欢迎社区开发者与研究者使用、反馈及贡献,共同完善动作表征评估体系。