Meituan Tech | 美团技术团队的 RSS 预览

正式开源！美团 LongCat-2.0 同步开放国产卡推理代码

本周，美团万亿参数大模型 LongCat-2.0 正式开源！

作为业界首个在五万卡国产算力集群上完成推理的万亿参数模型，LongCat-2.0 已全面开源。针对显存与带宽受限的国产算力芯片，我们在模型架构、芯片适配到部署策略上进行了深度协同优化，让万亿参数模型在存量卡上同样跑得稳、跑得快。我们希望以真实 Agentic Coding 任务中的稳定表现为依托，通过开源将模型能力与推理优化成果完整开放，盘活更多存量国产算力，释放国产算力生态的长期价值。

美团 LongCat-2.0 总参数 1.6T，平均激活约 48B，为真实的 Agentic Coding 任务而生，架构上创新性引入 LongCat 稀疏注意力和 N-gram Embedding，提升长上下文处理效率与 Token 级表示能力的同时，结合动态激活进一步强化了代码理解、生成以及执行的表现。

01 模型、芯片适配与部署三个方向逐一突破，实现了万亿参数模型的流畅推理

面对显存、带宽和互联的多重限制，LongCat-2.0 结合国产芯片特性，从模型、芯片适配与部署三个方向逐一突破，实现了万亿参数模型的流畅推理：

模型层面： Attention 通过 absorb 计算模式、Indexer 与 MLA prolog 并行处理以及 KVP 切分 KV-cache，有效缓解了超长上下文的 I/O 与显存压力。ScMoE 则利用国产芯片的控核能力，让 Dense 与 MoE 分支实现物理核心级并行执行，进一步压缩端到端延迟，实现了百万上下文在国产芯片上的高效推理；
芯片适配层面： 通过 Super Kernel 减少算子数量以降低启动开销，并以 Weight Prefetch 将 I/O 延迟隐藏在前序计算中；同时基于高速片间互联完成 layer-wise 的 KV-cache 传输，TP/SP/KVP 均在 scale-up 互联域内完成，在受限的显存和带宽条件下将硬件利用率最大化；
部署策略层面： 采用 PD 分离部署兼顾 TTFT 与 TPOT：Prefill 端通过缩小 Expert-Parallel 域与序列并行分担长序列计算压力，Decode 端以 KV-cache 切分与高并行度降低单卡显存占用，配合异步化 Expert-Parallel Load Balancing 解决大 EP 度下的负载不均。上述并行方案均已适配 constrained decoding、multi-step scheduling 和 MTP 等推理优化特性，实现了万亿参数模型在国产算力上的稳定服务。

LongCat-2.0 验证了国产芯片承载复杂大模型任务的成熟能力，并希望通过开源为行业提供一条可复现的技术路径，推动存量算力在真实场景中的应用价值。

02 模型全面升级，会执行、会推理、懂交互

LongCat-2.0 沿用了 LongCat-Flash 的整体设计，并围绕 LongCat-2.0 在长上下文、代码任务和智能体场景中的进一步升级，做了三项关键优化：

2.1 LongCat 稀疏注意力机制，提升上下文处理效率

面向智能体任务中的长输入场景，LongCat-2.0 引入 LongCat 稀疏注意力机制（LSA），通过流感知索引、跨层索引和层级化索引三项策略减少碎片化访存和重复索引计算，在保持模型质量的前提下，加速百万级长上下文的训练与推理。

2.2 引入 N-gram Embedding，提升参数利用效率

LongCat-2.0 在 MoE 专家之外引入 N-gram Embedding 作为新的参数扩展路径。在 MoE 稀疏度已接近 97% 的情况下，将 135B 参数投入 N-gram Embedding 的收益远超继续扩充专家。该模块占比控制在总参数 10% 以内，兼顾了参数收益与结构稳定性。

2.3 通过 MOPD 架构在国产算力集群上无缝融合，让模型会执行、会推理、懂交互

后训练阶段，LongCat-2.0 采用多教师在线蒸馏，将专家分为 Agent、推理和交互三类，分别聚焦自主执行、自适应推理和安全对齐等核心能力。最终通过 MOPD 架构在国产算力集群上无缝融合，使模型兼具深度推理、自主执行与精准交互的综合表现。

03 开源开放

LongCat-2.0 的开源，是一次技术路径的公开，也是一次生态邀约。

本次开源同步提供 BF16、FP8 以及 INT8 等多精度版本，全面覆盖不同算力平台的部署需求。同时，我们深度拥抱开源社区，将针对国产算力极致优化的推理成果同步开源。这意味着，即使手上没有最新算力，也能基于现有硬件将 LongCat-2.0 稳定跑起来。

我们希望通过这套开箱即用的推理栈，让更多的国产卡包括老卡，都能流畅部署万亿大模型推理服务，在真实生产力场景发挥更大价值。

🚀 开源链接

Tech Blog： https://longcat.ai/blog/longcat-2.0/

Model Weights：

HuggingFace: https://huggingface.co/meituan-longcat/LongCat-2.0
GitHub: https://github.com/meituan-longcat/LongCat-2.0
ModelScope: https://www.modelscope.cn/collections/meituan-longcat/LongCat-20

Inference Code:

API Platform：

https://longcat.chat/platform/product

直播回放·含 ACL&apos;26 杰出论文 | 美团 AI 顶会论文 32 篇精讲

🏆 近日，ACL 2026 杰出论文奖在圣地亚哥揭晓，全球仅 18 篇入选，美团履约技术团队的《GeoRA: Geometry-Aware Low-Rank Adaptation for RLVR》上榜啦，一键直达视频回放👉🏻 小红书 | B站

如果你正在关注 AI 前沿，这篇内容值得收藏。

2026 年，美团技术团队数十篇论文被 ACL、SIGIR、ICML、KDD 等顶会收录。我们精选 32 篇，进行了 5 大专场直播。

内容涵盖了大模型推理、智能体记忆与自进化、代码智能、多模态交互、超高清视频生成、本地生活搜索等方向——既有底层能力的突破，也有贴近生活服务的落地探索。

如果你错过了直播，或者想再看一遍👇 五场回放都在这里啦，找到你感兴趣的议题，随时开始。

特别感谢所有讲师与筹备团队的倾力支持！也感谢每一位关注美团技术成长的你！❤️

专场一：ACL'26 综合专场

👉 直播回放入口→ 小红书｜ B站

📚 论文简介及下载→ 点这里

专场二：ACL'26 履约团队前沿技术专场

出品人｜ Jichong Gao 美团高级技术专家、Jun Xu 美团高级技术专家

👉 直播回放入口→ 小红书｜ B站

📚 论文简介及下载→ 点这里

专场三：搜推 ASX 团队专场

出品人｜ Guojun Yin 美团研究员

👉 直播回放入口→ 小红书｜ B站

📚 论文简介及下载→ 点这里

专场四：ICML'26 通用 Agent 前沿技术专场

出品人｜ Qi Gu 美团研究员

👉 直播回放入口→ B站

📚 论文简介及下载→ 点这里

专场五：ICML'26 综合专场

👉 直播回放入口→ B站

📚 论文简介及下载→ 点这里

美团 LongCat-2.0 正式发布：在国产算力集群上完成全流程训练与推理的万亿参数模型

6月30日，美团正式发布新一代万亿参数大模型 LongCat-2.0，并将对外开源。

作为业界首个在五万卡国产算力集群上完成全流程训练与推理的万亿参数模型（总参数 1.6 T，平均激活约 48 B，动态范围 33B~56B），LongCat-2.0 从零开始预训练，原生支持 1M 超长上下文，其架构设计自始至终围绕一个核心目标：让模型在真实的 Agentic Coding 任务中，更高效、更稳定地完成代码理解、生成与执行。

正式版发布前，LongCat-2.0预览版本已通过 OpenRouter 平台和longcat.ai面向全球开发者开放调用——截至目前该模型已跻身 OpenRouter 全球大模型调用量前三，月调用量在 Hermes、Claude Code 和 OpenClaw 分列全球第一、第二和第三位，成为最受全球 Agent 开发者欢迎的模型之一。

01 国模国芯全栈协同：完成万亿参数 MoE 模型在国产算力上的稳定训练

LongCat 团队对国产算力的探索始于 2023 年，三年来，团队从千卡起步，逐步攻克算子适配、通信优化、分布式稳定性等基础难题，最终在五万卡集群上完成万亿参数模型的全流程训练与推理。

LongCat-2.0 预训练数据规模超过30Ttokens，覆盖中文、英文、多语言和代码等多类数据；面对万卡级训练中的硬件故障、通信异常、显存压力与数值波动，LongCat 团队从稳定性、正确性和效率三方面攻克国产算力训练难题。

在稳定性上，通过卡间通信异常处理、弹性扩缩卡和自动故障恢复，将月均日故障率降低70%以上；
在正确性上，通过自研设计确定性算子、Bitwise 一致性验证和参数检测，保障训练结果的可靠，同时基于实践提升关键模块计算精度、优化 Reduce 逻辑；
在效率上，通过流水线调度、显存优化和算子级控核，训练 MFU 提升 1.5 倍。

最终，LongCat 实现稳态日吞吐超过1T tokens/day，完成万亿参数 MoE 模型在国产算力上的稳定训练。

在推理阶段，LongCat-2.0 围绕模型、算子和框架进行协同优化：通过大规模专家并行聚合访存带宽，支撑万亿参数 MoE 模型的低延迟解码；将零计算专家机制融入专家并行通信流程，使路由到零专家的 token 真正避免不必要的传输与计算；并针对通信、Attention、GEMM 等核心算子优化调度，结合提前下发与权重预取等框架机制，进一步降低推理链路中的等待开销。

从稳定训练到低延迟推理，LongCat-2.0 验证了我们已具备在国产算力集群上进行大规模模型训练的能力。它不只是“能训出”万亿参数模型，还让万亿参数模型能够在真实任务中稳定运行。

02 让模型在真实 Agentic Coding 任务中更高效、更稳定地完成代码理解、生成与执行

LongCat-2.0 的架构设计始终围绕一个核心目标：让模型在真实 Agentic Coding 任务中更高效、更稳定地完成代码理解、生成与执行。

1M超长上下文，让 Agent 看见整个项目。传统模型在处理超过 100K 上下文后就开始“遗忘”前面的内容。LongCat-2.0 采用LongCat Sparse Attention（LSA）稀疏注意力机制，在处理长文本时不再“逐字逐句地看”，而是智能筛选关键信息，将计算量从平方级降至线性级。这使得模型在 100 万 Token 的超长上下文中，依然保持精准的信息定位与理解能力。

零计算专家 + ScMoE，让算力用在刀刃上。代码任务中不同 token 复杂度差异巨大——定义变量名和推导递归算法对算力的需求完全不同。LongCat-2.0 通过零计算专家实现 token 级动态激活（33B~56B），简单 token 不消耗算力，复杂 token 自动获得更多计算资源。

MOPD 多专家融合，一个模型同时擅长写代码、做推理、懂交互。LongCat-2.0 通过 MOPD 架构融合 Agent、Reasoning、Interaction 三组专家能力——Agent Experts 专攻工具调用与自主纠错，Reasoning Experts 深耕数学与 STEM 推理，Interaction Experts 优化指令遵循与交互体验。推理时由门控网络根据任务类型动态调度最擅长的专家，而非简单合并参数。得益于此，模型在编程、推理、交互等维度均表现突出。

LongCat-2.0 通过精细的架构设计，让万亿参数模型在实际任务中更高效、更稳定地发挥能力。

03 在编程能力、真实办公场景的复杂任务处理方面表现优异

综合评测结果显示，LongCat-2.0 凭借卓越的综合性能与稳定的任务表现，在 Code 和 General Agent 场景表现优异。

在编程能力方面，LongCat-2.0 展现出扎实的综合实力：在考察深层工程能力的 SWE-bench Pro 中获得 59.5，领先Gemini 3.1 Pro（54.2）、GPT-5.5（58.6）和 Claude Opus 4.6（57.3）；在 SWE-bench Multilingual 中取得 77.3 的成绩，与 Claude Opus 4.6（77.8）保持在同一水位；此外，在真实终端指令交互评测 Terminal-Bench 2.1 中取得 70.8，体现了其在真实运维与开发终端任务中的稳定执行与纠错能力。
在真实办公场景的复杂任务处理方面，LongCat-2.0 表现均衡：在搜索智能体评测集RWSearch中获得 78.8，在生产力场景评测集 FORTE 中获得 73.2 ，在 BrowseComp 中获得 79.9，均达到或接近前沿闭源模型水平，证明了其在多步骤任务规划、复杂工具调用及长程检索执行上的高可靠性，能够较好的契合企业级 Agent 的落地需求。

04 在真实工作场景中，成为大家可靠的“工作伙伴”

内测期间，我们面向真实工作场景征集了大量真实的用户任务需求，这些来自一线的真实“工作单”，可以看出 LongCat-2.0 在用户的真实工作场景中正在成为他们可靠的“工作伙伴”。

Agent 搭建：一问即得，全闭环交付

通过 LongCat-2.0 搭建的 AI SQL Agent，业务人员可以直接用自然语言查询数据。LongCat-2.0 自动完成全链路闭环——理解问题意图、规划查询步骤，并将数据结果转化为清晰的业务洞察。

查看视频

代码库迁移：读懂老代码，重构新架构

给 LongCat-2.0 一个旧版插件代码库和一份新版SDK文档，它能自行分析整体架构、梳理核心逻辑，再将整个插件重构为符合新API的实现——保留全部原有功能，修复潜在隐患，编译一次通过。

查看视频

完整应用开发：从一句话到可运行产品

描述一个“儿童AI游戏训练场”的创意，LongCat-2.0 会逐步生成技术选型、页面架构、游戏逻辑与视觉细节——从首页到三个完整可玩的游戏页面，全部代码一次产出，开箱即用。从一句话到可用的产品，将灵感轻松实现。

查看视频

3D交互演示：一句话，生成一个3D世界

通过一句话描述，LongCat-2.0 即可生成完整 Three.js 3D 演示：透明烧瓶、荧光液体、泡沫喷发、液面下降和堆积效果全部可交互呈现。所有代码封装在一个 HTML 文件中，打开即用，让创意快速转化为可交互的3D体验。

查看视频

AI 小说工厂：从单点灵感到商业变现

基于 LongCat-2.0 构建的“AI小说工厂”，将创意写作升级为自动化内容流水线。用户输入灵感后，系统编排多个 Agent，自动完成世界观构建、并行章节生成、质量评估与回流修订。并通过长上下文能力保障百万字级设定一致性。最终内容可自动适配多平台发布，并由 Web 面板实时监控生成进度与质量状态，实现持续稳定的连载输出。

查看视频

立即体验

API 开放平台：https://longcat.chat/platform/product

ICML 2026 | 美团技术团队学术论文精选

ICML（International Conference on Machine Learning，国际机器学习大会）是机器学习领域最具影响力的国际顶级学术会议之一。大会旨在探讨机器学习未来发展所面临的关键挑战与核心问题，并通过征集和评估具有重要理论价值和实际影响的前沿研究成果，推动领域发展并引领未来研究方向。2026年，ICML共收到全球篇论文23918投稿，最终6352篇被接收，接收率约为26.6%。本文解读了美团技术团队被收录的13篇论文，覆盖智能体推理、强化学习训练、复杂任务生成、智能体基准测试、监督微调等技术方向。

01 MemOCR: Layout-Aware Visual Memory for Efficient Long-Horizon Reasoning

MemOCR：面向高效长程推理的版面感知视觉记忆机制

论文下载：PDF

论文简介：长时间跨度的智能体推理需要将不断增长的交互历史有效压缩到有限的上下文窗口中。现有的大多数记忆系统将历史序列化为文本，其中token级别的开销是均匀的，且与长度线性增长。为此，我们提出了MemOCR，一种多模态记忆智能体，通过视觉布局实现自适应信息密度的记忆空间分配，从而在紧张的上下文预算下提升长时间跨度推理能力。在长上下文多跳和单跳问答基准测试中，MemOCR优于强文本基线方法，并在极端预算条件下实现了更有效的上下文利用。

02 ScaleEnv: Scaling Environment Synthesis from Scratch for Generalist Interactive Tool-Use Agent Training

ScaleEnv: 从零开始构建可扩展的环境合成系统用于通用交互式工具使用智能体的训练

论文下载：PDF

论文简介：为智能体配备交互式环境和可验证任务以进行自我探索，对于培养能够适应多样化场景的通用智能体至关重要。我们提出了ScaleEnv，一个完全从零开始构建全交互式环境和可验证任务的框架。ScaleEnv通过程序化测试确保环境的可靠性，通过工具依赖图扩展和可执行动作验证来保证任务的完整性和可解性。在未见过的多轮工具使用基准测试上展示了显著的性能提升，突显了强大的泛化能力。

03 V_0: A Generalist Value Model for Any Policy at State Zero

V_0：一种适用于任意策略在初始状态下的通用价值模型

论文下载：PDF

论文简介：大语言模型的强化学习训练中的价值模型面临耦合困境：它们需要与更新中的策略同步训练。我们提出了V_0，一种通用价值模型，通过将任务重新定义为上下文学习来预测未见策略的性能，从而将价值估计与特定策略参数解耦。实验结果表明，V_0在GRPO训练过程中追踪策略演化方面优于耦合价值模型，能够优化冷启动预算分配，并在推理路由中逼近性能-成本的帕累托前沿。

04 Learning to Self-Verify Makes Language Models Better Reasoners

学习自我验证使语言模型成为更好的推理者

论文下载：PDF

论文简介：近期的大语言模型在为复杂任务生成有前景的推理路径方面表现出色，但在验证自身答案方面仍然薄弱。我们发现学习自我验证能够有效提升生成性能，产生更高效的推理轨迹。我们提出了一个多任务强化学习框架，将生成和自我验证作为两个独立但互补的目标进行联合优化。实验表明，该方法在生成和验证能力上均优于仅进行生成训练的方法。

05 AgentNoiseBench: Benchmarking Robustness of Tool-Using LLM Agents Under Noisy Condition

AgentNoiseBench：噪声条件下工具使用型大语言模型智能体的鲁棒性基准评测

论文下载：PDF

论文简介：随着基于大语言模型的智能体越来越多地部署在实际工作流程中，现有的智能体基准测试不足以刻画智能体在不完美用户指令和不可靠工具反馈下的鲁棒性。我们提出了AgentNoiseBench，一个用于系统评估大语言模型智能体交互式噪声鲁棒性的框架。该基准建模了用户侧指令噪声和工具侧结果噪声两种主要噪声来源，提供模块化噪声注入管道和多维度评估指标。通过对25个工具使用模型的评估，发现工具侧噪声通常比用户侧噪声引起更大幅度的性能下降。

06 AJ-Bench: Benchmarking Agent-as-a-Judge for Environment-Aware Evaluation

AJ-Bench：面向环境感知评估的智能体裁判基准

论文下载：PDF

论文简介：随着强化学习不断推动基于大语言模型的智能体训练规模化，在复杂环境中可靠地验证智能体行为变得日益困难。现有方法依赖基于规则的验证器或 LLM-as-a-Judge 模型，但这些方法难以泛化到狭窄领域之外。Agent-as-a-Judge 通过主动与环境和工具交互以获取可验证的证据来解决这一局限性，但其能力仍未得到充分探索。我们提出了一个基准测试 AJ-Bench，用于系统性地评估"智能体充当评判者"在三个领域——搜索、数据系统和图形用户界面——中的表现，涵盖155个任务和516条标注轨迹。该基准全面评估了评判智能体在信息获取、状态验证和过程验证方面的能力。实验表明，相比 LLM-as-a-Judge 基线方法，该方法取得了稳定的性能提升，同时也揭示了基于智能体的验证中仍存在的重大开放性挑战。

07 LUVE : Latent-Cascaded Ultra-High-Resolution Video Generation with Dual Frequency Experts

LUVE：基于双频率专家的潜空间级联超高分辨率视频生成

论文下载：PDF

论文简介：为解决超高分辨率视频生成中连贯性与算力难以兼顾的难题，该论文提出了基于双频专家的潜空间级联框架LUVE。该框架创新性地采用三阶段架构：先通过低分辨率生成保障运动一致性；接着利用潜空间上采样直接提升分辨率，大幅降低内存与计算开销；最后融合高低频专家细化高分辨内容，全面增强全局语义与局部细节。实验表明，LUVE展现出了卓越的逼真度与内容保真度，其核心思想现已成功应用于美团LongCat-Video模型中。

08 Infinite-World: Scaling Interactive World Models to 1000-Frame Horizons via Pose-Free Hierarchical Memory

Infinite-World：通过无位姿层次化记忆将交互式世界模型扩展至1000帧

论文下载：PDF

论文简介：Infinite-World 是面向真实场景中的长程交互式世界模型，其目标是在 1000+ 帧生成中保持稳定的视觉记忆和动作响应。针对真实视频中位姿噪声大、视角回访稀少的问题，论文提出三点创新：用无位姿层级记忆压缩器将历史 latent 压缩为固定预算记忆，降低长程建模成本；用不确定性感知动作标注提升噪声轨迹下的动作学习；再通过高回访数据微调增强 loop closure 能力。整体上，它让世界模型更适合从真实视频学习长时空一致性。

09 WildActor: Unconstrained Identity-Preserving Video Generation

WildActor：无约束身份保持视频生成

论文下载：PDF

论文简介：本文提出 WildActor，一种面向无约束身份保留的视频生成新框架，旨在应对现有方法在动态长镜头和视角剧烈切换时面临的全身体态不一致、面部漂移及姿态僵死伪影。在机制层面，WildActor 构建了含1.6M视频和18M多视角图像的大规模数据集 Actor-18M，有效解决原始数据中的正脸偏置；同时引入非对称身份保留注意力（AIPA）解耦身份与运动生成，并结合身份感知3D旋转位置编码（I-ROPE）显式分离时空 Token，配合视角自适应蒙特卡洛采样实现了鲁棒的任意视角条件控制。实验表明，WildActor 在新构建的 Actor-Bench 连贯叙事与泛化测试中，不仅全身一致性与文本对齐度显著超越现有开源及商业大模型，还验证了其在复杂现实场景下保持物理恒常性的优越性。

10 Navigating the Pareto Frontier of Alignment: Spectrum-Adaptive Fine-Tuning for LLMs

SAFT：面向大语言模型的谱自适应微调方法

论文下载：PDF

论文简介：监督微调常用交叉熵作为目标函数，虽然学习高效，但它并非正确率的光滑近似，还会因为特别关注预测概率低的样本从而容易对噪音过度拟合并过度自信。DFT则在梯度层面等同优化正确率的光滑近似函数，在保持训推一致性的同时提升了鲁棒性，但也会削弱对可学习的难样本的学习效率。因此，SFT 与 DFT 构成效率—鲁棒性两个端点，而真实数据应选择哪种折中取决于其未知的内在 SNR。我们提出轻量的 pre-test protocol：用少量训练数据分别训练 SFT/DFT 并在验证集比较表现，SFT 更优则判定为高 SNR 并选择几何插值Geo-SAFT，DFT 更优则判定为低 SNR 并选择调和插值Har-SAFT。相比仍保留低置信梯度发散的线性插值，SAFT 通过数据自适应的几何/调和非线性插值匹配不同噪声 regime，从而获得更优的鲁棒性—效率 Pareto trade-off。

11 TRIP-Bench: A Benchmark for Long-Horizon Interactive Agents in Real-World Scenarios

TRIP-Bench：真实场景中长时域交互式智能体的基准评测

论文下载：PDF

论文简介：本论文提出了 TRIP-Bench，一个面向长程交互式 Agent 的旅行规划评测基准。它基于真实世界数据构建，包含 18 个工具和 40 多类旅行约束，重点考察模型在多轮对话中保持全局约束、调用工具、处理用户需求变化和方案反复修改的能力。其困难任务最长可达 15 轮用户交互、150 次以上工具调用，甚至超过 20 万 tokens 上下文。实验表明，现有先进模型在该基准上仍表现有限。论文进一步提出 GTPO 多轮强化学习方法，通过奖励归一化和轮次级奖励差分提升模型鲁棒性，使 Qwen2.5-32B-Instruct 在评测中超过 Gemini-3-Pro。

12 InfVSR: Toward Consistency-Driven Streaming Generative Video Super-Resolution

InfVSR：面向一致性驱动的流式生成视频超分辨率

论文下载：PDF

论文简介：本文提出了 InfVSR，一种面向一致性驱动的流式生成视频超分辨率新框架，旨在解决扩散式视频超分方法在长视频场景中存在的推理效率低、显存占用大和时序不一致问题。其核心机制包括：将预训练视频 DiT 改为因果流式架构，引入滚动 KV 缓存以维持局部过渡平滑性；设计联合视觉引导通过交叉注意力注入全局语义锚点，抑制累积误差漂移。训练阶段结合分块像素监督与跨块分布匹配，双重约束时序一致性，并将扩散过程蒸馏为高效单步推理。实验表明，InfVSR 在多项基准上取得 SOTA 性能，时序一致性显著领先，推理速度提升 58 倍且长序列显存占用恒定。

13 DRIVE: Distributional and Retrieval-Augmented Bidding with Value Evaluation

DRIVE：基于混合分布与检索增强的价值评估出价策略

论文下载：PDF

论文简介：针对标准Decision Transformer (DT)在复杂竞价环境中的三大痛点（“平均动作”陷阱、长尾幻觉、缺乏推理优化），提出“生成—检索—评估”闭环框架：1）用高斯混合模型替代确定性输出，解决多模态策略坍缩问题；2）引入检索机制增强长尾场景记忆，避免参数化模型幻觉；3）通过IQL Critic实现闭环择优，对生成动作与历史动作进行实时评估。该方案显著提升决策鲁棒性。

LongCat 开源 VitaBench 2.0：长期动态智能体基准新标杆

一个经常加班的白领，一个带着孩子出游的父亲，你的AI助理能分清他们需要什么样的服务吗？

现实是，它常常分不清。

AI能执行你明确的指令，却很难记住那些藏在场景和身份背后的真实需求。它们是真的无法理解，还是“情商”不够高呢？

自去年10月发布了 VitaBench 1.0，首次定义了生活场景下智能体任务的复杂度，美团 Longcat 团队再次推出 VitaBench 2.0，它不再仅仅关注任务有多难，而是将目光投向了更深层次的挑战。

VitaBench 2.0 是首个真实生活场景下面向长期动态用户建模的智能体评测基准，它系统性地评测大语言模型在长期、真实、动态的用户互动中个性化与主动性的能力。

VitaBench 2.0 的核心“硬核”看点：

高难度业界首创：首次将智能体场景与丰富用户生态相结合，打造面向长期动态用户建模的智能体基准。其包含56名真实特征用户、819个复杂任务、超2000个动态偏好及66个可执行工具。
超长跨度动态追踪：平均每位用户包含 2093 个交互事件，平均时间跨度长达 1580 天，严格按时间线向 Agent 暴露，真实还原用户偏好的演进与漂移。
统一评测生态：针对长文本上下文学习（In-context learning）与智能体记忆策略（Memory Strategy）的统一评测平台。

01 设计原理：VitaBench 2.0的三维解构

能得出这些结论，得益于VitaBench 2.0的核心设计。它不再是简单的问答，而是围绕三大创新构建了一个前所未有的评测体系。

1.1 搭建“人生副本”：让AI在真实用户轨迹中接受考验

不同于一次性的问答，VitaBench 2.0为56位虚拟用户，在送餐、到店、差旅等多个真实领域中，构建了包含2000多种动态偏好、跨度长达数年的生活轨迹。

这背后是庞大而真实的数据支撑。如下图所示，这些图表直观地展示了我们构建的用户画像和偏好分布的真实性与复杂性。

具体来说，这个数据生态包含：

56个拟真用户，每个用户都拥有基于真实世界统计数据构建的独特身份、习惯和需求。
819个可执行任务，贯穿于用户的整个生命周期。
用户的偏好不是静态标签，而是会随着时间、事件而动态演变，平均每个用户的偏好会发生超过48次动态变化。

这些偏好被巧妙地嵌入到碎片化的互动历史中，包括对话记录和行为日志（如浏览、搜索、下单）。智能体必须像侦探一样，从这些混杂着“信号”与“噪音”的线索中，持续对用户进行理解。

1.2 引入“时间标尺”：将持续理解作为核心目标

传统的Agent评测关注“单个任务是否完成”，而VitaBench 2.0的核心目标是评测智能体是否在持续理解一个动态的人。

为此，我们将评测的时间轴拉长到了前所未有的尺度，用户的平均交互周期长达1580天（约4.3年），最长甚至达到 2,974 天。在这漫长的时间线里，智能体需要不断地提取、利用、并更新对用户的理解，才能在后续的任务中做出正确决策。这从根本上改变了评测的焦点，从单次任务的成功，转向了对用户偏好的考核。

1.3 设立“记忆擂台”：对决AI的两种记忆模式

为了探究记忆在长期用户建模中的作用，VitaBench 2.0搭建了首个真实用户场景下的统一长期智能体评测平台，通过可扩展的接口，让两种代表性机制在此对决：

智能体记忆： AI自己决定记住什么、忘记什么，主动维护一个精炼的用户档案。
RAG记忆：像一个外部搜索引擎，根据当前任务检索最相关的历史片段。

通过对比这两种模式，我们可以清晰地看到不同记忆架构，以及同架构下的不同设计对个性化决策的真实影响，从而回答“AI应该如何记忆”这一关键问题。同时，为了考验AI的“眼力劲”，我们还设计了主动性任务。在这些任务中，AI必须意识到信息不足并主动提问，而不是盲目决策。

02 核心洞察：用数据看清模型的短板

VitaBench 2.0不仅给出了总分，更用数据揭示了模型们犯错的具体原因。如表1所示，这是主要模型在不同记忆设置下的性能排行榜。

从排行榜（表1）可以看出，即使在能看到全部历史记录的“开卷”模式下，最强的模型Claude-Opus-4.6的平均分也刚过0.5，说明从海量信息中准确提炼偏好本身就比较困难。而一旦切换到更真实的记忆模式，模型的表现出现了不同程度的下滑。

洞察一：时间越长，AI忘得越快

如下图所示，随着任务序列索引增加（即时间推移），所有模型的平均性能都在下降。这说明，无论是处理超长上下文的能力，还是记忆模块的累积误差，都严重限制了AI的长期服务能力。

更关键的是，记忆并没有成为解药。对比实验结果发现，大部分模型在接入Agentic Memory或RAG Memory后，性能反而低于直接使用全历史记录的场景——记忆不是装上就好，如何正确更新、检索和利用，才是真正的挑战。

洞察二：高“智商”不等于高“情商”

一个常见的假设是，开启模型的“思考模式”能提升其表现。然而，VitaBench 2.0 的实验结果给出了相反的答案：开启思考模式，在个性化任务上并不总是有帮助。

下图展示了模型在开启/关闭思考模式下的性能与效率关系。横轴是完成任务所需的交互轮数（越少越好），纵轴是平均性能（越高越好），理想的模型应位于左上角。可以看到，开启思考模式的点并没有稳定地比关闭模式更优越。

洞察三：AI普遍缺乏“主动沟通”的意愿

模型普遍缺乏在信息不足时主动提问的“眼力见”。所有模型家族在需要主动提问的任务上，得分都出现了“断崖式”下跌。例如，Claude家族的平均分从46.0骤降至27.4。这表明，AI倾向于“想当然”，而不是在不确定时“多问一句”。

洞察四：就算“喂到嘴边”，AI也未必会吃

为了分离“提取偏好”和“利用偏好”这两个难题，我们直接把真实用户偏好告诉模型。虽然性能有所提升，但仍有很大进度空间。即便把真实偏好直接告诉模型，多数模型仍然失败。这说明，即使拥有了准确的用户画像，在高压、多约束的决策中正确应用这些偏好，本身就是一个巨大的挑战。

洞察五：从“工具失误”到“情商不足”的瓶颈转移

我们对模型的失败原因进行了分类统计。在由66个真实工具构成的复杂生活服务场景中，早期模型更多地犯下工具使用错误（A类），例如选错API或填错参数。而更强的模型（如DeepSeek-V4-Pro）虽然工具用得更好了，但在偏好理解和应用（B类）上的失败却成了主要矛盾。这表明随着模型基础能力的提升，个性化已是当前 Agent 的最大瓶颈。

03 总结：定义下一代智能体评测范式

VitaBench 2.0清晰地揭示了，当前AI在成为“高情商助理”的路上，依然任重道远。

它的核心价值，在于推动了评测范式的演进：从单点任务到长期陪伴，从被动执行到主动沟通，从黑盒到透明。这使得VitaBench 2.0成为一座连接技术与产品的“桥梁”，它用可量化的数据回答了“我的AI为什么不够好用”的问题，并为开发者指明了模型在“服务于人”这一终极目标上的具体短板。

我们希望，VitaBench 2.0能成为一个起点，激发更多研究关注智能体的个性化、记忆和主动性，共同推动AI从一个强大的“工具”进化为一个有温度的“伙伴”。

VitaBench 2.0 已全面开源，欢迎各大模型前来接受“情商”大考。

开源地址

项目主页： https://vitabench2.github.io/
论文链接： https://arxiv.org/abs/2605.27141
GitHub： https://github.com/meituan-longcat/vitabench-2.0
HuggingFace：https://huggingface.co/datasets/meituan-longcat/VitaBench-2.0

美团技术团队顶会论文分享：搜索推荐ASX专场

美团业务研发平台/搜推 ASX (Agentic System X)团队聚焦构建大模型为基础的 Agent 技术体系，在大模型后训练、Agentic 强化学习以及多模态理解等核心前沿方向持续深耕，已在 ICLR、NeurIPS、CVPR、AAAI 等 AI 领域的国际顶会发表数十篇高质量研究成果。本文精选了6篇进行解读，希望对大家有所帮助或启发。

01 Contextual Rollout Bandits for Reinforcement Learning with Verifiable Rewards

上下文轨迹老虎机：面向可验证奖励的强化学习

论文下载：PDF

论文简介：现有基于规则奖励的强化学习后训练通常直接使用最近一轮 rollout 进行策略优化，其中，低质量样本会引入噪声，高质量样本又常在单次使用后被丢弃，导致训练不稳定、样本利用不足。本文提出在线样本调度算法 CBS，将样本选择建模为上下文多臂老虎机问题，把每个候选样本视为 arm，并以训练后带来的性能增益作为奖励；通过轻量神经网络预测样本价值，并结合在线反馈动态调度。实验表明，CBS 可与多种策略优化方法结合，在 6 个数学推理数据集上稳定提升性能和训练效率。

02 ResRL: Boosting LLM Reasoning via Negative Sample Projection Residual Reinforcement Learning

ResRL：通过负样本投影残差强化学习提升大语言模型推理能力

论文下载：PDF

论文简介：本文提出 ResRL，一个负样本强化学习的新算法，旨在解决RLVR 提升LLM推理能力却损伤了输出多样性的问题。我们发现根因是惩罚负样本时误伤了正负样本共享的有效语义。ResRL 用 SVD 正确子空间 +投影残差，让惩罚只打在“真正的错误方向”上--数学超 NSR 9.4%、代码刷新 CodeForces SOTA、ALFWorld 超 PPO 7.8%，且 Pass@1 与 Pass@k 兼得。

03 CDRRM: Contrast-Driven Rubric Generation for Reliable and Interpretable Reward Modeling

CDRRM：对比驱动的评分准则生成以实现可靠且可解释的奖励建模

论文下载：PDF

论文简介：本文提出 CDRRM，一个对比驱动的评分准则生成与奖励建模框架，旨在提升LLM对齐中奖励模型的可靠性、可解释性与数据效率。传统奖励模型是“黑箱”且依赖昂贵标注；现有准则方法存在冗余与偏见。CDRRM采用“对比-聚合”流程：先对比好/差回答定位关键差异，再聚合为简洁的任务相关准则，指导评判模型。实验表明，CDRRM在三个基准上达最先进水平，缓解话痨、位置等偏见，且仅用3千样本让未微调模型超越全量微调基线，兼具高效与可解释性。

04 LocalSearchBench: Benchmarking Agentic Search in Real-World Local Life Services

LocalSearchBench:真实本地生活服务中的智能体搜索基准评测

论文下载：PDF

论文简介：本文针对本地生活服务领域智能体搜索的研究空白，构建LocalSearchBench评测基准。该基准涵盖国内 9 座城市、6 大服务品类，包含超 134 万商户数据与 900 道用户多跳问答任务，同时配套交互环境 LocalPlayground 与商户检索工具 LocalRAG。实验测评 16 款主流大语言推理模型后发现,当前模型在此类任务表现不佳，最优模型 DeepSeek-V3.2 答题正确率仅 35.60%，普遍存在信息完整性、可信度不足等问题。研究还剖析了模型工具调用、多跳推理等典型缺陷，为本地生活服务场景下智能体搜索的模型训练和基准测试提供了重要支撑。

05 DiningBench: A Hierarchical Multi-view Benchmark for Perception and Reasoning in the Dietary Domain

DiningBench：饮食领域感知与推理的层次化多视角基准

论文下载：PDF

论文简介：本论文提出 DiningBench，一个面向饮食领域的层次化多视角 VLM 评测基准，旨在弥补现有数据集任务单一、视角有限和营养标注不足的问题。该基准包含细粒度分类、营养估计和视觉问答三类任务，覆盖 3,021 道菜品和多视角图像。通过评测 29 个主流VLM模型，揭示现有模型在细粒度识别、营养推理和多视角融合上的不足。

06 Mem²Evolve: Towards Self-Evolving Agents via Co-Evolutionary Capability Expansion and Experience Distillation

Mem2Evolve：通过协同进化能力扩展与经验蒸馏实现自进化智能体

论文下载：PDF

论文简介：本文提出 Mem2Evolve，一个面向大语言模型智能体的自进化框架，通过 Asset Memory 与 Experience Memory 双记忆机制，协同实现能力扩展与经验积累。该框架可在任务执行中动态复用或创建工具与专家智能体，并从成功和失败轨迹中蒸馏可迁移经验。实验覆盖 6 类任务、8 个基准，结果表明 Mem2Evolve 显著优于普通 LLM 及单一进化策略，展现出更强的持续学习与任务泛化能力。

Meituan Tech | 美团技术团队修改