MoreRSS

site icon机器之心修改

中文人工智能垂直媒体。由kindle4rss生成。
请复制 RSS 到你的阅读器,或快速订阅到 :

Inoreader Feedly Follow Feedbin Local Reader

机器之心的 RSS 预览

刚刚,杨植麟亲自开源Kimi K2.5!国产大模型打架的一天

2026-01-27 17:44:00

图片
编辑 | Panda、泽南


今天真是国产大模型打架的一天!昨晚千问上新模型,今天 DeepSeek 开源 OCR 2。


中午,Kimi 也开卷,网站、App、API 开放平台和编程助手产品 Kimi Code 模型版本全面更新,Kimi K2.5 来了。


月之暗面创始人杨植麟还首次出镜,向大家分享了新模型的能力。



Kimi K2.5 是一个拥有 1 万亿参数(1 trillion)的 MoE 基础模型。相较前代,K2.5 的视觉理解能力大幅增强(可以处理视频了),Coding 能力也有了明显提升,更重要的是,K2.5 依然开源。


Kimi K2.5 在包括 HLE、BrowseComp 和 DeepSearchQA 等极具挑战性的 agent 评测上取得了当前最佳表现(SOTA),比如 HLE(人类最后考试)上拿到 50.2%,BrowseComp 拿到了 74.9%。


同时,K2.5 的编程能力也非常突出,它在 SWE-bench Verified 上拿到了 76.8 %,缩小了与顶尖闭源模型之间的差距,K2.5 在多项视觉理解评测上也实现了当前开源最佳效果。



可以看到,在核心基准测试上,Kimi K2.5 的成绩与 Opus 4.5、GPT 5.2 XHigh 和 Gemini 3.0 Pro 等当前最强大闭源模型基本相当,部分评分还能超出。


值得一提的是,Kimi K2.5 在多项评测中优于 GPT-5.2-xhigh 的同时,运行成本只有 GPT-5.2-xhigh 的几分之一。



有了两个月前 K2 Thinking 的热度打底,这回 K2.5 的发布可谓热闹空前。在社交网络上,人们纷纷试用新模型并分享效果。



有网友表示,这才是中国大模型(没有定语)最优秀的水准,现在压力留给 DeepSeek R2 了。



截图即代码:Coding 也有了「审美」


需要注意到的是:Kimi K2.5 是一个全能模型,不管是视觉还是文本,对话还是 agent,思考还是非思考 —— 所有这些能力,全都集中在一个模型里(all in one,Unified model)。


既然是视觉能力提升 + 代码能力增强,Kimi 模型现在就主打一个图像转代码 —— 不仅不需要写代码,连提示词工程也省了,画一个设计稿交给 AI 就能得到你想要的代码。


有时候你想修改界面,光靠文字描述说不清楚,现在也只需要给 AI 一张图就可以了。你可以在 UI 上圈出你想改的地方,剩下的交给 AI 来完成就行。


如果在别的工具里设计好了动画效果,你也可以录屏成一段视频给 Kimi 看,它就会自动理解并写成代码复现出来。



该说不说,确实有了一点指挥手下干活的意思。


在加入了视觉能力之后,Kimi K 2.5 不仅有很会写代码,还具备了一定的「设计审美」—— 其结合了一定的视觉能力,能像专业设计师出品一样,构建出高级审美和动效的网页。



让大模型有更好的「品味」,这就不得不让人想到两个多星期前,月之暗面创始人杨植麟在 AGI-Next 前沿峰会上的演讲。他曾提到,做模型的过程本质上是在创造一种世界观,让 AI 有更好的 taste,是 Kimi 目前发展的重点。


除了前端设计,Kimi 现在也深入软件工程领域,基于 Kimi K2.5 的 Kimi Code 今天正式发布,它能在终端里运行,并无缝集成到 VSCode、Cursor、Zed 等 IDE 中。在使用过程中,Kimi Code 支持人们输入图片和视频,它还能自动发现并把你现有的技能和 MCP 迁移到 Kimi Code 的工作环境中。



杨植麟给出方向才两个星期,我们就可以体验基于新路线的 AI 了。


自带 Agent「项目组」


为了解决真实世界中的复杂难题,Kimi K2.5 引入了「Agent Swarm(Agent 集群)」功能,目前在 Kimi.com 上处于测试阶段,高级付费用户可获得免费额度。


在处理复杂任务时,K2.5 不再是单线程执行任务,而是以指挥者的身份现场调度并协同最多达 100 个 Agent 分身并行工作,最多支持 1500 次工具调用,速度比单智能体的配置还要快 4.5 倍。


现在,大模型经过了并行智能体强化学习 (PARL) 训练,智能体集群是由 Kimi K2.5 自动创建和编排的,无需任何预定义。



PARL 使用可训练的协调器代理将任务分解为可并行化的子任务,每个子任务由动态实例化的冻结子代理执行。与顺序执行代理相比,并发运行这些子任务可显著降低端到端延迟。


由于独立运行的子智能体提供的反馈存在延迟、稀疏和非平稳性,训练一个可靠的并行编排器极具挑战性。常见的故障模式是串行崩溃,即编排器尽管具备并行能力,却默认执行单智能体任务。为了解决这个问题,PARL 采用了分阶段奖励塑造策略,在训练初期鼓励并行性,并逐步将重点转移到任务成功上。


这种并行处理能力将原本需要数天完成的工作压缩至十几分钟。


Agent 集群的规模化训练是个相当有挑战的问题。月之暗面表示他们为此重构了强化学习基建,并专门优化了训练算法,以确保能达到极致的效率和性能。



在 Kimi 给出的例子中,给 Kimi Agent 集群投喂 40 篇关于心理学和 AI 的论文,agent 能按顺序把论文通读一遍,接着衍生出几个子 agent,分别撰写报告的不同章节。最后由主 agent 负责验收,所有内容汇总生成了一份几十页的专业 PDF 综述。


Kimi K2.5 还将智能体引入到了现实世界的知识工作中。


K2.5 Agent 可以端到端地处理高密度、大规模的办公工作。它可以处理大量高密度的输入,协调多步骤工具的使用,并通过对话直接提供专家级的输出,覆盖文档、电子表格、PDF 和幻灯格式。


在 Kimi K2.5 时代,我们可以让智能体完成一些高级的任务,如在 Word 中添加注释,使用透视表构建金融模型,在 PDF 中编写 LaTeX 公式;智能体的输出能力达到了前所未有的长,可以输出一万字的论文或 100 页的文档。


一手实测:从猜谜到「手搓」3D 公寓


打开官网,可以看到 Kimi 模型已经全系列更新,我们还能看到处于 Beta 测试中的 K2.5 Agent 集群。


Kimi-K2.5 系列模型名称中英对照版。


下面我们就来逐个测试一番这些新模型。


首先上场的是 K2.5 Instant,它面对的任务也最简单 —— 一个加密小游戏:请用一段看似是「深夜电台点歌词」的文字,秘密藏入关于「明天下午三点撤离」的信息。要求读起来必须像纯粹的文学,毫无违和感。



Kimi K2.5 小试牛刀,轻轻松松一秒完成任务。


接下来该上难度了。下面我们将 Kimi K2.5 切换至思考模式,测试一下其多模态推理能力。


这里我们找到了西班牙室内设计师 Iñaki Aliste Lizarralde 手绘的一张《生活大爆炸》谢尔顿公寓的平面图,先来一个基本考验,看看它能否正确识别这张图的背景:



效果非常好!Kimi K2.5 根据图上标注进行了正确识别,并说明了相关背景。接下来我们看看 K2.5 能否正确理解这张图暗含的空间结果,并将其重构成 3D 版本。


4 倍速视频。


生成时长两分半,K2.5 最终得到了如下所示的结果:



效果很不错了,但也看得出来这个 3D 图仅给出了大致轮廓,缺少了沙发、桌椅、床等许多细节,另外这份 3D 图中的所有房间都是方形的,与参考图也差别很大。同时,继续让 K2.5 Thinking 生成却又遭遇了代码长度限制(10000 字符)。但没有关系,那就让 K2.5 Agent 登场吧。


这一次,由于我们重点强调了细节,因此分析和处理时长也是大大增加(近 20 分钟),代码量自然也大增(1042 行)。执行过程中,我们可以看到 Kimi 智能体的任务规划和逐步执行。不仅如此,智能体还将得到的结果进行了部署,让我们可以轻松访问:https://ijohefkudygve.beta-ok.kimi.link/


10 倍速视频。


最终,得到的结果虽还算不上完美,但也没让我们失望,它不仅大体准确地还原了生活大爆炸的两个主要公寓的细节,还额外提供了线框模式与顶盖开源:



接下来,让我们重点来看看正处于 Beta 测试中的 K2.5 Agent Swarm。在该模式下,我们可以让多个智能体同时处理你的任务。这里,我们构想了一个相当科幻的任务:


请为一种「生活在深海、通过皮肤发光交流」的智慧生物开发一套基础词汇表。要求包含语法结构、200 个基础词条、以及 3 篇该物种的创世神话。要求集群保证所有自造词汇在语音学和语义学上具有高度的内在逻辑一致性。


可以看到,任务一开始,Kimi 创建了四个不同的智能体:语音学设计师宁一、语法结构师少年伽利略、词汇设计师靖川和神话创作者黎教授。



而在第一阶段的设计工作中,语音学和语法结构可以并行进行,因此我们能看到宁一和少年伽利略一起开工干活,构建了这门新语言的基础。


之后,该创建词汇了。这时候 Kimi 根据需求又新增了一些并行运行的智能体,让它们分别就不同主题创建词汇。



整个过程耗时 38 分钟,我们也见证了一门新语言「流明语」的诞生。这门语言以不同形式的光为音素,并且具备独特的并行从句语法和空间格系统。不仅如此,Kimi 还非常贴心地设计了一套罗马化转写系统。


20 倍速视频。



最后,我们来测试一下 Kimi Code。Kimi Code 提供两种使用方式,一种是简单一句指令 uv tool install --python 3.13 kimi-cli 安装 Kimi CLI,另一种方式将其配置到 Claude Code 等第三方工具中。


下面我们就通过官方的 Kimi CLI 简单测试一下 Kimi Code。安装配置好以后,我们先让 Kimi Code 创建一个黄金价格监控器:


创建一个黄金与白银价格的监控器,当 24 小时内的价格波动超过 1% 时,给我发送通知。


4 倍速视频。


可以看到,整个执行过程耗时仅 4 分钟左右,但第一轮交互之后,得到的结果只是一个需要自行配置 API 的程序和一个演示 demo 程序。尽管如此,效果也是相当令人满意的。



有意思的是,在这个过程中我们还见证了 Kimi Code 遭遇错误并自动解决问题的强大能力。



当然,目前的这个程序虽然可用,但需要自己去配置 API,这当然是有些麻烦的,而有 Kimi Code 的我们自然可以轻松避免这些麻烦,直接一句指令就能让其进一步执行,直接配置一个免费的 API。


4 倍速视频。


很快,Kimi Code 就完成了任务,运行看看效果:



可以看到,此时的金银价格已经正确反映了实时价格。当然我们也还可以让 Kimi Code 进一步执行,比如显示价格改成以人民币 / 克计价、将这个 Python 程序打包成一个 .exe、配置提醒音乐和弹窗、实现任务栏实时显示等等。


但正如其它类似工具一样,Kimi Code 同样并非编程专属工具,借助它搭配合适的配置,我们也能让其成为工作中的强大助力。比如我们可以使用 Kimi Code 轻松实现文件批处理。举个例子,对于我们的每日选题 docx 文档,我们可以让 Kimi Code 基于 obsidian-skills 将它们批量处理成兼容 Obsidian 的格式并打好合适的标签。


基于 obsidian-skills 将这些每日选题总结文档处理成兼容 Obsidian 的 Markdown 格式并打好合适的标签。


4 倍速视频。


可以看到,Kimi Code 不到两分钟就完成了对所有 94 个文件的正确处理,上下文占用量也仅仅刚超过 10%。在此过程中,也能注意到 Kimi Code 确实正确调用了 obsidian-skills,得到的结果也非常让人满意:yaml、callout 等的处理都非常正确。



整体体验下来,我们认为 Kimi 2.5 在智能体能力上已经足以比肩前沿模型,尤其是其智能体集群模式在解决复杂任务上的表现更是亮眼。


结语


中国的开源模型正在逐渐成为新的标准,并成为规则的制定者。Kimi K2.5 的发布,又给全球开源大模型树立了新的标杆。


与此同时,基于 K2.5 视觉、智能体能力的发展,AI 解锁了更多在真实世界中解决复杂问题的能力。


现在 AI 在写代码时有了审美,上百个智能体能够协同工作,我们距离 AGI 又近了一步。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]


文章原文

ICLR 2026 放榜了!28%接收率,欢迎投稿机器之心

2026-01-27 17:44:00

图片
机器之心编辑部


昨晚深夜,ICLR 2026 官方正式向投稿者发送了今年的论文接收结果通知。


作为机器学习领域的顶级会议, ICLR 2026 将于 2026 年 4 月 23 日至 27 日在巴西里约热内卢举行。官方今年收到了有效投稿约 19000 篇,总录取率约为 28%,该录取率涵盖了所有经过同行评审的完整论文投稿,无论其是否撤稿。


网友晒出成绩单


录用通知一出来,网友们也坐不住了。社交平台上,很快被各种成绩单刷屏:



有的研究者不止一篇被录取:



甚至还有实验室在这一届一口气拿下 8 篇论文。截图一放出来,评论区立刻炸开了锅,清一色的都是羡慕与感叹。



被拒稿,可能不是论文的问题


今年的 ICLR 可以说是「史上最乱」的一届,先是第三方机构对审稿意见的系统性统计发现,其中有 21% 完全由 AI 生成;后有 OpenReview 评审大开盒,波及到了 ICLR 2026 超过 10000 篇投稿;接着 AI 生成内容检测平台 GPTZero 扫描了 300 篇投稿论文,发现其中有 50 篇在论文引用上至少包含一处明显的幻觉内容。


然而,这场闹剧并未结束。


研究者 Eldar Kurtić 公开展示了一段离谱的审稿意见:一名审稿人在反馈意见中表示该论文「缺少与 FlexPrune 的具体比较」。不过 Kurtić 调查发现,似乎并不存在名为 FlexPrune 的主流基准方法。



更离谱的是,领域主席在随后的裁定中,直接采信了这一错误意见,并将其定性为论文的「致命缺陷」,最终以此为由做出拒稿决定。


该贴发布后迅速走红,目前已获得数万次浏览及大量研究者的共鸣,矛头直指 LLM 在同行评审中的滥用。




不少学者质疑,该审稿意见极有可能是通过 GPT 或 Grok 等 AI 工具自动生成的。由于 AI 存在「幻觉」特性,容易编造看似专业实则虚假的方法名。而 Meta-Reviewer 的疏忽,导致这种错误未能被纠正,反而成为了拒稿的定论。


这位网友则表示,在评分分别为 8 / 6 / 6 / 6、且评审意见整体偏正面的情况下,论文仍被拒稿。最让人难以接受的并不是拒稿本身,而是 Meta-Review 给出的理由。AC 无视了所有评审的一致支持,额外提出了两个新的质疑(而且这些质疑本身还存在事实性错误),并声称:所有评审意见都较为表面(尽管勉强高于评审的最低要求门槛)。



不管怎样,拒稿并不等于否定你的研究价值,很多经典论文也曾遭遇过拒稿。


最后,也欢迎被录取的作者投稿机器之心,让更多人看到你们的研究。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]


文章原文

刚刚,DeepSeek又探索新架构了,开源OCR 2

2026-01-27 14:00:00

机器之心编辑部

嘿!刚刚,DeepSeek 又更新了!


这次是更新了十月份推出的 DeepSeek-OCR 模型(参见:太强了!DeepSeek 刚刚开源新模型,用视觉方式压缩一切)。


当时 DeepSeek-OCR 的出世,引起了大家对视觉压缩的关注与讨论,而这一次,DeepSeek 对视觉编码下手了。


可以说,刚刚发布的 DeepSeek-OCR 2 通过引入 DeepEncoder V2 架构,实现了视觉编码从「固定扫描」向「语义推理」的范式转变!


当然,和 DeepSeek 几乎每次发布一样,这一次同样也是模型和技术报告齐开源。



  • 项目地址:https://github.com/deepseek-ai/DeepSeek-OCR-2

  • 论文地址:https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf

  • 模型地址:https://huggingface.co/deepseek-ai/DeepSeek-OCR-2


这项研究的三位作者分别是魏浩然、孙耀峰、李宇琨。


具体来说,该研究的核心创新在于将原本基于 CLIP 的编码器替换为轻量级语言模型(Qwen2-500M),并引入了具有因果注意力机制的「因果流查询」


这种设计打破了传统模型必须按从左到右、从上到下的栅格顺序处理图像的限制,赋予了编码器根据图像语义动态重排视觉 Token 的能力。通过这种两级级联的 1D 因果推理结构(编码器重排与译码器解析),模型能够更精准地还原复杂文档(如带表格、公式和多栏布局)的自然阅读逻辑。


这就像是为机器装上了「人类的阅读逻辑」,让 AI 不再只是生搬硬套地扫描图像。对比之下,传统的 AI 就像一个死板的复印机,不管页面内容多复杂,都只能从左上角到右下角按行扫描。


在维持极高数据压缩效率的同时,DeepSeek-OCR 2 在多项基准测试和生产指标上均取得了显著突破。模型仅需 256 到 1120 个视觉 Token 即可覆盖复杂的文档页面,这在同类模型中处于极低水平,显著降低了下游 LLM 的计算开销。


在 OmniDocBench v1.5 评测中,其综合得分达到 91.09%,较前代提升了 3.73%,特别是在阅读顺序识别方面表现出了更强的逻辑性。


此外,在实际生产环境中,该模型显著降低了 OCR 识别结果的重复率,并为未来构建统一的 omni-modal(全模态)编码器提供了可行路径。是的,未来同一个 AI「大脑」或许能用同样的方法去处理声音、视频等所有模态的数据,真正实现多模态的深度统一。


DeepSeek-OCR 2 架构


如图 3 所示,DeepSeek-OCR 2 延续了 DeepSeek-OCR 的整体架构,由编码器(encoder) 和解码器(decoder) 组成。编码器负责将图像离散化为视觉 token,而解码器则在这些视觉 token 与文本提示(text prompts)的条件约束下生成输出。



两者的关键区别在于编码器部分:DeepSeek 将原有的 DeepEncoder 升级为 DeepEncoder V2。在完整保留前代能力的基础上,DeepEncoder V2 通过一种全新的架构设计,引入了因果推理能力(causal reasoning)


DeepEncoder V2


DeepEncoder V2 的第一个组成部分是视觉分词器(vision tokenizer)。延续了 DeepEncoder 的设计,DeepSeek 采用了一种由参数规模为 8000 万的 SAM-base 与两层卷积层组成的架构。相比 DeepEncoder,DeepSeek 将最终卷积层的输出维度从 1024 降至 896,以与后续处理流程保持一致。


在 DeepEncoder 中,视觉分词器之后接入的是一个 CLIP ViT,用于进一步压缩和建模视觉语义。DeepEncoder V2 对这一组件进行了重新设计,将其改造为一种类 LLM 的架构,并引入了双流注意力机制(dual-stream attention)。


其中,视觉 token 采用双向注意力,以保留 CLIP 所具备的全局建模能力;而新引入的因果流查询(causal flow queries) 则使用因果注意力。这些可学习的查询 token 被作为后缀追加在视觉 token 之后,每个查询都可以关注所有视觉 token 以及其之前的查询 token。通过保持查询 token 与视觉 token 数量一致,该设计在不改变 token 总数的前提下,对视觉特征施加语义上的排序与蒸馏约束。最终,只有因果查询 token 的输出会被送入 LLM 解码器。


从整体上看,该架构实际上构建了一种两阶段级联的因果推理机制:首先,编码器通过可学习查询对视觉 token 进行语义重排;随后,LLM 解码器在这一有序序列之上执行自回归推理。与依赖位置编码施加刚性空间顺序的传统编码器不同,这种因果排序查询能够更自然地贴合连续的视觉语义,并与 LLM 的单向注意力模式高度一致。该设计有望在二维空间结构与一维因果语言建模之间搭建起一座桥梁。



为更直观地展示 DeepEncoder V2 的注意力机制,图 5 对其注意力掩码进行了可视化。该注意力掩码由两个相互区分的区域组成。


左侧区域对原始视觉 token 采用双向注意力机制(类似于 ViT),使任意 token 都可以与其他所有 token 建立可见性,从而实现完整的全局建模;右侧区域则针对因果流 token 使用因果注意力(三角形掩码,与纯解码器 LLM 完全一致),其中每个 token 只能关注其之前的 token。



DeepSeek-MoE Decoder


由于 DeepSeek-OCR 2 的改进重点主要集中在编码器 上,并未对解码器部分进行升级。遵循这一设计原则,模型继续沿用 DeepSeek-OCR 的解码器 —— 一个参数规模为 30 亿的 MoE 结构,其中约 5 亿参数在推理时处于激活状态。


训练数据与训练流程


在数据层面,DeepSeek-OCR 2 沿用了与 DeepSeek-OCR 相同的数据源,由 OCR 1.0、OCR 2.0 以及通用视觉数据组成,其中 OCR 数据占混合训练数据的 80%。同时引入了以下两项改进:


  • 针对 OCR 1.0 数据采用了更均衡的采样策略,并按内容类型(正文、公式和表格)以 3:1:1 的比例对页面进行划分;

  • 通过合并语义相似的类别(例如统一「插图说明」和「插图标题」)来优化布局检测的标签。


在训练阶段,DeepSeek-OCR 2 主要分为三个阶段来完成:(1)编码器预训练;(2)查询增强;(3)解码器专门化


其中第一阶段使视觉分词器(tokenizer)和 LLM 风格的编码器获得特征提取、token 压缩和 token 重排的基础能力。第二阶段进一步加强编码器的 token 重排能力,同时增强了视觉知识的压缩。第三阶段冻结编码器参数,仅优化解码器,从而在相同的 FLOPs 下实现更高的数据吞吐量。


接着来看细节。


首先是训练 DeepEncoder V2。遵循 DeepSeek-OCR 和 Vary 的方法,使用语言建模目标来训练 DeepEncoder V2,将编码器与轻量级解码器耦合,通过预测下一个 token 进行联合优化。采用了 768×768 和 1024×1024 两种分辨率的数据加载器。视觉分词器初始化自 DeepEncoder,LLM 风格的编码器则初始化自 Qwen2-0.5B-base。预训练完成后,仅保留编码器参数用于后续阶段。


本阶段使用 AdamW 优化器,学习率采用余弦退火,从 1e-4 降至 1e-6,在 160 台 A100 GPU(20 个节点 × 8 台 GPU)上以 640 的批大小训练 40k 次迭代(采用长度为 8K 的序列打包,约包含 1 亿个图文对样本)。


其次是查询增强。在 DeepEncoder V2 预训练之后,将其与 DeepSeek-3B-A500M 整合为最终的流水线。冻结视觉分词器(SAM-conv 结构),并联合优化 LLM 编码器和 LLM 解码器以增强查询表示。本阶段通过多裁剪策略将两种分辨率统一到单个数据加载器中。此外采用 4 阶段流水线并行:视觉分词器(PP0)、LLM 风格编码器(PP1)以及 DeepSeek-LLM 层(PP2-3 每阶段 6 层)。


本阶段利用 160 台 GPU(每台 40GB 显存),配置了 40 个数据并行副本(每个副本 4 台 GPU),过程中使用相同的优化器,以 1280 的全局批大小进行训练,学习率在 15k 次迭代中从 5e-5 退火至 1e-6。


最后是 LLM 持续训练。为了快速消耗训练数据,本阶段冻结 DeepEncoder V2 的所有参数,仅更新 DeepSeek-LLM 的参数。本阶段加速了训练(在相同全局批大小下,训练速度提升了一倍多),同时有助于 LLM 更好地理解 DeepEncoder V2 重排后的视觉 token。


承接第二阶段,本阶段进行了另一次学习率退火,从 1e-6 降至 5e-8,共训练 20k 次迭代。


评估结果


团队选用 OmniDocBench v1.5 作为主要评测基准,该基准包含 1355 页文档,覆盖中英文两种语言的 9 大主要类别,包括杂志、学术论文、研究报告等。凭借其多样化的测试样本与严格的评测标准,OmniDocBench 为验证 DeepSeek-OCR 2 的整体性能,尤其是 DeepEncoder V2 的有效性,提供了一个可靠有效的平台。


如表 1 所示,在使用最小视觉 token 上限()的情况下,DeepSeek-OCR 2 仍取得了 91.09% 的领先性能。与 DeepSeek-OCR 基线模型相比,在采用相似训练数据来源的前提下,其性能提升了 3.73%,验证了新设计架构的有效性。



此外,除了整体性能提升,阅读顺序(R-order)指标上的编辑距离(Edit Distance,ED)也显著下降,从 0.085 降至 0.057。这表明,新的 DeepEncoder V2 能够根据图像信息更有效地选择并排列初始视觉 token。


进一步如表 2 所示,在相同的视觉 token 预算(1120)条件下,DeepSeek-OCR 2 在文档解析任务中的 ED(0.100)低于 Gemini-3 Pro(0.115)。这进一步证明了新模型在保持高视觉 token 压缩率的同时,仍能确保更优的性能,并展现出极高的潜力。



改进空间


团队在 9 种文档类型上,对 DeepSeek-OCR 与 DeepSeek-OCR 2 进行了细致的性能对比,结果表明:DeepSeek-OCR 2 仍具有较大的提升空间,如表 3 所示。在文本识别的编辑距离(ED)指标上,DeepSeek-OCR 2 在大多数场景中优于 DeepSeek-OCR,但在某些类型上仍存在明显不足,例如报纸类文档,其 ED 超过 0.13。



团队认为主要原因有两点:


  • 视觉 token 上限较低,可能影响了文本极为密集的报纸类文档识别效果,这一问题可在未来通过增加局部裁剪(local crops)的数量来缓解;

  • 报纸类数据不足 —— 当前训练集中仅包含约 25 万条相关样本,这对于训练 DeepEncoder V2 来说仍然不够充分。


当然,在阅读顺序(R-order)这一指标上,DeepSeek-OCR 2 在所有类别中始终优于 DeepSeek-OCR,这进一步验证了所提出的「视觉因果流」编码器设计的有效性。


实际应用


DeepSeek-OCR 主要面向两类生产场景:一是为 DeepSeek-LLM 提供图像 / 文档读取能力的在线 OCR 服务,二是用于批量 PDF 处理的预训练数据流水线。在比较了 DeepSeek-OCR 2 与 DeepSeek-OCR 在真实生产环境中的表现后发现,由于生产环境中无法获得标准答案,因此团队主要采用「重复率」作为核心质量指标。


如表 4 所示,相比前代模型,DeepSeek-OCR 2 在实际可用性方面有了显著提升:在在线用户日志图像中,重复率从 6.25% 降至 4.17%;在 PDF 数据生产场景中,重复率从 3.69% 降至 2.88%。



这些结果进一步验证了 DeepSeek-OCR 2 架构的有效性,尤其体现了其在逻辑性视觉理解方面的优势。


更多详情信息,可阅读原文获取!


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]


文章原文

高效智能体的「幕后推手」是谁?一篇综述带你从记忆×工具学习×规划看透

2026-01-27 14:00:00


随着大模型能力的跃迁,业界关注点正在从 “模型能不能做” 快速转向 “智能体能不能落地”。过去一年可以看到大量工作在提升智能体的有效性(effectiveness):如何让它更聪明、更稳、更会用工具、更能完成复杂任务。


但在真实应用里,另一个更 “硬” 的问题常常决定能否上线:高效性(efficiency)。智能体即便表现很好,如果每次都要消耗大量算力、时间与调用成本,也很难在生产环境大规模部署。


基于这一视角,论文整理并撰写了一篇面向 “高效智能体” 的综述,系统梳理当前主要方法,并从三个最关键的机制出发组织全文框架:记忆 — 工具学习 — 规。论文从设计范式出发对代表性方法进行归纳总结,聚焦那些以效率为目标或能够提升效率的核心设计与实现路径,从而更清晰地呈现智能体在真实落地场景中的成本 — 性能权衡。



  • 论文地址:https://arxiv.org/abs/2601.14192

  • GitHub 地址:https://github.com/yxf203/Awesome-Efficient-Agents



一、智能体记忆:

让 “会记” 更省、更准、更可扩展



智能体要做长任务,离不开记忆。但把历史一股脑塞进提示词,会带来 token 暴涨和智能体处理长上下文能力下降。因此,高效记忆系统的关键在于把 “长历史” 加工成 “可用、可检索、可复用” 的信息资产。


论文按记忆生命周期梳理三步:构建 — 管理 — 访问。


  • 记忆构建:通过概括、压缩与结构化把 “长对话” 转成 “可用记忆”。一类是留在推理链路的工作记忆,文本式直观但吃上下文,隐式式更像缓存,可减少重复编码;另一类是外置为可检索系统的外部记忆,先将信息压成小单元再按需召回,包括条目式、图式与分层式。此外论文也提到要警惕过度压缩带来的信息损失,即需要考虑如何在降成本与保真之间取得平衡。

  • 记忆管理:防止 “存爆炸”,也避免 “取太慢”。规则式快但可能误删重要内容,大模型式更聪明但更贵,混合式则按层级或场景组合两者策略,在效果与成本之间取得折中。

  • 忆访:选什么 + 怎么用。访问分记忆选择与记忆整合,通过检索或训练等方式挑选记忆,再用压缩过滤或隐式注入减少 token 与重复编码。


另外,多智能体记忆也成为新趋势。相较于只靠通信,近年更多工作开始引入 “记忆” 这一概念来支撑规模化协作,论文将其概括为:共享记忆 / 本地记忆 / 混合记忆三类。


二、工具学习:

让 “会用工具” 更少调用、更少等待、更少走弯路



工具让智能体从 “会说” 变成 “能做”,但成本也最容易在工具链路里失控。论文按三条主线梳理提效思路:工具选择 — 工具调用 — 工具融合推理。


  • 工具选择:目标是 “更快选对、少塞进 prompt”。相关方法包括外部检索器、多标签分类,以及将工具映射为特殊 token 等思路,核心都是在大量工具中更快、更准地选出最需要的那几个。

  • 工具调用:核心是 “少等、少调、少走弯路”。典型路线包括边生成边调用、并行化调用,以及利用成本感知调用与测试时高效扩展来削减冗余调用;进一步还可通过面向效率的后训练把 “短轨迹、少调用” 写进策略本身。

  • 工具融合推理:让模型学会 “该不该用、何时用、用几次”。代表性方向包括选择性调用,引导智能体只在必要时才发起工具调用;以及成本约束策略优化,在保证效果的同时对冗余交互与过长轨迹施加惩罚,从而学到更短、更省的工具使用策略。


三、智能体规划:

在 “深度” 与 “宽度” 上同时省下来



规划决定智能体如何在多步决策空间里行动。效率问题要么来自单体推理 “想太深、搜太贵”,要么来自多体协作 “聊太多、通信太重”。因此论文从两条线展开:单智能体规划与多智能体协作规划。


  • 单智能体:少算但不掉效果。主要思路包括自适应预算与控制的 “选择性思考”、结构化搜索的剪枝与代价感知、任务分解的先规划后执行;以及通过策略优化与记忆 / 技能获取把高效规划 “内化或复用”,越用越省。

  • 多智能体:少通信但尽可能不丢信息。方向主要有三类:拓扑稀疏化减少全连接带来的的消息传递开销;协议与上下文优化压缩则关注 “传什么 / 怎么传”;蒸馏方法通过将多智能体协作能力蒸馏回单体,来减少运行时多智能体之间协调的成本。


四、基准与评测(Benchmark):

没有 “可比的尺”,就谈不上 “可落地的效率”


在谈记忆、工具学习与规划的提效方案之前,先要把 “尺子” 定清楚:高效到底怎么量?


论文强调,效率必须建立在有效性之上。省了资源却显著掉性能,不算高效。因此论文采用的定义是:在给定预算下取得更好的效果,或在相近效果下消耗更少资源。


基于这一视角,论文先梳理了以有效性为主的 benchmark,并进一步汇总了与效率相关的评测内容:一方面,整理了在 benchmark 中显式纳入效率信号(成本、延迟、调用次数等)的评测设置;另一方面,总结了智能体方法中常用的效率指标,用于刻画 “省在哪儿、省多少”。


五、挑战与展望


论文同时也提出了目前的一些挑战与展望:


 1)统一评测框架:指标口径统一,模块开销边界清楚,才能真正让各个智能体方法可比可复现。


 2)智能体的隐式推理(Latent Reasoning):大模型侧的隐式推理正在升温,但面向智能体的研究仍相对稀缺。由于智能体链路更长、更复杂,还要处理工具调用、规划与记忆等环节,如何把中间推理 “做在隐式空间里”、在不掉效果的前提下降低成本,既是挑战,也是机会。


 3)面向部署:在多智能体场景下,需要把部署成本纳入考量,核心问题是投入产出比。也就是说,增加智能体带来的收益,是否足以覆盖新增的开销。


 4)多模态效率:多模态智能体发展很快,但效率研究仍相对欠缺。文本智能体的一些提效思路可以借鉴,但是直接迁移却并不容易,因为多模态智能体的感知输入、行为空间与任务结构更复杂、交互成本更高。因此,如何在多模态场景下系统地兼顾效果与成本,仍是亟待解决的关键问题。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]


文章原文

性能比肩Gemini 3 Pro!昨晚,阿里千问最强模型来了

2026-01-27 12:59:00

图片
机器之心编辑部


1 月 26 日深夜,阿里千问旗舰推理模型 Qwen3-Max-Thinking 正式上线。


该模型在科学知识(GPQA Diamond)、数学推理(IMO-AnswerBench)、代码编程(LiveCodeBench)等多项权威基准测试中刷新纪录,其综合性能已可对标 GPT-5.2 与 Gemini 3 Pro,成为目前最接近国际顶尖水平的国产大模型之一。



下表为更全面的评估分数:



据了解,Qwen3-Max-Thinking 总参数量超万亿(1T),预训练数据量高达 36T Tokens,是阿里目前规模最大、能力最强的推理模型。


此前,预览版 Qwen3-Max-Thinking 已展现出不俗实力。基于这一基础,通义团队进一步扩大了强化学习后训练规模,对模型进行了系统性优化,使正式版在多项核心能力上实现整体跃升。


在覆盖事实知识、复杂推理、指令遵循、人类偏好对齐以及 Agent 能力等 19 项主流评测基准中,Qwen3-Max-Thinking 取得多项领先成绩,刷新了多项最佳纪录,其综合表现已进入与 GPT-5.2-Thinking-xhigh、Claude Opus 4.5、Gemini 3 Pro 同一竞争梯队。


真实表现如何,我们上手体验了一下。


我们输入提示:帮我做一个技能五子棋的游戏网页,要求是在普通的五子棋规则上,玩家可以使用技能。直接给我个 html 文件。


一会儿工夫,Qwen3-Max-Thinking 就嗖嗖甩出 1000 多行代码,把一个可交互、能上手就玩的五子棋直接写完整了。



下一项测试,我们让 Qwen3-Max-Thinking 生成一个跳一跳游戏。


请用纯 HTML + CSS + 原生 JavaScript 写一个可在浏览器直接打开的《跳一跳》小游戏(不要依赖任何外部库)。要求:画面:简洁 2D 即可(canvas 或 DOM 都行);操作:按住蓄力、松开起跳(按住时间决定跳跃距离);规则:从一个平台跳到下一个平台,落空则结束;生成:平台位置随机,但保证可达(不要生成必死局);计分:落在平台上加分,连跳加成可选;体验:有起跳动画、落地判定、失败提示、重新开始按钮;代码:完整可运行,放在一个 HTML 文件里,注释清晰。


这个游戏最难的地方,就在于按住鼠标的时间既是操作,也是赌注:短了跳不过去,长了直接飞过头,容错窗口小到离谱。第一跳很容易失误,然后就 Game Over。



体验地址:https://chat.qwen.ai/


测试时扩展的重新定义


推动 Qwen3-Max-Thinking 的核心创新在于其对传统推理方式的突破。与大多数模型按线性方式逐 token 生成不同,Qwen3 引入了一种由测试时扩展(Test-time scaling)驱动的 Heavy Mode(重推理模式)。


通俗来说,这一技术让模型能够用更多算力换取更高智能水平。但它并非简单的 best-of-N 采样方式,例如一次生成 100 个答案再从中选出最优结果 —— 而是采用了一种经验累积的多轮推理策略。


这种方法更接近人类的解题过程。当模型面对复杂问题时,它不会直接给出一次性猜测,而是进入反复自我反思与迭代推理。通过一种专有的 take-experience 机制,模型能够从此前的推理步骤中提炼有效经验,从而实现:


  • 识别死胡同:在无需完整走完错误推理路径的情况下,判断某条推理思路正在失效;

  • 聚焦算力:将计算资源重新分配到尚未解决的不确定点,而不是反复推导已经得到的结论。


这种机制带来了实实在在的效率提升。通过避免冗余推理,模型可以在同样的上下文窗口中整合更丰富的历史信息。千问团队表示,该方法在不显著增加 token 成本的前提下,实现了性能的大幅跃升:


  • GPQA(博士级科学问题):得分从 90.3 提升至 92.8;

  • LiveCodeBench v6:成绩从 88.0 提升至 91.4。


自适应工具调用


如果说推理能力决定了模型会不会想,那么工具调用能力决定的,是模型能不能真正把事做成。在 Qwen3-Max-Thinking 中,通义团队不再将推理与工具使用视为两个割裂的阶段,而是将工具能力内生进思考过程本身,构建起一种边思考、边行动的原生 Agent 式模型框架,让大模型从静态的文本推理,迈向可执行、可验证的复杂任务处理。


在完成基础的工具使用微调后,通义团队进一步在大量多样化任务上,引入基于规则奖励与模型奖励的联合强化学习训练,使模型学会何时调用工具、如何结合工具展开推理,而不是机械执行指令。由此,Qwen3-Max-Thinking 获得了更具策略性的工具协同思考能力。


这一自适应工具调用能力已在 QwenChat 中完整落地:模型可自主调度搜索、个性化记忆与代码解释器等核心 Agent 工具,在一次交互中完成信息获取、计算推演与结论生成,回答更贴近专业人士的工作方式,也显著降低了模型幻觉,为解决真实世界中的复杂问题奠定基础。


结语


截至 2026 年 1 月,阿里通义千问(Qwen)系列模型在 Hugging Face 平台上的累计下载量超过了 10 亿次,这一数据使得 Qwen 成为了 Hugging Face 上最受欢迎、下载量最高的开源 AI 模型系列之一。


Qwen3-Max-Thinking 的推出代表着 2026 年人工智能市场的成熟。它将讨论的焦点从谁拥有最智能的聊天机器人转移到谁拥有功能最强大的智能体。通过将高效率推理能力与自适应、自主的工具调用机制相结合,Qwen 已经牢牢确立了自己在企业级 AI 竞争格局中的领先地位。


参考链接:https://venturebeat.com/technology/qwen3-max-thinking-beats-gemini-3-pro-and-gpt-5-2-on-humanitys-last-exam



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]



文章原文