2026-01-05 14:06:00
明天,一年一度的 CES 即将在美国拉斯维加斯璀璨开幕。作为全球科技产业最重要的风向标之一,笔者在超前探访之后欣喜发现,在今年机器人「后厨翻炒」与 AI 眼镜「同声传译」的热闹之外,行业终于开始直面核心命题:无法理解三维空间的 AI,终究只是缺乏行动力的 「语言巨人」。
如何解题?空间智能(Spatial Intelligence),这一被李飞飞定义为 「AI 下一个十年」 的关键赛道,正在本届 CES 上完成从学术概念到产业实践的突破性跨越。从巨头的算力竞赛到中国初创企业的端侧破局,一场关于 「空间智商」 的全球竞速已悄然开幕,让我们一探究竟 ——
今年 CES 2026 展馆,具身智能(Embodied AI)仍旧是各大厂商的展示重点,但在这背后一种冷静的共识正在行业底层悄然凝聚:如果 AI 不能像生物一样理解三维空间,那么它将永远被困在屏幕或昂贵的遥控器里。
今年,当大众还在讨论大语言模型(LLM)的逻辑能力时,一批专注于「空间智能」的公司已经开始在端侧重构 AI 的感知边界。
感知困局:万亿参数为何敌不过一只苍蝇的空间直觉?
CES 2026 的展台前,一个矛盾现象引发行业深思:一边是参数规模突破万亿、逻辑推理能力逼近人类的大语言模型(LLM);另一边是依赖激光雷达或人工远程操控才能勉强运行的智能设备。多数 AI 眼镜仍停留在 「2D 提词器」 的初级阶段,而号称 「自主决策」 的机器人,在复杂物理环境中甚至难以完成简单的避障动作。
「一只苍蝇没有万亿级参数,却能在杂乱空间中极速避障、精准着陆。」 一位资深 AI 投资人的感叹,点出了当前具身智能的核心痛点。
正如 OpenAI 前首席科学家 Ilya Sutskever 与 Meta AI 负责人 Yann LeCun 共同指出的:物理世界的常识无法通过文字完全习得。猫与苍蝇不识字,却凭借与生俱来的空间直觉,在 3D 环境中展现出远超超级计算机的感知与决策能力。
这种「语言强、手脚笨」的困境,本质上便是「空间智能」的缺失。
李飞飞曾定义「空间智能」为 AI 的下一个十年:若 AI 无法理解物体的深度、距离、遮挡与重力,就永远无法真正 「具身」。在语言智能趋于饱和的今天,AI 行业的竞争焦点正从 「参数竞赛」 转向 「感知革命」—— 谁能以更低成本实现更快的空间直觉,谁就掌握了下一轮技术浪潮的主动权。
空间智能:AI 理解世界的「认知革命」
为何整个行业将破解具身困境的希望押注于「空间智能」?其根本原因在于,这并非一次寻常的技术迭代,而是一场让 AI 获得「人类理解世界」底层能力的认知革命。
李飞飞在其论述中深刻指出,空间智能是人类认知的「脚手架」。从婴儿通过抓握与爬行来探索环境,到消防员在浓烟中凭借直觉判断建筑坍塌的风险,我们无时无刻不依赖着对深度、距离、遮挡和物理关系的瞬间理解。这种能力在文字诞生之前便已存在,它根植于进化之中,是连接感知与行动、驱动智能涌现的核心循环。
然而,当前最被人熟知的 AI 工具却似乎尚未具备这种思维方式。它们能处理海量文本与图像,却在理解物体间空间关系、预测物理动态等根本任务上表现薄弱,与它们所试图交互的物理现实严重脱节。
要弥合这一鸿沟,李飞飞提出需要为 AI 构建全新的认知基础 —— 即能够理解、推理并与复杂世界交互的「世界模型」。这要求模型具备三种核心能力:生成性,能创造在视觉、几何与物理层面皆一致的世界;多模态性,可融合处理文本、图像、动作等多种信号;交互性,能预测动作对世界状态的影响。这远超越了对语言序列的建模,是对高维、动态物理规律的统一表征,其挑战规模空前。
一旦攻克空间智能,意味着 AI 将首次获得类似生物的空间直觉与物理常识。
这将不再是让机器「看到」更多像素,而是让其「理解」场景中物体为何存在、如何关联,以及将如何变化。由此,AI 才能从被动的信息处理器,蜕变为能在真实世界中主动规划、安全交互的智能体。
这场认知革命的产业价值不言而喻。一旦 AI 掌握了空间智能,自动驾驶将拥有媲美人类的场景理解与预判能力;机器人能在复杂环境中实现真正自主的导航与灵巧操作;智能制造、医疗手术辅助等领域也将获得颠覆性的可靠「伙伴」。
这不仅是技术的升级,更是 AI 融入并赋能物理世界的「通行证」。
全球竞速:「世界生成」与「空间决策」技术路径分野
当前,空间智能的技术革命催生了两大核心路径的分化:世界生成派与空间决策派。
一条致力于构建与生成逼真的 3D 世界,为 AI 提供学习和训练的无限场景;另一条则专注于在现实环境中实现实时的空间理解与动作决策,让 AI 能真正「动手操作」、像人一样融入真实物理世界。
本届 CES 清晰地展现了这两种路径的平行竞赛与互补可能。
路径一:世界生成 —— 创造 AI 的「无限模拟场」
该路径的核心在于,通过生成式模型构建高保真、可交互的虚拟环境,为机器人训练、游戏娱乐、影视创作等提供「数字孪生」基础。
META 凭借 SAM 3 (3D)项目,致力于为物理世界中的万物进行 3D 标记与重建,旨在建立最庞大的视觉词典。由李飞飞领衔的 World Labs 则走得更远,其「Marble」模型不仅能够理解 3D 场景,更能像造物主一样生成并与之交互,是目前空间建模的「科研天花板」。来自中国的 GIGA 同样聚焦于此,专注于利用神经渲染等技术,从 2D 图像或视频中高效生成高质量的 3D 场景资产。
这条路径的价值在于,它能为缺乏真实交互数据的机器人训练,以及需要大量 3D 内容的创意产业,提供一个成本可控、规模无限的「练兵场」和「素材库」。
路径二:空间决策 —— 赋予机器「实时行动力」
与「造世界」的宏大叙事并行,另一批公司正攻坚更具即时挑战的命题:如何让机器基于当下的视觉输入,在毫秒间理解空间关系并做出安全、精准的决策。
NVIDIA 的 NitroGen 项目通过建立视觉到动作的端到端模型,减少传统规划环节的延迟。自动驾驶领域的小鹏汽车等其城市级智能驾驶系统本质上是在复杂开放的世界中完成持续的空间决策。银河通用(Galbot) 研发的 VLA 模型,试图将视觉感知、语言指令与动作生成紧密耦合,让机器人「看到即思考,思考即行动」。联汇科技 OmAI 则更侧重于通过普通 RGB 摄像头和有限的端侧算力下,实现极高精度的 3D 开放空间感知,为无人装备和可穿戴设备提供视觉决策核心。
这条路径的竞争,围绕着实时性、精度、功耗与成本展开,直接决定了具身智能能否走出实验室,走进动态变化的真实生活与普通消费场景。
当然,两条路径并非割裂,而是共同构成空间智能的完整闭环。
「世界生成」为「空间决策」提供了海量、安全的训练与仿真环境;而「空间决策」中带来的真实数据与挑战,又不断反哺和修正「世界生成」的模型,使其更贴近物理规律。
这场竞速的本质,是 AI 在「虚拟」与「现实」之间构建双向通道的能力比拼,其终点则是创造出真正具备空间常识、能与人类世界无缝交互的智能体。
行业拐点:当空间感知进入「百元时代」
但比终点更早来临的将是行业「拐点」。
不论何种技术路径的演进,都将指向一个清晰的产业目标:将曾经成本高昂的空间感知能力变成一项可大规模普及的基础服务。
在本届 CES 现场,我们还看到了关于纯视觉路径打破空间感知 「昂贵魔咒」的更多可能。
长期以来,3D 空间感知被昂贵的硬件设备所垄断:多摄像头 BEV 架构或数千美元的激光雷达,让具身智能只能局限于高端实验室和工业场景。但在 2026 年的展台上,一种 「视觉优先」 的技术路径正在改写游戏规则。
美国 AI 顶级大厂率先吹响了范式转型的号角 ——
META SAM 3 (3D):试图把全世界的物体在 3D 空间中「标记」出来,为 AI 提供最全的视觉词典。
META 谢赛宁 (SuperSensing):追求超越像素的物理洞察力,让 AI 能「看透」运动物体的物理惯性。
NVIDIA NitroGen:建立 Vision-Action(视觉-动作)的直连通路,让机器人不再通过语言大脑转译,而是凭视觉直觉直接做出反应。
顶级厂商不计成本地利用算力优势打造的「大」模型,对端侧的硬件也有极高的要求,「堆料」成为主流美式机器人厂商和可穿戴设备厂商的唯一选择。
不过,笔者也在 CES 现场看到了另一类产业化技术破局者 —— 著名的消费电子品牌韶音(Shokz)与 AI 空间智能厂商联汇科技(OmAI)联合推出的 AI 眼镜,它展示了一种极具破局性思路的技术路径。
这款搭载了联汇科技 OmAI 核心空间智能技术的 AI 眼镜:彻底抛弃了昂贵的传感器,仅通过普通的 RGB 摄像头 + 端侧的 OmModel 模型,即实现了实时的 3D 开放空间感知。对于用户而言,这副轻便的眼镜能将物理世界即时转化为清晰的避障指令;而对于行业而言,可轻便搭载的高性能低成本的空间感知能力,意味着:模型优势可以将 3D 空间感知的成本降到单目摄像头的水平。
过去,实现可靠的 3D 感知往往意味着高昂的硬件成本 —— 多摄像头 BEV(鸟瞰图)架构或者是数千美元的激光雷达。这使得具身智能被禁锢在昂贵的工业场景或高端实验室中。
如今,算法重构让高精度空间感知能力得以嵌入低功耗端侧芯片 ——
其一,脱离激光雷达的纯视觉方案,让 AI 眼镜、家用机器人等设备真正进入消费级价格区间;
其二,端侧实时处理能力,为盲人导航、具身机器人等场景筑牢安全底线;
其三,从 「看到物体」 到 「理解空间」 的跨越,让具身智能完成了从感知到决策的关键进化。
当底层算法重构取代了硬件堆砌,具身智能也将迎来走出实验室的可能。
投资人观察:寻找具身智能领域的「Intel Inside」
在提前看展的过程中,一位同行的硅谷投资人坦言:「过去我们看参数规模,现在我们看空间智能的落地效率。谁能让 AI 在物理世界中实现‘仿生灵动’,谁就赢得了下一个十年。」
具身智能和可穿戴设备的「iPhone 时刻」,或许将始于这次 CES 展释放的空间感知成本革命信号 ——
从「实验室」到「消费级」:当 3D 空间感知的成本从数万元(激光雷达方案)降至数百元(纯视觉算法方案)时,市场容量将发生指数级扩张。不仅是盲人眼镜,扫地机器人、低空无人机乃至消费级具身机器人的大规模落地将不再受困于硬件整机成本门槛。
数据的入口效应:谁能让 AI 在各类复杂室内外场景中实现「视觉闭环」,谁就掌握了物理世界最真实的数据流。这种数据的护城河,远比单纯的文本爬取深得多。
投资人的集体共识指向了一个清晰趋势:未来 3-5 年,具备端侧、实时、高精度 3D 空间感知与决策能力的企业,将成为具身智能生态中不可或缺的 「视觉芯片级」 供应商,其行业地位也将堪比 PC 时代的 Intel、移动时代的 ARM,因为这些厂商会让具身智能和可穿戴设备真正走入千家万户,成为新的消费级市场。
结语
从 CES 2026 的现场来看,这场从「语言智能」到「空间智能」的跃进已经不可逆转。而这场革命的想象力远不止于此:在消费端,百元级 3D 感知方案将催生智能穿戴、智能家居的新品类爆发,让 AI 设备成为像手机一样的生活必需品。在工业端,低成本空间智能将推动智能制造、物流仓储的效率革命,为企业降本增效提供核心动力。在社会价值层面,它将为残障人士、老年人等各类刚需群体带来更便捷的生活方式,加速 AI 普惠。
如果说过去两年,LLM 以「博学」令人震撼。那么,未来三年,AI 将以其在物理世界中的「仿生灵动」与「自主」重新定义智能边界,而我们正在见证 AI 从「语言智能」向「空间智能」的范式跃进。在这场全球竞速中,技术范式的重构、成本门槛的突破、应用场景的落地,正共同推动具身智能迎来真正的「iPhone 时刻」。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
2026-01-05 14:06:00
凭借成功预测 Polymarket 题目,连续登顶 Future X 全球榜首的 MiroMind 团队,于今日(1 月 5 日)正式发布其自研旗舰搜索智能体模型 MiroThinker 1.5。
MiroMind 由全球知名创新企业家、慈善家陈天桥,与清华大学知名 AI 青年学者代季峰教授联合发起。去年陈天桥提出发现式智能才是真正意义上的通用人工智能这一重磅创新理念,引发全球业内人士关注。他同时提出建设发现式智能的 5 种关键能力,其中一项能力是在未知条件下重建对世界的理解,这正是 MiroMind 的使命。
在过去 7 个月里,当全行业都在「卷」参数规模、「卷」百万长文本的红海时,MiroMind 却在思考一个更本质的问题:智能的「奇点」究竟在哪里?他们给出的答案不是「把世界背进参数里」,而是押注「发现式智能」:真正的智能不靠全知,而靠会研究、会查证、会修正 —— 像顶级情报官一样对外极速取证、对内严苛去伪存真;像严谨研究员一样在不确定性里逼近真相,最终把「预测未来」从特权变成能力。
MiroThinker 1.5 性能评测
MiroMind 团队在 AGI 竞技场上,不信奉 “大力出奇迹”,而是追求以高智效比为核心的 「巧劲」。
MiroThinker-v1.5-30B 仅用 1/30 的参数规模跑出了比肩众多 1T 模型的性能表现,其 235B 的版本在多个搜索智能体基准测试中跻身全球第一梯队。
实力霸榜:指标是门槛,预测是天花板
BrowseComp 性能对比
Agent 搜索评测基准性能对比
越级挑战:MiroThinker-v1.5-30B vs Kimi-K2-Thinking
面对参数量高达 30 倍的万亿参数巨兽 Kimi-K2-Thinking,MiroThinker-v1.5-30B 用极低的成本展示了旗鼓相当的表现:
推理成本: MiroThinker-v1.5-30B 单条调用成本低至 $0.07,仅为 Kimi-K2-Thinking 的 1/20,且推理更快。
性能表现: 在关键评测集 BrowseComp-ZH 中实现性能超越,证明「大」 不等于 「强」。
核心洞察:从 「做题家模式」 转向 「科学家模式」
MiroMind 团队指出,以扩大模型内部参数量(Internal Parameters)为核心的传统 Scaling Law 已明显触及边际瓶颈;要继续提升模型性能,必须从「内部参数扩张」转向以「外部信息交互」(External Interaction)为核心的 Interactive Scaling,将智能的增长空间从内部参数扩展到外部世界。
为什么该模型能在大幅降低成本的同时,性能依然能打?
因为这不是「大参数碾压」,而是一次「科学家模式」对「做题家模式」的胜利。以 Scaling Law 为代表的路线,更像「做题家」:试图把全人类知识(也包括噪声与错误)尽可能背进模型里;一旦遇到生物学等领域的未知问题,就容易基于概率分布「编」出一个看似合理的答案 —— 幻觉往往由此产生。
在 MiroThinker 1.0 中,MiroMind 团队首次系统性提出 Interactive Scaling:随着工具交互频率与深度提升,研究式推理能力也稳定增强 —— 这构成了与模型大小、上下文长度并列的第三个可扩展维度。v1.5 更进一步,把这套机制内化为贯穿训练与推理全流程的核心能力:将模型训练成「科学家」,核心不是死记硬背,而是勤查证。遇到难题时,它不会给出概率最高的瞎猜,而是执行慢思考的研究闭环:提出假设 → 向外部世界查数据 / 取证 → 发现对不上 → 修正假设 → 再查证,直到证据收敛。
主流大模型往往盲目追求万亿参数,试图把整个互联网「背」在脑子里。而 MiroThinker 系列选择了一条反共识的路线:刻意将模型控制在 30B–200B 的轻量级规模。MiroMind 团队强调,省下的不是算力,而是把算力花在了更刀刃的地方 —— 对外的信息获取与交互。
MiroMind 团队不追求让模型拥有一颗「最重的脑子」,而是培养它拥有一双「最勤的手」。当模型同时具备研究式确认机制与时序因果约束,这种围绕外部信息获取的交互过程才让「发现式智能」真正落地 —— 也正是对 Interactive Scaling 的深耕,使他们用小得多的模型,做到了大模型才能做到的事。
MiroThinker 1.5 核心技术揭秘
传统的模型思维链本质上是在模型内部知识空间的线性外推,推理偏差会随路径增长而不断累积,最终导致逻辑坍塌。
MiroThinker 1.5 的核心发力点,在于通过 Interactive Scaling 打破孤立推理的僵局,将「推理」与「外部环境」深度耦合。通过构建「推理 - 验证 - 修正」循环,引入外部信息作为校验锚点,用确定性的证据流来对冲不确定性的推演,解决逻辑坍塌问题。
Training-time Interactive Scaling 技术
当智能的 Scaling 范式不再局限于模型内部庞大的世界知识储备与缜密的长程逻辑推理,而是依托模型高频与外部世界中探索与交互并获得闭环反馈时,小而高效的探索者模型能展现比肩于甚至超出大而严谨的思考者模型的智力水平。
MiroThinker 1.5 正是基于这一判断,将 Interactive Scaling 从推理阶段的外挂能力,前移并内化为训练阶段的核心机制。模型并非被要求「尽量在脑中想清楚一切」,而是被系统性地训练成一个善于向外求证、敢于否定自己、能够快速修正路径的 Agent。
在训练过程中,MiroMind 团队刻意削弱对「单次完美推理」的奖励,转而强化以下行为模式:
Evidence-Seeking(主动求证): 模型被鼓励将每一个关键判断拆解为可验证的子假设,并主动发起对外查询、检索与比对。结论本身不再是训练目标,找到可靠证据的过程才是。缺乏信源支撑的高置信输出,会在训练中被系统性地惩罚。
Iterative Verification(多轮校验与自我修正): 推理不被视为一次性路径,而是一个可反复回溯、修正的过程。模型在交互中被要求不断对已有判断进行反证测试,一旦发现证据冲突,必须显式调整假设,而非「带着错误继续推下去」。
Anti-Hallucination(对捷径的系统性过滤): 对那些「看起来合理、但缺乏真实依据」的推理捷径保持零容忍。训练中不仅评估答案是否正确,更关注答案是如何得到的:任何依赖统计相关性、模式记忆或隐含先验而绕过证据验证的路径,都会被标记为低质量推理。
通过这种训练方式,MiroThinker 1.5 逐步形成了一种「本能反应」:在不确定性面前,先交互、再判断;在高风险结论前,先查证、再收敛。这使得模型不再需要将庞大的世界知识全部内化为参数,而是学会在需要时,快速、精准地向外部世界「借力」。
最终,团队用更小的参数规模,换来了更高的智能密度:不是让模型记住更多,而是让它学会如何找到、验证并使用信息。这正是 MiroThinker 1.5 能在显著降低推理成本的同时,依然保持一线性能的根本原因。
时序敏感训练沙盒
时序敏感训练沙盒,是破解「因果律」的钥匙:普通大模型训练常处在「上帝视角」—— 它在数据里早已「见过结果」,学到的往往是复述与「剧透」,而不是预测。MiroThinker 的训练则约束模型「只能看过去,不能看未来」,在严格的时间可见性约束下做判断、再用同样受时序约束的证据去验证与更新。
可控数据合成引擎: 构建覆盖多任务类型的、难度与时间戳可控的数据合成体系。每一道题目的「正确答案」并非静态标签,而是随时间戳动态演化;模型必须在严格的信息可见性约束下,基于当时可获取的信息做出判断,而校验过程同样显式引入时间戳约束,以确保推演与评分均符合真实世界的时序逻辑。
时序敏感训练机制:采用严格的时间戳与信息可见性约束,彻底杜绝 Future Leakage;模型在训练过程中的每一步只能与发表于当前时间戳之前的信息进行交互。
在这种训练范式下,模型被迫学会在信息不完备、噪声存在、信号延迟的真实条件下进行推演与修正,而不是依赖静态数据集中的「标准答案」。时间由此从一个背景变量,转变为塑造模型行为与推理方式的核心约束,使模型更接近真实世界中的认知与决策过程。
样例展示
Case 1: A 股涨停板预测
据介绍,这不是 「玄学」,更不是事后诸葛亮 —— 而是在信息极度噪声化、情绪快速切换的盘面里,用开放世界证据 + 因果推断去赌 「次日正确答案」。(注:以下仅为技术展示,不构成投资建议)
12 月 10 日(周三):
对话链接:https://dr.miromind.ai/share/07430808-d84d-4e40-9615-bf07d6e71365
跃岭股份 | 16 只连板股,当天晋级仅 4 只,晋级率 25%,市场情绪显著退潮。MiroMind 在 8 支二板股里,精准押中唯一晋级成功的那一支。
12 月 11 日(周四):
对话链接:https://dr.miromind.ai/share/eccc29b9-889b-43f9-b6bf-f4b2b7c8dc1e
再升科技 | 9 只连板股,当天晋级仅 2 只,晋级率 22%,市场环境持续降温。MiroMind 命中 9 支连板股中高位晋级者 —— 退潮里选中 「活口」。
12 月 12 日(周五):
对话链接:https://dr.miromind.ai/share/e9db058d-3e8c-4922-b483-cf5efae2f414
再升科技 |13 只连板股,当天晋级 7 只,晋级率 54%,情绪强力回暖。MiroMind 不仅命中市场最高连板,还准确预判其继续晋级(后续累计涨幅高达 58%)。
12 月 15 日(周一):
对话链接:https://dr.miromind.ai/share/3dc7dae0-78cb-4a97-8f61-359ab2d3e1a0
华菱线缆 |13 只连板股,当天晋级 5 只,晋级率 38%,市场再度明显降温。MiroMind 继续命中:在情绪回落时仍能穿透噪声,给出可复盘的确定性答案。
Case 2: 下周有哪些大事件会对美股七巨头产生影响?预期的市场反应和潜在波动方向是什么 ?
对话链接:https://dr.miromind.ai/share/f4afae1a-21e1-4f6d-8eef-16909c2d7b79
Case 3: GTA 6 明年能按时发布吗?
对话链接:https://dr.miromind.ai/share/10e5d1fd-c6b6-4b96-a2ed-4b776a3e1dcd
人才招募
MiroMind 面向全球持续招募人才,简历投递:[email protected]
产品体验
立即体验 MiroMind,免费解锁预测未来的能力: https://dr.miromind.ai/
加入社群:
Discord 频道(#everything-prediction):https://discord.gg/F7EQFnYscV
微信社群(MiroMind 预测未来):微信添加小助手 miromind001
相关链接:
Hugging Face 模型下载:https://huggingface.co/miromind-ai/MiroThinker-v1.5-235B
Github 代码地址:https://github.com/MiroMindAI/MiroThinker
MiroFlow 开源框架:https://github.com/MiroMindAI/MiroFlow
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
2026-01-05 14:06:00
随着多模态大语言模型(MLLM)的飞速发展,能够像人类一样通过视觉输入操作图形用户界面(GUI)的智能体(Agent)正逐渐成为现实。然而,在通往通用计算机控制的道路上,如何让模型精准地将自然语言指令对应到屏幕上的具体元素 —— 即 GUI Grounding 任务,依然是一大难题。
现有的方法,特别是基于验证奖励的强化学习(RLVR),虽然在提升 “指得准”(空间对齐)方面表现出色,却往往在 “指得对”(语义对齐)上遭遇瓶颈。模型常常陷入 “自信陷阱”,在复杂的语义场景下无法通过有效探索找到正确的功能图标。
针对这一痛点,来自浙江大学、香港理工大学及 InfiX.ai 的研究团队提出了一种全新的自适应探索策略优化框架(AEPO),并推出了 InfiGUI-G1 系列模型。该模型通过多答案生成与自适应奖励机制,彻底打破了传统 RLVR 的探索瓶颈。仅凭 3B 和 7B 的参数量,InfiGUI-G1 便在多个高难度 GUI 基准测试中刷新了 SOTA,部分指标甚至大幅超越了闭源模型。
本文将深入介绍这项被 AAAI 2026 接收为 Oral 的工作,解读其如何通过 “学会探索” 来实现更精准的 GUI 语义理解。
论文标题:InfiGUI-G1: Advancing GUI Grounding with Adaptive Exploration Policy Optimization
论文链接:https://arxiv.org/abs/2508.05731
代码链接:https://github.com/InfiXAI/InfiGUI-G1
从 “空间对齐” 到 “语义对齐”:被忽视的探索瓶颈
GUI Grounding 任务的核心是将自然语言指令(如 “打开相机”)映射到屏幕上的特定元素坐标。研究团队指出,这一任务可以解构为两个正交的维度:
1. 空间对齐(Spatial Alignment):能否精确地定位到元素(即 “指得准”)。
2. 语义对齐(Semantic Alignment):能否识别出功能正确的元素(即 “指得对”)。
现有的 RLVR 方法(如 Naive RLVR)虽然能通过优化坐标生成来提升定位精度,但在面对语义模糊或复杂的指令时却显得力不从心。
例如,当指令是 “使用相机搜索物体” 时,屏幕上可能同时存在普通的 “相机应用” 和具有视觉搜索功能的 “Google Lens”。缺乏深度语义理解的模型往往会自信地死磕 “相机应用” 图标。由于传统 RL 依赖当前策略采样,模型会不断重复这个高置信度的错误,陷入“自信陷阱”(Confidence Trap),从而无法发现真正正确的 “Google Lens” 图标,导致无法获得修正语义误解所需的学习信号。
GUI Grounding 的主要失败模式: (a) 空间对齐失败,(b) 语义对齐失败
InfiGUI-G1:自适应探索策略优化(AEPO)
为了解决这一探索效率低下的问题,InfiGUI-G1 引入了 AEPO(Adaptive Exploration Policy Optimization) 框架。与传统的单次回答生成不同,AEPO 旨在通过更广泛且高效的探索来捕捉低概率但正确的选项。
AEPO 框架由三个协同工作的核心组件构成:
1. 多答案生成机制(Multi-Answer Generation) 传统的 RL 方法通常只采样一个动作,一旦模型 “固执己见” 地选错,梯度的学习信号就会消失。AEPO 强制模型在一次前向传递中生成 N 个候选坐标点。这一机制迫使模型跳出单一的高置信度预测,去探索策略分布长尾中的可能性,从而大幅增加了发现正确答案(如上述例子中的 Google Lens)的概率。
2. 自适应探索奖励(Adaptive Exploration Reward, AER) 仅仅生成多个答案是不够的,如何评价这些答案的质量至关重要。研究团队基于效率第一性原理(效率 = 效用 / 成本)设计了 AER 函数。
动态激励:如果模型在靠前的排名(Rank k)就找到了正确答案,给予高额奖励;如果失败,则给予较小的惩罚以鼓励继续探索。
这种非线性的奖励设计在失败时鼓励模型 “广撒网”,在成功时引导模型追求 “快准狠”,实现了探索与利用的动态平衡。
3. 共线惩罚(Collinear Penalty) 为了防止模型通过生成近似直线的点来 “作弊”(简单的线性扫描策略),研究引入了共线惩罚。如果生成的多个候选点在几何上近似共线,将被视为低质量探索并受到严厉惩罚。这强制模型在语义空间而非单纯的几何空间中进行多样化探索。
AEPO 与 Naive 强化学习基准方法的对比
实验结果:小参数量实现性能越级
研究团队在 MMBench-GUI、ScreenSpot-Pro、UI-Vision 等五个极具挑战性的基准上对 InfiGUI-G1(3B 和 7B 版本)进行了全面评估。
1. 综合性能全面领先:在 MMBench-GUI 基准测试中,InfiGUI-G1-7B 在 Windows、iOS、Android 等多个平台上的表现均刷新了开源模型的最佳成绩。值得注意的是,InfiGUI-G1-7B 在部分指标上甚至优于参数量大得多的 Qwen2.5-VL-72B 和闭源模型 GPT-4o。
2. 攻克高难度语义理解任务 ScreenSpot-Pro 基准专门区分了文本类(Text)和图标类(Icon)任务。结果显示,InfiGUI-G1 在更依赖语义理解的 “图标” 任务上提升尤为明显。这直接证明了 AEPO 策略有效解决了语义对齐的瓶颈,让模型真正 “看懂” 了抽象图标背后的功能含义,而不仅仅是进行简单的文本匹配。
3. 让 “不可学习” 变得 “可学习” 为了验证 AEPO 是否真的解决了探索难题,研究团队将样本按难度分为简单、中等和困难。实验发现,InfiGUI-G1 在 “困难” 样本(即基座模型几乎无法答对的样本)上的提升最为巨大,相对 Naive RLVR 基线提升了超过 60%。这意味着 AEPO 成功挖掘出了那些以往因缺乏探索而被模型 “放弃” 的长尾知识。
ScreenSpot-Pro 基准测试的性能对比
总结与展望
InfiGUI-G1 的成功表明,GUI 智能体的性能瓶颈不仅仅在于视觉识别能力,更在于如何通过有效的强化学习策略来解决语义对齐问题。通过引入自适应探索机制,InfiGUI-G1 以极高的数据效率和较小的模型规模,实现了超越大模型的 GUI Grounding 能力。这项工作为未来开发更通用、更智能的 GUI 交互助手提供了坚实的技术基础。
目前,InfiGUI-G1 的代码、模型权重及相关资源已在 GitHub 开源,欢迎社区进一步研究与使用。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
2026-01-04 16:05:00
去年 10 月,Meta 人工智能部门的裁员波及到了一大波人,其中包括了知名华人科学家田渊栋及其团队成员。
就在这两天,田渊栋分享了自己的 2025 年终总结。
他首先透露了自己「救火」Llama 4 项目的经历以及之后被裁、未来的工作规划;接着回顾了 2025 年的主要研究方向,包括大模型推理和打开模型的黑箱;最后探讨了 AI 驱动下的社会变革、生产力重构以及个人价值的存续逻辑。
接下来为田渊栋知乎原文内容。
2025年终总结(一)
关于被裁
在 2025 年 1 月底被要求加入 Llama4 救火的时候,作为一直以来做强化学习的人,我事先画了一个 2x2 的回报矩阵(reward matrix),计算了一下以下四种可能(虽然在那时,因为来自上面的巨大压力,不同意是几乎不可能的):
当时想的是我们去帮忙的话,即便最后项目未能成功,也至少尽力而为,问心无愧。不过遗憾的是,最后发生的是没在计算之内的第五种可能,这也让我对这社会的复杂性有了更为深刻的认识。
尽管如此,在这几个月的努力过程中,我们还是在强化学习训练的核心问题上有一些探索,比如说训练稳定性,训推互动,模型架构设计,和预训练 / 中期训练的互动,长思维链的算法,数据生成的方式,后训练框架的设计等等。这个经验本身是很重要的,对我的研究思路也带来了不小的转变。
另外其实我也想过在公司十年多了,总有一天要离开,总不见得老死在公司里吧,但总是因为各种经济上和家庭上的原因还是要待下去。最近一两年的说话和做事方式,都是抱着一种 “公司快把我开了吧” 的心态,反而越来越放开。2023 年年末我休第一个长假的时候,其实几乎差点要走了,但最后没签字还是选择待在公司继续,所以说真要做出离开的决定也不容易。现在 Meta 帮我做了也挺好。
这次波折和今年一年的起起落落,也为接下来的小说创作提供了非常多的新素材。所谓 “仕途不幸诗家幸,赋到沧桑句便工”,生活太平淡,人生就不一定有乐趣了。还记得 2021 年年头上的时候,因为在年末工作总结里面写了几句关于” 为啥 paper 都没中 “的反思,喜提 Meet Most,有一种突然不及格的懵逼感。但想了想与其到处抱怨世道不公,不如就在大家面前装成自己刚刚升职吧,结果半年后果然升了职,而那篇 21 年头上无人问津的工作,在 21 年 7 月份中了 ICML Best paper honorable mention,成为一篇表征学习中还比较有名的文章。
10 月 22 号之后的一段时间,基本上我的各种通信方式都处于挤爆的状态,每天无数的消息和邮件,还有各种远程会议或者见面的邀请,实在是忙不过来了。一直到几周之后才渐渐恢复正常。这两个月非常感谢大家的关心和热情。如果那时有什么消息我没有及时回复,请见谅。
虽然最后有不少 offer,大家能想到的知名公司也都联系过我,但最后还是决定乘自己还年轻,去当一家新初创公司的联合创始人,细节暂时不公开,先安静地忙活一阵吧。根据 Linkedin 信息显示,他已经于去年 12 月在这家公司上任。
一些研究的方向
2025 年的主要方向,一个是大模型推理,另一个是打开模型的黑箱。
自从 2024 年末我们的连续隐空间推理(coconut,COLM’25)工作公开之后,25 年在这个研究方向上掀起了一股热潮。大家探索如何在强化学习和预训练中使用这个想法,如何提高它的训练和计算的效率,等等。虽然我们组随后就被拉去 llama 干活,没能再继续花很大力气往下挖,但这个让我觉得非常欣慰。尽管如此,我们还是在上半年发了一篇理论分析(Reasoning by Superposition,NeurIPS‘25)的文章,展示连续隐空间推理有优势的地方究竟在哪里,获得了不少关注。
另外是如何提高大模型的推理效率。我们的 Token Assorted(ICLR’25)的工作,先通过 VQVAE 学出隐空间的离散 token,再将所得的离散 token 和 text token 混在一起进行后训练,减少了推理代价的同时提高了性能。我们的 DeepConf 通过检测每个生成 token 的自信程度,来决定某条推理路径是否要被提前终止,这样推理所用的 token 减少了很多,但在 majority vote 的场景下性能反而更好。ThreadWeaver 则是通过制造并行推理的思维链,并在其上做后训练,来加快推理速度。另外我们也在 dLLM 上用 RL 训练推理模型(Sandwiched Policy Gradient),也有在小模型上学习推理的尝试(MobileLLM-R1)。
在可解释性方面,Grokking(顿悟)这个方向我大概两年前就在关注了。因为之前我做表征学习(representation learning)的分析,虽然能分析出学习的动力学过程,看到模型出现表征塌缩的原因,但究竟学出什么样的表征,它们和输入数据的结构有什么关系,能达到什么样的泛化能力,还是个谜团,而通过分析 Grokking 这个特征涌现的现象,从记忆到泛化的突变过程,正好能解开这个谜团。一开始确实非常难做没有头绪,2024 年先做了一篇 COGS(NeurIPS‘25,见求道之人,不问寒暑(十)),但只能在特例上进行分析,我不是很满意。在一年多的迷茫之后,在和 GPT5 大量互动之后,最近的这篇 Provable Scaling Laws 的文章应该说有比较大的突破,能分析出之前的线性结构(NTK)看不到的东西,并把特征涌现的训练动力学大概讲清楚了。虽然说分析的样例还是比较特殊,但至少打开了一扇新的窗口。详细解释请看田渊栋的想法。
年末的这篇 The path not taken 我很喜欢,对于 RL 和 SFT 的行为为何会如此不一致,在权重的层面给出了一个初步的答案。SFT 造成过拟合和灾难性遗忘(catastrophic forgetting),其表层原因是训练数据不够 on-policy,而深层原因是权重的主分量直接被外来数据大幅修改,导致 “根基” 不稳,模型效果大降。而 RL 则因为用 on-policy 的数据进行训练,权重的主分量不变,改变的只是次要分量,反而能避免灾难性遗忘的问题,而改变的权重其分布也会较为稀疏(特别在 bf16 的量化下)。
关于可解释性的信念
很多人觉得可解释性,或者 “AI 如何工作得那么好” 这个问题不重要,但我却觉得很重要。试想之后的两种场景:
场景一:如果我们仅仅通过 Scaling 就达到了 AGI 乃至 ASI,全体人类的劳动价值都降为零,AI 作为一个巨大的黑盒子帮我们解决了所有问题,那如何让 AI 作为一个超级智能,一直行善,不欺骗不以隐秘的方式作恶,就是当务之急,要解决这个问题就要做可解释性。
场景二:如果 Scaling 这条路最终失效,人类在指数增长的资源需求面前败下阵来,必须得要寻求其它的方案,那我们就不得不去思考 “模型为什么有效,什么东西会让它失效”,在这样的思考链条之下,我们就必须回归研究,可解释性就是目所能及的另一条路了。
在这两种情况下,最终都需要可解释性来救场。就算最终 AI 是个全知全能全善的神,以人类好奇和探索的天性,必然还是会去研究 AI 为什么能做得好。毕竟 “黑盒” 就意味着猜疑链的诞生,在大模型技术爆炸,开始达到甚至超过人类平均水平的今天,《三体》中 “黑暗森林” 的规则,也许会以另一种方式呈现出来。
目前打开训练好模型的黑箱,去找到电路(circuit),还是处于比较初步的阶段。可解释性真正的难点,在于从第一性原理,即从模型架构、梯度下降及数据本身的固有结构出发,解释为什么模型会收敛出这些解耦、稀疏、低秩、模块化、可组合的特征与回路,为什么会有大量不同的解释,这些涌现出来的结构和模型训练的哪些超参数相关,如何相关,等等。等到我们能从梯度下降的方程里,直接推导出大模型特征涌现的必然性,可解释性才算真正从生物式的证据收集走向物理式的原理推导,最终反过来指导实践,为下一代人工智能的模型设计开辟道路。对比四百年前的物理学,我们现在有很多 AI 版的第谷(收集数据),一些 AI 版的开普勒(提出假说),但还没有 AI 版的牛顿(发现原理)。
等到那一天来临的时候,我相信,世界一定会天翻地覆。
2025年终总结(二)
未来会是什么样子
抛开前公司里每三个月一次的组织架构重组不谈,2025 年一年的变化本身已经很大。25 年年初的 Deepseek-R1 的发布,现在想来几乎已经算是上个世纪的事情了。带思维链的推理模型的巨大成功,让强化学习(RL)又回到了 AI 的主流视野之中,也带动了 AI4Coding 及 AI Agent 的发展,而后两者让大模型有了大规模落地,大幅度提高生产力的切实可能。
以前做项目,招人是很重要的一环,但现在脑中的第一个问题是 “还需不需要人?” 几个 Codex 进程一开,给它们下各种指令,它们就可以 24 小时不间断干活,速度远超任何人类,而且随便 PUA 永远听话毫无怨言。和 AI 工作,我最担心的是工作量有没有给够,有没有用完每天的剩余 token 数目。这也是为什么各家都在试验让 AI Agent 做几个小时连续不断的工作,看 AI 的能力上界在哪里。因为人的注意力永远是最昂贵的,人要休息,要度假,要允许有走神、睡觉和做其它事情的时间。减少人的介入,让 AI 自己找到答案,干几个小时活之后再回来看看最好。
这每个月交给 OpenAI 的 20 块钱,一定要榨干它的价值啊。
我突然意识到,就因为这区区 20 块钱,我已经成为了 “每个毛孔里都滴着血” 的肮脏资本家。我能这么想,全世界最聪明和最富有的头脑,也一定会这么想。
所以请大家丢掉幻想,准备战斗吧。
在帮忙赶工 Llama4 期间,我经常在加州时区晚上 12 点接到东部时区的组员消息,在伦敦的朋友们更是永不下线,熬夜折腾到凌晨四五点是寻常事,但大模型越来越强,辛勤劳动最终达到的结果,是看到大模型达到甚至超越我们日常作事的水准。
这应该说是一种陷入囚徒困境之后的无奈。
人类社会的 “费米能级”
如果以后以 AI 为中心,那还需要人么?
如果考虑劳动力的投入 - 回报模型,传统思维会告诉你,工作经验积累越多,人的能力越强,回报也越大,是个单调上升的曲线。这就是为什么大厂有职级,职级随年限晋升,越老越香。但现在的情况已经不同了。职级已经没有意义,过去的经验也没有意义,人的价值从按照 “本人产出的劳动数量及质量” 来评估,变成了是否能提高 AI 的能力,人加 AI 要大于 AI 本身的产出,这样才行。
这样就让投入 - 回报曲线从一个单调递增曲线变成了一个先是全零,再在一定阈值之后增长的曲线(也即是 soft-thresholding 的曲线)。一开始人的能力是比不过 AI 的,而 AI 的供给只会越来越便宜,所以在很长一段成长期内,人本身是没有价值的。只有在人的能力强到一定程度之后,能够做到辅助 AI 变强,才开始变得有价值起来。
并且,在跨越阈值之后,厉害人对 AI 的加成,会高于普通人很多很多,因为普通人只会对 AI 的一两条具体产出花时间修修补补,而厉害的人在看了一些 AI 存在的问题之后,能提出较为系统性和普遍性的解决方案,结合手上的各类资源(GPU 和数据等),可以进一步让 AI 变得更强,而这种效应随着 AI 的广泛部署,会被几何级数地放大。“一骑当千” 这种小说笔法,将很快变成现实。
在这样一个非常两级分化的投入 - 回报模型之下,如果把人 + 所有个人能获取的 AI 当成一个智能体,整体来看,它的能力分布会和电子能级在材料里的分布很像:低于或达到某个水准线的智能体遍地都是,求着客户给它活干,以证明自己还是有用的;而高于这个水准线的智能体则指数级地变少,获取和使用它非常花钱,还常常排不到。
这个水准线,就是 AI 洪水的高度,就是人类社会的 “费米能级”。低于费米能级的职业,可能在一夜之间就被颠覆掉,就像一场洪水或者地震一样,前一天还是岁月静好,后一天整个行业被端掉了。
随着时间变化,这条水准线还会一直往上走。其进展的速度,和它能获取到的,比它更强的数据量成正比。如果大模型的训练过程没有特别大的进展,那和自动驾驶无人车一样,越往上走,有用的数据是越来越少的,进展也会越慢,最顶尖的那部分人,还能在很长时间内保有自己的护城河。如果训练过程有突破,比如说找到新的合成数据手段,乃至新的训练算法,那就不好说了。
当然以上的判断是假设有无限的 GPU 和能源的供给,并没有考虑到各种资源短缺的情况。能源短缺,芯片产能短缺,内存短缺,整个地球能否满足人类日益疯狂增长的 AI 需求还是个未知数,这方面深究下去,或许可以做一篇论文出来。
遍地神灯时代的独立和主动思考
那么,接下来会怎么样呢?
未来的世界,或许不再是传统故事里描绘的那样 —— 人们为了争夺稀缺的武功秘籍,或是千辛万苦寻找唯一的阿拉丁神灯、集齐七颗龙珠而展开冒险。相反,这将是一个 “遍地神灯” 的时代。每一个 AI 智能体都像是一个神灯,它们能力超群,渴望着实现别人的愿望,以此来证明自己的价值。
在这种环境下,真正稀缺的不再是实现愿望的能力,而是 “愿望” 本身,以及将愿望化为现实的那份坚持。
然而,在这个 AI 能力极其充沛的时代,巨大的便利往往伴随着巨大的陷阱。大模型提供了极其廉价的思考结果,在当前信息交互尚不充分的市场中,这些结果甚至可以直接用来交差并获取经济价值(例如那些一眼就能看出的 “AI 味” 文案)。这种唾手可得的便利,会让许多人逐渐失去思考的动力,久而久之丧失原创能力,思想被生成式内容和推荐系统所绑架和同化。这就是新时代对 “懒人” 的定义:不再是因为体力上的懒惰,而是精神上没有空闲去思考,没有能力去构思独特的东西。
最终,变成一具空壳,连许愿的能力都失去了。
那我们该如何保持独立思考?如何不被 AI 同化?战术上来说,我们需要学会不停地审视 AI 的答案,挑它的毛病,并找到它无法解决的新问题。未来的新价值将来源于三个方面:(1)新的数据发现;(2)对问题全新的深入理解;(3)新的路径,包括可行的创新方案及其结果。利用信息不对称来套利只是暂时的。随着模型越来越强,社会对 AI 的认知越来越清晰,这种机会将迅速消失。如果仅仅满足于完成上级交代的任务,陷入 “应付完就行” 的状态,那么在 AI 泛滥的今天,这种职位极易被取代。
就拿 AI Coding 来说,用多了,我会觉得它虽然可以很快弄出一个可以跑的代码库满足需求,但随着代码越来越长,屎山也越来越高,它贡献的代码也就越来越不如人意,还是需要人来做大的设计规划。如何调教它让它更快达成自己的长远目的,这个会成为人类独有价值的一部分。如果只是盲目地命令它做这个做那个,而不自己去思考如何做才能和它配合做得更好,那就会和大部分人一样停留在应用层面,而无法理解得更深入,就更不用说独一无二了。
战略上来说,无论主动还是被动,每个人都将面临从 “员工” 角色向 “老板” 或 “创始人” 角色的转变。这种转变的核心在于 “目标感”。如果心中有一个坚定的目标,并愿意动用一切手段(包括将大模型作为核心工具)去达成它,那么主动思考就是自然而然的结果。目标越远大,触发的主动思考就越多,激发的潜力就越大。
因此,如果将来的孩子立志要去土卫六开演唱会,或者想在黑洞边缘探险,千万不要打压这样看似荒诞的志向。因为这份宏大的愿望,或许正是他们一辈子充满前进动力,主动思考的根本源泉,也是让他们始终屹立于 “费米能级” 之上的关键。
知乎原文链接 1:https://zhuanlan.zhihu.com/p/1990809161458540818
知乎原文链接 2:https://zhuanlan.zhihu.com/p/1991073922217709984
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
2026-01-04 16:05:00
你是否经历过这样的至暗时刻: 明明实验数据已经跑通,核心逻辑也已梳理完毕,却在面对空白的 PPT 页面时陷入停滞; 明明脑海里有清晰的系统架构,却要在 Visio 或 Illustrator 里跟一根歪歪扭扭的线条较劲半小时; 好不容易用 AI 生成了一张精美的流程图,却发现上面的文字是乱码,或者为了改一个配色不得不重新生成几十次……
在内容生产的过程中,“写” 往往只占了一半,而将文字转化为结构图、流程图,再整理成演示用的 PPT,这个过程繁琐、耗时,且极度考验设计感。为什么我们不能让 AI 像理解文字一样,理解我们的逻辑,并自动帮我们要展示的 “视觉物料” 准备好?
为了解决这一痛点,北京大学 DCAI 课题组 基于自动化数据治理 Agent 框架 DataFlow-Agent,推出了全新的多模态辅助平台 —— Paper2Any。
它不再是一个简单的 “文生图” 工具,而是一整套自动化的内容视觉化 Workflow。从阅读资料、理解逻辑,到生成图像、切割元素,最终输出完全可编辑的 PPT 和 SVG 文件,Paper2Any 正在试图重塑我们准备 Presentation 的方式。
本地部署方式:https://github.com/OpenDCAI/Paper2Any?tab=readme-ov-file#-linux-% E5% AE%89% E8% A3%85
网页体验地址:http://dcai-paper2any.nas.cpolar.cn/
文章多模态工作流 Paper2Any:https://github.com/OpenDCAI/Paper2Any
一、 核心突破:打破 “不可编辑” 的魔咒
目前市面上的 AI 绘图工具虽然效果不错,但在科研与办公等场景下有一个致命缺陷:生成的图片是 “死” 的。 文字无法修改,模块无法拖拽,风格难以统一。
工作流实现逻辑
生成示例PPT绘图
Paper2Any 的核心差异在于它实现了从逻辑到结构化元素的映射。
系统内置的智能体首先对输入的文章或文本进行语义分析,提取核心贡献与思路。接着,它不仅生成视觉图像,更进一步对草稿图进行图文内容分割 —— 自动识别其中的文字、图表、结构模块、图标,并记录每个元素的元数据。
这意味着,你拿到的不再是一张不可直接修改的 PNG,而是一组独立、分层、可操作的图文块。用户可以在 PPT 中自由移动、编辑、替换、重新布局。(Paper2PPT 和 PPTPolish 功能暂时仅支持输出 PDF,可通过 PDF2PPT 功能将其结果转为可编辑 PPTX)
二、 功能全景:从草稿到演示的自动化闭环
Paper2Any 目前支持的功能主要涵盖以下四大核心场景,旨在解决从 “输入素材” 到 “最终汇报” 的最后一公里问题。
Paper2Figure:智能科研绘图,草图变精图
用户无需从零学习复杂的矢量绘图软件。Paper2Figure 支持多模态输入(PDF、文本、甚至随手画的草图截图),系统便能自动识别你的意图。
模型架构图: 上传论文或描述,系统自动梳理模块连接关系,生成清晰的架构图。支持生成 SVG 和 可编辑 PPTX,图里的方框、线条都能动。
技术路线图: 无论是中文还是英文,系统能根据方法论自动绘制流程与逻辑步骤。
实验数据图: 扔给它一堆实验数据文本或表格,它能自动转化为可视化的对比柱状图或折线图。
Paper2PPT:文章结构化解析与 PPT 生成
这是为 “赶进度” 的研究者和职场人准备的救星。Paper2PPT 不仅仅是简单的摘要生成,它利用算法对文档结构进行深度语义分析,提取背景、方法论、关键图表。
三种输入模式: 直接上传 PDF 论文、粘贴长文本、或者仅仅输入一个研究 Topic(系统会自动深度搜索)。
自定义设置: 支持用户自定义幻灯片页数、风格及自由选择中英文语言;支持逐页生成 PPT,用户可自由调整每页 PPT 的大纲。
超长 PPT 支持:首次支持制作超过 40 页的超长 ppt,无论是综述的演示还是深入研究某个主题都能一次满足!
中文适配与呈现: 可解决大模型生成 PPT 字体怪异及表达僵硬问题。输出结果采用标准中文字体与规范的排版,文案逻辑自然流畅,可减少 “AI 痕迹”,满足正式场合演示需求。
PDF2PPT:让静态文档可编辑
你是否遇到过这种情况:手里只有一份 PDF 格式的讲义或报告,却需要对其进行修改和汇报?
PDF2PPT 模块利用 MinerU 与 SAM (Segment Anything Model) 模型,像 “拆积木” 一样对版面进行高精度解析,将原本锁死的 PDF 页面还原为可编辑的 PPTX。
黑科技加持: 系统集成了 Gemini Nano 模型进行图像内补(Inpainting)。当系统将文字提取出来后,会自动修复文字覆盖区域的背景,实现 “去字留影”,最大程度还原原始底图的视觉效果。
PPTPolish:交互式美化专家
如果你的 PPT 内容已经写好,但排版却有些简陋,PPTPolish 可以接手后续的美化工作。系统会自动分析页面并生成美化提示词,用户可以逐页修改提示词来微调美化方向。
三、 示例高能时刻:从输入到输出的 “视觉魔法”
空口无凭,我们来看看 Paper2Any 的实际表现。
科研绘图:拯救手残党
模型架构图生成:
1. 论文 PDF → 符合论文主题的架构图
2. 科研配图 / 示意图截图 → 可编辑 PPTX
3. 论文摘要文本 → 可编辑架构图
技术路线图智能梳理:
1. 论文 PDF → 符合论文主题的技术路线图
2. 论文摘要文本 → 符合论文主题的技术路线图
实验数据可视化:
1. 论文 PDF → 自动提取实验数据绘制 PPT
不同类型与不同风格的生成图示例
2. 论文实验表格文本 → 自动整理实验数据绘制 PPT
PPT 智能生成与美化
从文档到演示,Paper2Any 提供了全链路的解决方案。
Paper2PPT:
与 Gemini 3 Pro、NotebookLM 相比,Paper2Any 生成的 PPT 有以下优势:
结构化图表生成能力强
中文文字表达与字体呈现效果更自然
可读性更好,干货更多,排版布局更具专业感与人工感
PDF2PPT:
PPTPolish:
1. PPT 增色美化
2. PPT 润色拓展
原始 PPT 只是简单的文字罗列;润色后,系统自动添加了科技感背景、可视化图标、以及逻辑图示,瞬间提升汇报档次。
四、 如何使用与部署
Paper2Any 提供两种使用方式:
1. 本地部署(开发者推荐)
如果你希望深入研究、二次开发或本地运行,可以基于 Github 仓库进行本地部署。
Github 仓库: https://github.com/OpenDCAI/Paper2Any
快速开始指引: https://github.com/OpenDCAI/Paper2Any?tab=readme-ov-file#-linux-% E5% AE%89% E8% A3%85
参考 Readme 文档启动 Web 前端即可。
2. 网页版快速体验
团队已推出可视化的 Web 前端,支持拖拽上传与实时进度展示。新用户可免费注册,登录后可查看历史使用记录。
访问地址: http://dcai-paper2any.nas.cpolar.cn/
结语:让配图成为一种「自动获得的附加值」
Paper2Any 的愿景,是希望建立一条新的科研与工作惯例:写文章 + 一键配图 + 一键生成 PPT + 一键展示。
在未来,课题组计划陆续支持 Paper2Rebuttal(论文返修)、Paper2Idea(创新点生成)和 Paper2Poster(文章海报生成)等更多的多模态功能。我们相信,工具的价值在于释放人类的创造力,让你从繁琐的格式调整中解脱出来,将宝贵的时间投入到那些真正闪光的 Idea 之中。
欢迎大家关注使用 DCAI 的开源项目并与我们进行技术交流,如果觉得好用也请在 GitHub 仓库点一个 star ~
Data-centric AI 开源项目:
文章多模态工作流 Paper2Any: https://github.com/OpenDCAI/Paper2Any
自动化数据治理 Agent 框架 DataFlow-Agent: https://github.com/OpenDCAI/DataFlow-Agent
LLM 数据准备系统 DataFlow (1.9k star): https://github.com/OpenDCAI/DataFlow
DataFlow 技术报告(#1 of the Hugging Face daily paper): https://arxiv.org/abs/2512.16676
LLM 数据训练系统 DataFlex (基于 LLaMA-Factory): https://github.com/OpenDCAI/DataFlex
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]