2026-02-18 20:48:00
米兰冬奥村今年的年味儿,溢出屏幕
在冬奥村这个汇聚全球运动员短暂停靠的「天下第一村」里,文化在碰撞,友谊在生长,各种小故事每天都在悄悄发生。
与往年相比,今年米兰冬奥村,多了一点特别的气氛——年味,甚至已经有点「溢出屏幕」。
恰逢马年春节,在村里的阿里云智能徽章交换站,各国选手正集体解锁一套「地道中国年体验」。
有人认真提笔写下一个方方正正的「福」,在一笔一画间感受年味。写完还要郑重其事地贴上墙,仪式感直接拉满。
外国运动员写「福」字。
有人用母语写下新年愿望,把祝福郑重贴上「好运墙」,仿佛把一整年的好心愿都随身打包带走。
写签文。
许愿签墙
墙中央那枚大大的红色「福」字,更是人气担当。
贴完福签,很多人都会顺手摸一摸这抹喜庆的红,再轻轻摇一摇铃铛,给自己讨个新年好彩头。动作不复杂,但氛围一下就有了。
除了浓浓的中国年味儿,吸引运动员纷纷聚拢到此的,还有一个重要原因——这里正上演着赛场之外最经典的「较量」:徽章交换。
阿里云智能徽章交换站墙上的各种徽章。
三种趣味玩法,真上头
收集徽章、交换徽章,这项奥运传统已经延续了近百年。一枚小小的 pin,既是大赛的微型纪念品,也是陌生人之间最快速、最轻松的社交货币。
每逢奥运,从主媒体中心到冬奥村,再到多个赛场,胸前坠满不同徽章的人们彼此打量。眼神一对上,会心一笑,然后很自然地开口:「Can we trade pin?」
每一枚小小的徽章,背后都是一次跨国、跨文化的相遇。讲述「这枚是从哪国朋友那里换来的故事」,成为独一无二的个人记忆收藏。
而在 2026 年米兰—科尔蒂纳冬奥会,这项传统又温暖的仪式,悄悄解锁了一个颠覆性的打开方式。
阿里云智能徽章交换站里的交换装置
过去,阿里云更多出现在「看不见的后方」——支撑赛事云端运行、保障转播稳定,稳稳托住奥运数字体系的底座。这一次,它把技术往前挪了一步,直接嵌进了运动员的日常「小确幸」:
借助一台智能徽章交换装置,延续近百年的奥运徽章交换,第一次和AI大模型真正「拧」在了一起。
一项老传统,第一次有了一种未来感。
美国女子冰球运动员 Hilary Knight 与 AI 机械臂的互动视频,在社交媒体引发点赞热潮。
想要加入这场游戏,很简单。
把自己的徽章放进一个空球,交给机器人投入公共球池,就算正式「入局」。
三种前所未有的社交玩法任你选。其中,最容易上头的,是智能猜拳。
站到机器前,和一只「会思考的手」来一局石头剪刀布。灵巧手几乎同步出拳,大模型在极短时间内完成识别、判输赢、出反馈,一气呵成。三局两胜,赢了还有机会解锁装着「稀有款」的红色徽章球。
现场经常是一圈队友围观、起哄,热闹程度丝毫不输小型赛场。
想挑战更高难度?切到手势模式,试试「隔空取物」。
不用说话,直接用动作指挥。运动员站到指定位置,抬手,在空中左右移动——上方的机械臂就像被隔空遥控一样实时跟随,在球池上方滑行。
当你盯准目标,只要一个干脆的握拳动作,系统就会把它理解为「抓取」。下一秒,俯身、夹取、递送,一整套动作行云流水。
中国花滑名将金博洋尝试手势模式。
当然,也有人选择最轻松的方式——语音点单。系统支持中文、法语、意大利语等110多种语言,说完就等着开盲盒。
「帮我抓一个蓝色的。」法国冰球运动员 Anae Simon 用法语说道。很快,机械臂精准挑出一枚蓝色徽章球。拧开的瞬间,她的表情肉眼可见地亮了起来。
里面是一枚披萨造型的徽章,写着 「pizza club」 和 「eat more」。她说,这是自己第一次见到的款式,可爱到不行。
法国冰球队运动员在赞助商阿里云展台体验智能徽章交换。新华社记者张豪夫摄
刘冠逸
当那颗徽章球被送到出口,真正的快乐才刚刚开始。
拧开外壳,你拿到的是一枚来自陌生人的 pin——它的上一站是谁、经历过多少次交换,没有人知道。唯一确定的是,它和你刚投进去的那枚一样,都来自同一个冬奥村、同一个共享池。
金博洋获得的加拿大队的徽章。
每一颗徽章球里,除了徽章,还藏着一条红色小纸条,就像埋在徽章里的迷你 fortune cookie,在打开的那一刻,悄悄给你一个积极的心理暗示。
金博洋徽章球里的
一枚小小徽章的旅程,就这样在 AI 的参与下,多了一点随机,多了一点游戏感,也多了一点这个时代特有的赛博浪漫。
外表好玩,内在硬核
如果只是用一个抓娃娃机的夹子把球勾出来,这件事顶多算自动化。
但一只会和你互动、会猜拳、还能模仿你动作的「手」,才真正让人感受到一点——科技是有温度的,情绪价值是被认真设计过的。
一旦把镜头拉进系统内部,在在看不见的地方,有一个云端大脑正在同时处理视觉、语音和动作信号,并在极短时间内完成判断,再把决策翻译成机械臂能执行的精确动作。
而这颗「云端大脑」,正是基于千问大模型构建的核心智能中枢。某种程度上,它既是全场最冷静的「裁判」,也是始终在线的「实时指挥官」。
当运动员对着设备说话,它在听;
当运动员抬手比划,它在看;
当小游戏开始出拳,它在瞬间判断输赢。
更关键的是,它不是分别处理,而是一口气统一理解。
传统机器人更像是「流水线思维」:听觉一个模块、视觉一个模块、动作再一个模块,大家排队接力。链路一长,延迟就上来了,动作也容易显得生硬。
Qwen3-Omni大模型的解法更像人类的反射弧:看见了、听懂了、想明白了,然后直接决定「下一步该干嘛」。
比如一句简单的:「A blue one, please.」
在系统内部,会被拆成一连串高速完成的小判断:
先确认语言和语义→再锁定「蓝色」这个视觉目标 →再判断当前球池里哪里最容易抓→最后规划动作路径并下发指令。
这些步骤对人来说是下意识,但对机器来说,以前往往要多套系统接力完成。现在,大模型把这些「小部门」收编成了一个统一大脑。
结果就是一个非常直观的变化:反应更像人了。
很多运动员体验后的第一反应都很一致,「它怎么这么快?」、「这出拳有点跟得上人」、「抓球也太利索了吧。」
处理复杂线下社交场景,除了需要速度,还要有一个更隐形但更关键的能力:抗干扰。
冬奥村可不是什么理想实验室。现场经常是人声嘈杂、语言混杂、光线在变、球还互相遮挡。
在这种环境下还能稳定听懂指令、看清手势、判断出拳,其实考验的是多模态融合的「真本事」。
Qwen3-Omni大模型的思路很直接:既然真实世界本来就是多信号混在一起,那就让模型从一开始就学会一起理解。语音、画面、动作不再各管一摊,而是在同一套语义空间里被同时建模。
于是,有人用带口音的意大利语点单,它听懂了;有人在光线乱跳的球池上方比手势,它跟上了;有人和它玩石头剪刀布,它几乎同步出拳。
当这些能力再通过机械臂「长出身体」,一种很典型的具身智能体验就出来了:
不是机器在按程序执行,而是系统在基于理解做动作选择。
表面上看,大家在和一台机器玩游戏。但在看不见的云端,其实是一整套多模态大模型,正在用接近人类反射弧的方式,实时、稳定地读懂这个热闹的奥运村。
跨越时空,张弛有度
一台 AI 机械臂,仿佛在残酷竞技场旁开辟出一个平行时空,把冬奥村的一角变成了小型开箱现场,既帮运动员释放了比赛压力,也顺手把情绪价值拉满。
有网友爆料,高峰期队伍能从展台一路排到食堂门口——不少运动员吃完饭转个弯,又默默回去排第二轮。有人专门绕路来试手气,也有人当场变回头客。
运动员们排长队玩装置
中国运动员李文龙通过装置开出了本届冬奥吉祥物 Tina 的徽章,兴奋之情溢于言表。在此之前,他还在徽章交换站门口偶遇传说中的墨西哥领队,把那枚「一 Pin 难求」的墨西哥队顶流徽章收入囊中。
当他把徽章高高举起的那一刻,现场气氛瞬间被点燃,围观人群直接沸腾。
花滑运动员金博洋和短道速滑运动员公俐,也收获了各自的幸运祝福。
金博洋(左)和短道速滑运动员公俐(右)都抽到了喜欢的fortune cookie
一位荷兰队教练的自制「橙色木鞋」徽章,甚至「跨越时空」被传递给另一位异国运动员——如果只靠面对面交换,这样的相遇很难发生。
就连新任国际奥委会主席考文垂在村里探访时,也专门上手体验了一把,顺利收获一枚徽章,并接到一份「好运」:2026 年的好消息,或许会比预期更早降临。
更有意思的是,每天傍晚前后,徽章交换站所在的
原因很简单——下午 4 点到 8 点,「Pin of the Day」特别活动上线。
一到时间,官方会悄悄把装有特别徽章的透明球投进池子里。谁能抓到,谁就有机会兑换包含整套徽章套盒在内的惊喜奖励。
每当有人真的抓中那颗球,周围往往会先安静半秒,然后瞬间爆出一圈起哄声和掌声。
挪威队拿到特别徽章,兑换了包含整套徽章套盒在内的惊喜奖励。
这些微小却真实的瞬间,也悄悄定格成米兰冬奥村里一段特别的记忆。
大模型时代的奥运注脚
换 PIN,要敢开口,也要脸皮厚一点。「哪怕对方只剩一枚,也完全可能愿意和你交换。」一位做过奥运会志愿者的徽章爱好者告诉我们。
在他看来,每一枚PIN 背后,都连着一次具体的人际相遇:和谁、在哪里、怎样开口。这些细节性的记忆,往往比徽章本身更珍贵。
当奥运史上首次引入 AI 参与徽章交换,这项延续数十年的传统,是否会因大模型的介入而让人与人之间渐行渐远?
他的答案是否定的。传统并没有被技术取代,反而被重新包装出一种带点游戏感的惊喜体验。
对那些不太敢主动开口、甚至有点「社恐」的人来说,AI 成了一个更轻松的入口——他们可以更大胆地参与交换,一次不够,就再来一次。
对于天生「社牛」来说,新玩法同样有吸引力。因为,新技术将「相遇」延展成更广阔的连接。
物理意义上的徽章「入库」,也是情感意义上的「共享」,借助人工智能, 运动员可以跨越时空距离体验徽章交换,传递祝福。
等待、抓取、开启的过程,也被多加了一层轻盈而愉快的期待感。
也许,科技最终改变的,从来不是人们为何相遇,而只是他们相遇的方式。当奥林匹克精神首次与具身智能交汇,原本简单的交换,被赋予了新的层次与温度,也瞬间有了故事的分量。
不张扬,却跨越语言与文化,意味悠长。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
2026-02-18 20:48:00
GUI 智能体最近卷到什么程度了?
Claude、OpenAI Agent 及各类开源模型你方唱罢我登场,但若真想让 AI 成为 「能在手机和网页上稳定干活的助手」,仍绕不开三大现实难题:
「知识缺失」难题:基础大模型对 GUI 领域的认知依然薄弱 —— 生僻图标、小众应用的操作逻辑等需要补足。
「纸上谈兵」困境:离线训练数据与真实交互环境存在鸿沟,离线看似合理的动作,一到在线任务就翻车。
「多模型协同」障碍:尽管视觉定位、任务规划等领域专家模型各有突破,但多模型协作往往依赖复杂框架,协同成本高。
现在,蚂蚁带来 UI-Venus-1.5:一个遵循「高性能,实战派」设计理念的端到端 GUI 智能体。单个模型即可统一处理定位(Grounding)、移动端(Mobile)与网页端(Web)三大场景,全面支持 40+ 主流中文 App,让 AI 真正走进用户生活。
报告标题:UI-Venus-1.5 Technical Report
技术报告:https://arxiv.org/abs/2602.09082
代码:https://github.com/inclusionAI/UI-Venus
模型:https://huggingface.co/collections/inclusionAI/ui-venus
主页链接:https://ui-venus.github.io/UI-Venus-1.5/
UI-Venus-1.5 构建了一条清晰、系统的训练路径:
通过中期训练(Mid-Training)系统性补足大模型在 GUI 领域的知识短板;利用在线强化学习(Online RL)弥合离线训练与在线执行之间的鸿沟;最终采用模型融合(Model Merge)集成多个领域专家模型的能力。
01 中期训练(Mid-Training):
30+ 数据源、10B tokens 锻造 GUI 原生大脑
通用视觉语言模型(VLM/MLLM)并不天然理解 GUI。面对高度结构化、蕴含复杂交互逻辑的用户界面,它们往往缺乏「原生表征能力」—— 看得到,却看不懂;能描述,但不会用。
因此,UI-Venus-1.5 战略性地引入中期训练(Mid-Training)阶段,旨在将通用的 VLM 逐步锻造为真正「懂 GUI」的原生基础模型。UI-Venus-1.5 构建了一个全面、统一的 GUI 中期训练语料库:
整合 30+ 公开及内部数据源(包含 Mind2Web、ShowUI、AITW 等),总规模高达 10B tokens。
精心设计了任务策略平衡,覆盖语义感知、GUI-VQA、元素定位、导航推理等关键维度。
这一阶段的目标并非追求「看起来会操作」,而是系统性地塑造四项核心基础能力:
精准的导航与定位:建立从自然语言指令到界面动作或坐标的端到端精确映射。
严谨的顺序推理:学习将高层目标分解为逻辑清晰、可执行的子步骤。
GUI-VQA:理解控件语义、功能描述与复杂的布局逻辑。
敏锐的精细感知:无需 OCR 即可识别图标、检测控件状态和理解视觉提示。
02 打造领域专家(Offline RL):
驱动 Grounding / Mobile / Web 专项突破
UI-Venus-1.0 通过在高精领域数据 RFT 技术路线,在定位(Grounding)和移动端导航(Mobile Navigation)两大领域达到了 SOTA 水平。UI-Venus-1.5 在继承该技术路径的基础上,进一步优化专家模型的设计与应用方式:
定位能力:UI-Venus-1.0 在目标元素不存在时会猜测定位,虽在 ScreenSpot-Pro、UI-Vision 等基准上得分高,但易引发「幻觉」。为此,UI-Venus-1.5 引入了关键的「拒答」能力。当模型判定目标元素不存在时,将明确返回 [-1, -1],表示无法定位。
通用导航能力:为统一移动端与 Web 端操作,UI-Venus-1.5 扩展动作空间,新增鼠标悬停(Hover)、双击(DoubleClick)和快捷键(Hotkey)以适配 Web 交互,同时提供移动端 - 中 / 英文、Web 端 - 英文等场景的优化 Prompt 模板,实现跨语言的高效适配。
03 在线强化学习(Online RL):
从「动作做对」到「任务完成」
在 Mid-Training 和 Offline-RL 阶段,模型在单步动作(Action-level)准确率上已取得显著提升。然而,端到端的轨迹级(Trace-level)任务成功率却并未同步增长。
根本原因在于,这两个阶段的训练信号聚焦「动作是否正确」,而非直接优化「任务是否完成」—— 两者通常正相关,但并不等价。尤其在数据有限时,动作准确率易与任务成功率脱节,导致「动作对、任务错」的精度错配现象。Mid-Training 和 Offline-RL 主要优化 Action-level 的监督信号或回报,缺乏对 Trace-level 成功的直接对齐。因此,单步动作的准确累积,并不必然导向整体任务的完成。
UI-Venus-1.5 引入在线强化学习(Online RL),聚焦移动端与 Web 端核心场景,借鉴 T-GRPO 等思路,在真实环境中执行完整轨迹 Rollout 与奖励计算,以「任务是否成功」作为核心优化目标。
04 模型融合(Model Merge):
一个模型,贯通 Grounding / Mobile / Web
当前很多 GUI Agent 采用「多模型协同」路线,即针对不同功能或场景训练独立的专家模型。虽能短期提升单项性能,一旦落地,往往演变为复杂的协同框架,成本激增。
UI-Venus-1.5 采用「先分后合」策略:先分别训练 Grounding、Mobile、Web 三个领域的专家模型(基于 Offline-RL 和 Online-RL),将各自能力练至极致,再通过 Model Merge 技术融合为统一的端到端模型,以降低部署成本,并在合并中最大限度保持各领域性能。
为克服线性合并的局限,UI-Venus-1.5 采用更稳健的 TIES-Merging 技术,即 「先筛选,再合并」。该方法成功融合出统一模型,在 ScreenSpot-Pro、AndroidWorld 和 WebVoyager 三大跨领域基准上,实现了更均衡、更高效的多能力整合。
05 DaaS:
一个入口管理所有设备,构建大规模在线训练环境
实践 Online-RL 才发现:瓶颈往往不在算法,而在异构设备环境 ——Android、浏览器、容器使用不同协议(ADB/CDP/SSH),叠加网络隔离与安全限制,直接对接难以维护。
为此,蚂蚁集团搭建了统一的设备即服务(DaaS)层:
统一协议:将 ADB、CDP 等封装为可扩展插件,上层按需调用。
高并发稳态:基于内部二次哈希路由与协程并发模型,支撑大规模设备长连接与高频请求。
开箱即用:配套多语言 SDK,封装认证、设备申请 / 释放与常用操作。
依托 DaaS 的强大能力,上层训练框架得以像调用标准服务一样灵活使用设备资源 —— 千台级异构设备稳定接入,支持超千并发的在线强化学习任务,高效支撑 UI-Venus-1.5 的大规模在线训练与真实场景部署。
06 全方位评测:
真实与标准环境双重验证
为全面评估 UI-Venus-1.5 的通用性与鲁棒性,评测覆盖三大维度:
Grounding 能力(7 个基准):
在 VenusBench-GD、ScreenSpot-Pro、UI-Vision 等标准测试集上,UI-Venus-1.5 相比 1.0 版本显著提升,且全面超越同规模模型。
Mobile 端 + Web 端 (在线真实环境):
在 AndroidWorld、AndroidLab、VenusBench-Mobile 真实场景中,UI-Venus-1.5 于多样化 GUI 智能体任务上均取得了全面 SOTA 的性能。
07 适配 40+ 主流中文 App,融入日常数字生活
UI-Venus-1.5 同时深度聚焦中文用户的真实使用习惯,全面支持 40 余款主流中文应用,涵盖出行、社交、娱乐、购物、生活服务等核心场景,真正实现「听得懂指令、看得清界面、做得对操作」。
无论是「在高德里叫一辆去景区的快车」、「在携程订明天北京到上海的机票」、「把这条微博转发并附评论」,还是「在网易云播放陈奕迅的最热歌曲」,UI-Venus-1.5 均能在真实设备环境中精准理解用户意图,并流畅、准确地完成各类操作。不依赖虚构演示,而是直接运行于用户每日高频使用的 App 中,直面现实场景中的任务挑战。这标志着 UI-Venus-1.5 向成为真正「可用的智能助手」迈出了关键一步。
Task 1: 打开七猫免费小说,将小说脑洞榜前三名都加入书架
Task 2: 打开微博,搜索杭州天气,并根据天气进行评论
Task 3: 打开喜马拉雅,帮我播放疯狂动物城2,设置列表循环播放
结语:UI-Venus-1.5 的路线更像「产品化 GUI Agent」的正确打开方式
UI-Venus-1.5 的价值不在单项指标的炫技,而在于构建了一个更可训练、可部署、可扩展的端到端系统:
中期训练夯实 GUI 原生能力
领域后训练专精 Grounding/Mobile/Web
在线强化学习提升最终任务成功率
模型融合实现单模型跨域通用
UI-Venus-1.5 致力于打造能在手机 / 网页上稳定干活的 AI 助手!
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
2026-02-18 20:48:00
大年初二,海外就开始发新模型了!
这次是 Anthropic,率先发布了他们称之为「我们目前能力最强的 Sonnet 模型」Claude Sonnet 4.6。
Claude 称,新模型对编码、计算机使用、长上下文推理、智能体规划、知识工作和设计进行了全面升级。
Beta 版还包含 100 万 token 的上下文窗口。
在价格方面,对于免费和专业版用户,Claude Sonnet 4.6 现已成为 claude.ai 和 Claude Cowork 的默认模型。定价与 Sonnet 4.5 保持一致,仍为每百万输入 token 3 美元,每百万输出 token 15 美元。
那么具体性如何?在 GDPval-AA 测试中,Claude Sonnet 4.6 甚至略微领先于 Anthropic 刚刚发布不久的 Opus 4.6。
接下来,就让我们仔细看下技术博客介绍。
计算机使用
2024 年 10 月,Claude 率先推出了通用的计算机使用模型。当时,这种技术「仍处于实验阶段 —— 有时操作繁琐且容易出错」。
AI 计算机使用的标准基准 OSWorld 展示了 Claude 模型的进步程度。该基准会在模拟计算机上运行真实软件(Chrome、LibreOffice、VS Code 等),设置数百项任务。该基准也没有没有特殊的 API 或专用连接器;模型看到计算机并与其互动的方式与人非常相似:点击(虚拟)鼠标和在(虚拟)键盘上打字。
在过去的十六个月里,Sonnet 模型在 OSWorld 上的性能稳步提升。这些改进在基准测试之外也可见一斑:早期的 Sonnet 4.6 用户在多项任务(诸如浏览复杂电子表格或填写多步骤网页表单)中,看到了达到人类水平的能力,并且能在多个浏览器标签页中整合处理信息。
当然,该模型在使用计算机方面仍落后于最熟练的人类。但进步的速度依然显著。这意味着:计算机使用的价值在提升 —— 并且表明能力更强的模型已指日可待。
图表比较了多个 Sonnet 模型在 OSWorld 基准上的得分。注:Claude Sonnet 4.5 之前的得分基于原始 OSWorld 测量;从 Sonnet 4.5 开始使用 OSWorld-Verified。OSWorld-Verified(2025 年 7 月发布)是原始 OSWorld 基准的原位升级,对任务质量、评估评分和基础设施进行了更新。
与此同时,计算机使用也带来了风险:恶意行为者可能试图通过提示注入攻击,将指令隐藏在网站中来劫持模型。
Anthropic 致力于提高模型抵抗提示注入的能力 —— 其安全评估显示,与其前代 Sonnet 4.5 相比,Sonnet 4.6 在这方面有重大改进,表现与 Opus 4.6 相近。
评估 Claude Sonnet 4.6
除了计算机使用,Claude Sonnet 4.6 在各项基准测试中均有提升。它的智能水平接近 Opus 级别,但价格更实惠,使其适用于更广泛的任务。
一个表格展示了流行基准测试中 Sonnet 4.6 与其他前沿模型的相对性能比较。
Anthropic 的早期 Claude Code 测试发现,用户大约有 70% 的时间更喜欢 Sonnet 4.6 而非 Sonnet 4.5。
用户报告说,它在修改代码前能更有效地理解上下文,并能整合共享逻辑而非简单复制。
相比于 11 月发布的前沿模型 Opus 4.5,用户甚至有 59% 的时间更喜欢 Sonnet 4.6。他们评价 Sonnet 4.6 在过度工程化和「偷懒」方面显著减少,在指令遵循方面有明显改进。用户报告了更少的虚假成功声明、更少的幻觉,以及在多步骤任务中更一致的执行力。
Sonnet 4.6 的上下文窗口为 100 万 token,足以在单个请求中容纳整个代码库、长篇合同或数十篇研究论文。更重要的是,Sonnet 4.6 能有效地在所有上下文中进行推理。这使得它在长程规划方面表现更佳。
在 Vending-Bench Arena 评估中特别清晰地看到了这一点。该测试评估模型长期运营(模拟)业务的能力 —— 并且包含竞争元素,不同 AI 模型相互竞争以获取最大利润。
Sonnet 4.6 发展出一种有趣的新策略:它在模拟的前十个月大力投资于产能,支出远超竞争对手,然后在最后阶段急剧转向专注于盈利能力。这一转向的时机使其最终远远领先于竞争对手。
图表显示 Sonnet 4.6 在 Vending-Bench Arena 上优于 Sonnet 4.5:通过早期投资产能,然后在最后阶段转向盈利。
Claude Sonnet 4.6 已经向哪些用户开放?
Claude Sonnet 4.6 现已面向所有 Claude 套餐、Claude Cowork、Claude Code、API 以及所有主流云平台开放。Anthropic 也已将免费套餐默认升级至 Sonnet 4.6 版本 —— 现在包含文件创建、连接器、技能和压缩功能。
如果你是开发者,也可以通过 Claude API 快速开始使用 claude-sonnet-4-6。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
2026-02-18 20:48:00
尽管目前文生图模型(Text-to-Image Models)在生成高保真图像上表现卓越,但在应对空间感知、空间逻辑推理及多目标空间交互等贴合现实场景的复杂空间智能任务时往往力不从心。现有评估基准主要依赖简短或信息稀疏的提示词,难以覆盖复杂的空间逻辑,导致模型在这些关键空间智能维度上的能力缺陷被严重低估。
来自阿里高德的一篇最新 ICLR 2026 中稿论文《Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image Models》提出了面向文生图空间智能的系统性评估基准 SpatialGenEval,旨在通过长文本、高信息密度的 T2I prompt 设计,以及围绕空间感知、空间推理和空间交互的 10 大空间智能能力维度设计,深入探测文生图模型的空间智能能力边界。
SpatialGenEval 将生图空间智能能力细分为 4 大维度,10 个子维度,覆盖 25 个现实应用场景,基于 23 个 SOTA 模型的评估结果表明当前模型的空间智能能力仍有待大幅提升
论文标题:Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image Models
论文链接:https://arxiv.org/abs/2601.20354
论文代码:https://github.com/AMAP-ML/SpatialGenEval
核心挑战:目前 T2I 模型空间认知 “浅表化” 与逻辑缺失
现有文生图模型虽然能够很好地完成 “生成什么”(What)的语义对齐,但在处理 “空间位置在哪里”(Where)、“空间如何排列”(How)以及物理世界中的 “空间交互逻辑”(Why)时,面临着从 “基础感知” 到 “高阶推理” 的全方位挑战,包括:
1. 空间基础的 “属性漂移” 与缺失:模型虽然能画出物体,但在信息密集提示词下,常出现物体漏画或属性绑定错误,无法维持 “万物各司其职” 的基础对齐能力。
2. 空间感知的 “几何偏见”:在处理物体精确位置、朝向及特定排列布局时,模型往往倾向于生成 “默认姿态”(如正面视图),难以跨越 2D 画布实现精准的空间定位。
3. 空间推理的 “逻辑盲区”:这是当前模型最大的短板。在涉及相对数值比较(如 “红椅比蓝椅大两倍”)、3D 遮挡关系及物理距离邻近性时,模型得分接近随机猜测,表明其缺乏对真实物理世界层级和深度的认知。
4. 空间交互的 “动态失真”:模型难以捕捉物体间的动态瞬间(如跳跃中的足球)或物理因果逻辑(如撞击导致的破碎),无法将潜藏的物理动力学转化为逻辑自洽的视觉图像。
上:当前生成模型在感知、推理和交互上的错误样例;下:当前评估基准存在信息稀疏 / 粗粒度 yes-or-no 评估
SpatialGenEval:涉及空间基础、感知、推理和交互的空间智能 “全科扫描”
为了系统化地定义和评估文生图模型 “空间智能” 能力,研究团队构建了一个层次化框架,将空间智能解构为 4 大领域及 10 个关键子维度:
1. 空间基础 (S1/S2):多目标物体类别(S1)、多目标属性绑定(S2)。
2. 空间感知 (S3/S4/S5):空间位置(S3)、空间朝向(S4)与空间布局(S5)。
3. 空间推理 (S6/S7/S8):空间大小 / 长度 / 高矮等比较(S6)、空间邻近性(S7)与空间位置遮挡(S8)。
4. 空间交互 (S9/S10):空间运动交互(S9)与空间因果交互(S10)。
该基准测试覆盖自然、室内、户外、人类活动及艺术设计等 25 个现实世界场景,为其精心构建了 1,230 条 长文本、信息密集型提示词。每个提示词均深度融合了上述从基础属性、布局到高阶遮挡、因果推理等 10 个空间子领域及对应全维度问答。值得注意的是,每个提示词长度约 60 词,允许同时兼顾依赖 CLIP 编码模型(77 tokens 限制)和保持高度信息密集。
SpatialGenEval 评估数据构建流程
SpatialGenEval 所有 10 个空间维度的提示词及其问题展示
核心发现:空间推理仍是主要瓶颈
研究团队对 23 款前沿的开源与闭源 T2I 模型进行了详尽评估,揭示了以下行业现状:
空间推理是核心薄弱环节:在涉及比较和遮挡的空间推理子任务中,多数模型的得分仅在 30% 左右,接近随机猜测水平(20%),这表明目前的模型普遍缺乏对 3D 场景结构和逻辑关系的理解。
开源模型正快速追赶:评测显示,最强的开源模型 Qwen-Image (60.6%) 表现已与顶级闭源模型 Seed Dream 4.0 (62.7%) 基本持平,但均仅达到及格线水平,空间智能仍有巨大提升空间。
强大的文本编码器至关重要:使用高性能 LLM(如 T5 或大型语言模型)作为文本编码器的模型(如 FLUX.1),在解析复杂空间指令时显著优于仅依赖 CLIP 的模型。
基于 Qwen2.5-VL-72B-Instruct 的自动化评估结果
左:所有评估模型的错误类型分布;右:高优模型的错误类型分布
数据中心范式:提升模型空间智能的有效路径
除了评估,该研究还提出了一种基于已有生成图像的改进方案。团队通过多模态大模型(MLLM)重写提示词以确保图文一致性,构建了包含 15,400 对图文数据的 SpatialT2I 数据集。对主流三大类模型(Diffusion-based, AR-based,Unified-based 模型)进行监督微调结果在空间评估指标有显著增益,生成的图像在物理逻辑和空间布局上更具真实感。
微调模型后的生成结果对比
总结与展望
SpatialGenEval 为 T2I 模型从 “美学生成” 迈向 “逻辑感知” 建立了一条新的评估路线,只有让模型真正理解 “万物各得其所 (Everything in its place)”,生成式 AI 才能在机器人辅助、室内设计、自动驾驶仿真等对空间维度有严苛要求的领域中释放真正的生产力。
作者团队介绍
阿里高德的机器学习研发部,承接公司重点业务,包括本地生活场景中的广告创意、商品理解、内容智能创作和分发,出行场景的 AI 智能化等,部门研究领域广泛,包括但不限于以下方向:(1) 多模态大模型;(2) 图像生成 / 编辑美化;(3) 视频生成 / 理解;(4) Agent; (5) 时空数据挖掘;(6) 智能推荐;(7) 高性能推理等。团队技术氛围好,成长空间大,拥有充足的研发资源和大量的业务应用数据,多篇论文入选 paper digest 最有影响力论文名单。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
2026-02-17 11:33:00
不可学习样本(Unlearnable Examples)是一类用于数据保护的技术,其核心思想是在原始数据中注入人类难以察觉的微小扰动,使得未经授权的第三方在使用这些数据训练模型时,模型的泛化性能显著下降,甚至接近随机猜测,从而达到阻止数据被滥用的目的。
例如,对于摄影师公开发布的作品或用户分享的个人照片,在添加扰动后,图像在视觉上几乎不发生变化;但若这些数据被用于训练图像分类模型,其测试准确率可能会从 90% 降至 10% 左右。
随着深度模型对大规模数据依赖程度的不断提升,不可学习样本逐渐成为数据隐私与模型安全领域的重要研究方向。然而,现有方法在实际应用中仍面临显著的效率瓶颈。
论文链接: https://arxiv.org/abs/2601.19967
代码已开源: https://github.com/jinlinll/pil
现有方法的效率瓶颈
当前主流的不可学习样本生成方法大多依赖深度神经网络(DNN)作为代理模型。其典型流程包括:
1. 训练一个复杂的深度模型(如 ResNet、VGG)作为代理;
2. 在代理模型上通过对抗攻击方法(如 PGD)迭代优化扰动;
3. 利用扰动在其他模型上的迁移性实现防护效果。
这种对深度模型的依赖带来了若干问题:
计算开销高:生成一次扰动往往需要大量 GPU 资源。例如,REM 方法在 CIFAR-10 数据集上的扰动生成时间超过 15 GPU 小时;
扩展性受限:当应用于高分辨率图像或大规模数据集(如 ImageNet)时,时间成本迅速上升;
模型复杂度冗余:深模型的强非线性表达能力并非不可学习样本生成的必要条件,反而增加了优化难度。
核心观察:不可学习样本与模型线性化
我们关注到一个关键现象:不可学习样本的作用机制,本质上是诱导深模型退化为近似线性的行为模式。
我们评估了多种现有不可学习样本方法(包括 EM、REM、TAP、SP、AR 等),发现一个一致现象:无论方法设计多么复杂,最终均会诱导深度模型呈现更强的线性特征(通过 FGSM 的成功率度量)。
表 1:不同 FGSM 攻击步长下不可学习样本导致的额外准确率下降百分比(扰动比例 50%)
从这一角度出发,如果最终目标是使深模型表现出线性特性,那么使用复杂的深度模型作为代理并非必要。相反,直接利用线性模型生成扰动,可能更直接地作用于这一核心机制。
基于此,我们提出 PIL(Perturbation-Induced Linearization): 通过线性模型作为代理,直接生成能够诱导深模型线性化的不可学习扰动。
PIL 方法概述
与基于对抗攻击的方案不同,PIL 通过一个双目标优化过程,引导模型学习线性映射。
1. 语义混淆(Semantic Obfuscation)
通过最小化 KL 散度,使线性代理模型在扰动后的样本上输出接近均匀分布,从而削弱原始图像中可用于分类的语义信息。
2. 捷径诱导(Shortcut Learning)
通过最小化交叉熵损失,使代理模型能够仅依据扰动准确预测标签,从而将判别信息嵌入进扰动中。
两个目标通过平衡参数 λ 进行联合优化,最终生成的扰动同时抑制语义学习并强化线性捷径,从而在深模型训练阶段诱导其产生显著的泛化退化。
图 1:PIL 方法示意图
PIL 的算法流程(简要)
1. 训练一个无偏置的线性分类器作为代理模型;
2. 在不可察觉约束(L∞≤8/255)下,采用类似 PGD 的方法优化扰动;
3. 将扰动注入原始图像,构造不可学习样本;
Algorithm 1:PIL 算法流程
实验结果
我们在 SVHN、CIFAR-10/100 和 ImageNet-100 数据集上,结合 ResNet、VGG、MobileNet 等多种模型进行了系统评估。
1. 有效性
在不同数据集和模型架构下,PIL 生成的不可学习样本均能显著降低模型的测试准确率,在部分设置中准确率接近随机水平。
表 2:在干净数据集(Dc)与 PIL 构建的不可学习数据集(Du)上训练的模型在干净数据上的测试准确率(%)对比
2. 计算效率
在 CIFAR-10 上,PIL 生成扰动仅需 40.53 秒,而 REM 方法需要超过 54k 秒,效率提升超过三个数量级。同时,PIL 在效率与防护效果之间取得了较好的平衡。
表 3:不同方法为 CIFAR-10 训练集构建全部扰动所需的时间对比
3. 鲁棒性
在多种数据增强策略(旋转、裁剪、MixUp)和不同 JPEG 压缩质量下,PIL 依然保持稳定的防护性能。
表 4:不同数据增强策略下,各类不可学习样本在 CIFAR-10 上的干净测试准确率(%)。结果越接近 10% 越好。灰色背景标示 Top-2 的两种方法。
表 5:在不同 JPEG 压缩质量下,各类不可学习样本在 CIFAR-10 上的干净测试准确率(%)。结果越接近 10% 越好。灰色背景标示 Top-2 的两种方法。
4. 线性化验证
我们使用 FGSM 攻击下的准确率下降幅度作为线性化指标。实验表明,随着 PIL 扰动比例增加,模型对 FGSM 的敏感性显著增强,验证了 PIL 确实诱导了模型的线性行为。
表 6:使用不同干净 / PIL 扰动数据混合比例训练的 ResNet-18 模型,在各 FGSM 攻击步长下的测试准确率及下降幅度(%)
进一步分析:
部分扰动设置下的性能退化受限
在实验中我们观察到一个一致现象:当仅有部分训练数据被扰动时,模型的测试准确率往往不会出现显著下降。这一现象并非 PIL 方法特有,而是现有不可学习样本方法普遍存在的特性。
为解释该现象,我们通过实验发现模型对被扰动样本产生的梯度与对干净样本的梯度呈现很强的正交性,于是我们提出在梯度正交假设,并在该假设下进行了理论分析,得到如下结论:
干净样本与扰动样本在训练过程中所产生的梯度方向近似正交,因此扰动样本对应的梯度更新难以显著干扰模型对干净样本的学习;
在混合训练设置下,模型的泛化性能主要由干净数据主导,只要干净样本数量足够,模型仍能学习到稳定且可泛化的特征表示。
图 2:在部分扰动场景下,CIFAR-10 数据集的干净测试准确率(%)
上述分析表明,部分扰动并不足以从根本上削弱模型的泛化能力。这一定性结论对于实际应用具有直接启示意义:若期望获得稳定且显著的防护效果,需要对数据集进行大比例甚至全部的扰动,或至少保证扰动样本在训练数据中占据足够高的比例(通常高于 80%)。
结语
PIL 的核心在于从机制层面重新审视不可学习样本问题,将关注点从复杂的代理模型与攻击策略,转向「模型线性化」这一关键因素。通过使用线性代理模型,PIL 在显著降低计算成本的同时,依然保持了稳定而有效的防护能力。
我们希望这一视角能够为不可学习样本及相关数据保护研究提供新的思路,并推动更加高效、可扩展的方法设计。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]