MoreRSS

site icon机器之心修改

中文人工智能垂直媒体。由kindle4rss生成。
请复制 RSS 到你的阅读器,或快速订阅到 :

Inoreader Feedly Follow Feedbin Local Reader

机器之心的 RSS 预览

去现场救火、去商超理货!杭州这场国际机器人大赛,5月亮相

2026-04-01 13:01:00

机器之心发布

浙江首个具身机器人大赛来了! 



近日,2026 杭州国际具身机器人场景应用大赛(以下简称 “大赛”)新闻发布会举行。据介绍,赛事定于 5 月 15 日至 16 日在西湖区云栖小镇会展中心开赛,将让舞台、跑道上闪闪发光的机器人,首次进入消防、商超、工厂等真实场景中比拼,部分赛事还将甩掉遥控器,采用机器人自主感知与决策,点燃全球对具身机器人走入千家万户、服务千行百业的期待与热情。


本次大赛以 “智启未来 场景无” 为主题,由浙江省经信厅主办,杭州城西科创大走廊管委会、杭州市经信局、西湖区人民政府、浙江省技术创新服务中心、国家机器人检测与评定中心(总部)共同承办。


报名通道开启

全球机器人汇聚浙江


2026 杭州国际具身机器人场景应用大赛于 2 月 28 日开启赛事全球招募通道,目前报名仍在征集中。


截至目前,大赛组委会共收到来自全国 15 个省、直辖市及自治区的 90 家主体报名申请,覆盖长三角、粤港澳、京津冀等主要城市群,将展示全球最顶尖的具身机器人竞赛水平。


现全球招募通道已正式开启

无论你是深耕研发的企业

攻坚技术的团队

还是怀揣创新的创业者

均可报名参赛

共赴这场科技盛宴



扫描上方二维码,快速填写报名信息,一键完成报名


服务国家战略

助推未来产业率先走入现实


具身智能被列为我国六大未来产业之一。“谁能率先在真实场景中验证技术、积累数据、迭代产品、适配场景,谁就能抢占先机、赢得主动。” 浙江省经济和信息化厅总工程师李永伟介绍,大赛共设置专业测试赛、应用场景挑战赛、创业创投赛三场分赛和应用场景互动展示,将全力实现三大目标。


目标一:提升在全球机器人领域的标准话语权


通过标准化测评与开放场景任务,系统评估机器人在感知、决策、执行等维度的自主能力,助力我国机器人标准与国际接轨。


目标二:打造辐射全球的机器人场景创新平台


聚焦工业、服务、特种等领域真实需求,以赛促用,缩短技术到产品的转化路径,为我国机器人产业跻身全球前列提供有力支撑。


目标三:构建开放合作的全球机器人产业秩序


链接国际国内优质创新资源,提升区域科技影响力与我国机器人产业全球竞争力,营造激发持续创新与跨界融合的良性生态。


专业测试赛

最大亮点:机器人自主感知与决策


专业测试赛覆盖导航避障、语音交互、基础运动、运动控制等维度,最大看点是部分赛事将采用机器人自主感知,禁止使用遥控器



该项赛事面向机器人企业开启报名,由国家机器人检测与评定中心(总部)等权威测评机构全程执裁。目前,已有来自北京、上海、杭州、苏州等地企业报名参赛。


场景应用挑战赛

不再比跑步跳舞,真实场景就是赛场



场景应用挑战赛将赛场搬进了真实的场景,所有赛题均聚焦家庭、工业、服务、特种等领域,源自蚂蚁集团、绿城集团等企业的真实业务痛点。比如双浦赛场,沙地、碎石、阶梯等复杂地形上会有极限机动赛;云栖赛场则设置服务器精密装配、商超理货等高难度实操赛。


该项赛事面向高校、科研院所、科研团队开放。大赛还设置了趣味彩蛋,现场将有人形机器人拳击专项赛、运动能力挑战赛等观赏性表演赛。


杭州之江机器人创业创投大赛

优胜项目推荐进入龙头企业采购备选库


杭州之江机器人创业创投大赛搭建 “政策、资本、客户” 直通桥,设立大赛奖金加政策池,组建 2 亿元机器人产业专项基金,联动启迪之星、电科基金、西湖科创投等 10 余家机构,优胜项目将推荐进入龙头企业采购合作备选库。


该项赛事面向创业团队、优质创新项目开放。


全部赛事向公众开放

全民共享科技狂欢,零距离触碰未来


本次大赛不仅是一场顶尖技术的巅峰对决,更是一场属于所有人的科技嘉年华!5 月 15 日、16 日赛事和体验区全部向公众开放,云栖小镇将化身为未来世界的入口,敞开大门迎接每一位对未来充满好奇的你。


在这里,你将不再是旁观者,而是未来生活的 “先行体验官”:


与机器人 “面对面”

看人形机器人走出实验室,在真实场景中大显身手 —— 它们如何在商超里精准理货?如何在复杂地形中稳健前行?甚至如何在拳击擂台上与你 “切磋”?这些科幻电影般的画面,将在你眼前真实上演。


亲身体验 “人机共舞”

现场设置互动体验区,你可以亲手操控机器人完成趣味任务,感受智能感知与协同操控的神奇;更有机会与机器人握手、对话,见证它们如何理解指令、回应情感。


探秘未来生活新场景

从智能家居到智慧工厂,从特种救援到商业服务,多个沉浸式场景等你打卡,提前 “穿越” 到机器人深度融入生活的不远将来。


全家共享的科技之旅

无论你是科技迷、亲子家庭,还是好奇宝宝,这里都有属于你的惊喜。好看、好玩、好拍,更有硬核科技带来的震撼与感动。


5 月 15 日、16 日,来杭州云栖小镇,来杭州之江机器人产业服务母港,与全球顶尖机器人一起,开启属于你的 “未来一日”!


© THE END

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]


超百万算力、72小时、近百台真机:具身智能的刷分时代,被一场「裸考」终结

2026-04-01 13:01:00

编辑|Sia

不按套路出牌的比赛


没有仿真,没有预设参数,也没有剪辑空间。


在深圳全球首届具身智能开发者大会的比赛现场,取而代之的是上百台六轴机械臂、统一的绿色布景,以及——真实世界。


20 支队伍,真机上阵:数据现场采、模型现场训、系统现场部署。


模型不限,代码自带;算力、硬件、AI Infra,全部由主办方提供。


目标只有一个:教会真机「看懂环境」、「做出决策」、「动手操作」。


时间?只有 72 小时。


如此不按套路出牌,那些 benchmark 高分模型,到了这里,恐怕也只能「菜鸟互啄」。而这,正是这场比赛想要的——


最好的测评,不在榜单,而在现实世界。


它的随机性、多样性与复杂性,是检验具身智能模型能力的终极利器。


全球首届 EAIDC(具身智能开发者大会)暨「具亮计划」黑客松决赛现场。


 30 日,由自变量机器人、深圳市人工智能行业协会、广东省具身智能训练场联合主办的全球首届 EAIDC(具身智能开发者大会)暨「具亮计划」黑客松决赛,正式收官。这也是全球首个将「真实环境 + 真实任务」同时写入赛制的大规模具身智能赛事。


过去几十年,具身智能的真机世界里,一直缺少类似大模型榜单那样的统一评测体系,来回答「哪个模型更强」。行业迫切需要一个在真实物理环境中检验技术成熟度的平台,而这场比赛,正好是一次尝试。


「大家取得的成绩,让我有些惊讶。」自变量机器人创始人兼 CEO 王潜坦言,这个方向本身上手难度极高,一开始办比赛也带着些许忐忑。但没想到,参赛团队最终能把事情做到这个程度。


自变量机器人创始人兼 CEO 王潜


四道真题,藏着具身智能的「成人礼」


清华、北大等顶尖高校与科研机构的 20 支强队同台对抗,现场可谓「硬核拉满」。「从没打过这么富裕的仗。」一位参赛选手这样形容。


决赛现场,多台机械臂协同运行,实时调试系统。


决赛现场,参赛队伍和自变量工作人员,围绕真机调试模型与系统。


三天之内上手?这在常规情况下,几乎是不可能完成的任务。要知道,专业研究实验室搭一套类似系统,至少需要 6 个月。于是主办方大手笔,直接造了一个「顶配考场」


模型?WALL-OSS、Pi0.5、Dream Zero等开源基础模型,随便选;


算力?100+ PFLOPs,管饱;


机械臂?高性能真机,近百台;


Baseline?提前配好;


数据集?免费开放;


数据采集、训练、推理 infra?一整套,现场备齐,甚至包括在线测评。


当所有「外部变量」全被抹平,唯一的问题就是:你的模型,到底能不能打?能不能在真实世界里,快速落地?


真机上阵:参赛队伍在现场完成数据采集、训练与操作闭环。


摆在选手面前的四道决赛任务,就是主办方精心设计的「职业资格考试」,包括套圆环、分水果、插电源线、拼单词。看似简单,实则难度递增,每一个任务背后都对应着具身智能落地的真实痛点。


其中,前两题更像「保底分」。


套圆环,是经典的 peg-in-hole 问题:看深度、估姿态、做对齐、控接触。这是典型的工业自动化能力之一——精细操作的分水岭。分水果,则从「手」转向「脑」:给一句指令「把水果放进碗里」,模型要完成从语言到动作映射。


如果机器人能分拣好苹果和梨,它就有望在物流仓库分拣成千上万种形态各异的快递,或者在无人超市补货。


将圆环套在柱子上(左);按指令分类水果(右)


真正拉开差距的,是后两题,分数权重也高。主办方的指向也很明确:从 Robotics  Embodied AI,「手活儿好」不够,「脑力够强」才是决定上限的能力。


任务三的插电源线,完全是机器人的「噩梦」。线是软的,姿态是随机的;手会挡视线,插入还有物理阻力。这不只是操作问题,而是在不确定中,完成精细对齐。


现实世界中,80% 的操作都不是刚体,比如线缆、衣物 、食材,谁解决了柔性物体,谁就真正接近「人类级操作」。


拼单词,更进一步——几乎不难「动手」,但极难「动脑」。这是一个典型的长程任务:顺序怎么排?哪些字母已用?放在哪里?一步出错,全盘崩掉。


插电源线(左),拼写单词(右)


而现实世界,几乎全是这种问题。去厨房拿杯子,倒好咖啡,加糖,端到书房。又或者收拾餐桌、整理玩具、叠衣服……这种长时序、多步骤的任务能力,是机器人进入家庭、成为「管家」的必经之路。


它要求模型不仅要「会做」,还要「会想」:从理解语言指令,到拆解任务、实时规划,再到一步步执行动作,最终把事情完整做完。


决赛现场的选手们。


比赛中,不同队伍选择了不同技术路径。有人用  Pi0.5Dream zero,也有不少团队选择基于 WALL-OSS,在现场复现任务表现。


但一开始,情况并不乐观。很多团队甚至连「跑通」都困难,成功率只有 20%–30% 左右。但随着调参、补数据、换策略,成绩快速爬升。


像套圆环这样的任务,成功率可以提升到 60%–70%;更复杂的拼单词任务,也从几乎不可用,提升到 40%–50% 的水平。


这说明在真实环境里,模型是能被快速调出来、真的能干活的。 


另一方面,问题也比想象中更「暴露得彻底」。


比如一上 B 榜,成绩明显掉下来,说明很多模型的泛化能力其实还不够;很多团队为了时间,只用了很少的数据,也暴露出训练范式、数据利用效率的不够。


现场24小时轮转评测,实时出分保证比赛公平


为什么必须开源?具身智能的「中国解法」


具身智能,不能再「纸上谈兵」了。行业现在缺的,不是 Demo,而是一个能在真实世界里「见真章」的真靶场。这一点,在比赛结束后的圆桌环节,形成了高度共识。


这块靶场的建设,就死磕三件事:真问题、真开源、真泛化


如果说,赛题设计锚定的是「真问题」,那么接下来更值得讨论的是,具身智能为什么必须开源?又该怎么开源?


「我们一直想把这件事真正做起来,让大家把开源模型用好。」自变量联合创始人兼 CTO 王昊表示。事实上,在当前阶段,不开源,行业很难真正跑起来——这一点,也在圆桌讨论中几乎形成共识。


在圆桌环节,自变量与来自不同生态位的嘉宾就开源、产学研生态建设,展开讨论。


原因很直接。具身智能不是单一模型的问题,已经变成一个系统工程——一个从数据采集、模型训练到真机部署、软硬件协同的系统工程。门槛高到什么程度?高到如果没有开源,大多数开发者甚至连「入场」的机会都没有,高校也很难培养出真正能落地的人才,整个行业只能在少数团队内部循环。


更关键的是,现在这个阶段,本身就没有标准答案。用什么数据、什么模型结构、什么训练路径,没有任何一条路线已经被验证为「最终解」。这就决定了,没有哪一家公司可以独立把这件事做完。只有把数据、模型、流程不断释放出来,让更多人参与试错,行业才有可能加速收敛。


从这个角度看,开源的意义,其实已经不只是技术共享,而是在「制造共识」。谁能吸引更多开发者、更多团队在同一套体系上迭代,谁就更有机会定义未来的技术路径。


但具身智能的开源,又和大模型不太一样。很多关键数据来自真实世界,涉及隐私和成本;很多能力绑定在具体硬件上,难以复现;还有一些推理和系统能力,本身就是公司的核心竞争力,不可能完全开放。


所以现实情况是,大多数所谓的「开源」,并不是完全开放,而是在不断寻找一个平衡点。


在这一点上,首届 EAIDC 算是率先打了一个样:与其只开源代码,不如把「能跑通的能力」开放出来,让开发者不仅能看到模型,还能用数据、用流程,甚至在真实环境里直接跑一遍。


以自变量的开源模型为例,在比赛现场,WALL-OSS 已经能通过标准工具链快速部署,从模型加载到机械臂执行,几小时内打通完整闭环。无论是接入 Hugging Face、魔搭,还是对接机械臂控制系统,都无需复杂定制开发。


「这个事情需要大量开发者参与,不只是科班出身,也希望更多普通开发者加入进来,生态才能真正做起来。」王潜表示。


他举了一个很形象的例子:「小龙虾」为什么能火?并不是因为一群专业人士在做,而是无数个人开发者、无数小团队一起,把它推成了一个庞大的生态。


自变量想做的,正是同样的事情。通过吸引更多开发者参与进来,不断扩展开源模型的能力边界,补全一块长期缺失的拼图:中国自己的「具身智能大脑」, 


「孤勇者」,跑不出真泛化


除了真问题、真开源,具身智能走进现实世界,需要死磕一个问题:达到真泛化。


具身智能要具备突破性的泛化能力,就不能止步于「黑灯工厂」中的单点应用,而必须走进真实的家庭与生活,在随机、充满不确定性的场景中大规模持续采集数据、开展训练。只有用优质的数据「饲料」,才能培育出具备优秀泛化能力的大模型。


对此,自变量机器人指出,必须从通用基础模型出发,才有可能在不同场景中高效迁移,实现规模化落地。这个路径是单向的,不能倒过来。


一方面,他们持续打磨通用模型能力,围绕泛化与长程任务不断提升上限;另一方面,则主动进入具体场景,尤其是养老服务、公共服务这类相对封闭的环境,让模型在真实世界中运行,不断获得真实数据,优化和验证通用能力。


圆桌嘉宾就开源与具身智能的产业化路径展开讨论。


无论是更多样的场景、更多真实数据、更多失败和反馈,恰恰只有在大量开发者同时参与时,才可能出现。这也是这场赛事的「生态价值」所在。


在王潜看来,它的意义不只是一次竞技,而是降低门槛、吸引开发者、加速生态形成的起点。


首先,它解决了「让人进门」的问题。通过开源模型与统一基础设施,把原本高门槛的具身智能「打平」,让开发者可以直接上手,在真实环境中完成任务。


表现突出的方案,还可以进入 WALL-OSS 官方示例库,获得行业认可。


其次,企业也可以站在社区肩膀上。当模型被不断复现、部署、验证,社区的反馈会迅速暴露问题,任何依赖 Demo、夸大能力的方案,都很难在这样的体系中长期存在。


而且,开发者在真实环境中完成任务、踩坑、优化,这些经验不再停留在个体,而是通过开源模型与社区不断回流,反过来推动整个技术体系进化,逐步形成「开源创新回馈」的闭环。


正如一位圆桌对谈的嘉宾所言,你把所有学生都用起来,有更多开发者,有开发者以后,就有更好的技术,有更优秀的人才,形成更好的闭环。


具身智能的进化方式,也不再依靠少数公司的单枪匹马,而是一个由生态驱动的、持续加速的系统。



未来,该项赛事将持续举办,并依托开源平台与软硬件开发体系,汇聚更多开发者,推动中国具身智能生态不断向前。王潜表示。


EAIDC,也不再只是一个比赛或大会,而是在尝试成为具身智能领域的「真实世界评测场」,以及行业的观察窗口。


过去,我们判断一个模型,看的是 benchmark 排名;而未来,一个具身模型是否真的能打,答案会更简单——


 EAIDC 的现场,看一眼。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]



比全球最强推理引擎还快2倍,斯坦福、普林斯顿破解大模型「串行魔咒」

2026-04-01 13:01:00

机器之心编辑部

在大语言模型推理领域,虽然「推测解码」(Speculative Decoding,SD)已成为加速生成的标准配置,但它依然存在一个致命弱点: drafting(草拟)和 verification(验证)之间必须串行进行。


近日,来自斯坦福、普林斯顿大学和 Together AI 的研究团队提出 SSD 框架及其优化算法 SAGUARO,成功实现了草拟和验证的并行化



  • 论文链接:https://arxiv.org/pdf/2603.03251

  • GitHub 链接:https://github.com/tanishqkumar/ssd


据介绍,该算法推理速度比世界上最强大的推理引擎都快 2 倍



「推测性推测解码」(Speculative Speculative Decoding,简称 SSD),是一种新型的推测性解码 (SD)。在传统的 SD 中,一个小且快速的模型会先猜测大且慢的模型可能生成的下几个 token,然后大模型通过一次前向传播验证这些猜测,草拟和验证是依次进行的。


而在 SSD 中,这两个过程是并行发生的,完全消除了运行小模型的开销。



并行执行草拟和验证是很棘手的,因为你无法在某事物存在之前对其进行验证,也无法推测你不知道的前缀之外的内容。在 SSD 中,研究者预先设定验证结果,并在独立硬件上进行验证的同时进行推测。这样一来,如果其中一种验证结果出现,推测就能立即生效。


虽然论文对算法进行了详尽的理论描述,但在实践中,研究者大部分时间都花在如何让它与现代推理引擎中各种优化技术(Paged Attention、Prefix Caching、CUDAGraphs 等)协同工作上。


作者 Tanishq Kumar 表示,「真的,我花在了解 CPU/GPU 同步问题上的时间远远超过了我的预期」。



要使新算法达到 SOTA 水平,需要精心设计系统和算法。总的来说,SSD 推动了延迟 - 吞吐量帕累托前沿的发展,其方式与普通推测解码推进标准自回归算法的发展非常相似。



Tanishq Kumar 称:「我对快速推理感到兴奋,因为我非常关注的一个人工智能工作负载是超长时域推理。想象一下,一个拥有大量 B200 的数据中心完全用于运行一个模型,该模型需要处理数十亿个 token 来证明 P 与 NP 的区别。在这种情况下,延迟减半就意味着可以进行双倍深度的思考!」



SSD 如何实现草拟与验证并行?


现代 AI 对推理速度有着极高的要求。然而,标准的语言模型解码是按顺序生成单个 token,未能利用现代硬件上可用的大规模并行计算。


推测性解码(SD)是一种为了解决这个问题而引入的技术。它使用一个快速的「草拟模型」来预测目标模型可能将生成的下几个 token,而不是从目标模型中进行缓慢的自回归采样,然后通过目标模型的并行前向传播验证这些 token。这一验证是按照一个算法进行的,确保生成的 token 是从目标模型的分布中采样的。


在每次验证中,目标模型决定接受多少个推测的 token,并采样一个额外的奖励 token,该 token 跟随所有已接受的 token。尽管推测性解码有效,但它本身仍受限于串行依赖:必须等待当前验证完成后,才能开始下一轮推测。


那么,我们能否消除草拟和验证之间的顺序依赖呢?


研究者引入推测性推测解码(SSD),这是一个旨在并行化草拟和验证的统一框架。


在 SD 中,草拟模型必须等待验证完成,才能开始推测下一轮,而在 SSD 中,草拟模型会预测最可能的验证结果,并在验证进行的同时,针对所有可能的结果进行并行的提前推测。如果这些预准备的结果中的任何一个发生,草拟模型可以立即将预推测的 token 发送给验证器,从而避免草拟阶段的开销。与普通的推测性解码一样,SSD 也是无损的。不同之处在于,SSD 的草拟模型部署在与目标模型不同的硬件上。


优化 SSD 算法主要面临三大挑战


首先,草拟模型必须准确预测验证结果,这不仅包括接受了多少个推测的 Token,还包括采样的奖励 token。其次,推测器的接受率与其预测验证结果的能力之间存在微妙的权衡,必须谨慎处理以最大化加速比。此外,任何 SSD 算法都必须具备处理预测失败的回退策略,因为在大批处理量和高随机性(Temperature)下,预测失败会频繁发生,若处理不当,即时补救的开销将抵消异步带来的收益。


为此,他们推出了 Saguaro,这是一个优化的 SSD 算法,针对上述挑战进行了定向优化。


  • 将预测验证结果的问题转化为约束优化问题,并引入了一种技术,利用最可能的草拟 logits 来预测奖励 token,准确率最高可达 90%。

  • 识别了预测准确性与生成高质量推测之间的张力,并开发了一种能够平衡二者的采样算法。

  • 探讨了处理预测失败的多种策略,发现最优回退策略随批处理大小而异。通过采用这些优化,尽管 Saguaro 在处理每个批次元素时进行了更多计算(同时解码多种可能的结果),其表现仍比标准 SD 高出 20%。


总的来看,Saguaro 相比优化的推测性解码实现了高达 2 倍的加速,相比自回归生成实现了高达 5 倍的加速,并在各种批处理规模下均显著提升了吞吐量与延迟的帕累托前沿


不过,该领域仍有许多值得探索的方向。SSD 可以自然地与 EAGLE 技术以及 token-tree 推测(Token-tree speculation)相结合,但这种联合设计及其权衡空间在很大程度上尚未被发掘。


此外,通过扩展草拟设备的数量以及推测缓存,延迟可以进一步减少,尽管回报最终会递减。最后,在集群层面跨多个目标模型部署共享推测端点——类似于预填充-解码分解)——是另一个自然的研究方向。



图片


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]


首次!OpenClaw又更新,直接合并QQ官方插件

2026-04-01 12:19:00

机器之心编辑部

「OpenClaw 的下一版本已经被泄露。」


今天早上,OpenClaw 再次更新,发布了 2026.3.31 版本。


从官方介绍来看,此次上线了一系列更新,包括内置 QQ Bot,打通中国主流即时通讯场景,支持私聊、群聊、频道(Guild)以及多媒体消息交互;进一步强化多模态消息能力,LINE 平台现已支持发送图片、视频和音频等;首次引入可视化的后台任务流管理,支持查看列表、展示详情、取消任务等;针对 CJK(中日韩语言)的优化,包括更好的上下文理解、更稳定的长期记忆、更自然的语音合成(TTS)……



具体来看,其中最受关注的一项就是内置 QQ Bot 插件,支持多账号、凭证管理(SecretRef)、Slash 命令、提醒以及媒体消息收发。相比传统 AI 工具需要进入应用再使用相关功能,这种形态的变化更接近一种「嵌入式」能力,直接存在于沟通场景之中。


资料显示,此前,OpenClaw 已支持 Telegram、Discord、Slack 等平台,而 QQ 的加入,或标志着其正式进入国内用户的高频沟通环境。


本次更新还进一步强化多模态消息能力,在 LINE 等平台中,OpenClaw 已支持发送图片、视频和音频等。


这意味着,用户可以直接通过多种媒介触发任务,而不仅限于文本指令。也就是说,多模态能力在这里不再只是理解输入内容,而是成为任务执行的入口。


另一个比较大的更新是,此次首次引入的可视化的后台任务流管理,这使得 OpenClaw 不再只是一个即时响应的对话系统,而是具备了类似「任务调度器」的能力,是一个可持续运行、可被管理、可被中断的执行系统。


此外,此次 OpenClaw 还专门强调了针对 CJK(中日韩语言)的优化,这或许意味着,OpenClaw 正在针对亚洲市场进行更深入的本地化适配。


总之,综合此次的关键更新来看,会发现一个有意思的现象,OpenClaw 或正在从 AI 工具转变为「AI 入口」,用户只需要用自然语言表达需求,其余流程由 Agent 自动完成。


而从 GitHub 的更新日志上看,除了上述这些关键更新,此次 OpenClaw 2026.3.31 的更新内容还有很多,包括大量的可靠性与安全性方面的改进,下面就选取部分内容来看看:



  • Nodes/exec:移除了 CLI 和 Agent 节点工具中重复的 「nodes.run」shell 封装。现在所有 Node shell 执行统一通过 「exec host=node」,Node 专属能力仅保留在节点调用和专用媒体 / 定位 / 通知操作中。 

  • Plugin SDK:弃用旧版 provider 兼容路径和历史 bundled provider 机制,同时发出迁移警告。未来将仅保留当前文档中的「openclaw/plugin-sdk/*」入口以及本地「api.ts/runtime-api.ts」作为标准路径。 

  • 插件与技能安装:默认启用「失败即关闭」策略,若检测到危险代码或安装扫描失败,将直接阻止安装。如需继续,必须显式使用「--dangerously-force-unsafe-install」等参数。 

  • Android / 通知:新增通知转发控制能力,支持按应用包过滤、静默时段、速率限制,并为转发通知事件提供更安全的选择器行为。

  • Matrix / 历史记录:通过「channels.matrix.historyLimit」为 Matrix 群组触发增加可选的历史上下文支持;引入按 Agent 记录的水位标记和可安全重试的快照机制,避免失败重试时误读更新的消息。 

  • Matrix / 网络:新增「channels.matrix.proxy」配置,可通过 HTTP (S) 代理转发 Matrix 流量,支持账号级覆盖,并与探测 / 运行时行为保持一致。 

  • Matrix / 流式输出:新增草稿式流式输出,使 Matrix 的部分回复能够在同一条消息中原地更新,无需为每个分块发送新消息。

  • Matrix / 线程:新增针对私聊(DM)的线程回复(threadReplies)配置覆盖,并确保线程会话隔离与触发消息所在房间或 DM 的线程策略保持一致。 

  • Slack / 执行审批:新增原生 Slack 审批路由与审批人权限控制,使执行审批可直接在 Slack 内完成,无需回退到 Web UI 或终端。 

  • CLI / 初始配置:在用户拒绝已发现的远程网关地址后,将远程网关 URL 提示重置为安全的本地回环默认值,避免初始配置过程中保留之前被拒绝的远程 URL。

  • WhatsApp / 消息反应:Agent 现在可以对收到的 WhatsApp 消息添加 emoji 反应,例如用 ❤️ 表示确认,而无需发送文本回复,使交互更加自然。 

  • Microsoft Teams / 成员信息:新增基于 Microsoft Graph 的成员信息查询能力,使 Teams 自动化和工具可以直接获取频道成员详情。


更多信息,大家可前往项目主页查看!


参考链接:

https://x.com/openclaw/status/2039095081215672584

https://github.com/openclaw/openclaw/releases/tag/v2026.3.31


图片


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]


ICLR 2026 | 中国联通提出扩散模型缓存框架MeanCache,刷新多模态生成模型推理加速新基准

2026-04-01 12:19:00


作者和团队介绍:本文第一作者是高焕霖,通讯作者为赵放和廉士国,所有作者均来自联通数据智能有限公司(中国联通数据科学与人工智能研究院)- 元景大模型研发团队和南京大学,专注于联通元景大模型研发。


FLUX 、Qwen-Image 等多模态生成模型的推理速度一直是工业级多模态模型落地的痛点。传统的特征缓存(Feature Caching)方案在追求高倍率加速时,常因瞬时速度的剧烈波动导致轨迹漂移。


针对这一痛点,中国联通数据科学与人工智能研究院与南京大学研究团队,在此前工作 LeMiCa(NeurIPS 2025 Spotlight)的基础上继续深耕,推出了进阶加速框架 MeanCache


该工作不仅承袭了团队在扩散模型加速领域的深厚积淀,更在技术上实现了跨越:受到 MeanFlow 启发,MeanCache 首次将 “平均速度” 视角引入缓存推理,通过 JVP 修正精准校正了生成轨迹,实现了 4x 以上的推理提速。该成果已入选人工智能顶会 ICLR 2026,目前,论文、代码均已开源。



  • 论文标题:MeanCache: From Instantaneous to Average Velocity for Accelerating Flow Matching Inference

  • 论文链接:https://arxiv.org/pdf/2601.19961

  • 项目主页:https://unicomai.github.io/MeanCache/

  • 代码地址:https://github.com/UnicomAI/MeanCache


技术创新:平均速度驱动的缓存新范式


MeanCache 的核心贡献在于将缓存加速从 “瞬时速度” 转向了 “平均速度”,主要包含以下两个核心技术点:


JVP 驱动的平均速度


为了在不增加推理开销的前提下获取平均速度,MeanCache 引入了雅可比 - 向量积(JVP)作为计算桥梁。基于推导出的起点锚定恒等式,MeanCache 利用前一时间步已缓存的 JVP 信息来修正当前的瞬时速度 :

该建模方式将缓存视角从单一的 “点” 扩展到了 “区间”,通过提供更稳定的引导信号,有效地校正了高倍率加速下的轨迹偏离。



轨迹稳定调度策略


“什么时候该缓存?” 以往的方法多依赖固定步长或手动阈值。MeanCache 将推理过程建模为一个多重图(Multigraph)寻优问题。


它将每个时间步视为节点,将预测均值速度与真实值之间的稳定性偏差定义为边权:

节点和边组成多重图,然后再通过峰值抑制最短路径(Peak-Suppressed Shortest Path)算法,在给定的计算预算下,计算规则下最优的缓存策略:


实验结果:刷新 SOTA 加速表现


文生图


在商业级文生图模型 Qwen-Image 和 FLUX.1 [dev] 分别实现最高 4x 加速,在 Image Reward 和感知指标上取得了 SOTA 的表现。



从视觉效果上看,随着加速比的增大,MeanCache 生成的图片在内容一致性方面表现更好。



文生视频


在视频生成模型 HunyuanVideo 上也实现了 3.6x 加速和 SOTA 的指标提升。



在对视频的定性分析上,MeanCache 也表现出更好的加速效果,不论是画质还是内容一致性方面。



语义一致性:更进一步,针对 rare-word(如下图 "Peristeronic")的高难度生僻 Prompt 的测试下,MeanCache 展现了更强的语义鲁棒性。



业界顶级团队推荐


同时,MeanCache 已支持最新的阿里通义 Z-Image 和 Qwen-Image-2512 文生图模型,并获得了 Z-Image 团队的官方主页推荐,社区已支持 ComfyUI



总结与展望


MeanCache 作为一种轻量化、免训练的 Flow Matching 加速框架,创新性地提出了 “平均速度缓存” 与 “轨迹稳定性调度” 方案。该方案在确保图像高保真度与内容一致性的基础上,显著提升了大模型的推理效率。 联通元景大模型团队将以此为基石,持续深耕模型推理加速及复杂场景生成领域。我们致力于为业界贡献更多元化的技术视角,进一步降低工业级生成模型的使用门槛与算力成本。



图片


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]