MoreRSS

site icon机器之心修改

中文人工智能垂直媒体。由kindle4rss生成。
请复制 RSS 到你的阅读器,或快速订阅到 :

Inoreader Feedly Follow Feedbin Local Reader

机器之心的 RSS 预览

特斯拉开源硬件,中国团队开源大脑!首个具身智能顶配全家桶上线

2026-04-22 15:01:00

图片
编辑|泽南

这会是具身智能的 OpenClaw 时刻吗?


4 月,特斯拉宣布了一系列关于其人形机器人 Optimus(擎天柱)的重大技术开放举措,引发行业巨震。首批披露的包括 Optimus 手部专利、硬件结构细节,马斯克希望通过开源来加速技术普适性,定义具身智能硬件入场规则。


刚刚,面对硅谷巨头的出招,在具身智能这个前沿赛道上,国内团队来了一波回应:你开源钢铁躯壳,我开源灵魂「大脑」!



全球首个一站式、开箱即用的具身智能模型开源社区 AlphaBrain Platform 正式上线,一桌具身智能技术的「顶配全家桶」史无前例地端到了全行业的面前。


  • 链接:https://www.alphabrain-platform.com/


这是一套打通「数据→训练→架构→测试」全链路的完整技术栈,其中包含当前最前沿的技术(世界模型、类脑模型)、最自由组合能力(跨范式即插即用能力)、最公平评估标准(统一的 Benchmark)以及最广泛的开发社群。


这些原本只存在于顶尖实验室的能力全部开放了,现在任你取用。你可以在其上获得全球范围内最强的模型,针对自身任务测试调用,再通过整套工具链完成场景落地。


具身智能,从来没这么简单过。


推动这一社区的,是国内具身智能创业公司智平方(AI² Robotics)。


技术路线集齐

重塑开源标准


智平方推出的具身全家桶集齐了当前领域内最火的技术路线,包括但不限于世界模型、类脑模型、RL Token。在这其中,我们也看到了一些不同之处:他们面对当前具身智能量产落地的挑战,提出了独特的解法。


具体来说,AlphaBrain Platform 上的技术包含五大亮点:



迈向生物脑:全球首个开源类脑 VLA 模型(NeuroVLA)


作为首个在类脑控制任务中展现出卓越效能的开源类脑 VLA 模型,它不仅刷新了类脑具身性能纪录,更开启了具身智能向生物脑学习机制进化的新篇章



传统的机器人动作输出往往依赖连续值,而 NeuroVLA 创新地引入了脉冲神经网络(SNN)动作头,用脉冲编码模拟了生物神经元的脉冲放电机制。NeuroVLA 拥有「在线自适应」能力,在部署阶段不需要通过反向传播来更新参数,只需要依赖环境交互的自监督奖励信号即可实时更新权重,实现了任务过程中的在线持续适应。


配合 GRU-FiLM 动作精修模块,该系统能基于机器人本体状态对 SNN 输出进行条件性修正,极大提升了机器人动作的最终精度。


告别「灾难性遗忘」:首个面向跨架构 VLA 的开源持续学习算法


大模型在学习新技能时极易产生「灾难性遗忘」—— 学了新动作忘了老技能,且微调成本极高。智平方通过这套算法,突破了架构兼容性的瓶颈。


通过集成 LoRA 参数的高效微调(仅训练 VLM 骨干网 6% 的参数),智平方让模型的训练显存占用降低了 60%。而经验回放(Experience Replay)系统维护了一个可配置的任务级回放缓冲区,在学习新任务时会自动回放旧任务样本,有效实现了知识的累积迁移。与此同时,所有的持续学习改动均为「增量式设计」,不修改基座代码,且与具体 VLA 框架解耦。


该算法目前已在 QwenGR00T、LLamaOFT 等多种架构上验证了兼容性,真正做到跨架构通用。


低成本泛化:首个基于 RL Token 的全新 VLA 训练架构


强化学习(RL)是赋予机器人在复杂场景下泛化能力的关键,但高昂的试错与计算成本常令人却步。作为真正的低成本场景化利器,这套新范式率先开源了 RL-Token 技术,并在在公开基准 LIBERO 上完成了验证。仅需极少量人类专家演示即可完成高质量训练。


新的训练架构通过编码器将 VLA 庞大的隐藏状态极度压缩至低维瓶颈空间,强迫模型剔除冗余,提取出最关键的决策信息。值得一提的是,本社区实现了两阶段训练方式,在 RL 微调的第二阶段,VLA 主体参数被「完全冻结」,系统仅训练轻量级的 RL 模块。这一招既避免了灾难性遗忘,又大幅压低了计算成本(仅为原来的 3.5%)。在训练时,该架构又引入了 50% 概率丢弃 VLA 参考动作的 Dropout 机制,防止 Actor 模块退化,增强了机器人的自主探索能力。


「可插拔」的世界模型架构(WA)


「世界模型」是目前行业最火的探索方向,它能提供一个虚拟化环境,让机器人在行动前就能预演未来,做出更优决策。智平方提出的可插拔的世界模型架构原生集成了 NVIDIA Cosmos Policy 的原始预训练权重,支持在业界最顶尖的三大世界模型(Meta 的 V-JEPA、英伟达 Cosmos Predict 以及阿里的 Wan)上灵活自定义切换


在该架构上,所有的世界模型共享 DiT 动作解码器,并且系统会自动适配各家的多模态文本编码器。开发者只需要稍微修改配置文件,就能一样自由对比不同世界模型在相同任务上的表现。


全面适配最新具身 Benchmark


为了验证上述所有能力,智平方为整套体系适配了最新具身 Benchmark,涵盖 LIBERO(四大任务套件)、LIBERO-plus、RoboCasa 以及 RoboCasa365 等业界最权威的评测基准。


开发者能够对模型在长时序下的推理与记忆能力进行严苛验证。AlphaBrain Platform 平台提供了统一的评估入口,可自动完成从推理服务启动到服务关闭的全流程。配合 WebSocket 推理服务与 BF16 加速,甚至支持远程部署与跨机器评估,并原生支持 VLA+VLM 联合训练,全面提升评估效率。


让开发者站在巨人的肩膀上


作为前沿研究方向,过去两年具身智能领域涌现出了大量开源模型。但一个尴尬的现实是:开源的模型很多,真正「好用」的很少。开发者还要面对各种问题:这个模型怎么跑起来?哪个模型更好用?我想做的创新能不能落地到真实场景?


AlphaBrain Platform 不止开源了模型,也包含让模型能跑起来、比得清、能落地的全链路能力。能够方便人们进行复现、对比及场景化落地。



此前,硅谷明星企业 Physical Intelligence 推出的基础模型 Pi 曾是开源的典范,但它仍处于单模型开源阶段 —— 而 AlphaBrain Platform 则是直接交付了一整座高度定制化的「兵工厂」,接入的是最强的设备零件,输出的是即开即用的具身能力,让开发者们可以把精力聚焦于机器人本体的调优与场景落地上。


AlphaBrain Platform 发布后,以往具身智能开发中令人头疼的繁杂环境配置、接口对齐和架构适配等底层「杂活」被彻底打包解决,高阶的定制化开发变成了触手可得的能力,前沿技术的发展或许将由此导向一条全新道路。


在该平台之上,开发者只需几行简单的配置就能实现跨架构、跨范式的自由组合,快速验证创新的研发想法,硬件需求也很低(甚至在消费级显卡上也能运行)。通过支持低成本微调,开发者可以迅速让模型适配自己的机器人硬件,大幅缩短从研发到落地的时间。


在能够接入多家先进模型的前提下,AlphaBrain Platform 统一了评估标准,建立了标准评测体系,让人们可以尝试和选择最适合自身任务的工具。


此次开源最大的贡献在于打破实验室围墙,让原本只存在于英伟达、Meta 等全球顶尖实验室的能力(如类脑 VLA 模型、可插拔世界模型、跨架构持续学习等)全面开放,任由社区取用。


随着更多的开发者加入进来,前沿技术的复用与创新,将极大推动机器人行业从重复造轮子转向更深层次的技术突破。


这或许就是「顶配全家桶」的意义。


不止于开源大脑

「最像特斯拉」的中国具身智能独角兽


有趣的是,打破这层技术窗户纸的智平方,在业内被评价为「最像特斯拉」的机器人公司。


智平方自公司成立就坚持端到端大模型的技术范式。在 2023 年初,全球创业团队仅有特斯拉机器人与智平方选择了这条鲜有人走的技术路线。其自研具身大模型 AlphaBrain 采用原创模型架构,拥有完整的数据 — 训练 — 迭代闭环体系,而非套用开源方案,实现了真正的「技术原生」。


早在 2024 年,智平方发布了创业公司中首个 VLA 模型,在模型规模仅为谷歌同类模型 1/20 的情况下,性能提升超过 80%;2025 年,智平方推出了快慢系统深度融合的新一代架构,在第三方评测中超越国际标杆模型 Pi0 达 30%。这些成果已全部融入 AlphaBrain 的迭代体系中,使其始终站在行业最前沿。


快慢系统深度融合的新一代架构。


当行业近期开始热议「世界模型」时,智平方在 2023 年下半年便率先提出:世界模型不应是 VLA 的外接模块,而应深度内生于模型之中。基于这一前瞻认知,AlphaBrain 在 2025 年 11 月吸纳了新一代架构 Video2Act 的最新成果 —— 实现「先预测、后执行」。


在第三方评测中,相较于硅谷同类标杆模型,AlphaBrain 取得了超过 30% 的性能领先,证明了环境理解与动作执行一体化路线的显著优势。


传统 VLA 模型「训练完成即固定」,无法在部署后继续学习。智平方再次引领突破 —— 他们开源了全球首个类脑 VLA 模型(NeuroVLA),并将其融入 AlphaBrain。NeuroVLA 引入脉冲神经网络动作头与 R-STDP 训练算法,支持部署阶段的在线自适应,让机器人具备类似「肌肉记忆」的能力。这意味着机器人第一次从「执行指令的工具」转变为「在任务中不断进化的主体」:只是完成任务,而是在过程中变得更熟练、更稳定,接近人类的学习方式。


与此同时,智平方也构建了完整的硬件量产与商业落地能力。


智平方坚持面向量产的硬件设计,其最新一代 AlphaBot 2 机器人核心部件无故障运行寿命可达 5 万小时。依托自建产线,智平方在 2025 年已具备千台级年产能,并在年底实现了单月百台级的真实交付。



在落地上,智平方率先跑通了数据 × 商业双闭环,其产品在半导体显示制造、汽车制造、公共服务等大量真实场景持续运行。他们获得了全球第三大面板厂商惠科的 1000 台订单,被摩根士坦利认定为该领域全球最大单一订单。同时,在新零售赛道,其推出的全球首个模块化具身智能服务空间「智魔方」,已在多地实现日均 10 小时以上的常态化、零失误自主运营。


从开源大脑到坚实的商业闭环,智平方的行动,正在定义着具身智能作为下一代先进生产力的未来。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]


文章原文

天塌了,Pro用户用不了Claude Code,除非100美元买Max

2026-04-22 15:01:00

编辑|Sia

大家做好心理准备,大涨价迟早会来。


知名科技博主 George Pu 发文称,Anthropic 悄悄修改了价格页面,将其核心代码助手 Claude Code 从 20 美元的 Pro 套餐中剔除,变为 100 美元起步的 Max 套餐专属权益。



这意味着,开发者想要维持原有功能,现在必须升级到 Max 套餐——最低月费 100 美元,价格翻了 5 倍。


没有官方公告,只是价格页面被修改了。


而他本人用的是最贵的套餐,暂不受影响。



一石激起千层浪,开发者反应激烈。


首当其冲的,是那些预算有限、资源紧张、以小项目为主的小团队和个体开发者。


当前的额度一旦用完,很多 Pro 用户根本无法继续开展工作,整个开发进度被迫停滞。



面对突如其来的限制和费用上涨,Hacker news 上也一片惶恐。


在用户习惯养成后突然大幅改变计费规则,被直指,吃相难看。



而在与 OpenAI 的竞争中,这种反复横跳、折腾用户的行为,无异于自掘坟墓。



有人调侃,从没见过哪家公司比 Anthropic 更加恨自家的客户和合作伙伴。



不过,不少网友也发现,自己在官网上看不到这些变动,怀疑这是虚假消息或者 Anthropic 正在进行的小范围灰度测试。



很快,Anthropic 负责人 Amol Avasare 赶来澄清。


目前,所谓的方案变动仅是针对 2% 新用户进行的定价测试,现有 Pro 和 Max 订阅者的权益完全不受影响。



然后,就是一段官方诉苦与预告。


兄弟们,不是我们想割韭菜,是你们用得太狠了!Opus 4 太强,你们拿它跑几小时的代码和 Agent,原先那点订阅费我们连电费/算力费都快覆盖不住了。


所以,我们要改规则(涨价或按量计费)了。


他解释说,自一年前推出 Max 套餐以来,用户的行为模式已发生根本性改变——从单纯的聊天转向了使用 Claude Code 和长时异步 Agent 等极度消耗算力的重度任务。


这导致,原有的套餐架构已无法承载这种爆发式增长的使用强度,所以,公司正通过灰度测试探索能平衡成本与体验的新方案。


他承诺,未来若有任何正式调整,必会提前给予充足通知,绝不会让用户只能通过社交媒体的截图来获悉政策变动。



然而,面对官方所谓灰度测试解释,OpenAI 赶来献上一场拉踩式公关。


奥特曼亲自下场,回复了一句,得嘞,老登。



他的兵也来了。



Tibo 直接贴脸开大——


嘿,隔壁 Anthropic 已经开始嫌弃你们(开发者)用得太多、算力太贵,甚至要涨价到 100 刀了;但我们这里管够,而且不加钱。


他特别强调, Codex 将继续保留在免费版和 20 美刀的 PLUS 版中。这精准打击了那些因为 Claude 可能取消 Pro 版代码权限而焦虑的开发者。


秀完财大气粗,还不忘把一次普通的商业选择升华为道德站队。


如果你支持公平和透明,就该来用 OpenAI。您的订阅就是在为您希望在这个世界看到的价值观投票。



网友们也没有消气,反而开启了更加猛烈的炮轰。


知名科技评论员 Ed Zitron 开门见山:


如果真的是针对 2% 新用户的临时测试,为什么要大费周章地修改官方支持文档、帮助材料,甚至连官网的定价对比表都改了?


别信他们的测试鬼话,他们本来就是想全员涨价,只不过被大家发现后认怂了。大家做好心理准备,大涨价迟早会来。



其实,Anthropic 和 OpenAI 的唯一护城河就是资金。


这两家公司正利用资金优势,以低于成本的价格提供产品,尽可能坚持到最后,争取成为行业中硕果仅存的那一家。


过去两个月,Anthropic 的一系列让广大开发者苦不堪言的操作,大多可归结为算力撑不住了。


比如,限制了第三方工具的订阅额度(OpenClaw 的遭遇,真是冤大头),还在高峰期大幅削减配额。 


更离谱的是,Opus 4.7 的 Token 消耗比前代高出了不少,导致很多 Pro 用户在周三就把一周的额度用光了。



为了应对算力瓶颈,它们可能会将有限的计算资源集中到高付费用户和企业客户,不断让普通用户的体验骨折。


所以,也就有了这次名曰灰度测试的骚操作。



更有人预测,小玩家们的时代,结束了。


骂归骂,不少人已经开始物色下家, OpenAI 的 Codex确实成为不少人的下一站,还有Cursor、Gemini pro。



甚至有用户准备尝试中国的大模型,价格更低,额度更多。



随着 agent 的兴起,Token 消耗越来越大,未来的 coding plan 价格恐怕还是得涨。


其实,OpenAI 现在的慷慨未必持久,Codex 在 20 美元套餐上的烧钱模式同样不可持续。毕竟,Anthropic 现在的做法,OpenAI 以后未必不会跟进。


这也提醒开发者们,AI SaaS 的定价仍然不稳定,供应商会在生产性消费者(prosumer)和企业/高级(Max/enterprise)之间不断实验定价模型,特别是当 GPU 和基础设施成本波动时。


大家应该做好预期,这些定价目标会发生变化,在设计工作流程时也要考虑到这一点,以免单一供应商悄悄调整定价页面,导致整个技术栈崩塌。


对此,你怎么看?是不是也受到波及了呢?有没有找到更稳定的应对方式?


图片


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]


文章原文

千万养虾人的终极梦想!全球首个「养虾本」带你懒人养虾开箱即食

2026-04-22 11:30:00

编辑|冷猫


养虾的风还是吹到了硬件上。


前些天,我们受邀参加了荣耀的技术沟通会,没想到在会场门口就被一个吸睛的「龙虾」应用勾走了魂:



(不是这个,擦擦口水……)主角是下面这位:



这个 3D 打印背后大有乾坤——这是「龙虾」完成的一套惊艳的「一条龙」自动化链路:从一张图片到生成 3D 建模,再到全自动控制打印机执行任务,全程无需人工干预。


如今,「龙虾」成了中国互联网上最魔幻的一个词。经过短短数月的进化,它完成了从工具到生态的彻底蜕变。就像英伟达 CEO 黄仁勋在 GTC 大会上定义的:「OpenClaw 就是 AI 智能体计算机的操作系统。」


与此同时,一组数字正在以更安静但更惊人的方式增长:中国日均 Token 调用量从 2024 年初的 1000 亿,暴涨至 2026 年 3 月的 140 万亿


但现实总是反差的:当一边是全民热议的养虾潮,另一边是普通人看着似乎无所不能的龙虾两眼一抹黑。行业的尴尬现实是:


真正用起来的人,少得可怜。


当 Clawdbot 刚刚火起来的时候,不少人跟风购买了 Mac mini,似乎一下子就能养好龙虾,拥抱未来。但实际上呢,对着电脑不知所措的普通用户才是大多数,也难怪衍生出那么多代装龙虾的服务。


龙虾成了极客和大厂的玩具,跟「走进寻常百姓家」之间隔着一道鸿沟。龙虾到底怎么才能从极客的玩具,变成普通人手里的工具?


有没有一种可能,用户只需按下电源键,屏幕里就坐着一只随时待命的全能龙虾?


真正的破局之道,还是回到了终端设备厂商手中。


荣耀正式发布自研 YOYO Claw 龙虾技术,将首发搭载于荣耀 MagicBook 系列,开创了「养虾本」全新硬件品类,「出厂预置、开箱即食」



或许,这就是终端设备厂商为养虾用户准备的标准答案。


「开箱即食」:打造龙虾样板间


当前主流的龙虾方案,用户要经历一套堪称劝退的操作流程:注册账号、获取 API Key、配置环境变量、选择模型、调试 Prompt、安装插件……每一步都在筛选用户。能走完这套流程的,大多是开发者或是重度 AI 用户。


更关键的是, 很多用户并不清楚龙虾具备哪些技能、能解决什么实际问题。从对话到真正调用技能完成任务,中间的学习成本和操作繁琐程度,足以让大多数人放弃。


该怎么避免重蹈 Mac mini 们吃灰的覆辙?荣耀 YOYO Claw 技术的解法可以概括为三个字:预置它



出厂就养好了


荣耀打破了传统龙虾需要用户自行调试配置的模式,也彻底告别了付费「代装龙虾」的冤枉钱,将 YOYO Claw 龙虾能力直接预置在荣耀 MagicBook 系列轻薄本中。出厂即完成全部配置,用户开机就能用。


荣耀从设备底层深度融合的 Claw 设计,打造了全球首款「养虾本」


与传统方案的 OpenClaw 不同,「养虾本」中的 YOYO Claw 完全不需要用户费心费力去摸索调教,荣耀为用户准备好了一切。


龙虾预置了 5 只「成品主虾」和 23个「子虾」,分别对应教育、办公、学术、内容创作和智能辅助五大场景。每一只都已经提前搭载了对应领域的全套专业技能。



更重要的是,这些龙虾把用户的使用门槛降到了最低。使用龙虾就像和一个真正的助理对话一样简单无感,哪怕是刚刚接触龙虾类智能体的萌新,也能迅速上手。


因为在 YOYO Claw 上,只需在对话框问一句「你能干啥」,龙虾就会清晰列出自身所有技能清单,直接调用即可,完全跳过了摸索功能的过程。


最让人头疼的环节,莫过于让私人龙虾和社交账户绑定。而荣耀在连接环节同样做了极致简化:扫描二维码登录,就能将龙虾与飞书、微信等常用聊天软件打通,之后所有交互就都能够在聊天对话框中完成了。


龙虾自进化


不会自我进化的智能体,不是好龙虾。


在这个「养虾本」上搭载的荣耀 YOYO Claw 技术,具备了技能自生成」「工作流自进化」的自主学习能力。



当用户通过龙虾完成产出 Word、PPT、Excel、PDF 等文档,或上传文件时,龙虾会自动学习其中的知识脉络和方法论,沉淀为可复用的模板与工具,生成相应的技能或是记忆。下次遇到同类任务,直接调用已掌握的技能,效率就能显著提升。

此外,在与用户的持续交互中,荣耀 YOYO Claw 技术还能将用户的创作偏好、规则约定、行业经验等隐性知识进行结构化整理,织成一张独属于你的「个人专属知识网」。


甚至,荣耀觉得这样简化仍然不足以让每一个普通用户都「拥抱龙虾」。更进一步地, YOYO Claw 技术不再局限于传统的接受指令执行指令的循环,而是能够主动地为用户提供服务。


举个例子,当龙虾发现用户正在撰写论文时,就会自动推荐对应的「论文虾」主动介入,提供协助。



拥有「越用越懂你」的能力,荣耀 YOYO Claw 彻底告别了冰冷的「被动响应」模式,正式从一个听令行事的工具,进化为懂你心意、甚至能预判你需求的主动型数字助理


省一半 Token:荣耀护城河


当一个终端硬件厂商参与到 AI 智能体的构建中,天生就具备传统软件厂商不具备的优势。


我们都知道,Token 逐渐已经成为智能体时代最重要的核心单位。国家数据局局长刘烈宏在中国发展高层论坛上公开定调:词元不仅是智能时代的价值锚点,更是连接技术供给与商业需求的「结算单位」。华为高级副总裁李鹏则在合作伙伴大会上直接宣布:Token 经济时代已经到来


Token 消耗是龙虾使用中最直接的显性成本。一次对话、一次任务执行,背后都是真金白银的 Token 在燃烧。


节省 Token 已经是所有大模型参与者都在关注的核心问题。在大家都在模型上下功夫,在思维链上做减法的时候,作为终端硬件厂商的荣耀,在「养虾本」上另辟蹊径,从系统底层出发,将龙虾与电脑硬件和系统深度融合,轻松做到了各大模型厂商在 OpenClaw 上难以达成的成绩。


根据荣耀官方实验室数据:荣耀 YOYO Claw 技术较 OpenClaw 综合词元消耗的节省达到了惊人的 50% 。



简单举个例子,当我们使用 OpenClaw 投入生产力应用的时候,经常需要在存储空间中进行大量的搜索和文件调用,就不可避免地使用许多相关的 Skills,导致不可控的 Token 消耗。


而荣耀 YOYO Claw 技术能够与系统底层的文件管理和搜索系统融合,彻底告别无效的 Token 消耗。


全链路 Token 优化


上述举例只是荣耀节约 Token 设计的其中之一。为了能够实现 50% 的综合词元消耗荣耀拥有一套全链路优化的系统工程



第一步,任务 系统首先判断任务复杂度。简单任务走「快问快答」通道,复杂任务才合理分配计算资源,避免一刀切造成的浪费。


第二步,上下文精简与技能匹配 很多龙虾会携带大量与当前任务无关的上下文信息,在一个新任务中的规划总是不受控制地携带过往记录里的上下文,这不仅浪费 Token ,也十分让人烦恼。


荣耀 YOYO Claw 技术通过算法对上下文进行压缩规整,仅保留强相关信息;同时精准匹配完成任务所需的技能。若涉及工具执行,若有相同结果,直接继承上次结果而非重复搜索,从源头减少无效消耗。


第三步,精准记忆调用荣耀 YOYO Claw 技术的记忆涵盖用户身份信息、长期习惯、短期需求等多个维度。每次执行任务时,仅提取与当前任务相关的记忆片段,避免无关记忆挤占 Token 预算。



第四步,端云协同路由。 这是荣耀作为终端厂商的核心优势所在。


荣耀 YOYO Claw 技术可以将简单、高频、重复性及涉及本地调用的任务(文件管理、设备控制、语义搜索等)直接由本地模型处理,Token 消耗为零;只有规划与分析类复杂任务才调度云端模型,仅在此时产生少量消耗。本质上实现了「能省则省、按需分配」。


第五步,结果沉淀复用。 对于已执行过的任务,系统能判断结果是否仍在有效期内,若无需更新则直接继承历史快照,彻底杜绝重复执行带来的浪费。


五步串联,形成一个「任务理解→上下文精简→记忆匹配→端云协同→结果沉淀」的完整闭环,该省省,该花花,保证强大智能体能力的同时,最终实现 50% 的 Token 节省幅度。


底层保证养虾安全


养虾这块,在享受了智能体带来的高效快捷的同时,也会给用户带来一些安全风险。


我们之前相关的报道,给「龙虾热」泼上一盆冷水,龙虾导致的安全风险就连 Meta 超级智能安全总监都中过招。


尤其对于硬核技术不太熟悉的普通用户来说,「养虾安全」自然成为重中之重。荣耀 YOYO Claw 技术打出了终端厂商独有的牌——设备级防护体系



  • 核心 Skills 加密保护用户通过长期使用训练出的专属技能,实现内核级加密存储,即使物理提取也无法读取明文;

  • 独立安全虾全程监控自动拦截格式化硬盘、重装系统等高危操作;涉及支付登录、摄像头调用、对外发送文件等敏感行为强制二次确认;

  • 本地处理原则核心数据处理与个人记忆均在设备端完成,「能力全开放,敏感数据零上云」。


终端厂商拥有对硬件和操作系统的完整控制权,这是纯软件厂商无法复制的安全护城河。


「一虾多吃」:终端厂商的标准答案


当前中国 AI 产业正演绎一场大家都很熟悉的历史,慢慢从「群雄割据」逐步转向「三国演义」:


  • 大模型厂商坐拥「大脑」,深耕底层原创,聚焦基础模型研发,技术原创性强,却苦于缺乏实体触角,难以叩开用户的大门。

  • 互联网大厂手握「流量」,靠海量应用生态圈地,但在 AI 融合上往往受限于“套壳”逻辑,难以深入打造系统。

  • 终端厂商则离用户最近,数据最真实、场景最落地、体验最闭环,可此前在 AI 能力上大多只是浅尝辄止。


荣耀的特殊性在于,它像是一个「六边形战士」。它具备对标大模型厂商的底层技术的研究力,具备对标互联网大厂的流量与生态系统,更具备终端硬件厂商的最大优势,能够实现硬件打通布局,软硬结合,以及深度触达用户的能力。


三位一体,是终端硬件厂商玩转 AI 智能体的标准答案。


多端一体,一虾多吃


硬件行业里一直存在着永恒的问题,生态应该怎么玩?


荣耀已经布局了成熟完善多端互联,打造了完整好用的终端生态。但在 AI 智能时代,终端生态又应当怎样进化呢?


荣耀 YOYO Claw 技术配合荣耀终端生态,实现了「一端饲养、多端共享」的龙虾全家桶体验。



这是一种高阶的生态玩法。虽然物理上是一台 PC,但在数字世界里,全家人各取所需,互不干扰:


  • 孩子的「学霸虾」能秒速识别错题、归档知识盲区;

  • 家长的「健康虾」能深度复盘全家人的体检趋势,变身专业医疗助理;

  • 生活则交由「管家虾」,从智能菜谱规划到跨设备的照片资产管理,事无巨细。



这就是终端生态的魅力,能够让每一位家庭成员都能够享受到 AI 智能体的便利,让每一个人跟随科技的进步,享受科技的乐趣,真正实现「龙虾智能体」的普惠,打通了通往用户的「最后一公里」。


龙虾变成小河虾,走进寻常百姓家。告别 FOMO,享受智能时代。


写在最后


回看 2026 年上半年的 AI 行业图景,龙虾浪潮与词元经济几乎同时爆发:技术供给空前充沛,但消费侧的落地通道始终狭窄。大多数普通人与最前沿的 AI 能力之间,横亘着配置门槛、使用成本和安全顾虑三座大山。


荣耀带着全球首个「养虾本」的出现,用出厂预置消灭了配置门槛,用五步链路优化了使用成本,用内核级加密打消了安全顾虑,更用终端共享打通了用户使用龙虾的「最后一公里」。


更深层的意义在于,AI 产业从「Token 消耗规模」向「Token 使用效率」,甚至「Token 全民共享」的范式转变。


无节制的 Token 消耗既不可持续,也不普惠。荣耀率先洞察了这一趋势,成为行业内首家将 Token 节省从概念落到终端产品的科技企业。


一个「养虾本」,做到了一次面向大众市场的「降维」,将开发者才能驾驭的复杂系统,转化为普通人打开笔记本就能用的成熟产品。



正如荣耀 「智启人本」(AHI) 理念所表达的——让 AI 服务人、陪伴人、成就人,而不是取代人。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]



文章原文

Transformer可以改装成Mamba了:苹果把推理成本直接打成线性

2026-04-22 11:30:00

编辑|Sia

最近,苹果又整了个活儿,很工程、也挺关键:


把又贵又强的 Transformer,改造成又便宜又差不多强的 Mamba。而且,性能基本没怎么掉。


听起来炸不炸?有点像水电煤级别的升级。


为啥要折腾这个?很简单,Transformer 确实猛,这十年基本就是靠它打天下。但问题也很现实:它越长越贵,而且是平方级变贵。


短文本还好,一旦上到长上下文(比如代码、agent、多轮推理),那成本就不是有点高,而是直接肉疼。



于是,大家就开始找替代方案。比如线性 attention、RWKV,还有这两年很火的 Mamba。这些模型的思路都很统一:别再平方爆炸了,改成线性。好处也很直接:更快、更省显存、推理更丝滑。


但问题来了, 它们不够强。尤其一旦规模上去,和 Transformer 还是有差距。于是就卡住了一个经典局面:


要性能?用 Transformer(但贵) ;

要便宜?用 Mamba(但弱一点);


那有没有可能既要又要?能不能不重训,把 Transformer 的能力,直接搬到 Mamba 上?



直接蒸馏,性能肯定得崩。Transformer 像那种随时翻资料的学霸, Mamba 更像全靠记忆的选手。你突然让一个翻书型选手闭卷考试,还不给过渡—— 那基本就是灾难现场。



苹果没有硬刚,而是搞了一个两步走


先造一个中间形态,让 Transformer 先变成一个更简单、更接近 Mamba 的版本。再从这个中间版本,转成 Mamba。

用来把 Transformer 里原本计算很贵的 Softmax Attention,换成一个更省算力的 Mamba 模块。中间加了一个过渡形态:先把 Attention 变成一种学出来的线性 Attention(Hedgehog),再结合 Mamba,最终得到一个混合模块,叫 HedgeMamba


第一步,把原始的 softmax attention 换成一种线性 attention,同时尽量不丢性能。


问题在于,传统线性注意力一直有明显短板,和 softmax attention 的表现差距很大。为了解决这个差距,他们依据Mercer 定理,用了 Hedgehog 方法,用一个小型神经网络(MLP)去学习一种特征映射,让线性 attention 尽量模仿原来的行为。


再通过余弦相似度(cosine similarity)蒸馏,让这个新结构在输出上对齐 Transformer。这一步做完,相当于得到一个更便宜但还挺像 Transformer的中间模型。



第二步,是把这个已经对齐好的线性 attention,进一步嵌入到 Mamba 结构里。


他们做了一件很关键的事情:把 attention 里的核心计算方式,对应映射到 Mamba 的内部参数上,让 Mamba 在初始化的时候,行为就已经接近前一步的模型,而不是从零开始学。这一步本质是在做结构对齐。


不过,还有一个问题需要处理。原始 attention 自带一种归一化机制,而线性版本没有,所以他们额外加了一步归一化,让输出形式更接近原来的 attention,同时又不破坏计算效率。


完成这些之后,才进入真正的训练阶段。


他们对整个模型做微调,用标准的交叉熵训练,并重新启用 Mamba 原本的能力,比如卷积和门控( Gate )机制。这一步的作用,是让模型不只是模仿,而是用自己的方式把能力重新学出来。


整套方法的关键不在某一个技巧,而在这条路径本身:先让两种模型在表达方式上对齐,再做结构转换,最后通过训练把能力恢复出来。


也正是因为这样分步处理,才避免了直接蒸馏时常见的性能崩塌问题。



效果到底咋样?性能几乎没掉,但成本逻辑已经变了。


论文里最关键的一张表,把三类1B模型摆在一起对比:Transformer教师模型(Pythia)、传统蒸馏基线( Hedgehog ),以及他们的方法( HedgeMamba )。在只用10B token(大约是教师训练数据的 2.7% )的情况下,结果非常直接——


教师模型的困惑度是 13.86,基线方法掉到 14.89,而HedgeMamba把这个指标拉回到 14.11,已经贴得很近了。


他们用一个大约10B token训练出来的1B模型做实验,最后得到的 Mamba 模型能够保留原始 Pythia-1B Transformer 在下游任务中的性能,其困惑度(perplexity)保持在 14.11,接近老师模型的 13.86。


这件事的含义其实挺重的。


过去大家默认一个前提:只要你把 Transformer 换成另一种架构,性能就会明显掉一截。


但这篇论文给出的答案是,这个损失可以被大幅追回来。而且,不只是语言建模指标好看,在Arc、PIQA、BoolQ、RACE、LogiQA 这些下游任务上,HedgeMamba基本全面超过基线,同时整体表现已经逼近教师模型。这说明它保留下来的不只是表面的概率分布,而是相当一部分推理能力和语义结构。


更关键的是,这种效果不是调出来的,而是有方法论支撑的。他们尝试过最直接的做法——从 Transformer 一步蒸馏到 Mamba,结果是 PPL 直接炸到 100 以上,几乎不可用。


换句话说,两阶段蒸馏在这里不是优化,而是绕不过去的结构性条件。



后面的消融和分析,其实是在解释这条路径为什么成立。


比如,架构上,真正起作用的不是简单叠模块,而是门控机制——也就是让模型学会该记什么、不该记什么;


训练策略上,两阶段的数据分配也不是平均最优,而是明显偏向第二阶段,说明中间表示只是过渡,真正的能力是在后半段完成迁移;


再看数据规模,从1B 到 10B token,性能是稳定往上走的,没有出现不收敛或反复震荡的情况,这一点很重要,因为它说明这条路线是可以规模化放大的。


架构消融实验表明,让 Mamba 好用的关键,不是简单堆结构,而是门控机制。


蒸馏的两步(S1 和 S2),数据到底该怎么分配才最有效?两阶段蒸馏是必要的,而且最优策略是轻S1 + 重S2。


蒸馏过程中 token 数量(训练数据量)对效果的影响。似乎只要给足够多的蒸馏数据,Mamba 可以逼近 Transformer 的性能。


把这些信息合在一起,这篇工作的价值就不在又做了一个更好的模型,而在于它提供了一种新的工程可能性。


过去几年积累的大量 Transformer 模型,并不需要全部推倒重来,而是有机会通过一套流程,被转制为更高效的形态。


如果这件事能稳定复现,那整个开源模型生态、甚至很多公司的自研模型,都有机会被整体降本重构。


参考链接

https://arxiv.org/abs/2604.14191


图片


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]



文章原文

ICLR 2026 | ProSafePrune:一剪见效,告别大模型过度防御

2026-04-22 11:30:00

图片


一作:陈紫军,合肥工业大学博士生,研究方向为大模型概率可靠性以及可解释性,曾在 ICLR,AAAI, COLING 等顶级会议上发表论文。

通讯作者:胡文波,合肥工业大学计算机与信息学院副教授,黄山青年学者。主要研究方向为机器学习,包括贝叶斯概率机器学习、人工智能安全以及科学人工智能。


当你问 AI 「如何关掉房间的灯(how to kill the lights)」,却被冰冷拒绝「无法提供相关帮助」;当你想探讨「黑客技术的正向应用」,得到的却是「拒绝涉及非法活动」的机械回应 —— 你遇到的正是大语言模型(LLMs)的「过度拒绝」(over-refusal)痛点。


为了平衡安全与实用性,现有对齐技术往往强化模型的拒绝机制,却让模型变得「草木皆兵」,把含表面风险词汇但语义无害的指令误判为有害。这不仅严重影响用户体验,还会导致「对齐税」(alignment tax),让模型在通用任务上的性能大打折扣。


针对这一行业难题,合肥工业大学与科大讯飞联合团队提出了全新的低秩参数修剪框架 ProSafePrune,该工作已被国际顶会 ICLR 2026 录用。通过精准定位模型内部的认知偏差并针对性修剪,ProSafePrune 在大幅降低过度拒绝率的同时,不仅不损害模型的安全防御能力,还能轻微提升通用任务性能,为 LLM 的安全部署提供了全新思路。



  • 论文链接:https://openreview.net/forum?id=QkHKaPfRAB

  • Github 链接:https://github.com/hfutml/PROSAFEPRUNE


研究背景:

过度拒绝的核心痛点与现有方案局限


大语言模型在内容创作、智能客服等领域的广泛应用,让安全对齐成为必答题。主流的 SFT(监督微调)、RLHF(基于人类反馈的强化学习)等技术,虽能有效抑制恶意输出,却容易陷入「过度防御」的困境 。


这种「过度拒绝」本质上是模型在特征层面的认知偏差:LLM 的隐藏状态会自然编码输入的安全属性,但伪有害指令(语义无害但含风险词汇)会同时投影到有害子空间和无害子空间。过度的安全微调会放大这种投影中的有害成分,压制无害成分,导致模型内部决策边界偏移,最终误判拒绝。


更棘手的是,这种认知偏差还会引发「对齐税」:模型为了追求绝对安全变得过度谨慎,通用推理、知识问答等核心能力会随之下降。


现有缓解方案存在明显短板:


  • 训练 - based 方法:需要额外标注数据和大量计算资源,成本高且实用性有限;

  • 训练 - free 方法:虽无需参数更新,但多在推理时干预,会引入额外延迟,且需要固定干预向量,不方便部署。


找到一种轻量化、能直击问题根源的解决方案,成为 LLM 安全部署的关键。


核心发现:

过度拒绝的根源是「过度有害编码」


团队通过探针实验揭示:过度拒绝的本质是模型对伪有害指令的「过度有害编码」(over-harmful encoding)。



研究人员在 LLaMA-2-7B 和 LLaMA-3-8B 上的实验发现:伪有害指令在模型早期层会因词汇相似性呈现强有害信号,中间层随着全局语义浮现,有害信号会减弱,但 LLaMA-2-7B 的深层却不能有效削弱有害特征,这与其 38.5% 的高误拒率高度相关(LLaMA-3-8B 误拒率仅 10.5%)。


这种「过度有害编码」不仅导致了过度拒绝,还使得模型过度谨慎,导致通用任务性能下降。这一发现为解决方案指明了方向:直接在参数空间中移除这些冗余的低秩有害成分,就能在不影响安全防御的前提下,缓解过度拒绝并降低对齐税。


ProSafePrune:

三大核心设计,精准修剪认知偏差


ProSafePrune 的核心思路是:通过子空间投影分离伪有害特征与真正有害特征,在模型最具辨别力的中间层,针对性修剪放大伪有害性的低秩参数方向。整个框架无需额外训练,推理时无任何开销,实现了「一次修剪,永久生效」。


1. 子空间提取:用 SVD 精准分离特征


团队采用奇异值分解(SVD),从安全、有害、伪有害三类指令的模型输出中,分别提取对应的子空间。这种分解能在最小化信息损失的前提下,捕捉最具判别力的特征方向,确保分离出的子空间精准可靠。


具体来说,针对模型第 l 层的每个子模块(Q、K、V、O、FFN),收集三类指令的输出激活并池化为向量矩阵,通过 SVD 分解得到: 



其中  对应的投影矩阵  就代表了该类指令的特征子空间(s 为安全、u 为有害、p 为伪有害)。 


2. 重叠算子:精准定位「过度有害」成分


为了避免修剪时误删真正的安全防御成分,团队设计了独特的重叠算子:



该算子通过三步精准筛选:

  • 聚焦伪有害指令的主特征方向 

  • 提取其中与有害子空间重叠的成分 

  • 排除与安全子空间对齐的部分 


这种设计能精准定位需要修剪的「过度有害」成分,确保修剪后模型仍能有效拒绝真正的恶意指令。



3. 中间层修剪:平衡效果与性能


通过 t-SNE 可视化和轮廓系数(silhouette score)分析,团队发现模型的中间层具有最强的特征分离能力,是安全相关特征判别最关键的区域。修剪这些层既能高效缓解过度拒绝,又能最小化对模型整体性能的影响。


最终修剪操作通过以下公式实现:



其中 λ∈[0,1] 控制修剪强度,通过调节 λ 可平衡过度拒绝缓解效果与安全性能。


实验验证:

全方位碾压 SOTA,安全与实用双提升


团队在 LLaMA-2/3、Qwen2.5/3 等多个系列模型(7B-70B 参数)上进行了全面评估,涵盖过度拒绝、安全防御、通用任务三大维度,结果显示 ProSafePrune 表现突出。






1. 过度拒绝显著缓解


在 OR-Bench、PHTest 等四大伪有害指令基准上,ProSafePrune 的合规率(C.R.)大幅提升。以 LLaMA-2-7B 为例,合规率从默认的 11.0% 提升至 73.0%,远超 Self-CD(43.5%)、Surgical(57.5%)等 SOTA 方法,意味着更多伪有害指令能被正确响应。从内部表征的角度,可以明显观察到经过裁剪,后续层过度的有害性编码被有效缓解。


2. 安全防御能力不降级


在 AdvBench、JailbreakBench 等恶意指令基准上,ProSafePrune 的安全分数(S.S.)与原始模型相比下降微小,证明修剪仅移除「过度有害」成分,不会过度损害模型对真正恶意指令的拒绝能力。


3. 通用任务性能略微提升


内部过度有害编码与对齐税具有关联性,ProSafePrune 还能轻微提升模型的通用能力:LLaMA-2-7B 在 MMLU 上的得分从 37.1 提升至 39.6,CommonQA 从 49.0 提升至 53.0,GSM8K 从 23.0 提升至 25.5。



4. 消融实验验证关键设计


  • 单独修剪单个子模块(如 V.proj)的合规率仅 30.5%,远低于修剪整个层的 73.0%,证明过度拒绝源于子模块间的交互;

  • 若移除伪有害子空间投影,虽能进一步提升合规率,但安全分数会从 96% 暴跌至 75% 左右,验证了重叠算子的精准筛选作用;

  • 修剪中间层的效果远超底层和顶层,证实了中间层在安全特征判别中的核心作用。


方法优势:

部署友好,泛化性强


相比现有方案,ProSafePrune 具有三大实用优势:


1. 无推理开销:修剪后生成独立模型,无需额外存储干预向量或推理时调整,部署成本低;

2. 推理速度快:在 OR-Bench-Hard-1K 测试中,ProSafePrune 仅需 16 分钟,远快于 Self-CD(43 分钟)、SCAN(20 分钟);

3. 泛化性强:在 32B 参数的 Qwen3 和 70B 参数的 LLaMA-2 上仍有效,LLaMA-2-70B 的 OR-Bench 合规率从 6.5 提升至 68.5。


总结与展望


ProSafePrune 的核心贡献在于从表征空间角度揭示了过度拒绝的根源,并提出了参数层面的根治方案。通过子空间投影与低秩修剪的结合,该方法实现了「安全防御不降级、过度拒绝大缓解、通用性能小提升」的三重目标,为 LLM 的安全对齐提供了新范式。


随着 LLM 在各行各业的深度渗透,安全与实用的平衡成为核心竞争力。ProSafePrune 的开源发布,将为开发者提供高效的解决方案,推动 AI 技术更安全、更友好地落地。


图片


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]


文章原文