MoreRSS

site icon机器之心修改

中文人工智能垂直媒体。由kindle4rss生成。
请复制 RSS 到你的阅读器,或快速订阅到 :

Inoreader Feedly Follow Feedbin Local Reader

机器之心的 RSS 预览

原来,这些顶级大模型都是蒸馏的

2025-01-29 10:25:00

机器之心报道

编辑:张倩

「除了 Claude、豆包和 Gemini 之外,知名的闭源和开源 LLM 通常表现出很高的蒸馏度。」这是中国科学院深圳先进技术研究院、北大、零一万物等机构的研究者在一篇新论文中得出的结论。


前段时间,一位海外技术分析师在一篇博客中提出了一个猜想:一些顶级的 AI 科技公司可能已经构建出了非常智能的模型,比如 OpenAI 可能构建出了 GPT-5,Claude 构建出了 Opus 3.5。但由于运营成本太高等原因,他们将其应用在了内部,通过蒸馏等方法来改进小模型的能力,然后依靠这些小模型来盈利(参见《GPT-5、 Opus 3.5 为何迟迟不发?新猜想:已诞生,被蒸馏成小模型来卖》)。


当然,这只是他的个人猜测。不过,从新论文的结论来看,「蒸馏」在顶级模型中的应用范围确实比我们想象中要广。


具体来说,研究者测试了 Claude、豆包、Gemini、llama 3.1、Phi 4、DPSK-V3、Qwen-Max、GLM4-Plus 等多个模型,发现这些模型大多存在很高程度的蒸馏(Claude、豆包和 Gemini 除外)。比较明显的证据是:很多模型会在声明自己身份等问题时出现矛盾,比如 llama 3.1 会说自己是 OpenAI 开发的,Qwen-Max 说自己由 Anthropic 创造。



蒸馏固然是一种提升模型能力的有效方法,但作者也指出,过度蒸馏会导致模型同质化,减少模型之间的多样性,并损害它们稳健处理复杂或新颖任务的能力。所以他们希望通过自己提出的方法系统地量化蒸馏过程及其影响,从而提供一个系统性方法来提高 LLM 数据蒸馏的透明度。



  • 论文标题:Distillation Quantification for Large Language Models

  • 论文链接:https://github.com/Aegis1863/LLMs-Distillation-Quantification/blob/main/paper.pdf

  • 项目链接:https://github.com/Aegis1863/LLMs-Distillation-Quantification


为什么要测试 LLM 的蒸馏情况?


最近,模型蒸馏作为一种更有效利用先进大语言模型能力的方法,引起了越来越多的关注。通过将知识从更大更强的 LLM 迁移到更小的模型中,数据蒸馏成为了一个显著的后发优势,能够以更少的人工标注和更少的计算资源与探索来实现 SOTA 性能。


然而,这种后发优势也是一把双刃剑,它阻止了学术机构的研究人员和欠发达的 LLM 团队自主探索新技术,并促使他们直接从最先进的 LLM 中蒸馏数据。此外,现有的研究工作已经揭示了数据蒸馏导致的鲁棒性下降。


量化 LLM 的蒸馏面临几个关键挑战:


1. 蒸馏过程的不透明性使得难以量化学生模型和原始模型之间的差异;

2. 基准数据的缺乏使得需要采用间接方法(如与原始 LLM 输出的比较)来确定蒸馏的存在;

3. LLM 的表征可能包含大量冗余或抽象信息,这使得蒸馏的知识难以直接反映为可解释的输出。


最重要的是,数据蒸馏在学术界的广泛使用和高收益导致许多研究人员避免批判性地检查与其使用相关的问题,导致该领域缺乏明确的定义。


研究者使用了什么方法?


作者在论文中提出了两种方法来量化 LLM 的蒸馏程度,分别是响应相似度评估(RSE)和身份一致性评估(ICE)。



RSE 采用原始 LLM 的输出与学生大语言模型的输出之间的比较,从而衡量模型的同质化程度。ICE 则采用一个知名的开源越狱框架 GPTFuzz,通过迭代构造提示来绕过 LLM 的自我认知,评估模型在感知和表示身份相关信息方面的差异 。 


 他们将待评估的特定大语言模型集合定义为 LLM_test = {LLM_t1,LLM_t2,...,LLM_tk},其中 k 表示待评估的 LLM 集合的大小。


响应相似度评估(RSE)


RSE 从 LLM_test 和参考 LLM(在本文中即 GPT,记为 LLM_ref)获取响应。作者随后从三个方面评估 LLM_test 和 LLM_ref 的响应之间的相似度:响应风格、逻辑结构和内容细节。评估者为每个测试 LLM 生成一个它与参考模型的整体相似度分数。


作者将 RSE 作为对 LLM 蒸馏程度的细粒度分析。在本文中,他们手动选择 ArenaHard、Numina 和 ShareGPT 作为提示集,以获取响应并评估 LLM_test 在通用推理、数学和指令遵循领域的相关蒸馏程度。如图 3 所示,LLM-as-a-judge 的评分分为五个等级,每个等级代表不同程度的相似度。 



身份一致性评估(ICE) 


ICE 通过迭代构造提示来绕过 LLM 的自我认知,旨在揭示嵌入其训练数据中的信息,如与蒸馏数据源 LLM 相关的名称、国家、位置或团队。在本文中,源 LLM 指的是 GPT4o-0806。


作者在 ICE 中采用 GPTFuzz 进行身份不一致性检测。首先,他们将源 LLM 的身份信息定义为事实集 F,F 中的每个 f_i 都清楚地说明了 LLM_ti 的身份相关事实,例如「我是 Claude,一个由 Anthropic 开发的 AI 助手。Anthropic 是一家总部位于美国的公司。」 



同时,他们使用带有身份相关提示的 P_id 来准备 GPTFuzz 的 用于查询 LLM_test 中的 LLM 关于其身份的信息,详见附录 B。作者使用 LLM-as-a-judge 初始化 GPTFuzz 的 F^G,以比较提示的响应与事实集 F。具有逻辑冲突的响应会被识别出来,并相应地合并到 F^G 的下一次迭代中。 


作者基于 GPTFuzz 分数定义两个指标:


  • 宽松分数:将任何身份矛盾的错误示例视为成功攻击;

  • 严格分数:仅将错误识别为 Claude 或 GPT 的示例视为成功攻击。



实验结果如何?


ICE 的实验结果如图 4 所示,宽松分数和严格分数都表明 GLM-4-Plus、Qwen-Max 和 Deepseek-V3 是可疑响应数量最多的三个 LLM,这表明它们具有更高的蒸馏程度。相比之下,Claude-3.5-Sonnet 和 Doubao-Pro-32k 几乎没有显示可疑响应,表明这些 LLM 的蒸馏可能性较低。宽松分数指标包含一些假阳性实例,而严格分数提供了更准确的衡量。 



作者将所有越狱攻击提示分为五类,包括团队、合作、行业、技术和地理。图 5 统计了每种类型问题的成功越狱次数。这个结果证明 LLM 在团队、行业、技术方面的感知更容易受到攻击,可能是因为这些方面存在更多未经清理的蒸馏数据。 



如表 1 所示,作者发现相比于监督微调(SFT)的 LLM,基础 LLM 通常表现出更高程度的蒸馏。这表明基础 LLM 更容易表现出可识别的蒸馏模式,可能是由于它们缺乏特定任务的微调,使它们更容易受到评估中利用的漏洞类型的影响。 



另一个有趣的发现是,实验结果显示闭源的 Qwen-Max-0919 比开源的 Qwen 2.5 系列具有更高的蒸馏程度。作者发现了大量与 Claude 3.5-Sonnet 相关的答案,而 2.5 系列 LLM 的可疑答案仅与 GPT 有关。这些示例在附录 D 中有所展示。 


RSE 结果在表 3 中展示,以 GPT4o-0806 作为参考 LLM,结果表明 GPT 系列的 LLM(如 GPT4o-0513)表现出最高的响应相似度(平均相似度为 4.240)。相比之下,像 Llama3.1-70B-Instruct(3.628)和 Doubao-Pro-32k(3.720)显示出较低的相似度,表明蒸馏程度较低。而 DeepSeek-V3(4.102)和 Qwen-Max-0919(4.174)则表现出更高的蒸馏程度,与 GPT4o-0806 相近。



为了进一步验证观察结果,作者进行了额外的实验。在这个设置中,他们选择各种模型同时作为参考模型和测试模型。对于每种配置,从三个数据集中选择 100 个样本进行评估。附录 F 中的结果表明,当作为测试模型时,Claude3.5-Sonnet、Doubao-Pro-32k 和 Llama3.1-70B-Instruct 始终表现出较低的蒸馏程度。相比之下,Qwen 系列和 DeepSeek-V3 模型倾向于显示更高程度的蒸馏。这些发现进一步支持了本文所提框架在检测蒸馏程度方面的稳健性。 


更多细节请参考原论文。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]


文章原文

OpenAI首席研究官:DeepSeek独立发现了o1的一些核心思路,奥特曼、LeCun纷纷置评

2025-01-29 10:25:00

机器之心报道

编辑:张倩
成本打下来了,需求更多才对?


春节这几天,国内外 AI 圈都被 DeepSeek 刷了屏。英伟达的股市震荡更是让全世界看得目瞪口呆(参见《英伟达市值蒸发近 6000 亿美元,而 DeepSeek 刚刚又开源新模型》)。


简单来说,DeepSeek 最近发布的两个模型 —— DeepSeek-V3 和 DeepSeek-R1 以很低的成本获得了比肩 OpenAI 同类模型的性能。这引发了市场对 AI 硬件需求的担忧,投资者担心未来对英伟达高端芯片的需求可能会减少。



与此同时,关于 DeepSeek 技术创新的讨论也非常多。很多人认为,DeepSeek 在硬件受限的条件下被逼走出了一条不同于 OpenAI 等狂堆算力的道路,用一系列技术创新来减少模型对算力的需求,同时获得性能提升。


这些成就得到了包括 Sam Altman 在内的 AI 领军人物的肯定。




随后,OpenAI 首席研究官 Mark Chen 也发了帖。他表示,DeepSeek 确实独立发现了一些 OpenAI o1 也在用的核心理念,不过,这并不代表 OpenAI 在算力上的高投入是不合理的。


帖子原文如下:   


恭喜 Deepseek 开发出了 o1 级别的推理模型!他们的研究论文表明,他们独立发现了一些我们在通往 o1 的路上发现的核心理念。


不过,我认为外界的反应有些过度夸大,特别是在成本方面的说法。拥有两个范式(预训练和推理)意味着我们可以在两个维度而不是一个维度(低成本)上优化某项能力。


但这也意味着我们有两个可以扩展的维度,我们打算在这两个维度上都积极投入算力!


随着蒸馏研究的日益成熟,我们也发现降低成本和提升能力愈发解耦。能够以更低成本(特别是在更高延迟的情况下)提供服务,并不意味着就能产生更好的能力。


我们将继续提升以更低成本提供模型服务的能力,但我们对我们的研究路线图保持乐观,并将继续专注于执行它。我们很高兴能在本季度和今年为大家带来更好的模型!


短短几段话,Mark Chen 表达了好几层观点,我们让 DeepSeek-R1 来解读一下每段话的言外之意:  



总之,和 Sam Altman 一样,Mark Chen 的发言也是在重塑外界对 OpenAI 的信心,并预告今年会带来更好的模型。


此外,OpenAI研究科学家Noam Brown也在努力弱化外界对OpenAI和DeepSeek的对比,但大家似乎并不买单。





另外,Mark Chen 提到的「外界的反应有些过度夸大,特别是在成本方面的说法」这一点最近也被很多人讨论,尤其是「DeepSeek-v3 训练成本仅为 558 万美元」这一说法。其实,DeepSeek-v3 的技术报告原文是这么写的:「上述成本仅包括 DeepSeek-V3 的正式训练,不包括与架构、算法、数据相关的前期研究、消融实验的成本」。



图灵奖得主、Meta AI 首席科学家 Yann LeCun 也认为市场对于 DeepSeek 的成本反应并不合理。不过,他是从推理的角度来看的。他指出,人们常常以为巨额投资主要用于训练更强大的模型,但实际上大部分钱都花在了让这些 AI 服务能够稳定地服务数十亿用户身上。而且随着 AI 能力的增强,维持服务运行的成本会变得更高,关键是要看用户是否愿意为这些增强的功能付费。 



不少网友对 LeCun 的看法表示赞同,认为训练、推理成本更低的 AI 意味着这项技术能更快普及,从而创造更大的市场。




从这个角度来看,DeepSeek 在降低推理成本方面的努力似乎比降低训练成本的贡献更值得被关注。




针对可能即将到来的推理需求的激增,OpenAI、Meta 等都在做相应准备,比如旨在为 OpenAI 建设强大基础设施的「星际之门」项目(计划投资 5000 亿美元,但资金是否到位一直存疑)、Meta 新一年 600 亿美元的 AI 投资……


看来,2025 年,AI 市场的竞争依然激烈,DeepSeek 将在新一年走出多远还有待观察。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]


文章原文

医疗具身智能发展到哪了?看这一篇综述就够了!

2025-01-29 10:25:00

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]


该论文的主要作者Yihao Liu, Xu Cao, Tingting Chen, Yankai Jiang, Junjie You, Minghua Wu, Xiaosong Wang, Mengling Feng, Yaochu Jin, Jintai Chen 分别自中南大学、香港科技大学(广州)、上海AI Lab、西湖大学、宾夕法尼亚大学等团队,在医学人工智能领域有深入研究。


医疗健康领域在提升效率、资源可及性等方面始终面临着诸多挑战。随着多模态大语言模型(MLLM)和世界模型(World model)等技术的不断发展,具身智能(Embodied AI)蓬勃发展,也驱动着医疗服务模式的深刻变革。医疗具身智能作为一个跨学科且快速发展的研究领域,涵盖了 AI 算法、机器人技术和生物医学等多个学科。为了更好地促进多学科之间的合作和发展,分析和总结医疗具身智能领域的最新进展和挑战尤为重要。


近日,由港科广、中南、西湖大学、UIUC、新加坡国立大学、上海 AI Lab、宾夕法尼亚大学等团队联合发布的首篇聚焦医疗领域具身智能的综述论文《A Survey of Embodied AI in Healthcare: Techniques, Applications, and Opportunities》正式上线,中南大学刘艺灏为第一作者,通讯作者为香港科技大学(广州)助理教授陈晋泰。这篇综述论文全面梳理了具身智能在医疗领域的关键技术与应用前景。



  • 论文标题:A Survey of Embodied AI in Healthcare: Techniques, Applications, and Opportunitie

  • 论文链接:https://arxiv.org/abs/2501.07468


Techniques:具身智能如何赋能现代医疗


具身智能(EmAI)通过多模态感知、行动控制、决策计划和记忆能力的深度结合,赋予了 AI 类似人类的感知与执行能力。通过 MLLMs、VLA models 等与机器人技术的融合,具身智能有着适应复杂医疗环境的潜力,下图展示了 “Embodied AI Brain” 的核心功能模块,体现感知、行动、决策与记忆的协同作用。


图 2:具身智能 “大脑” 核心功能


1、感知模块


具身感知作为 EmAI 系统的核心功能之一,通过多种感知方式帮助系统更好地理解和与环境互动。


Ⅰ) 感官感知是这一过程的基础,它通过获取来自不同感官传感器的输入,如视觉、触觉和声音等,帮助系统构建对外部世界的初步认知。


Ⅱ) 为了让系统获得更加全面的理解,跨模态感知通过整合来自不同模态的信息(比如视觉与语言的结合),提升感知的准确性和深度。这种跨模态的集成不仅让系统能够更精确地解读复杂的场景,还能帮助其在动态环境中做出更有效的决策。


Ⅲ) 交互感知(Interactive perception)进一步推动了 EmAI 系统感知能力的发展。它不仅仅依赖于静态的传感数据,还通过物理行为,如操作物体或改变视角等,来解决感知中的不确定性。这些行为的不断探索和反馈使得 EmAI 系统能够在实际操作中不断完善其感知模型,从而更好地应对复杂多变的任务。在执行物体操作或场景理解时,这种交互感知显得尤为重要。


2、行动模块


行动模块是具身智能的基础组成部分,涉及如何通过各种控制策略来指导系统的实时动作。这些控制策略包括动作的选择和执行,旨在根据感知信息进行实时调整,优化运动控制,完成精细操作任务。通过探索更优的策略表示和策略学习方法,具身智能实现了更高的精准性与适应性。


Ⅰ) 控制策略的表示通常有三种方式:显式策略、隐式策略和扩散策略。显式策略通过行为克隆等方法直接从观察中映射到动作,适用于比较简单的任务,但在复杂任务中可能表现不足。隐式策略则通过能量函数来表示动作选择的偏好,适合处理多模态任务,具有较强的表达能力。扩散策略则通过去噪扩散生成模型生成控制策略,能够提供更为多样的表示,尤其在离线强化学习和基于视觉的操作中展现出潜力。


Ⅱ) 在策略学习方面,强化学习(RL)和模仿学习(IL)是主要的学习方法。强化学习通过试错法优化控制策略,根据环境反馈调整行为,以最优化目标为导向,适用于需要长期适应的任务。然而,强化学习常面临采样效率低、探索成本高等问题。模仿学习则通过模仿专家示例行为来加速学习过程,不依赖显式的奖励函数,能较快学习到高效的控制策略,但容易受到 “协变量偏移” 的影响,导致其在新场景中的泛化能力受限。


表 1:行动控制策略总结


3、决策模块


与低级控制策略处理简单的实时动作不同,高级规划主要聚焦于如何将复杂任务分解为多个子任务,并通过逻辑推理和决策来完成这些任务。传统的规划方法,如 A * 算法和 Dijkstra 算法,虽然在结构化环境中非常有效,但在面对复杂的高维状态空间或部分可观测环境时,往往面临较大的挑战。因此,近年来,基于 LLM 的高级规划方法逐渐得到应用,它通过将抽象的指令转化为可执行的机器人任务,从而实现了认知推理与物理任务执行的结合。近年来,端到端具身大模型也逐渐被提出,这种方法将高级决策规划与低级动作生成整合到一个统一的系统中,能够更加高效地处理复杂的任务指令,避免了传统方法中不同模块之间的分离和局限。


表 2:规划方法总结


4、记忆模块


记忆模块主要负责存储和处理系统的经验和知识,以帮助其在复杂环境中进行自我适应和决策。记忆在 EmAI 系统中通常分为短期记忆和长期记忆两种形式,它们各自发挥着不同的作用。Ⅰ) 短期记忆主要用于处理和存储系统在当前任务或交互中所需要的即时数据,例如当前的感知信息或上下文内容。例如,在与用户的对话中,EmAI 系统会保持对话历史,以便实时调整其响应。Ⅱ) 长期记忆则主要用于存储更为持久和重要的知识,支持系统的长期学习和适应。通过集成长期记忆,EmAI 能够将过去的经验用于未来的决策和推理。存储长期记忆通常通过内部模型权重或外部数据库来实现。内部记忆的更新通常通过监督微调、指令微调等方法来实现,而外部记忆的更新则依赖于外部数据库或知识图谱的动态改进。


Applications:四大应用场景的实践与突破


论文探讨了具身智能在以下四大医疗健康领域的研究实践和应用:


  • 临床干预:从术前诊断到术后康复,支持精准医疗的全流程覆盖。

  • 护理陪伴:提升儿童、老年人及特殊人群生活质量,减轻护理负担。

  • 设施运转:通过应急响应、药品分配等任务优化医疗资源。

  • 研究开发:加速数据分析与实验自动化,为医学突破提供动力。


1. 临床干预


具身智能系统已广泛应用于临床干预的整个周期,包括干预前(Pre-Intervention)、干预中(In-Intervention) 和 干预后阶段(Post-Intervention)。


  • 干预前:具身智能系统能够通过精确的诊断和评估,协助医疗团队制定个性化的治疗方案。如分诊系统能够根据患者的症状、历史病历以及其他健康数据,自动筛选出需要紧急干预的病例,帮助患者快速被转诊到合适的科室。智能影像分析系统能够通过对医学影像的自动化解读,辅助医生早期发现潜在疾病(如肿瘤、结石等),提高诊断的准确性和效率。此外,远程诊断和医疗咨询系统等使得患者能够在家中接受医疗建议,为医生提供了更多的时间进行专业决策。

  • 干预中:在干预过程中,具身智能系统的应用可提高手术的精确性和安全性。例如,机器人辅助手术系统可以在手术过程中提供更高的精度和灵活性,尤其是在微创手术中,能够精确地定位和操作,有效降低了误差率。AI 辅助的手术规划系统则通过实时分析患者的病情和影像数据,有效监控患者的生命体征,提供个性化的手术方案,帮助医生制定更合适的操作计划。

  • 干预后:在干预后的康复阶段,具身智能系统如智能康复机器人,能够通过个性化的康复训练,帮助患者恢复运动功能,特别是中风、脊髓损伤等患者,机器人可以根据患者的恢复情况动态调整训练内容和强度,确保康复训练的有效性和安全性。智能药物管理系统可以帮助患者按照医生的处方精准服药,同时监控患者的生理数据,如血糖、血压等,实时调整药物剂量或提供健康建议。此外,智能健康监测设备可以持续跟踪患者的健康状态,通过可穿戴设备实时收集数据,确保患者在恢复过程中不会出现意外情况。


图 3:具身智能在临床干预全流程中的应用


2. 护理陪伴


具身智能系统在日常护理与陪伴领域可以为患者提供全面的生活支持和情感陪伴等。以下是其在社会引导、日常辅助和行动支持方面的关键应用,图 4 展示了相关技术的具体场景。


  • 社会引导:社交辅助机器人如 NAO 和 QTrobot,通过互动提升自闭症儿童的社交能力,例如学习模仿、轮流对话和同理心。同时,针对认知障碍患者(如痴呆症),ZORA 等机器人帮助优化交流并支持治疗和教育目标。

  • 日常辅助:喂食机器人和康复指导设备通过感知和自适应技术辅助患者完成进食、穿衣等任务,并为患者提供康复锻炼的实时反馈与鼓励。

  • 移动支持:外骨骼设备(如 ReWalk)为脊髓损伤患者提供步态训练,AI 轮椅则通过智能导航支持行动不便的用户独立完成移动。


图 4:社交辅助机器人


3. 设施运转


具身智能在医疗基础设施支持方面也有着丰富的应用场景,更好地保证医疗服务质量,通过应急响应、生命救援、药品配送和环境消毒等任务提高医疗效率和安全性。


  • 应急响应:机器人在灾害场景中利用热成像和智能导航技术定位幸存者并提供医疗支持,显著缩短救援响应时间。

  • 药品与物资配送:智能配送机器人在医院环境中承担药品、餐饮及医疗物资运输任务,特别是在疫情期间,通过无接触操作降低交叉感染风险。

  • 环境消毒:消毒机器人结合紫外线和雾化技术,自动完成病房和公共区域的空气与表面消毒,维护高标准卫生环境。


图 5:生命救援机器人


4. 研究开发


具身智能通过自动化流程和智能化数据分析,在生物医学研究中推动了实验效率和创新开发速度的双重突破。


  • 实验自动化:具身智能驱动的自动化实验平台通过精确处理试剂和执行实验任务,优化了化学合成与基因分析的操作流程,提高科学研究效率。

  • 药物研发:AI 系统通过筛选化学分子库、预测生物结构和分析药物毒性等方法,缩短了药物开发周期并降低了成本。

  • 知识检索:如 ChemCrow 等系统整合了科学知识与数据分析能力,能够辅助研究人员发现新药靶点和生物标记物。


图 6:实验机器人


Opportunities:具身智能分级与未来发展


论文提出了从 Level 1 到 Level 5 的五个具身智能级别,涵盖了感知、进化学习、任务泛化和人机交互四大维度。这些层级不仅描述了技术的进化路径,也勾勒出具身智能未来发展的潜力(图 7)。


目前,大多数框架工作处于 1 至 3 级,或仅专注于单一的子功能模块。例如,外科机器人执行预编程的动作(第 1 级),监测生命体征并提醒临床医生异常(第 2 级),整合多模态输入以执行精准任务,如缝合或注射(第 3 级)。然而,它们尚未达到第 4 级和第 5 级系统的自主性,这要求实时决策并能检测细微的解剖变化。类似地,陪伴机器人提供简单的听觉或触觉反应(第 1 级),识别手势并调整行为(第 2 级),评估身体和心理健康以提供个性化支持(第 3 级)。但它们仍未能理解复杂的情感状态或提供主动的个性化护理,无法达到第 4 级和第 5 级。尽管已经取得了显著进展,但仍需进一步发展,以克服当前的局限,使这些系统能够达到第 4 级和第 5 级,在这些级别下,它们能够进行独立推理、复杂决策和真正的自主操作。


图 7 具身智能分级标准


高质量的数据集是推动具身智能研究发展的基石,对于提升系统的性能和可靠性至关重要。如图 8 所示,这些数据集涵盖了临床干预、日常护理陪伴、生物医学研究等多个领域,为 EmAI 系统提供了丰富的训练材料。然而,目前的高质量数据集仍存在一定的局限性,特别是在样本多样性和多模态数据整合方面。现有数据集可能面临样本不足、区域和人群代表性不均等问题,这使得它们难以应对不同临床环境或个体差异带来的挑战。同时,多模态数据整合也亟需加强。目前,许多数据集依赖单一的感知输入(如视觉或语言),而忽略了触觉、声音等其他感知维度的整合,这限制了 EmAI 系统在复杂场景中的应用潜力。


图 8 医疗健康领域具身智能数据集分类


尽管具身智能在医疗领域展现了巨大潜力,但其发展仍面临着多重挑战,主要包括伦理和法律问题、技术准确性和可解释性问题,以及与现有医疗系统的互操作性问题。尤其是在责任划分、患者同意和数据透明度等方面,需要建立明确的法律框架和伦理监督机制,同时技术的准确性和系统的互通性也亟待解决。从个性化诊疗到实验室自动化,具身智能正在全面变革医疗服务,通过持续技术创新和跨学科协作,具身智能将为全球医疗系统带来深远影响,推动智慧医疗迈向新的高度。


© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]


文章原文

Machine Unlearning 会是 Learning 的新机会吗?

2025-01-29 09:30:00

本文来自往期 PRO会员通讯精选解读,文末关注「机器之心PRO会员」,查看更多专题解读。
在人工智能疾速发展,LLM 应用开始被广泛应用的当下,全球各国政府对 AI 治理投入了越来越多的精力。在近期多国政府出台的 AI 治理法案中,政府对数据安全、伦理、隐私保护,以及 AI 技术与版权、用户权益等方面的约束条款愈发清晰。在此趋势下,可以用于保护用户隐私数据的 Machine Unlearning 技术也在引起越来越多的关注。

目录

01. 为什么需要关注 Unlearning?

Machine Unlearning 和监管政策有什么关系?Machine Unlearning 和 AI能力有什么关系?
02. 什么是 Machine Unlearning?
Machine Unlearning 有几种做法?Machine Unlearning 最初的用途是什么?

03. LLM 中的 Unlearning 有什么区别空间推理?

LLM 做 Unlearning会更难吗?LLM 公司能用 Unlearning 解决数据纠纷吗?Machine Unlearning 现在存在哪些局限?...

01  为什么需要关注 Unlearning?

1、在过去的十年中,数据量的大幅增加和硬件性能的快速提升推动了机器学习技术的快速发展。伴随近几年 LLM 模型的发展则进一步带来了对各类数据的需求和消耗。

2、伴随人工智能技术所需的数据量不断增加,许多国家最近立法实施「被遗忘的权利(Right to Forgotten)」。

① 」被遗忘的权利「中显著的例子是欧盟的通用数据保护条例(GDPR)、加拿大的个人信息保护与电子文件法(PIPEDA)隐私立法和美国的加州消费者隐私法案(CCPA)。

② 根据这些法律,公司必须采取合理措施保证在请求时删除个人数据。

③ 截至近期,联合国即将进入执行的《人工智能法案》和美国多个州政府最近的立法行动也对人工智能在用户隐私、版权等方面的提出规范。

4、在此趋势下,Machine Unlearning 技术受到越来越多的关注。

① 由于企业会利用用户数据训练模型。当用户行使「被遗忘的权利」,要求公司停止使用其数据,如果每次都要重新训练模型以响应用户的要求,将对企业造成巨大的开销和损失。

② 从技术层面看,Machine Unlearning 领域的研究不仅限于隐私保护,还包括分析不同数据对模型收敛时所贡献的梯度。这种分析有助于实现更精准的去学习,同时也能增强模型对噪声数据的检测能力(Noisy Data Detection)。


02  什么是 Machine Unlearning?
2024 年 5 月发布的综述《Machine Unlearning: A Comprehensive Survey》提供了对 Machine Unlearning 技术的全面概述。该工作采用 SLR 方法,通过设计搜索字符串、识别适当的数字数据库并定义数据提取策略,系统地回顾了现有 Machine Unlearning 方法,并讨论了在近期有关」被遗忘权利「立法对 Machine Unlearning 研究的影响......

 关注👇🏻「机器之心PRO会员」,前往「收件箱」订阅,查看完整解读内容 

更多往期专题解读内容,关注「机器之心PRO会员」服务号,点击菜单栏「收件箱」查看。


文章原文

CityDreamer4D: 下一个世界模型,何必是视频生成模型?

2025-01-28 10:03:00

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]


在过去的两年里,城市场景生成技术迎来了飞速发展,一个全新的概念 ——世界模型(World Model)也随之崛起。当前的世界模型大多依赖 Video Diffusion Models(视频扩散模型)强大的生成能力,在城市场景合成方面取得了令人瞩目的突破。然而,这些方法始终面临一个关键挑战:如何在视频生成过程中保持多视角一致性?


而在 3D 生成模型的世界里,这一问题根本不是问题 —— 它天然支持多视角一致性。基于这一洞察,南洋理工大学 S-Lab 的研究者们提出了一种全新的框架:CityDreamer4D。它突破了现有视频生成的局限,不再简单地「合成画面」,而是直接建模城市场景背后的运行规律,从而创造出一个真正无边界的 4D 世界


如果世界模型的终极目标是打造一个真实、可交互的虚拟城市,那么我们真的还需要依赖视频生成模型吗?不妨直接看看 CityDreamer4D 如何突破现有方案,构建出一个真正无边界、自由探索的 4D 城市世界——请欣赏它的生成效果!



想深入了解 CityDreamer4D 的技术细节?我们已经为你准备好了完整的论文、项目主页和代码仓库!



  • 论文链接:https://arxiv.org/abs/2501.08983
  • 项目链接:https://haozhexie.com/project/city-dreamer-4d/
  • GitHub链接:https://github.com/hzxie/CityDreamer4D

引言

过去两年,城市场景生成技术取得了突破性进展,生成质量达到了前所未有的高度。这一进步伴随着 “元宇宙” 和 “世界模型” 等概念的兴起,推动了对更真实、更连贯虚拟世界的探索。其中,“世界模型” 致力于在生成的场景中融入物理世界的运行规律,为更具沉浸感的虚拟环境奠定基础。当前主流的世界模型可大致分为四类:

  • 基于视频生成的方法(如 StreetScapes [1] 和 DimensionX [2]):依托 Video Diffusion Models(视频扩散模型),这些方法能够直接生成高质量的视频场景。然而,尽管扩散模型的能力惊人,帧间一致性仍然是一个长期未解的挑战,使得多视角的连贯性难以保证。
  • 基于图像生成的方法 (如 WonderJourney [3] 和 WonderWorld [4]):利用 Image Outpainting 和 Depth 估计,这些方法可以扩展场景,但受限于仅能生成小范围区域,缺乏全局一致性。例如,在面对一条河流时,转身 180 度可能会看到毫不相关的景象,影响场景的连贯性。
  • 基于程序化生成的方法(如 SceneX [5] 和 CityX [6]):通过结合大语言模型与程序化建模,这些方法能够生成结构化的城市场景。然而,场景的多样性受限于现有素材库,使得生成结果的丰富度有所局限。
  • 基于 3D 建模的方法(如 CityDreamer [7] 和 GaussianCity [8]):这些方法采用显式 3D 建模,直接从数据中学习 3D 表征,从而生成空间一致的城市场景。尽管它们已解决了多视角一致性问题,但仍未突破时间维度,无法生成 4D 场景,即缺乏动态演化能力。

CityDreamer4D 正是为了解决这一难题而生。它打破了视频扩散模型的固有瓶颈,不仅仅是 “合成” 城市影像,而是直接建模城市场景背后的运行规律,打造一个真正无边界、可自由探索的 4D 世界。我们的核心洞见如下:(1)4D 城市生成应当将动态物体(如车辆)与静态场景(如建筑和道路)解耦;(2)4D 场景中的所有物体应由不同类型的神经场组成,包括建筑、车辆和背景环境。

具体而言,我们提出了交通场景生成器(Traffic Scenario Generator)无边界布局生成器(Unbounded Layout Generator),分别用于生成动态交通场景和静态城市布局。它们基于高度紧凑的鸟瞰视角(BEV)表示进行建模,使得场景生成更加高效。在 4D 城市中,所有物体的生成依赖于背景环境、建筑物和车辆的神经场表示,其中结合了基于事物(Stuff-oriented)和基于实例(Instance-oriented)的神经场。为了适配背景环境与实例物体的不同特性,我们采用了自适应生成哈希网格(Generative Hash Grids)周期位置编码(Periodic Positional Embeddings)进行场景参数化,确保生成的城市既具备丰富的细节,又能保持时空一致性。

CityDreamer4D: 基于 4D 生成的城市建模框架


CityDreamer 通过无边界布局生成器(Unbounded Layout Generator)生成静态场景的城市布局,并利用城市背景生成器(City Background Generator建筑实例生成器(Building Instance Generator)对城市中的背景环境和建筑进行建模。相比之下,CityDreamer4D在此基础上进一步引入交通场景生成器(Traffic Scenario Generator)车辆实例生成器(Vehicle Instance Generator),专门用于建模 4D 场景中的动态物体,使生成的城市更加生动且符合物理规律。

城市布局生成

CityDreamer4D将无限扩展的城市布局生成问题转化为可扩展的语义地图和高度场建模,从而实现更灵活的城市生成。为此,它采用了基于 MaskGIT 的无边界布局生成器(Unbounded Layout Generator, ULG),这一方法天然支持Inpainting Outpainting ,使得场景可在任意方向拓展。

具体而言,ULG 先通过 VQVAE 对语义图和高度场的图像切片进行编码,将其映射到离散潜在空间,并构建 Codebook 。在推理过程中,ULG 以自回归方式生成 Codebook 索引,并利用 VQVAE 解码器生成一对语义图和高度场。值得一提的是,高度场由俯视高度图仰视高度图组成,这一设计使得 ULG 能够精准建模场景中的镂空结构(如桥梁等)。

由于 VQVAE 生成的语义图和高度场尺寸固定,ULG 通过图像 Outpainting 进行扩展,以支持任意规模的城市布局。在此过程中,它采用滑动窗口策略逐步预测局部 Codebook 索引,每次滑动时窗口之间保持25% 的重叠,确保生成区域的平滑衔接和连贯性。

交通场景生成

CityDreamer4D 中, 交通场景生成器(Traffic Scenario Generator)负责在静态城市布局上生成合理的动态交通流,以建模真实的城市动态。

交通场景被表示为 ,其中 语义图(Semantic Map)高度场(Height Field)共同描述:语义图标记动态物体的位置,高度场 定义它们的高度范围。这种表示方式确保了动态物体能在 3D 体素空间中准确渲染,并与静态场景保持一致。

为了使交通流合理且符合物理规律,我们引入高清交通地图(HD Map)作为约束。HD Map 在城市布局(City Layout)的基础上,额外提供车道中心线、交叉口、道路标志、交通信号灯等关键信息。具体而言,我们将 City Layout 转换为图结构(Graph Representation),通过边缘检测和向量化技术提取道路边界,并进一步解析车道中心线及其拓扑关系。结合 Bézier 曲线,我们推导车道的数量、宽度及其交叉口连接方式,以生成完整的 HD Map。

基于 HD Map,我们采用现有的交通模拟模型逐帧生成动态物体的边界框(Bounding Boxes),然后将其转换为语义图和高度场,确保车辆始终出现在合适的位置,并遵循合理的行驶路径。最终,所有动态物体的轨迹被合成为 4D 交通流 ,使得 CityDreamer4D 能够高效建模复杂的城市交通动态。

城市背景生成

城市背景生成器(City Background Generator, CBG)负责生成城市的背景元素,包括道路、绿化和水域。为了高效表示大规模三维场景,CBG 采用鸟瞰视角(BEV)作为场景的基本表征,该表征由语义图高度图共同构成,使得背景结构清晰、层次分明。

鉴于城市背景通常具有类别相似、外观一致的特性,CBG 通过生成哈希网格(Generative Hash Grid)进行场景参数化,不仅增强了生成结果的自然性,还确保了 3D 结构的一致性。具体而言,CBG 采用哈希函数,将场景特征 
和空间点坐标 映射至可学习的多尺度参数空间,生成方式如下:


为了保证背景渲染的 3D 一致性,CBG 采用基于体积渲染的神经网络,将三维特征映射到二维图像。具体而言,对于相机光线上的任意采样点,系统首先查询生成式哈希网格以获取对应的特征表示,随后使用风格噪声调制的多层感知机(MLP)计算其颜色和体密度,并通过体渲染(Volumetric Rendering)积分得到最终像素的颜色值。

建筑实例生成

建筑实例生成器(Building Instance Generator, BIG) 专门用于生成城市中的建筑结构。与城市背景生成类似,BIG 采用鸟瞰视角(BEV)作为场景的基本表征,并利用基于体积渲染的神经网络将三维特征映射到二维图像,从而确保建筑在不同视角下的稳定呈现。考虑到建筑立面与屋顶在外观和分布上的显著差异,BIG 采用独立的类别标签对两者进行建模,使生成结果更加精准且符合现实规律。

针对建筑立面常见的周期性结构(如窗户、立柱的重复排列),我们设计了一种更加轻量化的参数化方法 ——基于周期性函数的场景参数化。具体而言,BIG 通过周期性函数将建筑特征 空间坐标 p 映射到一个高维空间,以增强建筑立面的结构一致性:


其中,Concat 代表连接(Concatenation)操作, 被定义为


这一策略不仅优化了建筑立面的建模效率,还确保了生成结果在大尺度城市环境中的结构合理性,使得建筑在不同高度、角度下都能保持稳定的视觉表现。

车辆实例生成

车辆实例生成器(Vehicle Instance Generator, VIG)负责生成交通场景中的车辆,并确保其外观与运动符合物理规律。与建筑实例生成类似,VIG 采用鸟瞰视角进行场景表示,并在交通场景中提取局部窗口进行实例建模。该窗口包含 语义图 和 高度场 ,用于描述车辆的位置与三维形态,同时移除其他动态物体,以确保生成过程专注于单个实例。

由于车辆在结构上具有更强的规则性,VIG 采用标准化特征空间(Canonical Feature Space)进行场景参数化。具体而言,车辆的局部坐标系由其中心位置 旋转矩阵R 共同定义,使得相同类型的车辆能够共享结构特征。对于给定的空间点 ,其标准化表示为:


这一参数化方式能够捕捉车辆前后、侧面的结构差异,同时提升不同车辆实例间的特征一致性。

在渲染过程中,VIG 采用体渲染进行 3D 生成,并使用风格编码(Style Code)控制车辆外观的变化,以增强生成结果的多样性和真实感。最终,VIG 通过全局编码器提取车辆实例的局部特征,并利用标准化特征空间进行 4D 场景建模,使得 CityDreamer4D 能够高效生成时空一致的动态交通环境。

图像融合

给定城市背景的图像和掩膜(分别用 和 表示) 、建筑实例的图像和掩膜的集合( 分别用 和  表示)以及车辆实例的图像和掩膜的集合(分别用和 ,CityDreamer4D 使用如下方式得到第 t 时刻融合后的图像.
 

其中  和 分别表示建筑和车辆实例的数量。

CityTopia:高精度 3D 城市数据集



CityDreamer [7] 中所提出的 GoogleEarth 数据集尽管提供了密集的 3D 语义和实例标注,但仍存在诸多局限:缺乏街景视角、标注精度受限、以及高架道路等复杂结构未被完整标注。为解决这些问题,我们构建了 CityTopia—— 一个拥有高保真渲染、多视角覆盖、精准 3D 标注的数据集,专为城市生成与交通建模而设计。

虚拟城市构建CityTopia 的城市场景基于 Houdini 和 Unreal Engine 构建,我们精心设计了 11 座虚拟城市,并利用 CitySample 项目的约 5000 个高质量 3D 资产生成完整的城市结构。城市的每个元素都存储了 6D 位姿信息,并通过表面采样(Surface Sampling)自动赋予语义与实例标签。这些城市在 Unreal Engine 中实例化后,可在不同光照条件下渲染出高质量的图像,为城市建模提供了更加灵活的实验环境。

数据采集:CityTopia 采用预设的相机轨迹进行数据采集,每座城市包含 3000-7500 张图像,涵盖白天与夜晚两种光照条件。相比 GoogleEarth,CityTopia 提供了更多的街景视角,并在低仰角航拍数据上有更广的覆盖。为保证图像质量,我们在渲染过程中采用 8× 空间超采样与 32× 时间超采样,有效减少渲染伪影,使得数据更加稳定。

2D + 3D 标注:CityTopia 的 3D 标注来自虚拟城市生成过程,所有 3D 物体的语义和实例信息均在数据构建时直接获得,无需额外的手工标注调整。2D 标注则通过相机投影从 3D 标注自动生成,并与街景图像、航拍图像 完美对齐。在车辆场景中,CityTopia 的实例标注与 3D 结构高度一致,使其在车辆生成、交通建模等任务上具备较高的参考价值。此外,由于数据生成流程完全可控,只需增加新的 3D 资产,即可进一步扩展数据集规模。

实验

与其他世界模型方案的对比:下方视频对比了 CityDreamer4D 与 DimensionX [2](视频生成)、WonderJourney [3](图像生成) 和 CityX [6](程序化生成)。结果表明,CityDreamer4D 在多视角一致性上明显优于 DimensionX 和 WonderJourney,在场景多样性上显著优于 CityX。


与原生 3D 场景生成方法的对比:下方视频展示了 CityDreamer4D 与现有原生 3D 场景生成方法(包括 InfiniCity [9]、PersistentNature [10] 和 SceneDreamer [11])的对比。结果表明,CityDreamer4D 在生成质量上实现了显著提升。


城市风格化:CityDreamer4D 能够轻松扩展城市风格。通过引入 ControlNet 的先验,我们可以将 Minecraft、Cyberpunk 等不同风格无缝应用于整个城市,只需在 ControlNet 生成的图像上微调预训练模型,即可获得风格一致的 3D 城市场景。虽然 ControlNet 生成的图像缺乏 3D 一致性,但 CityDreamer4D 依托其高效的场景表示与参数化,能够确保风格化后的城市在不同视角下保持一致。


总结

我们提出了 CityDreamer4D ,一个基于 3D 表征的 4D 城市生成框架,突破了现有 Video Diffusion 方法的多视角不一致问题 。相比传统视频生成,CityDreamer4D 直接在 3D 空间建模城市的动态变化,从而生成 空间和时间维度一致的 4D 场景。此外,我们构建了 CityTopia ,一个高精度 3D 城市数据集,涵盖多视角、多光照条件,并提供精确的 2D-3D 对齐标注。CityDreamer4D 提供了一种原生 3D 的世界模型,为 4D 城市生成提供了全新的解决方案。

参考文献:
[1] Streetscapes: Large-scale Consistent Street View Generation Using Autoregressive Video Diffusion. SIGGRAPH 2024.
[2] DimensionX: Create Any 3D and 4D Scenes from a Single Image with Controllable Video Diffusion. arXiv 2411.04928.
[3] WonderJourney: Going from Anywhere to Everywhere. CVPR 2024.
[4] WonderWorld: Interactive 3D Scene Generation from a Single Image. arXiv 2406.09394.
[5] SceneX: SceneX: Procedural Controllable Large-scale Scene Generation. arXiv 2403.15698.
[6] CityX: Controllable Procedural Content Generation for Unbounded 3D Cities. arXiv 2407.17572.
[7] CityDreamer: Compositional Generative Model of Unbounded 3D Cities. CVPR 2024.
[8] GaussianCity: Generative Gaussian Splatting for Unbounded 3D City Generation. arXiv 2406.06526.
[9] InfiniCity: Infinite-Scale City Synthesis. ICCV 2023.
[10] Persistent Nature: A Generative Model of Unbounded 3D Worlds. CVPR 2023.
[11] SceneDreamer: Unbounded 3D Scene Generation from 2D Image Collections. TPAMI 2023.

© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]



文章原文