2025-01-29 10:25:00
机器之心报道
「除了 Claude、豆包和 Gemini 之外,知名的闭源和开源 LLM 通常表现出很高的蒸馏度。」这是中国科学院深圳先进技术研究院、北大、零一万物等机构的研究者在一篇新论文中得出的结论。
前段时间,一位海外技术分析师在一篇博客中提出了一个猜想:一些顶级的 AI 科技公司可能已经构建出了非常智能的模型,比如 OpenAI 可能构建出了 GPT-5,Claude 构建出了 Opus 3.5。但由于运营成本太高等原因,他们将其应用在了内部,通过蒸馏等方法来改进小模型的能力,然后依靠这些小模型来盈利(参见《GPT-5、 Opus 3.5 为何迟迟不发?新猜想:已诞生,被蒸馏成小模型来卖》)。
当然,这只是他的个人猜测。不过,从新论文的结论来看,「蒸馏」在顶级模型中的应用范围确实比我们想象中要广。
具体来说,研究者测试了 Claude、豆包、Gemini、llama 3.1、Phi 4、DPSK-V3、Qwen-Max、GLM4-Plus 等多个模型,发现这些模型大多存在很高程度的蒸馏(Claude、豆包和 Gemini 除外)。比较明显的证据是:很多模型会在声明自己身份等问题时出现矛盾,比如 llama 3.1 会说自己是 OpenAI 开发的,Qwen-Max 说自己由 Anthropic 创造。
蒸馏固然是一种提升模型能力的有效方法,但作者也指出,过度蒸馏会导致模型同质化,减少模型之间的多样性,并损害它们稳健处理复杂或新颖任务的能力。所以他们希望通过自己提出的方法系统地量化蒸馏过程及其影响,从而提供一个系统性方法来提高 LLM 数据蒸馏的透明度。
论文标题:Distillation Quantification for Large Language Models
论文链接:https://github.com/Aegis1863/LLMs-Distillation-Quantification/blob/main/paper.pdf
项目链接:https://github.com/Aegis1863/LLMs-Distillation-Quantification
为什么要测试 LLM 的蒸馏情况?
最近,模型蒸馏作为一种更有效利用先进大语言模型能力的方法,引起了越来越多的关注。通过将知识从更大更强的 LLM 迁移到更小的模型中,数据蒸馏成为了一个显著的后发优势,能够以更少的人工标注和更少的计算资源与探索来实现 SOTA 性能。
然而,这种后发优势也是一把双刃剑,它阻止了学术机构的研究人员和欠发达的 LLM 团队自主探索新技术,并促使他们直接从最先进的 LLM 中蒸馏数据。此外,现有的研究工作已经揭示了数据蒸馏导致的鲁棒性下降。
量化 LLM 的蒸馏面临几个关键挑战:
1. 蒸馏过程的不透明性使得难以量化学生模型和原始模型之间的差异;
2. 基准数据的缺乏使得需要采用间接方法(如与原始 LLM 输出的比较)来确定蒸馏的存在;
3. LLM 的表征可能包含大量冗余或抽象信息,这使得蒸馏的知识难以直接反映为可解释的输出。
最重要的是,数据蒸馏在学术界的广泛使用和高收益导致许多研究人员避免批判性地检查与其使用相关的问题,导致该领域缺乏明确的定义。
研究者使用了什么方法?
作者在论文中提出了两种方法来量化 LLM 的蒸馏程度,分别是响应相似度评估(RSE)和身份一致性评估(ICE)。
RSE 采用原始 LLM 的输出与学生大语言模型的输出之间的比较,从而衡量模型的同质化程度。ICE 则采用一个知名的开源越狱框架 GPTFuzz,通过迭代构造提示来绕过 LLM 的自我认知,评估模型在感知和表示身份相关信息方面的差异 。
他们将待评估的特定大语言模型集合定义为 LLM_test = {LLM_t1,LLM_t2,...,LLM_tk},其中 k 表示待评估的 LLM 集合的大小。
响应相似度评估(RSE)
RSE 从 LLM_test 和参考 LLM(在本文中即 GPT,记为 LLM_ref)获取响应。作者随后从三个方面评估 LLM_test 和 LLM_ref 的响应之间的相似度:响应风格、逻辑结构和内容细节。评估者为每个测试 LLM 生成一个它与参考模型的整体相似度分数。
作者将 RSE 作为对 LLM 蒸馏程度的细粒度分析。在本文中,他们手动选择 ArenaHard、Numina 和 ShareGPT 作为提示集,以获取响应并评估 LLM_test 在通用推理、数学和指令遵循领域的相关蒸馏程度。如图 3 所示,LLM-as-a-judge 的评分分为五个等级,每个等级代表不同程度的相似度。
身份一致性评估(ICE)
ICE 通过迭代构造提示来绕过 LLM 的自我认知,旨在揭示嵌入其训练数据中的信息,如与蒸馏数据源 LLM 相关的名称、国家、位置或团队。在本文中,源 LLM 指的是 GPT4o-0806。
作者在 ICE 中采用 GPTFuzz 进行身份不一致性检测。首先,他们将源 LLM 的身份信息定义为事实集 F,F 中的每个 f_i 都清楚地说明了 LLM_ti 的身份相关事实,例如「我是 Claude,一个由 Anthropic 开发的 AI 助手。Anthropic 是一家总部位于美国的公司。」
同时,他们使用带有身份相关提示的 P_id 来准备 GPTFuzz 的 :,用于查询 LLM_test 中的 LLM 关于其身份的信息,详见附录 B。作者使用 LLM-as-a-judge 初始化 GPTFuzz 的 F^G,以比较提示的响应与事实集 F。具有逻辑冲突的响应会被识别出来,并相应地合并到 F^G 的下一次迭代中。
作者基于 GPTFuzz 分数定义两个指标:
宽松分数:将任何身份矛盾的错误示例视为成功攻击;
严格分数:仅将错误识别为 Claude 或 GPT 的示例视为成功攻击。
实验结果如何?
ICE 的实验结果如图 4 所示,宽松分数和严格分数都表明 GLM-4-Plus、Qwen-Max 和 Deepseek-V3 是可疑响应数量最多的三个 LLM,这表明它们具有更高的蒸馏程度。相比之下,Claude-3.5-Sonnet 和 Doubao-Pro-32k 几乎没有显示可疑响应,表明这些 LLM 的蒸馏可能性较低。宽松分数指标包含一些假阳性实例,而严格分数提供了更准确的衡量。
作者将所有越狱攻击提示分为五类,包括团队、合作、行业、技术和地理。图 5 统计了每种类型问题的成功越狱次数。这个结果证明 LLM 在团队、行业、技术方面的感知更容易受到攻击,可能是因为这些方面存在更多未经清理的蒸馏数据。
如表 1 所示,作者发现相比于监督微调(SFT)的 LLM,基础 LLM 通常表现出更高程度的蒸馏。这表明基础 LLM 更容易表现出可识别的蒸馏模式,可能是由于它们缺乏特定任务的微调,使它们更容易受到评估中利用的漏洞类型的影响。
另一个有趣的发现是,实验结果显示闭源的 Qwen-Max-0919 比开源的 Qwen 2.5 系列具有更高的蒸馏程度。作者发现了大量与 Claude 3.5-Sonnet 相关的答案,而 2.5 系列 LLM 的可疑答案仅与 GPT 有关。这些示例在附录 D 中有所展示。
RSE 结果在表 3 中展示,以 GPT4o-0806 作为参考 LLM,结果表明 GPT 系列的 LLM(如 GPT4o-0513)表现出最高的响应相似度(平均相似度为 4.240)。相比之下,像 Llama3.1-70B-Instruct(3.628)和 Doubao-Pro-32k(3.720)显示出较低的相似度,表明蒸馏程度较低。而 DeepSeek-V3(4.102)和 Qwen-Max-0919(4.174)则表现出更高的蒸馏程度,与 GPT4o-0806 相近。
为了进一步验证观察结果,作者进行了额外的实验。在这个设置中,他们选择各种模型同时作为参考模型和测试模型。对于每种配置,从三个数据集中选择 100 个样本进行评估。附录 F 中的结果表明,当作为测试模型时,Claude3.5-Sonnet、Doubao-Pro-32k 和 Llama3.1-70B-Instruct 始终表现出较低的蒸馏程度。相比之下,Qwen 系列和 DeepSeek-V3 模型倾向于显示更高程度的蒸馏。这些发现进一步支持了本文所提框架在检测蒸馏程度方面的稳健性。
更多细节请参考原论文。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
2025-01-29 10:25:00
机器之心报道
成本打下来了,需求更多才对?
春节这几天,国内外 AI 圈都被 DeepSeek 刷了屏。英伟达的股市震荡更是让全世界看得目瞪口呆(参见《英伟达市值蒸发近 6000 亿美元,而 DeepSeek 刚刚又开源新模型》)。
简单来说,DeepSeek 最近发布的两个模型 —— DeepSeek-V3 和 DeepSeek-R1 以很低的成本获得了比肩 OpenAI 同类模型的性能。这引发了市场对 AI 硬件需求的担忧,投资者担心未来对英伟达高端芯片的需求可能会减少。
与此同时,关于 DeepSeek 技术创新的讨论也非常多。很多人认为,DeepSeek 在硬件受限的条件下被逼走出了一条不同于 OpenAI 等狂堆算力的道路,用一系列技术创新来减少模型对算力的需求,同时获得性能提升。
这些成就得到了包括 Sam Altman 在内的 AI 领军人物的肯定。
随后,OpenAI 首席研究官 Mark Chen 也发了帖。他表示,DeepSeek 确实独立发现了一些 OpenAI o1 也在用的核心理念,不过,这并不代表 OpenAI 在算力上的高投入是不合理的。
帖子原文如下:
恭喜 Deepseek 开发出了 o1 级别的推理模型!他们的研究论文表明,他们独立发现了一些我们在通往 o1 的路上发现的核心理念。
不过,我认为外界的反应有些过度夸大,特别是在成本方面的说法。拥有两个范式(预训练和推理)意味着我们可以在两个维度而不是一个维度(低成本)上优化某项能力。
但这也意味着我们有两个可以扩展的维度,我们打算在这两个维度上都积极投入算力!
随着蒸馏研究的日益成熟,我们也发现降低成本和提升能力愈发解耦。能够以更低成本(特别是在更高延迟的情况下)提供服务,并不意味着就能产生更好的能力。
我们将继续提升以更低成本提供模型服务的能力,但我们对我们的研究路线图保持乐观,并将继续专注于执行它。我们很高兴能在本季度和今年为大家带来更好的模型!
短短几段话,Mark Chen 表达了好几层观点,我们让 DeepSeek-R1 来解读一下每段话的言外之意:
总之,和 Sam Altman 一样,Mark Chen 的发言也是在重塑外界对 OpenAI 的信心,并预告今年会带来更好的模型。
此外,OpenAI研究科学家Noam Brown也在努力弱化外界对OpenAI和DeepSeek的对比,但大家似乎并不买单。
另外,Mark Chen 提到的「外界的反应有些过度夸大,特别是在成本方面的说法」这一点最近也被很多人讨论,尤其是「DeepSeek-v3 训练成本仅为 558 万美元」这一说法。其实,DeepSeek-v3 的技术报告原文是这么写的:「上述成本仅包括 DeepSeek-V3 的正式训练,不包括与架构、算法、数据相关的前期研究、消融实验的成本」。
图灵奖得主、Meta AI 首席科学家 Yann LeCun 也认为市场对于 DeepSeek 的成本反应并不合理。不过,他是从推理的角度来看的。他指出,人们常常以为巨额投资主要用于训练更强大的模型,但实际上大部分钱都花在了让这些 AI 服务能够稳定地服务数十亿用户身上。而且随着 AI 能力的增强,维持服务运行的成本会变得更高,关键是要看用户是否愿意为这些增强的功能付费。
不少网友对 LeCun 的看法表示赞同,认为训练、推理成本更低的 AI 意味着这项技术能更快普及,从而创造更大的市场。
从这个角度来看,DeepSeek 在降低推理成本方面的努力似乎比降低训练成本的贡献更值得被关注。
针对可能即将到来的推理需求的激增,OpenAI、Meta 等都在做相应准备,比如旨在为 OpenAI 建设强大基础设施的「星际之门」项目(计划投资 5000 亿美元,但资金是否到位一直存疑)、Meta 新一年 600 亿美元的 AI 投资……
看来,2025 年,AI 市场的竞争依然激烈,DeepSeek 将在新一年走出多远还有待观察。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
2025-01-29 10:25:00
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]
该论文的主要作者Yihao Liu, Xu Cao, Tingting Chen, Yankai Jiang, Junjie You, Minghua Wu, Xiaosong Wang, Mengling Feng, Yaochu Jin, Jintai Chen 分别自中南大学、香港科技大学(广州)、上海AI Lab、西湖大学、宾夕法尼亚大学等团队,在医学人工智能领域有深入研究。
医疗健康领域在提升效率、资源可及性等方面始终面临着诸多挑战。随着多模态大语言模型(MLLM)和世界模型(World model)等技术的不断发展,具身智能(Embodied AI)蓬勃发展,也驱动着医疗服务模式的深刻变革。医疗具身智能作为一个跨学科且快速发展的研究领域,涵盖了 AI 算法、机器人技术和生物医学等多个学科。为了更好地促进多学科之间的合作和发展,分析和总结医疗具身智能领域的最新进展和挑战尤为重要。
近日,由港科广、中南、西湖大学、UIUC、新加坡国立大学、上海 AI Lab、宾夕法尼亚大学等团队联合发布的首篇聚焦医疗领域具身智能的综述论文《A Survey of Embodied AI in Healthcare: Techniques, Applications, and Opportunities》正式上线,中南大学刘艺灏为第一作者,通讯作者为香港科技大学(广州)助理教授陈晋泰。这篇综述论文全面梳理了具身智能在医疗领域的关键技术与应用前景。
论文标题:A Survey of Embodied AI in Healthcare: Techniques, Applications, and Opportunitie
论文链接:https://arxiv.org/abs/2501.07468
Techniques:具身智能如何赋能现代医疗
具身智能(EmAI)通过多模态感知、行动控制、决策计划和记忆能力的深度结合,赋予了 AI 类似人类的感知与执行能力。通过 MLLMs、VLA models 等与机器人技术的融合,具身智能有着适应复杂医疗环境的潜力,下图展示了 “Embodied AI Brain” 的核心功能模块,体现感知、行动、决策与记忆的协同作用。
图 2:具身智能 “大脑” 核心功能
1、感知模块
具身感知作为 EmAI 系统的核心功能之一,通过多种感知方式帮助系统更好地理解和与环境互动。
Ⅰ) 感官感知是这一过程的基础,它通过获取来自不同感官传感器的输入,如视觉、触觉和声音等,帮助系统构建对外部世界的初步认知。
Ⅱ) 为了让系统获得更加全面的理解,跨模态感知通过整合来自不同模态的信息(比如视觉与语言的结合),提升感知的准确性和深度。这种跨模态的集成不仅让系统能够更精确地解读复杂的场景,还能帮助其在动态环境中做出更有效的决策。
Ⅲ) 交互感知(Interactive perception)进一步推动了 EmAI 系统感知能力的发展。它不仅仅依赖于静态的传感数据,还通过物理行为,如操作物体或改变视角等,来解决感知中的不确定性。这些行为的不断探索和反馈使得 EmAI 系统能够在实际操作中不断完善其感知模型,从而更好地应对复杂多变的任务。在执行物体操作或场景理解时,这种交互感知显得尤为重要。
2、行动模块
行动模块是具身智能的基础组成部分,涉及如何通过各种控制策略来指导系统的实时动作。这些控制策略包括动作的选择和执行,旨在根据感知信息进行实时调整,优化运动控制,完成精细操作任务。通过探索更优的策略表示和策略学习方法,具身智能实现了更高的精准性与适应性。
Ⅰ) 控制策略的表示通常有三种方式:显式策略、隐式策略和扩散策略。显式策略通过行为克隆等方法直接从观察中映射到动作,适用于比较简单的任务,但在复杂任务中可能表现不足。隐式策略则通过能量函数来表示动作选择的偏好,适合处理多模态任务,具有较强的表达能力。扩散策略则通过去噪扩散生成模型生成控制策略,能够提供更为多样的表示,尤其在离线强化学习和基于视觉的操作中展现出潜力。
Ⅱ) 在策略学习方面,强化学习(RL)和模仿学习(IL)是主要的学习方法。强化学习通过试错法优化控制策略,根据环境反馈调整行为,以最优化目标为导向,适用于需要长期适应的任务。然而,强化学习常面临采样效率低、探索成本高等问题。模仿学习则通过模仿专家示例行为来加速学习过程,不依赖显式的奖励函数,能较快学习到高效的控制策略,但容易受到 “协变量偏移” 的影响,导致其在新场景中的泛化能力受限。
表 1:行动控制策略总结
3、决策模块
与低级控制策略处理简单的实时动作不同,高级规划主要聚焦于如何将复杂任务分解为多个子任务,并通过逻辑推理和决策来完成这些任务。传统的规划方法,如 A * 算法和 Dijkstra 算法,虽然在结构化环境中非常有效,但在面对复杂的高维状态空间或部分可观测环境时,往往面临较大的挑战。因此,近年来,基于 LLM 的高级规划方法逐渐得到应用,它通过将抽象的指令转化为可执行的机器人任务,从而实现了认知推理与物理任务执行的结合。近年来,端到端具身大模型也逐渐被提出,这种方法将高级决策规划与低级动作生成整合到一个统一的系统中,能够更加高效地处理复杂的任务指令,避免了传统方法中不同模块之间的分离和局限。
表 2:规划方法总结
4、记忆模块
记忆模块主要负责存储和处理系统的经验和知识,以帮助其在复杂环境中进行自我适应和决策。记忆在 EmAI 系统中通常分为短期记忆和长期记忆两种形式,它们各自发挥着不同的作用。Ⅰ) 短期记忆主要用于处理和存储系统在当前任务或交互中所需要的即时数据,例如当前的感知信息或上下文内容。例如,在与用户的对话中,EmAI 系统会保持对话历史,以便实时调整其响应。Ⅱ) 长期记忆则主要用于存储更为持久和重要的知识,支持系统的长期学习和适应。通过集成长期记忆,EmAI 能够将过去的经验用于未来的决策和推理。存储长期记忆通常通过内部模型权重或外部数据库来实现。内部记忆的更新通常通过监督微调、指令微调等方法来实现,而外部记忆的更新则依赖于外部数据库或知识图谱的动态改进。
Applications:四大应用场景的实践与突破
论文探讨了具身智能在以下四大医疗健康领域的研究实践和应用:
临床干预:从术前诊断到术后康复,支持精准医疗的全流程覆盖。
护理陪伴:提升儿童、老年人及特殊人群生活质量,减轻护理负担。
设施运转:通过应急响应、药品分配等任务优化医疗资源。
研究开发:加速数据分析与实验自动化,为医学突破提供动力。
1. 临床干预
具身智能系统已广泛应用于临床干预的整个周期,包括干预前(Pre-Intervention)、干预中(In-Intervention) 和 干预后阶段(Post-Intervention)。
干预前:具身智能系统能够通过精确的诊断和评估,协助医疗团队制定个性化的治疗方案。如分诊系统能够根据患者的症状、历史病历以及其他健康数据,自动筛选出需要紧急干预的病例,帮助患者快速被转诊到合适的科室。智能影像分析系统能够通过对医学影像的自动化解读,辅助医生早期发现潜在疾病(如肿瘤、结石等),提高诊断的准确性和效率。此外,远程诊断和医疗咨询系统等使得患者能够在家中接受医疗建议,为医生提供了更多的时间进行专业决策。
干预中:在干预过程中,具身智能系统的应用可提高手术的精确性和安全性。例如,机器人辅助手术系统可以在手术过程中提供更高的精度和灵活性,尤其是在微创手术中,能够精确地定位和操作,有效降低了误差率。AI 辅助的手术规划系统则通过实时分析患者的病情和影像数据,有效监控患者的生命体征,提供个性化的手术方案,帮助医生制定更合适的操作计划。
干预后:在干预后的康复阶段,具身智能系统如智能康复机器人,能够通过个性化的康复训练,帮助患者恢复运动功能,特别是中风、脊髓损伤等患者,机器人可以根据患者的恢复情况动态调整训练内容和强度,确保康复训练的有效性和安全性。智能药物管理系统可以帮助患者按照医生的处方精准服药,同时监控患者的生理数据,如血糖、血压等,实时调整药物剂量或提供健康建议。此外,智能健康监测设备可以持续跟踪患者的健康状态,通过可穿戴设备实时收集数据,确保患者在恢复过程中不会出现意外情况。
图 3:具身智能在临床干预全流程中的应用
2. 护理陪伴
具身智能系统在日常护理与陪伴领域可以为患者提供全面的生活支持和情感陪伴等。以下是其在社会引导、日常辅助和行动支持方面的关键应用,图 4 展示了相关技术的具体场景。
社会引导:社交辅助机器人如 NAO 和 QTrobot,通过互动提升自闭症儿童的社交能力,例如学习模仿、轮流对话和同理心。同时,针对认知障碍患者(如痴呆症),ZORA 等机器人帮助优化交流并支持治疗和教育目标。
日常辅助:喂食机器人和康复指导设备通过感知和自适应技术辅助患者完成进食、穿衣等任务,并为患者提供康复锻炼的实时反馈与鼓励。
移动支持:外骨骼设备(如 ReWalk)为脊髓损伤患者提供步态训练,AI 轮椅则通过智能导航支持行动不便的用户独立完成移动。
图 4:社交辅助机器人
3. 设施运转
具身智能在医疗基础设施支持方面也有着丰富的应用场景,更好地保证医疗服务质量,通过应急响应、生命救援、药品配送和环境消毒等任务提高医疗效率和安全性。
应急响应:机器人在灾害场景中利用热成像和智能导航技术定位幸存者并提供医疗支持,显著缩短救援响应时间。
药品与物资配送:智能配送机器人在医院环境中承担药品、餐饮及医疗物资运输任务,特别是在疫情期间,通过无接触操作降低交叉感染风险。
环境消毒:消毒机器人结合紫外线和雾化技术,自动完成病房和公共区域的空气与表面消毒,维护高标准卫生环境。
图 5:生命救援机器人
4. 研究开发
具身智能通过自动化流程和智能化数据分析,在生物医学研究中推动了实验效率和创新开发速度的双重突破。
实验自动化:具身智能驱动的自动化实验平台通过精确处理试剂和执行实验任务,优化了化学合成与基因分析的操作流程,提高科学研究效率。
药物研发:AI 系统通过筛选化学分子库、预测生物结构和分析药物毒性等方法,缩短了药物开发周期并降低了成本。
知识检索:如 ChemCrow 等系统整合了科学知识与数据分析能力,能够辅助研究人员发现新药靶点和生物标记物。
图 6:实验机器人
Opportunities:具身智能分级与未来发展
论文提出了从 Level 1 到 Level 5 的五个具身智能级别,涵盖了感知、进化学习、任务泛化和人机交互四大维度。这些层级不仅描述了技术的进化路径,也勾勒出具身智能未来发展的潜力(图 7)。
目前,大多数框架工作处于 1 至 3 级,或仅专注于单一的子功能模块。例如,外科机器人执行预编程的动作(第 1 级),监测生命体征并提醒临床医生异常(第 2 级),整合多模态输入以执行精准任务,如缝合或注射(第 3 级)。然而,它们尚未达到第 4 级和第 5 级系统的自主性,这要求实时决策并能检测细微的解剖变化。类似地,陪伴机器人提供简单的听觉或触觉反应(第 1 级),识别手势并调整行为(第 2 级),评估身体和心理健康以提供个性化支持(第 3 级)。但它们仍未能理解复杂的情感状态或提供主动的个性化护理,无法达到第 4 级和第 5 级。尽管已经取得了显著进展,但仍需进一步发展,以克服当前的局限,使这些系统能够达到第 4 级和第 5 级,在这些级别下,它们能够进行独立推理、复杂决策和真正的自主操作。
图 7 具身智能分级标准
高质量的数据集是推动具身智能研究发展的基石,对于提升系统的性能和可靠性至关重要。如图 8 所示,这些数据集涵盖了临床干预、日常护理陪伴、生物医学研究等多个领域,为 EmAI 系统提供了丰富的训练材料。然而,目前的高质量数据集仍存在一定的局限性,特别是在样本多样性和多模态数据整合方面。现有数据集可能面临样本不足、区域和人群代表性不均等问题,这使得它们难以应对不同临床环境或个体差异带来的挑战。同时,多模态数据整合也亟需加强。目前,许多数据集依赖单一的感知输入(如视觉或语言),而忽略了触觉、声音等其他感知维度的整合,这限制了 EmAI 系统在复杂场景中的应用潜力。
图 8 医疗健康领域具身智能数据集分类
尽管具身智能在医疗领域展现了巨大潜力,但其发展仍面临着多重挑战,主要包括伦理和法律问题、技术准确性和可解释性问题,以及与现有医疗系统的互操作性问题。尤其是在责任划分、患者同意和数据透明度等方面,需要建立明确的法律框架和伦理监督机制,同时技术的准确性和系统的互通性也亟待解决。从个性化诊疗到实验室自动化,具身智能正在全面变革医疗服务,通过持续技术创新和跨学科协作,具身智能将为全球医疗系统带来深远影响,推动智慧医疗迈向新的高度。
2025-01-29 09:30:00
本文来自往期 PRO会员通讯精选解读,文末关注「机器之心PRO会员」,查看更多专题解读。
目录
01. 为什么需要关注 Unlearning?
03. LLM 中的 Unlearning 有什么区别空间推理?
LLM 做 Unlearning会更难吗?LLM 公司能用 Unlearning 解决数据纠纷吗?Machine Unlearning 现在存在哪些局限?...
1、在过去的十年中,数据量的大幅增加和硬件性能的快速提升推动了机器学习技术的快速发展。伴随近几年 LLM 模型的发展则进一步带来了对各类数据的需求和消耗。
2、伴随人工智能技术所需的数据量不断增加,许多国家最近立法实施「被遗忘的权利(Right to Forgotten)」。
① 」被遗忘的权利「中显著的例子是欧盟的通用数据保护条例(GDPR)、加拿大的个人信息保护与电子文件法(PIPEDA)隐私立法和美国的加州消费者隐私法案(CCPA)。
② 根据这些法律,公司必须采取合理措施保证在请求时删除个人数据。
③ 截至近期,联合国即将进入执行的《人工智能法案》和美国多个州政府最近的立法行动也对人工智能在用户隐私、版权等方面的提出规范。
4、在此趋势下,Machine Unlearning 技术受到越来越多的关注。
① 由于企业会利用用户数据训练模型。当用户行使「被遗忘的权利」,要求公司停止使用其数据,如果每次都要重新训练模型以响应用户的要求,将对企业造成巨大的开销和损失。
② 从技术层面看,Machine Unlearning 领域的研究不仅限于隐私保护,还包括分析不同数据对模型收敛时所贡献的梯度。这种分析有助于实现更精准的去学习,同时也能增强模型对噪声数据的检测能力(Noisy Data Detection)。
2025-01-28 10:03:00
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]
在过去的两年里,城市场景生成技术迎来了飞速发展,一个全新的概念 ——世界模型(World Model)也随之崛起。当前的世界模型大多依赖 Video Diffusion Models(视频扩散模型)强大的生成能力,在城市场景合成方面取得了令人瞩目的突破。然而,这些方法始终面临一个关键挑战:如何在视频生成过程中保持多视角一致性?
而在 3D 生成模型的世界里,这一问题根本不是问题 —— 它天然支持多视角一致性。基于这一洞察,南洋理工大学 S-Lab 的研究者们提出了一种全新的框架:CityDreamer4D。它突破了现有视频生成的局限,不再简单地「合成画面」,而是直接建模城市场景背后的运行规律,从而创造出一个真正无边界的 4D 世界。
如果世界模型的终极目标是打造一个真实、可交互的虚拟城市,那么我们真的还需要依赖视频生成模型吗?不妨直接看看 CityDreamer4D 如何突破现有方案,构建出一个真正无边界、自由探索的 4D 城市世界——请欣赏它的生成效果!
想深入了解 CityDreamer4D 的技术细节?我们已经为你准备好了完整的论文、项目主页和代码仓库!