MoreRSS

site icon机器之心修改

中文人工智能垂直媒体。由kindle4rss生成。
请复制 RSS 到你的阅读器,或快速订阅到 :

Inoreader Feedly Follow Feedbin Local Reader

机器之心的 RSS 预览

太反差了!那边Claude强制「刷脸」认证,这边国内Coding Plan被外国人疯抢

2026-04-16 11:58:00

图片
机器之心编辑部


Anthropic 给大家来了个突然袭击!


想使用 Claude,先进行身份验证。



地址:https://support.claude.com/en/articles/14328960-identity-verification-on-claude


验证过程也不是糊弄一下就行了。


首先你需要准备材料:


  • 一份有效的政府签发带照片的身份证件(需为实体证件,并在你手中) 

  • 一台带摄像头的手机或电脑:可能需要使用手机拍摄实时自拍,或通过电脑摄像头完成 

  • 几分钟时间:验证通常在 5 分钟内完成


可接受的证件类型包括:护照、驾驶证或州 / 省级身份证、国家身份证。证件必须由政府签发、清晰可读、未损坏,并且包含你的照片。


需要注意的是,以下证件均不被接受:复印件、截图、扫描件、电子或数字证件(如手机驾照),以及各类非政府证件(如学生证、员工证、图书馆卡、银行卡)和临时纸质证件。


Anthropic 这一迷幻操作,也是被网友纷纷吐槽:这招太狠了。



「太离谱了!Anthropic 这波动作很明确,就是要把中转站和批量账号一刀切掉。这已经不是小范围试水,而是在逐步全面铺开 —— 高频用户、Claude Max 用户,基本都会被纳入这一轮强验证之中。」



还有网友在线请教如何绕过 Persona Identities 验证?求支招。



一边是 Anthropic 突然抬高门槛,花钱的用户喜提「真人 + 证件 + 刷脸」三件套。


而另一边,一群海外开发者却在想尽办法,往中国平台里挤。画风一下就变得非常魔幻。


国产 Coding Plan 真香啊,造啊


Claude 用户,想着是怎么把身份验证这一关给过了。


但是又有一波用户(特指国外开发者),是想着怎么注册微信、绑支付宝、过中文图形验证码这一关。


给老外一点小小的中式震撼。


想想这画风,属实有点离谱。


而这波海外用户的奇妙经历,还得从 GLM-5.1 发布说起。模型能力明显提升之后,GLM Coding Plan 很快在海外走红,需求直接被点燃。


但是,随着智能水平的提升和全球算力的紧张,GLM Coding Plan 的海外定价也做出了相应调整,涨价。


海外版 Max 套餐月费从 80 美元涨至 160 美元,Pro 从 30 美元涨至 72 美元,Lite 从 10 美元涨至 18 美元(以上均包含 10% 邀请折扣)。


相比之下,同一 Max 套餐在国内售价为 469 元(约合 68 美元),这意味着涨价后的海外版本价格已超过国内的两倍。


再叠加 GLM-5.1 发布时同步进行的 10% API 价格调整,这波谁爽到了,咱也不说。


但既然好用就有人开始动脑筋了,老外摸索到中国版的 Coding Plan 更便宜,于是不干了,开始琢磨省钱小妙招,何不去中国版的网站上买更便宜的 GLM Coding Plan。



于是 X 上出现了一幕魔幻景象:顶着英文 ID 的老外开发者们,开始认真研究要怎么买中国版的 GLM Coding Plan:要不要身份证、怎么绑支付宝、能不能用海外信用卡?




抢不到的人还在苦苦挣扎,先买的人已经在享受世界了。网友 @Ddox 多少有点炫耀成分:还好我去年就买了 GLM Max 年度会员。



海外朋友研究攻略的同时,其实国内这边的热度也丝毫不逊色。


GLM Coding Plan 在国内是每天上午 10 点放量,火爆到掐着点冲、慢一秒就没。国内用户 @0xkakarot888 “哭诉”:" 你们到底是怎么抢到 GLM 的 Coding plan 的?买个模型还要靠秒杀的?真是活久见,到了 10 点,页面直接太多人访问,打不开了,然后 10 点 01 分,可以打开了,被秒光了...



现在,在闲鱼上 "代抢 GLM Coding Plan" 已经成为一门生意。谁能想到,除了演唱会门票,连编程套餐也有黄牛了。



当然,海外网友也发现了这个问题,于是也开始定闹钟在北京时间上午 10 点开抢。



而 X 上也已经出现了针对外国人的 "代购产业"。@iamai_eth 直接发推:"可以帮外国人代购 GLM,赚差价"。



为何老外宁愿研究中文支付、绑海外卡踩各种坑,也要来买中国版的 GLM Coding Plan?


答案来自于产品口碑。


Hugging Face 的产品负责人 Victor Mustar 表示,他使用 GLM-5.1 从零构建了一个 531 行代码的 Three.js 赛车游戏,包含真实的漂移物理效果和四种 AI 角色性格,全程无需可视化辅助,模型自行迭代并完成了 20 多次调试。


他认为,这一表现甚至超过了 Claude Code 搭配 Opus 4.6 的组合,并预测该模型接下来将引发大规模讨论。


实际上,当前的硅谷 AI 圈正在面临一场「洗牌」。当美国顶尖 AI 公司(如 OpenAI、Anthropic)走向封闭生态和高溢价时,中国企业正在通过性价比和开源悄然占领开发者的桌面。



很多开发者发现,在需要快速实现特定功能时,国内的一些模型不仅反应极快,而且生成的代码简洁、直白,在好用的同时成本还低,对于需要进行大规模部署的硅谷初创公司来说,省下的钱就是实打实的利润。


一边,Claude 用户在对着摄像头刷脸,证明我是我;另一边,海外开发者在研究中文验证码,努力证明我会买。这多少有点魔幻了。



图片


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]



训练提速4.6倍!FP4+BF16双轨并行,NVIDIA×港大×MIT联手重新定义扩散模型训练速度上限

2026-04-16 11:58:00

图片


当强化学习后训练的大规模 rollout 已经被证明能够提升图像生成模型的偏好对齐能力,推理负担就成了制约训练速度的核心瓶颈。来自 NVIDIA、港大和 MIT 的团队提出的 Sol-RL,通过「FP4 先探索、BF16 再训练」的后训练框架,将达到等效 reward 水平的收敛速度最高提升到 4.64x,在训练速度与对齐效果之间给出了一条更具工程可行性的解法。



Sol-RL(Speed-of-light RL)是一种将 NVFP4 推理融合进 Diffusion 强化学习微调的高效训练框架。该方法并不是用量化推理结果直接训练,而是让 NVFP4 rollout 承担高吞吐的大规模探索任务,先在海量候选中筛出最有对比性的样本的初始噪声集合,再让 BF16 对这些关键初始噪声进行高保真再生成并完成策略优化。实验结果表明,该设计在 SANA、FLUX.1 和 SD3.5-L 模型上都带来了明显收益:在相同 GPU-hour 预算下,达到等效 reward 水平的收敛速度最高提升 4.64x,同时基本保持了 BF16 高精度 pipeline 的训练保真度。本文将深入探讨 Sol-RL 的核心思路、方法设计、实验结果与实际意义。



  • 论文名称:FP4 Explore, BF16 Train: Diffusion Reinforcement Learning via Efficient Rollout Scaling

  • 论文地址:https://arxiv.org/abs/2604.06916 

  • 项目主页:https://nvlabs.github.io/Sana/Sol-RL/ 

  • 代码链接:https://github.com/NVlabs/Sana/ 


效果展示


Sol-RL 在速度和性能上表现出色,下图展示了经过 Sol-RL 优化后 SANA 模型的整体效果,以及与基础模型相比在复杂细节、语义一致性和整体审美上的改善。



研究背景


在文生图模型的后训练阶段,强化学习正在成为提升人类偏好对齐能力的重要路径。现有研究不断表明,扩大 rollout,也就是为同一个 prompt 生成更多候选图像,再从中筛选高对比样本(例如其中表现最好的 n 个和最差的 n 个构成的 2n 个图像)进行优化,能够显著提升模型的对齐效果。对于基于 GRPO 的 Diffusion RL 来说,更多候选意味着更强的对比信号,也意味着更可靠的梯度更新。


但问题在于:rollout 一旦增大,训练瓶颈很快就会从参数更新转移到海量候选样本生成。尤其在 FLUX.1、SD3.5-L 这类参数量较大、需要多次迭代推理的文生图 Diffusion 模型上,想真正把 rollout scaling 做起来,rollout 阶段生成候选样本的计算成本会迅速上升。为了提高海量 rollout 效率,团队引入 nvfp4 量化推理,但论文进一步指出,如果直接把低比特 rollout 样本当作训练目标,训练稳定性和最终效果都会受到明显影响。因此,关键并不只是「能不能用 FP4」,而是「FP4 应该在训练流程里扮演什么角色」。


核心创新


Sol-RL 的核心创新在于其双阶段解耦框架。与直接把低精度计算贯穿整个训练流程不同,Sol-RL 把 rollout 样本的「探索」和「生成」拆开处理,让不同精度承担不同职责。


量化 rollout 不适合直接训练:论文首先指出,直接将 FP4 量化推理样本用作优化目标,会带来训练退化和不稳定性的隐患,如下图实验中红色曲线所示



FP4 适合作为探索代理:尽管 FP4 样本在像素层面会引入偏差,但研究发现,给定相同的初始噪声,在同组候选样本的相对 reward 排序上,NVFP4 推理样本依然保持了和 BF16 推理样本足够高的一致性。因此,它非常适合用来承担「大规模探索」和「候选筛选」的任务,也就是在大量初始噪声中快速识别出哪些会产生「最好」或者「最坏」的最终图像。



方法概述


Sol-RL 的整体流程可以概括为两个阶段。第一阶段,框架使用 NVFP4 rollout 和更少的采样步数快速生成一个大规模候选池,并根据 reward 对候选样本做排序,筛选出对应图像得分最高 / 最低的初始噪声种子集合。第二阶段,框架并不会直接拿这些低精度样本做训练,而是只保留第一阶段筛出的关键种子,再用 BF16 精度重新生成高保真样本,并仅基于这些高保真样本完成策略优化。这样一来,FP4 负责快速找方向,BF16 负责对其中一小部分高对比度样本做高质量生成用于训练,效率和稳定性被重新组织到同一个框架中。这样的流程让高成本 BF16 计算只集中在真正会影响梯度更新的部分,而不是平均浪费在大量最终不会参与训练的候选图像上。



实验结果


实验结果表明,Sol-RL 在多个基础模型和多个 reward 指标上都展现出明显优势。在相同 GPU-hour 预算下,Sol-RL 在 SANA、FLUX.1 和 SD3.5-L 上持续优于基线方法,并将达到等效 reward 水平的收敛速度最高提升至 4.64x。如下图所示,Sol-RL 在相同 wall-clock 预算下能够更快达到基线性能,在有限时间内达到更高对齐质量



进一步做时间拆解,相对于直接使用高精度进行 rollout scaling,Sol-RL 在 rollout 阶段的加速最高达到 2.41x,训练迭代时间最高提升 1.62x。Sol-RL 通过探索 - 重生成的两阶段设计,显著缓解了完全使用 BF16 rollout scaling 带来的计算瓶颈,并且避免了直接使用低精度样本进行训练带来的不稳定性,相对于全程 NVFP4 低精度推理版本仅带来约为 2% 的额外开销。



结论与展望


当大规模 rollout 已经被证明能够持续提升生成模型偏好对齐能力,接下来的关键问题就是如何以更低成本释放这种扩展带来的收益。Sol-RL 给出的答案是:让低精度负责探索,让高精度负责优化。这也意味着,FP4 在生成式模型后训练中的角色被重新定义了。它不再只是一个推理加速工具,而是开始成为强化学习探索阶段的有效代理。对于文生图后训练、偏好对齐、低比特量化以及系统级优化方向的研究者和工程团队来说,这个方案为生成模型后训练提供了一条更现实的落地路径,具备持续关注的价值。


图片

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]


2026具身智能数据赛道,卷出了一匹「黑马」

2026-04-15 15:02:00

在大模型席卷虚拟世界后,具身智能正被广泛视为通往通用人工智能(AGI)的下一场关键跃迁。过程中面临的一大掣肘便是数据。


相比于海量的文本数据,物理 AI 的有效交互数据量仅为前者的十万分之一。真机采集成本高企、标准混乱、孤岛林立,这些都已成为阻碍具身智能从实验室走向生产线的「核心卡点」。


在这一背景下,具身智能数据领域的「破局者」—— 觅蜂科技(Maniformer)今日宣布,将于 2026 年 4 月 16 日在上海・张江科学会堂举办一站式物理 AI 数据服务平台发布会


这不单单是一场产品发布会,也是一次面向行业的系统性回应:如何构建面向物理世界的下一代数据基础设施。


届时,觅蜂科技将首次全面展示其作为链接物理世界与 AI 基础设施的核心价值与全栈解决方案,系统性解决具身智能领域长期困扰的「数据荒、标准乱、供需错」三大核心痛点。此举标志着物理 AI 万亿级市场在数据供给侧迎来关键突破,具身智能的规模化落地正由愿景驶入快车道。


觅蜂科技的出现,正是为物理 AI 产业提供最关键的「燃料」保障。公司以「让全世界的数据为 AI 所用,加速智能体时代的到来」为使命,专注于打造具身智能数据的「平台型供给」基础设施,实现数据的体系化、标准化、规模化供给,致力于成为链接物理世界与 AI 的一站式服务底座。


本次发布会重磅看点齐聚,将为行业带来一系列颠覆性创新:


首先,一站式物理 AI 数据服务平台将正式亮相。该平台致力于打造具身智能数据的「平台型供给」基础设施,具备真机遥操、无本体采集、仿真数据等全类型数据覆盖能力,并覆盖工厂、物流、超市、家庭等全域场景,计划在 2026 年实现千万小时级年产能,有望彻底打破数据供给瓶颈。


其次,MEgo 系列无本体采集硬件将迎来全球首发。该系列旨在从硬件源头解决物理 AI 数据采集的成本与效率难题,为行业提供全新的数采范式。


此外,觅蜂科技将启动「蜂巢数据共创行动」,联合全球伙伴打造开放高效的数据流通网络,构建共赢的数据生态。发布会现场还将携手各大合作伙伴进行战略签约,在数据生态、场景协同、算力支撑、人才建设等领域进行广泛布局。


除了产品与生态层面的发布,一场高规格圆桌论坛同样值得关注。觅蜂科技董事长兼 CEO 姚卯青将携手极佳视界首席科学家朱政、原力灵机联合创始人范浩强、光轮智能 CEO 谢晨、北京智源人工智能研究院具身数据负责人姚国才、阿里飞天实验室具身基模型算法负责人张民英等行业大咖,以前瞻性的视角从真机数据、仿真数据、模型、学术等多个方面来剖析物理 AI 数据行业的未来趋势、挑战与机遇。


本次发布会将于 4 月 16 日 14:00 在上海・张江科学会堂正式拉开帷幕。届时,线上直播将通过机器之心、觅蜂科技官方账号矩阵全网同步开启。身处万亿赛道的奇点,行业正屏息以待,共同见证觅蜂如何筑就数据基石,赋能物理 AI 完成这场划时代的终极飞跃。


完整议程见下图:




从「片段生成」到「长视频漫游」:OmniRoam探索轨迹可控的长视频生成新范式

2026-04-15 15:02:00

Image


在生成式视频快速发展的今天,模型已经能够生成高质量的短视频片段,但一个更具挑战性的问题正逐渐成为研究焦点:


如何生成长时间、可连续演化的视频序列?当生成从 “几秒” 走向 “长时序” 时,问题开始显现:视角变化带来的结构漂移、时间推进中的内容不一致,使得视频在空间与时间维度上难以保持稳定,往往 “走着走着就乱了”。


与此同时,如何让视频生成具备可控性,能够沿指定路径连续移动,也成为实际应用中的关键需求。


近日,来自 University of California, Irvine、University of California, San Diego、City University of Hong Kong、University of Pennsylvania 以及 Adobe Research 的研究者共同提出了 OmniRoam,一种面向轨迹可控长视频生成的新方法。



  • 论文标题:OmniRoam: World Wandering via Long-Horizon Panoramic Video Generation

  • 项目主页:https://yuheng.ink/project-page/omniroam/

  • 文章链接:https://arxiv.org/pdf/2603.30045

  • 代码链接:https://github.com/yuhengliu02/OmniRoam


该工作通过引入全景视频作为统一表示,并结合 coarse-to-fine 的分阶段生成框架,在长时序条件下显著提升了视频的空间一致性与时间连贯性,使模型能够生成沿指定路径连续演化的视频序列,迈出了从 “片段生成” 走向 “连续过程生成” 的关键一步。



一、轨迹控制的视频预览

先生成 “可控路径”


OmniRoam 首先生成一个中等分辨率的全景视频预览,用于确定整体路径与场景结构。


核心在于将相机轨迹拆解为 flow(方向)和 scale(步长)两个控制量:前者刻画运动方向,后者控制移动幅度,从而实现更清晰的轨迹建模。在实现上,模型将输入与目标视频在时间维拼接,并通过 flow 与 scale 进行条件调制,使生成过程既保持内容连续,又具备明确的路径约束。


二、长时序视频细化

从预览到高质量生成


在 preview 基础上,OmniRoam 进一步进行长时序细化生成。由于 preview 通常采用较大 scale(类似 “快进”),refinement 阶段会通过 scale 对齐,将视频扩展为更长、更接近真实速度的序列。


关键设计是 visibility mask:每个时间段只选取少量 preview 帧作为条件输入,在保留结构锚点的同时避免冗余。随后模型对各个 segment 进行高分辨率生成,并拼接得到最终长视频。


这种从 “全局预览” 到 “局部细化” 的过程,有效缓解了长序列中的误差累积问题。



三、新数据集与评测基准

支撑长视频生成


为支持该任务,OmniRoam 构建了专门的数据与评测体系。在表示上,文章定义了一个 canonical panoramic coordinate system,去除相机自旋转,仅保留平移,从而简化轨迹建模。数据方面结合真实与合成两部分:真实全景视频提供多样场景,合成数据提供精确轨迹监督,并通过路径规划保证运动合理性。在评测上,提出 loop consistency 指标,要求视频沿闭环路径生成后既能回到起点,又保持中间过程的合理变化,更好衡量长时序一致性。



四、实验结果

一致性与可控性的显著提升


实验结果表明,OmniRoam 在画质、轨迹控制和长时序一致性上均优于现有方法。

在定性结果中,模型能够稳定沿指定路径生成连续视频,显著减少结构漂移与内容崩塌;而在定量指标上(如 FAED、SSIM、LPIPS 及 loop consistency),均取得更优表现。



进一步分析显示,全景表示与两阶段生成设计是性能提升的关键,使模型在长视频场景下依然保持稳定与可控。文章重点分析了在长视频(641 帧)条件下不同方法的表现,包括自回归生成与基于透视表示的方法。为了进一步分析长时序一致性,作者设计了闭环轨迹实验,并用 CLIP 相似度衡量模型是否能够 “走回原点”。理想情况下,随着相机逐渐远离起点,相似度应逐步下降;而在轨迹闭环时,相似度应重新上升。相似度在中段下降,在末尾重新回升,说明模型具备较强的长期空间记忆能力。



五、扩展与应用

从实时预览到 3D 场景生成


除了长视频生成能力,OmniRoam 还展示了在效率与 3D 任务上的潜在应用。


在效率方面,作者基于 self-forcing 机制,将完整模型蒸馏为一个轻量级自回归预览模型,实现实时视频生成。该模型在保持整体场景结构的同时,可在约 7 秒内生成 81 帧全景视频,相比原始模型显著加速,为交互式应用提供了可能。同时,还支持先生成低分辨率视频,再通过 refinement 模块提升至更高分辨率(如 720p)。


在 3D 应用方面,OmniRoam 生成的长视频可直接用于 3D 场景重建。作者从生成视频中均匀采样关键帧,并提取多个透视视角输入到 3D Gaussian Splatting(3DGS)中进行重建。实验结果表明,生成视频在不同视角间保持良好的一致性,能够恢复出结构连贯的 3D 场景。


这些结果表明,OmniRoam 不仅可以生成长时序视频,还能够作为上游模块,为实时交互与 3D 内容构建提供支持。



六、总结

长视频生成迈向 “可持续演化”


OmniRoam 的核心贡献,并不只是生成更长的视频,而是在长时序条件下,实现了更稳定、更可控的生成过程。通过全景表示提供全局空间约束,并结合 trajectory-controlled preview 与 long-horizon refinement 的两阶段设计,模型能够在长时间范围内有效抑制漂移,维持结构与语义的一致性。


这也反映出一个更重要的趋势:


视频生成的挑战,正在从 “生成更清晰的内容”,转向 “如何在更长时间内保持一致性与连贯性”。在这一背景下,OmniRoam 提供了一种可行路径,使生成模型能够沿指定轨迹持续演化,为长视频生成、虚拟漫游等场景奠定了基础。


如果说短视频生成解决的是 “生成一段内容”,那么长时序生成更关心的是 —— 模型能否在时间推移中持续 “记住并延续” 这个场景。


图片


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]


北大联合Llama-Factory推出DataFlex:工业级数据动态训练系统

2026-04-15 12:20:00


当大模型训练进入深水区,竞争的关键已经不再只是「模型参数怎么调」,而逐渐转向一个更核心、也更难系统解决的问题:模型在训练过程中究竟看到了什么数据、以什么比例看到、哪些样本应该被更频繁地学习。 


这些因素正在越来越直接地决定训练效率、泛化能力以及最终模型性能。


围绕数据选择、数据混合和样本重加权,学术界已经提出了不少方法。但长期以来,这些方法大多分散在彼此独立的代码仓库中:接口不统一、训练流程不一致、复现门槛高、横向比较困难。


更重要的是,很多方法依赖 embedding、模型打分、梯度或中间推理信号,真正难的从来不是「提出一个方法」,而是把这些方法稳定、可复现地接入主流训练流程,并纳入一套统一的训练闭环。


近日,北京大学张文涛教授、鄂维南院士团队,联合 LLaMA-Factory Team、OpenDataLab、上海 AI Lab 等机构,推出了面向大模型训练过程的数据中心动态训练框架 DataFlex。


它并不是单一算法或若干脚本的简单堆叠,而是一套建立在 LLaMA-Factory 之上的统一训练基础设施:将动态样本选择、动态数据混合、动态样本加权三类核心能力真正纳入训练过程,使「数据如何参与训练」从经验式配置,升级为可控制、可优化、可复现的系统能力。


换句话说,DataFlex 试图解决的,并不只是某一个训练技巧是否有效,而是一个更底层的系统问题:如何让数据像模型参数一样,成为训练过程中可以持续调度和优化的核心对象。 


这使它既可以作为研究平台,用于系统比较不同数据中心训练算法;也可以作为实用系统,直接服务于大模型预训练、后训练和领域适配等场景。


DataFlex 发布后,在 Hugging Face Daily Papers 榜单中迅速获得广泛关注并拿到了月榜第一。这种关注背后所反映的,本质上是社区对「数据中心动态训练」从理论走向工程闭环的里程碑式认可。




DataFlex 不只是一个算法仓库,而是一套数据中心训练基础设施


  • 可复现的研究平台:在统一训练框架下系统比较动态数据混合、样本选择和样本加权等数据中心训练方法,覆盖在线与离线场景,显著降低研究复现与方法对比成本;

  • 面向真实训练的优化系统:将数据选择、数据配比和样本权重调节真正接入训练闭环,使数据从「静态输入」变成「可持续调度的优化对象」,从而提升训练效率与最终模型效果。


  • 技术报告:https://arxiv.org/abs/2603.26164

  • 官方文档:https://opendcai.github.io/DataFlex-Doc/ 

  • Github 仓库:https://github.com/OpenDCAI/DataFlex


DataFlex:大模型工业化数据调用的最后一块拼图


设计哲学:告别静态投喂,把「数据调度」变成开箱即用的系统能力



1.核心概念:Data-Centric Dynamic Training System


DataFlex 的核心,不仅仅是再发一遍「数据很重要」的老生常谈,而是直击行业的最痛点:如何把「模型看什么数据、按什么比例看、优先强化哪些样本」这种玄学经验,真正固化为可配置、可调度、可复现的标准化系统能力。它不仅仅关注参数的梯度更新,更死死盯住了数据在每一步训练中的真实参与度。


1.1从「填鸭式静态输入」到「数据主动调度」


传统的大模型训练中,数据往往被视为预先准备好的静态输入:数据集先确定,采样方式先写死,训练过程中主要被持续优化的是模型参数本身。但当训练数据规模越来越大、来源越来越复杂时,真正决定效果的,已经不只是「有没有更多数据」,而是「训练时能否更聪明地使用数据」。


Data-centric dynamic training 的核心思想,是把数据从「被动输入」提升为「主动调度对象」。系统不仅要决定模型看哪些数据,还要动态决定不同数据源如何配比、哪些样本应被优先学习、哪些样本应被降低权重。


DataFlex 的价值,正是在于把这种原本零散、分散在不同方法和代码中的能力,推进为统一、标准化的训练机制。


1.2零成本迁移的统一框架


好的系统不应成为开发者的负担。在动态调度之外,DataFlex 更进一步解决的是系统层问题:如何把原本分散的数据选择、数据配比和数据重加权方法,统一纳入同一套训练基础设施。


一方面,DataFlex 建立在 LLaMA-Factory 之上,尽量复用已有的模型管理、数据处理和训练组件;另一方面,它在训练层引入统一的数据中心控制能力,使不同数据策略能够在同一个训练闭环中被实现、比较和扩展。


因此,DataFlex 不是若干数据算法的简单集合,而是一套面向大模型训练过程的统一数据中心动态训练系统。


2.三个设计原则


  • 统一性:系统将数据中心训练中的三个代表性范式统一纳入了同一训练框架;

  • 兼容性:系统能够融入现有的大规模模型训练基础设施,而不是额外引入一套工作流;

  • 可扩展性:研究者可以以较低的工程成本实现并比较新的数据中心算法。


整体架构



DataFlex 延续了 LLaMA-Factory 易用、清晰的设计思路,但在整体架构上做了关键升级。其在不破坏现有训练生态的前提下,把数据中心训练真正做成了一套统一、可扩展、可复现、可落地的系统能力。整个系统大致可以分为三层:


  • 基础层(Base Layer):这一层继承自 LLaMA-Factory,负责模型管理、数据处理、优化器等通用训练能力。系统在尽量保持原有训练流程与使用习惯的同时,把扩展重点集中在数据中心训练本身,降低了用户从现有训练流程迁移到 DataFlex 的门槛。

  • 训练器层(Trainer Layer):它没有沿用单一的原始 trainer,而是将训练过程抽象为三种数据中心训练模式,分别对应数据选择、数据混合和样本加权。这一层把训练器从只负责参数更新,扩展为同时负责数据决策与参数优化。

  • 策略组件层(Component Layer):这里挂载的是具体算法组件,例如不同的 selector、mixer 和 weighter。它们各自封装了不同方法的策略逻辑,并对训练器暴露了统一接口。


这种架构实现了轻量替换,而不是重构一切。DataFlex 并没有在 LLaMA-Factory 外面再包一个复杂编排系统,而是聚焦于替换训练层,并仅在需要时对数据加载等模块做最小扩展。


对用户来说,这接近一种「即插即用」的增强:已有的模型、数据集、训练参数配置都可以保留,只需要增加 DataFlex 相关配置,就能切换到以数据为中心的动态训练模式。


此外,DataFlex 还统一封装了数据中心方法普遍依赖的模型中间信号,比如 embedding 提取、模型推理、梯度计算等。很多数据选择和数据加权方法真正难落地,不是因为思想复杂,而是因为它们依赖的中间信号获取成本高、工程耦合重。DataFlex 把这类共享能力抽象出来,降低了实现和扩展门槛,也为后续大规模训练提供了基础。


核心功能


1.三个核心训练器


对应当前数据中心训练中典型的三种优化方向,DataFlex 支持三类核心训练器:


  • 动态样本选择训练器(Dynamic Select Trainer):在训练过程中动态筛选更有价值的训练样本,减少低价值或冗余样本对训练预算的消耗,从而提升训练效率。

  • 动态数据混合训练器(Dynamic Mix Trainer):面向多来源、多领域训练数据场景,在训练过程中动态调整不同数据源的采样比例,使模型能够根据当前学习状态更合理地分配训练注意力。

  • 动态样本加权训练器(Dynamic Weight Trainer):针对不同样本赋予不同训练权重,使模型能够对更关键、更困难或更具代表性的样本进行更有效学习,从而改善模型性能与泛化能力。


2.算法集成与可扩展性 


DataFlex 为三类训练器集成了 LESS、DoReMi、ODM、Loss Reweighting 等代表性方法。所有方法都以可插拔组件的形式,在统一接口下实现,从而能够在受控条件下进行公平比较。


科研上许多极具代表性的动态训练方法,要么缺乏官方仓库,要么其官方实现存在难以复现的问题。DataFlex 通过系统化的重构,让这些处于「失联」或「半停滞」状态的算法重新具备了工业级生产力。



三类训练器分工不同,但背后遵循的是同一种数据 — 模型交互逻辑:先观察当前模型状态,再给出新的数据决策,随后把这一决策反馈到后续训练中。


DataFlex 正是把这种共性的交互模式抽象成统一接口,从而让不同算法能够共享训练流程、基础能力以及扩展方式。 DataFlex 的配置文件继续沿用了 LLaMA-Factory 的基于 YAML 的格式,用于指定模型、数据集和训练超参数。


唯一新增的是一个简短的 dataflex 配置段,用于告诉框架要采用哪种数据中心策略,以及如何对其进行调度。



使用方式


DataFlex 完全兼容 LlamaFactory 的配置和使用方式:


  • 配置兼容:在 LlamaFactory 配置基础上添加 DataFlex 参数;

  • 命令一致:使用 dataflex-cli 替代 llamafactory-cli;

  • 功能保持:支持所有 LlamaFactory 的原有功能;

  • 无缝切换:可以通过 train_type: static 回退到原始训练模式。


环境配置、参数说明以及自定义组件接入方式,可进一步参考官方文档。除此之外,我们还提供了两期视频教程,分别演示了动态数据混合与动态数据选择的具体操作流程,便于初次上手的用户快速理解。


  • 官方文档:https://opendcai.github.io/DataFlex-Doc/ 

  • Github 仓库:https://github.com/OpenDCAI/DataFlex

  • 视频教程:

  - 自动数据选择与动态训练:https://b23.tv/BV1pHrKBoE6s

  - 自动优化数据配比:https://b23.tv/LYYx1hG


实验效果


为了验证 DataFlex 的有效性,团队围绕样本选择、数据混合和系统效率三方面进行了系统实验,覆盖 7 种数据选择、2 种数据混合和 1 种数据重加权方法。整体结果表明,DataFlex 不仅能够统一复现不同数据中心方法,还能在模型效果和训练效率上带来稳定提升。


数据选择与样本加权:动态方法整体优于静态训练



在 Open-Hermes-2.5 子集上的实验显示,无论是在 Mistral-7B 还是 Llama-3.2-3B 上,大多数动态数据中心方法都优于静态全量训练基线。这表明在模型容量有限的情况下,能够实时感知模型状态的动态选择策略对于达到性能上限至关重要 。


3.2 数据混合:动态配比优于默认配比



在 SlimPajama 的 6B 和 30B 设置下,DoReMi 和 ODM 两种数据混合算法都表现出了明显优势。在 6B token 规模下,动态数据混合方法已经展现出明显优势:ODM 在通用能力评测中的准确率高于默认静态配比,而 DoReMi 则在整体困惑度上进一步取得更优结果,说明动态调整不同数据域的配比,确实能够带来更好的训练收益。


系统效率:统一框架不仅易用,而且高效



除了效果提升,DataFlex 在效率上也有不错表现。以 LESS 为例,在单卡设置下,DataFlex 在多个采样比例上都实现了更低训练耗时,例如在 1.0 比例下,训练时间从 30,239 秒降到 28,734 秒,同时准确率从 40.38% 提升到 42.37%。进一步在 8 张 H20 GPU 上,训练时间减少了 57.13%。



对于 TSDS 这类离线选择方法,DataFlex 的重实现也在不同数据规模下取得了稳定的 1%—3.5% 提速。


构筑 AI 时代的数据生态


当大模型技术演进跨越了架构探索的初级阶段,行业的角逐核心已跃迁至「数据应用」的深水区。


团队(PKU-DCAI)致力于在 Data-Centric AI(以数据为中心的 AI)浪潮中,构筑支撑下一代 AI 应用的数据基础设施。本次开源的 DataFlex 与团队另一核心工作 DataFlow(3k+ Stars),共同为 AI 时代的数据应用确立了从源头到闭环的全新范式。


Github 仓库:

  • https://github.com/OpenDCAI/DataFlow

  • https://github.com/OpenDCAI/DataFlex


面向 AI 时代海量且混沌的真实世界信息,DataFlow 的使命是打造「高智力密度」的数据提炼工场。承接 DataFlow 提炼的高阶数据,DataFlex 真正将「数据应用」的触角深入到了模型训练的原子层。它不仅是在加速模型的收敛,更是在系统层面控制模型的泛化能力与知识吸收轨迹,确保数据的潜在价值被极致地变现为 AI 的顶尖实战能力。



作者信息


作者是来自北京大学的 DCAI 团队,深耕于 AI 数据侧的底层革新与系统落地,拥有该领域最前沿的算法储备与工程经验。


梁昊:北京大学大数据科学研究中心博士,开源项目 DataFlow leader,第一作者 / 共同第一作者发表 9 篇 CCF-A 论文。


赵正阳:北京大学大数据科学研究中心博士,开源项目 DataFlow 核心开发者,元枢智汇高级算法研究员。


强美伊:北京大学软件与微电子学院硕士,开源项目 DataFlow 核心开发者,发表期刊 / CCF-A 论文 7 篇。


大家坚信,大模型竞争的终点不在于单一算法的博弈,而在于构建一套统一、高效、且可复现的数据中心化基础设施。


开源只是起点,生态需要共建。欢迎学术界与工业界的同仁关注、使用 OpenDCAI 系列开源项目,并与团队进行深度的技术探讨。



图片


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]