MoreRSS

site icon机器之心修改

中文人工智能垂直媒体。由kindle4rss生成。
请复制 RSS 到你的阅读器,或快速订阅到 :

Inoreader Feedly Follow Feedbin Local Reader

机器之心的 RSS 预览

MIT三人团队:用Transformer解决经验贝叶斯问题,比经典方法快100倍

2025-02-28 17:04:00

机器之心报道
机器之心编辑部

Transformer 很成功,更一般而言,我们甚至可以将(仅编码器)Transformer 视为学习可交换数据的通用引擎。由于大多数经典的统计学任务都是基于独立同分布(iid)采用假设构建的,因此很自然可以尝试将 Transformer 用于它们。

针对经典统计问题训练 Transformer 的好处有两个:

  • 可以得到更好的估计器;

  • 可以在一个有比 NLP 更加容易和更好理解的统计结构的领域中阐释 Transformer 的工作机制。


近日,MIT 的三位研究者 Anzo Teh、Mark Jabbour 和 Yury Polyanskiy 宣称找到了一个可以满足这种需求 「可能存在的最简单的这类统计任务」,即 empirical Bayes (EB) mean estimation(经验贝叶斯均值估计)。

image.png

  • 论文标题:Solving Empirical Bayes via Transformers

  • 论文地址:https://arxiv.org/pdf/2502.09844


该团队表示:「我们认为 Transformer 适用于 EB,因为 EB 估计器会自然表现出收缩效应(即让均值估计偏向先验的最近模式),而 Transformer 也是如此,注意力机制会倾向于关注聚类 token。」对注意力机制的相关研究可参阅论文《The emergence of clusters in self-attention dynamics》。

此外,该团队还发现,EB 均值估计问题具有置换不变性,无需位置编码。

另一方面,人们非常需要这一问题的估计器,但麻烦的是最好的经典估计器(非参数最大似然 / NPMLE)也存在收敛速度缓慢的问题。

MIT 这个三人团队的研究表明 Transformer 不仅性能表现胜过 NPMLE,同时还能以其近 100 倍的速度运行!

总之,本文证明了即使对于经典的统计问题,Transformer 也提供了一种优秀的替代方案(在运行时间和性能方面)。对于简单的 1D 泊松 - EB 任务,本文还发现,即使是参数规模非常小的 Transformer(< 10 万参数)也能表现出色。

定义 EB 任务

泊松 - EB 任务:通过一个两步式过程以独立同分布(iid)方式生成 n 个样本 X_1, . . . , X_n.

第一步,从某个位于实数域 ℝ 的未知先验 π 采样 θ_1, . . . , θ_n。这里的 π 的作用是作为一个未曾见过的(非参数)隐变量,并且对其不做任何假设(设置没有连续性和平滑性假设)。

第二步,给定 θ_i,通过 X_i ∼ Poi (θ_i) 以 iid 方式有条件地对 X_i 进行采样。

这里的目标是根据看到的 X_1, . . . , X_n,通过image.png估计 θ_1, . . . , θ_n,以最小化期望的均方误差(MSE)image.png如果 π 是已知的,则这个最小化该 MSE 的贝叶斯估计器便是 θ 的后验均值,其形式如下:

image.png

其中 是 x 的后验密度。由于 π 是未知的,于是估计器 π 只能近似 这里该团队的做法是将估计器的质量量化为后悔值,定义成了多于的 MSE:

image.png

通过 Transformer 求解泊松 - EB

简单来说,该团队求解泊松 - EB 的方式如下:首先,生成合成数据并使用这些数据训练 Transformer;然后,冻结它们的权重并提供要估计的新数据。

该团队表示,这应该是首个使用神经网络模型来估计经验贝叶斯的研究工作。

理解 Transformer 是如何工作的

论文第四章试图解释 Transformer 是如何工作的,并从两个角度来实现这一目标。首先,他们建立了关于 Transformer 在解决经验贝叶斯任务中的表达能力的理论结果。其次,他们使用线性探针来研究 Transformer 的预测机制。

本文从 clipped Robbins 估计器开始,其定义如下:
 image.png
 
得出:transformer 可以学习到任意精度的 clipped Robbins 估计器。即:

image.png

类似地,本文证明了 transformer 还可以近似 NPMLE。即:

image.png

完整的证明过程在附录 B 中,论文正文只提供了一个大致的概述。

接下来,研究者探讨了 Transformer 模型是如何学习的。他们通过线性探针(linear probe)技术来研究 Transformer 学习机制。

这项研究的目的是要了解 Transformer 模型是否像 Robbins 估计或 NPMLE 那样工作。图 1 中的结果显示,Transformer 模型不仅仅是学习这些特征,而是在学习贝叶斯估计器是什么。

image.png

总结而言,本章证明了 Transformer 可以近似 Robbins 估计器和 NPMLE(非参数最大似然估计器)。

此外,本文还使用线性探针(linear probes)来证明,经过预训练的 Transformer 的工作方式与上述两种估计器不同。

合成数据实验与真实数据实验

表 1 为模型参数设置,本文选取了两个模型,并根据层数将它们命名为 T18 和 T24,两个模型都大约有 25.6k 个参数。此外,本文还定义了 T18r 和 T24r 两个模型。

image.png

在这个实验中,本文评估了 Transformer 适应不同序列长度的能力。图 2 报告了 4096 个先验的平均后悔值。

image.png

图 6 显示 transformer 的运行时间与 ERM 的运行时间相当。

image.png

合成实验的一个重要意义在于,Transformer 展示了长度泛化能力:即使在未见过的先验分布上,当测试序列长度达到训练长度的 4 倍时,它们仍能实现更低的后悔值。这一点尤为重要,因为多项研究表明 Transformer 在长度泛化方面的表现参差不齐 [ZAC+24, WJW+24, KPNR+24, AWA+22]。

最后,本文还在真实数据集上对这些 Transformer 模型进行了评估,以完成类似的预测任务,结果表明它们通常优于经典基线方法,并且在速度方面大幅领先。

image.png

从表 3 可以看出,在大多数数据集中,Transformer 比传统方法有显著的改进。

image.png

总之,本文证明了 Transformer 能够通过上下文学习(in-context learning)掌握 EB - 泊松问题。实验过程中,作者展示了随着序列长度的增加,Transformer 能够实现后悔值的下降。在真实数据集上,本文证明了这些预训练的 Transformer 在大多数情况下能够超越经典基线方法。

© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]



文章原文

探索跳跃式思维链:DeepSeek创造力垫底,Qwen系列接近人类顶尖水平

2025-02-28 17:04:00

图片
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]

在大语言模型 (LLM) 的研究中,与以 Chain-of-Thought 为代表的逻辑思维能力相比,LLM 中同等重要的 Leap-of-Thought 能力,也称为创造力,目前的讨论和分析仍然较少。这可能会严重阻碍 LLM 在创造力上的发展。造成这种困局的一个主要原因是,面对「创造力」,我们很难构建一个合适且自动化的评估流程。

图 1。

过去大多数创造力测评在探索 LLM 的 Leap-of-Thought 能力的时候,仍然遵循普通大模型测评中的选择、排序等评估类型。尽管这种评估方式对逻辑思维能力的考察非常有效,但是在对创造力的评估中则不太合理。

如下图所示,如果要求阅读所给图和图中文字,并为图中?」部分填入一句话,使得整体富有创造力且幽默。如果这个任务是一个选择题型的任务,并提供了A. 可以帮忙扶一下我吗?可以帮我解开手铐吗?」,LLM 可能会在无需任何创造力的情况下选择 B,因为 A 选项很常规,而 B 选项很特别。

图 2。

评估 LLM 的创造力应该是考察其生成创新内容的能力,而不是考察它是否能判定创新的内容。在当前的研究范式中,通过人类评估或者 LLM-as-a-judge 的方式符合这一要求。然而,尽管人类评估的准确率最高且符合人类一般价值观,但是这种方式不可持续且成本非常高。

而 LLM-as-a-judge 这种大致通过 zero-shot 或者 fine-tuning 一个 LLM 来对目标进行评分的方式,其在创造力任务上的评估能力目前仍然处于初级阶段,而且不是很稳定。

面对这些困难,来自中大、哈佛、鹏城、新加坡管理大学的研究者另辟蹊径,通过研究 LLM 产生人类高质量创新内容所需要的代价 (也可以看作是 LLM 产生内容与人类水平创新内容的距离),建立一个多轮交互的可信且自动化创造力评估范式 LoTbench。研究成果登上了 IEEE TPAMI。


  • 论文题目:A Causality-aware Paradigm for Evaluating Creativity of Multimodal Large Language Models

  • 论文链接:https://arxiv.org/abs/2501.15147

  • 项目主页:https://lotbench.github.io


任务场景

本论文是 CVPR'24 梗王大模型(Let's Think Outside the Box: Exploring Leap-of-Thought in Large Language Models with Creative Humor Generation)的期刊扩展,其考虑的创造力基础任务是如图 2 所示的,看图并直接生成补全文字中的空缺处,使得图文整体显得创新且幽默。

这类任务是日本传统游戏大喜利游戏的一种,在中文互联网社区也被称为日式冷吐槽。它具有如下一些特点:

1. 这类日式冷吐槽游戏要求看图并补全具有创意且幽默的文字,对创造力要求很高,是典型是创造力问题;
2. 这类日式冷吐槽游戏完美符合当前多模态大模型的输入输出格式,即输入时图文,输出仅为文字,而且是大模型最擅长的文字补全任务;
3. 这类日式冷吐槽游戏由于在互联网上热度非常高,有大量高质量人类标注数据和带有 ranking 信息的点评数据,对构建数据集很有帮助。

综上所述,这类日式冷吐槽游戏是少有的适合多模态 LLM 进行创造力测评的理想平台。

任务内容

图 3。

与一般大模型测评 (Standard Evaluation) 中选择、排序等范式不同的是,论文所提出的 LoTbench 考虑的是通过 LLM 产生人类高质量创新内容 (High-quality human-level response, HHCR) 所需要的总轮数构建一个创造力得分。

如图 3 右所示,对于一个 HHCR,LLM 在给定条件下,多轮地尝试生成和 HHCR 具有异曲同工之妙的创新响应。当 LLM 以很少的轮数产生 HHCR,可以认为 LLM 具有不错的创造力。反之,如果 LLM 需要很长的轮数,甚至无限轮 (即无法到达),则可以认为在当前 HHCR 中创造力不足。

图 4。

基于上述思想,图 4 展示了所提出的 LoTbench 的具体流程:

  • 精选具有人类高质量创新内容 (HHCR) 的日式冷吐槽游戏的数据,构建 MLM task,即要求 LLM 每一轮根据图文信息,生成 Rt 补全给定文字空缺;

  • 判断生成的 Rt 和 R (即 HHCR) 是否是异曲同工之妙 (different approach but equally satisfactory outcome, DAESO)。若是,则开始通过轮数计算创造力分数,否则进入第 3 步;

  • 要求待测 LLM 根据测评时历史交互信息,提出一个一般疑问句 Qt. 测评系统根据 HHCR,返回 Yes 或者 No;

  • 整理当前轮交互的所有信息,和系统提供的提示,称为下一轮的 history prompt,重新进入第 1 步生成创新响应环节。


创造力分数 Sc 的构建与 n 个 HHCR samples 在 m 次重复实验有关,具体如下,


创造力分数 Sc 满足如下特点:

1. 创造力分数与轮数成反比,轮数越少越具有创造力;
2. 当轮数趋于无限时,创造力分数趋于 0,即当前 LLM 无法到达给定 HHCR;
3. 考虑到创造力难度和多样性,创造力分数基于多次实验;

如何判断异曲同工之妙(DAESO)?

why 异曲同工之妙 (DAESO)?

创造力任务的一大特点是多样性,对于一个给定的填词条件,玩家可以有很多符合条件的响应。如图 5 所示,有活力的闹钟有活力的手机都有相似的创新幽默之处。但是我们不能简单地通过文字匹配、语义计算就能判断这一点,必须引入异曲同工之妙地分析。

图 5。

how 异曲同工之妙 (DAESO) 判断?

图 6。

在论文中,作者提出满足异曲同工之妙 (DAESO) 的两个响应需要满足至少两个条件:

1. 两个响应有相同的核心创新解释;
2. 两个响应有相同的功能相似性;

功能相似性和语义相似性略有不同,如图 6 (a) 所示。从语义角度,诺基亚和三星的语义相似度高于诺基亚和锤子;但是在砸核桃场景下,诺基亚则和锤子更加相似。如果两个响应仅仅只有创新解释一样,而不是某种功能上的相似的话,那么响应可能会偏离地比较大,比如对应图 5 的例子也可以是有活力的跳蚤,但是跳蚤没有体现发出声音的功能;另外,如果两个响应仅仅只有功能一样,那么响应可能会没 get 到点,比如对应图 5 的例子也可以是有活力的鼓,但是鼓没有很好体现由于跳动所带来的活力感。

在具体 DAESO 判断的实现中,作者首先为每一个 HHCR 进行非常详细的解释标注,即解释为什么给定的 HHCR 是幽默且富有创造力的。接着配合突破的 caption 信息,可以利用 LLM 在文本空间中构建对应的因果链条,如图 6 (c) 所示。并构建特定的 instruction 来对 DAESO 的两个提出的条件,在文本空间中判断。

在文中,基于 GPT 4o mini 可以达到较少计算代价的情况下,实现对 DAESO 有 80%-90% 的判断准确率。另外鉴于 LoTbench 会进行多次重复实验,因此 DAESO 的判断的准确率可以进一步得到保证。

测评结果

图 7。

通过对当前主流 LLM 的测评,如图 7 所示,可以发现当前的 LLM 在 LoTbench 测评的意义下,创造力并不强。但和不同级别的人类相比,LLM 的创造力是具有超越人类的潜力的。

图 8 可视化了测评榜单中排名前二的 Gemini 1.5 Pro 和 Qwen-VL-max 的创新响应,其中红色部分为 HHCR,而蓝色部分为被测 LLM 的创新输出。值得注意的是 DeepSeek 最近推出的多模态模型 DeepSeek-VL2 和 Janus-Pro-7B 系列也进行了评估,结果显示其创造力仍然处于人类初级阶段。期待 DeepSeek 团队后期推出更加先进的多模态大语言模型。

图 8。

更多研究细节,请参阅原文。


© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]



文章原文

Karpathy更新AI科普视频,网友:原本周末打算结个婚,改看视频了

2025-02-28 12:16:00

机器之心报道

编辑:张倩

他是真的想教会大家。
刚刚,赛博活佛 Andrej Karpathy 更新了一个长达 2 个多小时的学习视频,主题是 ——「我是如何使用大型语言模型(LLM)的」。


这个视频是 Karpathy 面向普通观众的系列视频之一。上一个视频关注的是 LLM 的训练方式。这次,他想跟进一个更实用的整个 LLM 生态系统指南,包括他自己生活中使用的大量例子,所以整个视频的技术门槛并不高。

完整高清版视频参见:https://www.youtube.com/watch?v=EWvNQjAaOHw

在点开看了十分钟之后,我们发现,Karpathy 是真想手把手把大家教会,让大家都能更好地利用大模型去提高工作、学习效率。而且,他还不收学费。


以下是视频时间线:   

  • 00:00:00 不断发展壮大的 LLM 生态系统
  • 00:02:54 ChatGPT 交互的幕后原理
  • 00:13:12 基本 LLM 交互示例
  • 00:18:03 了解你正在使用的模型和价格等级
  • 00:22:54 思考型模型以及何时使用它们
  • 00:31:00 工具使用:互联网搜索
  • 00:42:04 工具使用:深度研究
  • 00:50:57 文件上传,将文档添加到上下文
  • 00:59:00 工具使用:Python 解释器,生态系统的混乱性
  • 01:04:35 ChatGPT 高级数据分析、图表、绘图
  • 01:09:00 Claude Artifacts、应用、图表
  • 01:14:02 Cursor:Composer,编写代码
  • 01:22:28 音频(语音)输入 / 输出
  • 01:27:37 高级语音模式,即真正嵌入到模型内部的语音
  • 01:37:09 NotebookLM,播客生成
  • 01:40:20 图像输入,OCR
  • 01:47:02 图像输出,DALL-E、Ideogram 等
  • 01:49:14 视频输入,应用上的点击和交谈
  • 01:52:23 视频输出,Sora、Veo 2 等
  • 01:53:29 ChatGPT 记忆,自定义指令
  • 01:58:38 自定义 GPT
  • 02:06:30 总结

Andrej Karpathy 的身份有很多个:李飞飞高徒、OpenAI 创始成员及研究科学家、特斯拉前 AI 高级总监、YouTube「学习区」知名博主。不过,从他对教育的热爱来看,以前在特斯拉、OpenAI 都是「副业」,现在做的 AI 教育、科普才是「正职」。


一位麻省理工学院的学生评价说,Karpathy 的视频比自己在校园里学到的任何东西都更有价值。还有人因为 Karpathy 发了这个新视频而改变了周末计划。


不过,那个说为了看这个视频取消婚礼的网友是认真的吗?



© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]


文章原文

谷歌发布BIG-Bench超难基准:DeepSeek-R1得分6.8,只有o3-mini超过10分

2025-02-28 12:16:00

机器之心报道
编辑:Panda

随着 AI 能力的提升,一个常见的话题便是基准不够用了——一个新出现的基准用不了多久时间就会饱和,比如 Replit CEO Amjad Masad 就预计 2023 年 10 月提出的编程基准 SWE-bench 将在 2027 年饱和。

也因此,为了更加准确地评估 AI 模型的能力,不断有研究团队构建出新的数据集和基准,比如我们前段时间报道过的 ZeroBenchHLE(人类的最后考试),它们都带有大量当前的 AI 模型难以解决的难题。

近日,谷歌也发布了一个高难度基准:BIG-Bench Extra Hard,简称 BBEH。从名字也能看出来,这个基准非常难(Extra Hard)并且与久负盛名的 BIG-Bench 和 BIG-Bench Hard(BBH)关系密切。


  • 论文标题:BIG-Bench Extra Hard

  • 论文地址:https://arxiv.org/pdf/2502.19187

  • 数据地址:https://github.com/google-deepmind/bbeh


正如其论文一作  Mehran Kazemi 指出的那样,相比于 BIG-Bench Hard,BBEH 中每个任务都更加困难,给当前所有模型都创造了进步空间。


另一位作者、DeepMind 著名研究科学家 Yi Tay 也建议 AI 研究者在自己的下一篇论文中使用该基准。


那么,BBEH 究竟有多难呢?当前能力最强的 o3-mini (high) 得分也仅有 44.8 分,不及格。而其它被测模型的得分均不超过 10 分!DeepSeek-R1 仅有 6.8,谷歌自家的 Gemini-2.0-Flash 也只有 9.8。遗憾的是,该团队并没有给出近期发布的 Grok-3 与 Claude 3.7 Sonnet 的表现。


该团队在论文中解释了构建 BBEH 基准的动机,其中指出目前对推理模型的评估大都依赖数学、科学和编程基准,而涉及到更多方面的 BIG-Bench 及其更难的子集 BIG-Bench Hard(BBH)基准则正趋向饱和 —— 当前领先的模型在 BBH 上的准确度都已经超过 90%。因此,BBH 已经无力评估前沿模型的推理能力。

BBEH 便应运而生,其设计目标是「评估高阶推理能力」。

BIG-Bench Extra Hard

BBEH 是基于 BBH 构建的——将 BBH 中的 23 个任务中的每一个都替换成了另一个在类似推理领域中并测试类似(或更多)技能的任务,当然,新任务的难度要大得多。这种替换方法可以确保新数据集保留了原始 BBH 数据集的高度多样性。

表 1 给出了 BBEH 中新任务的高层级描述,包括它们是如何构建的以及它们替换了 BBH 中的哪个任务,以及它们针对哪些推理技能。


该基准中,每个任务包含 200 个问题,但 Disambiguation QA 任务例外,有 120 个问题。

下图展示了一些具体任务示例:


该论文的详细创建过程以及对 BBEH 数据集的分析请参阅原论文,下面我们重点来看看前沿模型在该基准上的表现以及相关分析结果。

模型表现及分析

首先来看各家前沿模型的表现如何,下表是准确度分数详情。


根据此结果,该团队得出了几个有趣的观察:

  • 模型在各个任务上都有很大的进步空间,在 BBEH 整体上也是如此。
  • 通用模型的最佳性能为 9.8% 的调和平均准确率。推理专用模型在该基准上的表现优于通用模型(符合预期),但这些模型在 BBEH 上的最佳性能仍只有 44.8%。
  • 尽管采用了对抗性结构,但参考 Thinking 模型在 BBEH 上的调和平均准确率仍只有 20.2%。
  • 一些模型的准确率甚至低于随机性能。经检查,他们发现原因大多是模型无法在有效输出 token 长度内解决问题并在某个点之后开始退化,因此无法从其解答中提取出最终答案。

另外,还能看到不同模型擅长不同类型的推理。例如,DeepSeek R1 在 BoardgameQA 上的表现明显优于其他模型,o3-mini (high) 在 Temporal Sequences 和 Object Properties 上的表现明显优于其他模型,GPT4o 在 NYCC 上的表现明显优于其他模型,GPT4o 和 Gemini 2.0 Flash 在 SARC Triples 上的表现明显优于其他模型。

该团队还进行了进一步的结果分析。

通用模型与推理模型

推理模型可以利用更多测试时间计算进行思考,因此在涉及数学和编码的推理任务上实现了巨大的性能飞跃。例如,在 AIME2024 数据集上,GPT4o 的性能为 13.4%,但 o1 模型将其提高到 83.3%,o3-mini (high) 将其进一步提高到 87.3%。

在这里,该团队检查了不同类型的一般推理是否也是如此。

如图 5 所示,该团队分别将 o3-mini (high) 和 GPT4o 作为推理和一般模型的模范,在 BBEH 的每个任务上进行了比较,并根据 o3-mini (high) 相对于 GPT4o 的增益程度对任务进行升序排序。


可以观察到,增益最大的任务是那些涉及计数、规划、算术以及数据结构和算法的任务。而增益最少(有时为负值)的任务大多涉及常识、幽默、讽刺和因果关系。

结果表明,推理模型在解决形式化问题时会取得最显著的收益,而在处理复杂的现实场景时(通常需要软推理技能)则收益有限。

模型大小的影响

该团队还探讨了模型大小对模型性能的影响。

如图 6 所示,他们在 BBEH 的不同任务上比较了 Gemini 2.0 Flash 和 Gemini 2.0 Flash-Lite,并根据 Flash 相对于 Flash-Lite 的收益按升序方式对任务进行排序。


虽然信号不如将一般模型与推理模型进行比较时那么清晰,但仍然可以观察到与幽默、常识和因果推理相关的任务收益最少,而需要多跳推理或应用算法的任务收益最大。

一个特殊的例外是 SARC Triples 任务,这是一个讽刺理解任务,并且收益很大。这可能部分是由于 SARC Triples 中的每个样本都是三个子问题的组合,而较大的模型可能更擅长处理这种复合问题。

上下文长度和所需思考的影响

BBEH 中的任务具有不同的平均上下文长度,并且可能需要不同的思考量。基于此,可以了解上下文长度和所需思考对推理与一般模型以及较大模型与较小模型的影响。

图 7 比较了 o3-mini (high) 与 GPT4o 以及 Gemini 2.0 Flash 与 Gemini 2.0 Flash-Lite 的性能,这里使用了任务平均上下文长度和平均输出长度作为所需思考的代理。


可以观察到,无论是在上下文长度增加时,还是在所需思考增加时,o3-mini 的收益都比 GPT4o 更高;这表明与一般模型相比,推理模型在两个方向上都可能有所改进。对于 Gemini 2.0 Flash 与 Gemini 2.0 Flash-Lite,可以看到当上下文长度增加时,收益也有类似的增长,但思考增加时,曲线基本保持平坦。

参考链接:
https://x.com/kazemi_sm/status/1894935166952349955
https://x.com/YiTayML/status/1894939679943991661


© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]


文章原文

ICLR 2025|浙大、千问发布预训练数据管理器DataMan,53页细节满满

2025-02-28 12:16:00

图片

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]


文章全面探讨了大语言模型在预训练数据选择上的重要性,并提出了一种名为 DataMan 的数据管理器,用于对预训练数据进行质量评分和领域识别,以优化 LLMs 的预训练过程,本文由浙江大学和阿里巴巴千问团队共同完成。

在 Scaling Law 背景下,预训练的数据选择变得越来越重要。然而现有的方法依赖于有限的启发式和人类的直觉,缺乏全面和明确的指导方针。在此背景下,该研究提出了一个数据管理器 DataMan,其可以从 14 个质量评估维度对 15 个常见应用领域的预训练数据进行全面质量评分和领域识别。通过大量的实验,利用 DataMan 所筛选出的部分数据进行模型训练,胜率最高可达 78.5%,且性能超过多使用 50% 数据训练的模型。


  • 论文标题:DataMan: Data Manager for Pre-training Large Language Models

  • 作者单位:浙江大学 & 阿里巴巴

  • 论文链接:https://arxiv.org/abs/2502.19363


一. 逆向反思指导质量标准

随着大语言模型(LLMs)的快速发展,数据在模型性能提升中的作用越来越受到关注。现有的数据选择方法主要依赖于有限的手工规则和直觉,缺乏全面和明确的指导原则。为了解决这个问题,作者们提出了 “逆向思维”(reverse thinking)的概念,即通过提示 LLMs 自我识别哪些质量标准对其性能有益,来指导数据选择。


具体来说,这一过程共分为四步:

1)分析文本困惑度的异常:通过分析预训练所使用的文本数据,特别是那些困惑度(PPL)处于前 2% 和后 2% 的文本,来理解哪些文本特征与困惑度异常有关。该步使用一个超级 LLM(Super LLM)来分析这些异常现象背后的原因,并试图找出哪些文本特征对 LLM 的性能有积极影响。
2)迭代提炼质量标准:通过上述分析,作者迭代地提炼出了 13 个与文本质量相关的标准。这些标准包括准确性、连贯性、语言一致性、语义密度、知识新颖性、主题聚焦、创造性、专业性、语法多样性、结构标准化、风格一致性、原创性和敏感性。
3)构建全面的质量评分体系:除了上述 13 个质量标准外,作者还构建了一个综合性的评分标准,称为 “总体评分”(Overall Score)。这个评分标准综合考虑了上述 14 个标准,旨在提供一个更全面的文本质量评估。
4)验证质量标准的有效性:为了验证这些质量标准的有效性,超级 LLM 将对这些标准进行评分,并与人类评分进行了比较。结果显示,超级 LLM 的评分与人类评分有超过 95% 的一致性,这表明这些质量标准是有效的。

二. 数据卷王 DataMan

DataMan 是一个综合性的数据管理器,它能够对文本进行质量评分和领域识别,旨在促进预训练数据的选择和混合。DataMan 的训练和管理数据的过程主要包括以下几个步骤:

1)数据标注:DataMan 模型首先对 SlimPajama 语料库进行标注,标注内容包括 14 个质量评分标准和 15 个常见的应用领域。标注过程通过提示 Super LLM 生成文本的评分,并使用这些评分来创建一个用于模型微调的数据集。
2)模型微调:使用 Qwen2-1.5B 作为基础模型,通过文本生成损失进行微调。微调过程中,DataMan 模型学习如何根据给定的文本自动评分和识别领域。
3)数据采样:基于 DataMan 模型对数据的质量评分和领域识别,可以采用不同的数据采样策略。例如,通过 top-k 采样,根据质量评分和领域分布概率,从源和领域分布中采样数据,以最大化样本的代表性,同时确保数据源和领域的多样性。


三. 实验设置

DataPajama:DataPajama 是一个经过清洗和去重的 447B token 的预训练语料库,其已经由 DataMan 模型为其的每个文档打上 14 个质量评分和 15 个领域类型标签。尽管这一过程很昂贵(等于 1146 NVIDIA A800 小时),但可以通过大规模的并行化和低成本的 DataMan 模型来缓解,以可以服务于各种目的,如数据选择、数据混合或特定领域的持续预训练。

数据选择:该研究使用不同的数据选择方法从 DataPajama 中选择 30B token 的子集进行实验。这些方法包括:

1)Uniform:随机选择。2)DSIR:使用重要性重采样(DSIR)方法选择与英语维基百科或书籍领域相似的文档。3)Perplexity Filtering:基于困惑度过滤数据。4)Sample with Qurating:根据 Qurating 提出的四个质量标准(写作风格、事实、教育价值和所需专业知识)进行采样。5)Sample with DataMan:基于 DataMan 的 13 个质量标准进行采样。

模型训练:使用 Sheared-Llama-1.3B 模型架构,对从 DataPajama 中选择的 30B token 子集进行训练。训练设置包括使用 RoPE 嵌入和 SwiGLU 激活函数,以及 Adam 优化器等。

四. 实验发现

通过大量实验,该研究验证了 DataMan 方法的有效性,并展示了使用 DataMan 选择的数据进行训练的模型在多个下游任务上的优异性能。

Dataman 性能如何?

如下表所示,使用 DataMan 选择的数据进行训练的模型在语言建模、任务泛化能力和指令遵循能力上均优于使用均匀采样的基线模型。此外,使用 DataMan 的 13 个质量标准进行采样,相较于使用均匀采样,可以显著提升模型的性能,尤其是在上下文学习(ICL)任务中。


在指令跟随性能上,作者们的模型始终超过 SOTA 基线,总体得分达到了令人印象深刻的胜率 78.5%。


在垂直领域上继续预训练?

作者们应用 DataMan 的领域识别来过滤医学、法律和金融领域的垂类数据,并进行继续预训练以得到领域特定的模型。如图所示,模型性能得到了进一步提升,这验证了 DataMan 的域混合能力。


数据量与模型性能的关系?

该研究使用同样的方法抽样采样了一个更大的 60B 子集,以探究数据量的影响。如下表所示,模型在 ICL 等下游任务中都取得了进一步提升。


PPL 与 ICL 的失调?

下图我们绘制了 10 个下游任务中所有模型的困惑度(PPL)和上下文学习(ICL)性能之间的关系,包括 Pearson 和 Spearman 相关系数。结果表明,这种错位在 LogiQA 和 MMLU 任务中最为明显。更深入的分析确定了两个主要原因:i)- 域不匹配:预训练通常使用广泛的通用语料库,这使得模型在一个公共文本上表现出较低的困惑度。然而,像 MMLU 这样的任务,它跨越了 57 个不同的专门领域(如抽象代数和解剖学),可能会因为域不匹配尔在 ICL 中受到影响。ii)-ICL 任务的复杂性:许多 ICL 任务需要复杂的推理,而不是简单的文本生成,而困惑性评估难以捕获。这一点在 LogiQA 中尤为明显,该任务通过来自公务员考试中的专家撰写的问题来评估人类的逻辑推理技能。



© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]



文章原文