MoreRSS

site icon机器之心

中文人工智能垂直媒体。由kindle4rss生成。
请复制 RSS 到你的阅读器,或快速订阅到 :

Inoreader Feedly Follow Feedbin Local Reader

机器之心的 RSS 预览

如今的智能体,已经像人一样「浏览」视频了,国内就有

2024-11-22 12:28:00

机器之心发布

机器之心编辑部


当你正在观看一部紧张刺激的动作电影,忽然好奇:


“那个角色到底是在哪一集说的那句话?”


“这里的背景音乐是什么?”


又或者在一场足球比赛中,你错过了那个决定性的进球,却又想再次回放。诸如此类的需求,如果仅凭人力寻找,无疑存在极大的工作量。


但是 AI 能够为机器配置双眼与大脑,让它们能够看懂视频、理解剧情,对于普通人来说,这不仅是提高了搜索效率,更是扩展我们与数字世界的互动方式。


英伟达最新发布的 NVIDIA AI Blueprint 希望帮助人们解决这一问题。这是一种预训练的、可自定义 AI 工作流,他为开发者构建和部署用于典型用例的生成式 AI 应用程序提供了一套完整的解决方案。


比如在英伟达提供的试用界面中,你可以选择三个视频片段中的一个进行内容问答。



在几轮测试过后,我们发现 Blueprint 对视频问答还是有不错的效果的。你可以提问某个事件发生的时间,也可以提问某个对象的状态。

例如当我们提问 “工人在什么时候掉落了箱子”,Blueprint 可以正确的回答出时间区间。二类似于 “叉车往哪个方向开” 这种基于连续过程的问题,Blueprint 也可以轻松应答。

不过对于某些细节,例如 “谁捡起了掉在地上的箱子”,Blueprint 则给出了错误的答案。


尤其令人遗憾的是,在试用过程中我们不断遇到流量限制,无限验证等问题,试用体验可以说一言难尽。并且目前 Blueprint 仍然处于早期申请使用制阶段,没有办法快速进行使用。


Blueprint 之外,我们还有什么选择?

经过一番搜索和调研,我们在 Github 上发现了 OmAgent 这个项目,这是一个多模态智能体框架,提供了同样强大的视频问答功能。


项目地址:https://github.com/om-ai-lab/OmAgent

OmAgent 是什么

OmAgent 是一个开源的智能体框架,支持简单快速地面向设备进行智能体系统的开发,为智能手机、智能可穿戴设备、智能摄像头乃至机器人等各类硬件设备赋能。OmAgent 为各种类型的设备创建了一个抽象概念,并大大简化了将这些设备与最先进的多模态基础模型和智能体算法相结合的过程,使每个人都能基于设备建立最有趣的 AI 应用。


OmAgent 的设计架构遵循三个基本原则:

1. 基于图的工作流编排,支持分支、循环、并行等复杂逻辑操作;
2. 原生多模态,提供对音视图文等多种模态数据的支持;
3. 设备中心化,提供便捷的设备连接和交互方法。

简单来说,开发者可以基于 OmAgent 设计开发基于图工作流编排的面向设备的原生多模态智能体。这里的设备不光包含智能手机,智能可穿戴设备(智能眼镜等),智能家居,还包括命令行以及 web 端,开发者只需要专注于智能体本身,而不用分神处理设备。

OmAgent 项目里提供了 6 个示例项目,由浅入深展示了如何搭建一个智能体的完整过程,其中视频理解智能体工作流被 EMNLP 2024 主会收录,实现了和 Blueprint Demo 相似的功能。

OmAgent 表现如何?

根据项目文档只需要进行简单的配置就可以将 OmAgent 部署运行在本地环境。我们首先对 Blueprint 提供的测试视频进行预处理,在这个阶段视频会被分解为若干个片段,每个片段会被大模型进行总结,并向量化存储在数据库中。接下来使用之前的问题对 OmAgent 进行测试,可以看到智能体可以正确定位事件以及发生的时间。

Q: When did the worker drop the box?
A: 


Q: Which direction did the forklift go?
A: 


Q: Who picked up the box that fell on the ground?
A: 

接下来我们进行更复杂的测试,OmAgent 可以支持音频信息以及超长视频索引。我们选取了最近大火的剧集《双城之战》第二季第一集作为素材,基于其中的画面和剧情进行提问。

Q: 凯特琳收到的钥匙代表了什么?
A: 


Q: 凯特琳和蔚在争执些什么?
A: 

Q: 视频最后几个议员在讨论什么?
A: 


Q: 议员开会的时候谁闯入了进来?
A: 

可以看到,即使面对如此复杂的视频素材,OmAgent 依然可以游刃有余。

除了视频问答之外,OmAgent 的最大特点是可以将智能体直接应用在硬件设备上,我们也对此进行了测试。使用项目提供的 app,我们可以运行示例项目中的穿衣搭配推荐智能体。智能体会根据你的需求,以及你已有的衣橱信息,为你推荐合适的穿衣建议。在这个过程中智能体会和用户进行多轮沟通以确定用户需求,并最终返回最合适的搭配。


如果你也刚好试用过 OmAgent,欢迎在评论区交流。

© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]


仅仅一天,Gemini就夺回了GPT-4o拿走的头名

2024-11-22 12:28:00

机器之心报道
编辑:蛋酱、陈陈
太卷了,大模型迭代开始以「周」为单位了吗?
一周前,谷歌的 Gemini-Exp-1114 模型取代 GPT-4o,坐上了 Arena 榜单的头把交椅。


对于苦苦追赶 OpenAI 几个月的谷歌来说,这次在基准测试上的胜利十分振奋人心。

可惜振奋的时间不长:昨天,GPT-4o 一个更新,把第一名的位置抢回来了。


奥特曼庆功的话音刚落,Gemini-Exp-1121 杀出来,又把第一名抢走了。


谷歌工程师还顺带嘲讽了一波:


位次的变化实在太快,让人有点恍惚了。难道接下来,大模型迭代要以「周」为单位了吗?


狂卷基准测试,真有意义吗?

有人猜测,莫非这就是谷歌逐渐过渡到 Gemini 2 的发布方式?但这种可能性不大,因为最近的两个模型版本都还达不到「次世代」的水准。再加上又有传言,各家在训练阶段的 Scaling Law 上都遇到了一些瓶颈,提升模型能力的希望更多转向了后训练阶段。我们最终看到的下一代大模型,或许和目前的技术路线大不相同。


目前,Gemini-Exp-1114 和 Gemini-Exp-1121 在 Google AI Studio 上均为可用状态:


从官方发布的介绍来看,Gemini-Exp-1114 的亮点主要在于质量改进,而最新的 Gemini-Exp-1121 重点改进了编码、推理和视觉能力。


这场争夺战的出现,却引出了另外一个角度的话题:当前的人工智能基准测试方法可能大大简化了模型评估。

就比如一周前,当研究人员控制了响应格式和长度等表面因素时,Gemini-Exp-1114 的表现下降到第四位,因为传统指标可能会夸大感知能力。

这种差异揭示了人工智能评估中的一个根本问题:模型可以通过优化表面特征而不是展示推理或可靠性的真正改进来获得高分。对定量基准的关注引发了一场争夺更高分数的竞赛,行业对排行榜的依赖也会催生一些不良激励方式,而这些都无关于人工智能的真正进步。

各个厂商针对特定测试场景优化模型,同时可能忽略安全性、可靠性和实用性等更广泛的问题。这种方法产生的 AI 系统擅长完成狭隘的预定任务,但在处理细微的现实世界互动时却举步维艰。

比如有人就发现在 LiveBench 上,一周后更新的 Gemini-Exp-1121 版本,在数学和推理能力上反而比不上 Gemini-Exp-1114,令人疑惑。


厂商之间为获得更高的基准分数而展开的竞争并不会停止,但真正的竞争可能在于如何开发全新的框架来评估和确保人工智能系统的安全性和可靠性。

OpenAI 考虑用浏览器挑战谷歌霸主地位

谷歌和 OpenAI 不仅在大模型领域有点针锋相对,在浏览器方面,OpenAI 正在加紧追赶。


当谷歌 Chrome 浏览器深陷反垄断之际,OpenAI 出手了。

据《Information》周四报道,OpenAI 最近考虑开发一款可与其 ChatGPT 聊天机器人集成的 web 浏览器,并推出了 NLWeb(Natural Language Web)搜索技术,以增强对旅游、食品、房地产和零售等行业的搜索。

报道还称,OpenAI 已与 Conde Nast、Redfin、Eventbrite 和 Priceline 等网站和应用程序开发商讨论过这款搜索产品。

据知情人士透漏,为了达到这一目标,OpenAI 聘请了谷歌 Chrome 团队创始成员 Ben Goodger 以及其他前 Chrome 关键开发人员进行研发,展现了 OpenAI 对开发浏览器浓厚的兴趣。

领英资料显示,此前 Ben Goodger 是 Chrome 团队的创始成员,今年 6 月加入 OpenAI

这一系列举措可能会让 OpenAI 与占据浏览器和搜索市场最大份额的谷歌展开竞争。此前,OpenAI 已经通过 SearchGPT 进入搜索市场。

报道还称,OpenAI 讨论了为三星制造的设备提供人工智能功能,而三星是谷歌的主要商业合作伙伴。

此前,OpenAI 已经与苹果建立了合作伙伴关系,Apple Intelligence 功能现已使用 OpenAI 的技术。

不过,目前尚不清楚 OpenAI 何时会推出浏览器,《Information》报道称,OpenAI 距离推出浏览器还差得很远。

如今看来,谷歌不仅面临来自 OpenAI 的压力,在美国司法部认为谷歌应该出售其 Chrome 浏览器以结束其在在线搜索领域的垄断地位后,谷歌在浏览器市场的主导地位变得岌岌可危。

如果 OpenAI 成功推出新的浏览器,它将成为谷歌最大的竞争对手。

吃瓜网友们也是纷纷看好 OpenAI,表示道「OpenAI 是非常有潜力开发出一款非常棒的浏览器的,因为他们现在已经有了搜索功能。」


不过也有网友并不看好:「就我个人而言,浏览器对我已经没什么用了,因为我现在只需向聊天机器人提问,就能立即得到答案,而且无需广告或尝试多个页面。」


还有人用一个故事表达了自己的观点:「Nicholas Negroponte 曾经讨论过超级计算机的应用,并讲述了一个关于他们展示科学计算器应用的故事。所有的投资者都非常生气 ——『我们花费了数百万美元,而你们所做的只是重新创建了计算器?我们已经有计算器了!』如果 OpenAI 开发一款浏览器,我认为可能会发生同样的事情。」


我们暂且不管 OpenAI 何时推出浏览器,单就最近几天这两家机构在模型更新速度上,就已经相当激烈了,OpenAI 正面刚谷歌还会继续。

参考链接:
https://www.theinformation.com/articles/openai-considers-taking-on-google-with-browser
https://x.com/btibor91/status/1859716045004734739

© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]


大模型不会推理,为什么也能有思路?有人把原理搞明白了

2024-11-22 12:28:00

机器之心报道
编辑:泽南、杜伟
大模型不会照搬训练数据中的数学推理,回答事实问题和推理问题的「思路」也不一样。
大语言模型的「推理」能力应该不是推理,在今年 6 月,一篇 Nature 论文《Language is primarily a tool for communication rather than thought》曾引发 AI 社区的大讨论,改变了我们对于 AI 智力的看法。

该论文认为人类语言主要是用于交流的工具,而不是思考的工具,对于任何经过测试的思维形式都不是必需的。图灵奖获得者 Yann LeCun 对此还表示,无论架构细节如何,使用固定数量的计算步骤来计算每个 token 的自回归 LLM 都无法进行推理。

那么,大模型的「推理」行为到底是在做什么呢?本周四,一篇来自伦敦大学学院(UCL)等机构的研究《Procedural Knowledge in Pretraining Drives Reasoning in Large Language Models》详细探讨了大语言模型(LLM)在执行推理任务时采用的泛化策略类型,得出的结论给我们了一些启发。

大模型的「推理」是在做什么?

一个普遍的猜测是:大模型的推理难道是在从参数知识中检索答案?该研究给出了反对这一观点的证据。作者认为,是预训练中的程序性知识在推动大模型进行推理


自从大模型出现以来,AI 研究领域一直流传着这样一种假设:当大模型在进行推理时,它们进行的是某种形式的近似检索,即从参数知识中「检索」中间推理步骤的答案,而不是进行「真正的」推理。

考虑到大模型所训练的数万亿个 token、令人印象深刻的记忆能力、评估基准的数据污染问题已得到充分证实,以及大模型推理依赖于 prompt 的性质,这种想法看起来似乎是合理的。

然而,大多数研究在得出结论认为模型不是真正推理时,并没有进一步去研究预训练数据。在新的工作中,人们希望探索一个命题:即使推理步骤的答案就在数据中,模型在生成推理轨迹时是否会依赖它们?

作者使用影响函数来估计预训练数据对两个 LLM(7B 和 35B)完成事实问题回答(下图左)的可能性,以及简单数学任务(3 个任务,其中一个显示在右侧)的推理轨迹的影响。


令人惊讶的是,研究发现的结果与我们的想法相反:LLM 使用的推理方法看起来不同于检索,而更像是一种通用策略——从许多文档中综合程序性知识并进行类似的推理

新论文的一作、UCL 在读博士 Laura Ruis 表示,该研究是基于对 5M 预训练文档(涵盖 25 亿个 token)对事实问题、算术、计算斜率和线性方程的影响的分析。总而言之,他们为这项工作做了十亿个 LLM 大小的梯度点积。

接下来还有几个问题:大模型是否严重依赖于特定文档来完成任务,或者文档是更有用,还是总体贡献较少?前者适合检索策略,后者则不适合。

通过实验可以看到,模型在生成推理痕迹时对单个文档的依赖程度低于回答事实问题(下图箭头粗细表示)时对单个文档的依赖程度,并且它们所依赖的文档集更具通用性。

对于事实问题,答案往往表现出很大的影响力,而对于推理问题则不然(见下图底行)。此外,该研究发现的证据表明代码对推理既有正向影响,也有反向的影响。


另外,看文档对查询推理轨迹的影响可以较容易地预测出该文档对具有相同数学任务的另一个查询的影响,这表明影响力会吸收文档中用于推理任务的程序性知识。


因此可以得出结论,大模型通过应用预训练期间看到的类似案例中的程序性知识(procedural knowledge)进行推理。这表明我们不需要在预训练中涵盖所有可能的案例——专注于高质量、多样化的程序数据可能是更有效的策略

该研究可能会改变我们对于 LLM 推理的看法。Laura Ruis 表示,很期待见证这种程序泛化风格的发现,对于更大的模型,或潜在的不同预训练数据分割等方向的影响。


论文链接:https://arxiv.org/abs/2411.12580

实验设置

模型选择

研究者选择了两个不同体量的模型(7B 和 35B),分别是 Cohere 的 Command R 系列的基础和监督微调版本。其中,他们使用基础模型估计二阶信息并计算文档梯度,并使用监督指令微调模型生成完成并计算查询梯度。


查询设置

研究者收集了一个包含不同类型问题的查询集,其中 40 个推理问题,40 个事实问题。

对于推理问题,他们确定了两种数学推理类型,每种模型都可以使用零样本 CoT 来稳健地完成。研究者在包含每种推理类型的  100 个问题的更大集合上对模型进行评估,并选择了至少 80% 正确率的任务。

这为 7B 模型提供了简单的两步算法(如下表 1 所示),并为 35B 模型求解线性方程中的 x(如下表 9 所示)。研究者确保没有查询需要输出分数。并且,为了使 7B 和 35B 模型之间的结果更具可比性,他们对这两个模型使用了相同的斜率问题。



对于 40 个事实问题,研究者确保模型一半回答正确,一半错误,从而能够识别从参数知识中检索事实的失败。

文档设置

研究者想要比较预训练数据对不同大小模型(7B 和 35B)推理的影响,因此他们选择了两个在相同数据上训练的模型。其中,每个模型只需要对 Hessian 进行一次 EK-FAC 估计,但公式 1 中的其他项要求每个文档 - 查询对通过模型进行两次前向和后向传递。


为了解决这个问题,研究者从预训练数据中抽取了一组文档,这些文档涵盖了预训练期间看到的每个批次的多个示例,总共 500 个文档(约 25 亿 token),其分布与训练分布相似。

EK-FAC 估计

为了估计 7B 和 35B 模型的 Hessian,研究者通过对两个模型进行预训练,随机抽取了 10 万份均匀分布的文档。

实验结果:五大发现

为了回答上述关于 LLM 推理泛化的问题,研究者进行了定量和定性分析,并得出了以下五大发现。

发现 1:对于具有相同底层推理任务的查询,文档的影响力得分之间存在显著的正相关性,表明了这些文档与「需要对不同数字应用相同程序」的问题相关。

研究者计算了所有 500 万个文档得分对于所有查询组合的 Pearson R 相关性(每个模型有 802 个相关性)。下图右显示了每个任务 10 个查询的子样本结果。


他们还发现,相同推理类型的很多查询之间存在非常显著的正相关性(p 值均低于 4e - 8),而大多数(但不是全部)事实查询或其他组合(例如不同类型的推理查询)之间存在非常显著的相关性缺失(p 值均在 4e - 3 左右)。这意味着许多文档对同一类型的推理具有类似的影响。


发现 2:在推理时,模型对每个文档的依赖程度平均低于回答事实问题时对每个生成信息量的依赖程度,总体影响幅度波动性要小得多,表明它是从一组更一般的文档中泛化出来的。模型越大,效果越明显。下图 2 展示了对排名中不同百分数正向部分的总影响。


结果描述了 top-k 百分位正向排名文档中包含的总影响力,比如第 20 个百分数包含了一个查询的 20% 正向文档,显示的总影响力是截止到该部分排名的所有文档影响力的总和。


发现 3:事实问题的答案在对问题 top 影响力的文档中出现的频率相对较高,而推理问题的答案几乎没有在对它们 top 影响力的文档中出现过。


如下图 3 所示,对于 7B 模型,研究者在 55% 的事实查询的前 500 个文档中找到了答案,而推理查询仅为 7.4%。对于 35B 模型,事实查询的答案在 top 影响力文档中出现的概率为 30%,而推理集的答案从未出现过。

发现 4:对推理查询有影响力的文档通常采用类似的逐步推理形式,如算术。同时有影响力的文档通常以代码或一般数学的形式实现推理问题的解决方案。

总的来说,研究者在 top 100 份文档中手动找到了 7 个以代码实现斜率的独特文档,以及 13 个提供计算斜率方程式的文档。其中,7B 模型依赖其中 18 个文档来完成其补全(这意味着 18 个不同的文档出现在所有查询的 top 100 份文档中),而 35B 模型则依赖 8 个文档。

下图分别是一个以 JavaScript(左)和数学(右)实现解决方案的极具影响力的文档示例。


发现 5:对于事实查询,最有影响力的数据来源包括维基百科和小知识;而推理查询的主要来源包括数学、StackExchange、ArXiv 和代码。

总而言之,该研究结果表明,LLM 实际上可以从预训练数据中学习一种通用的推理方法,并且可以从数据中的程序性知识中学习。此外,人们发现没有任何证据表明模型依赖于预训练数据中简单数学推理步骤的答案。这意味着近似检索假设并不总是正确的,这对未来人工智能的设计具有重要意义。

也就是说,我们可能不需要专注于覆盖预训练数据中的每种情况,而是可以专注于数据应用和演示各种推理任务的程序。

这份研究结果表明,LLM 实际上可以从预训练数据中学习一种通用的推理方法,并且可以从数据中的程序性知识中学习。此外,人们没有发现任何证据表明模型依赖于预训练数据中简单数学推理步骤的答案。这意味着近似检索假设并不总是正确的,这对未来 AI 的设计具有意义。

也就是说,我们可能不需要专注于覆盖预训练数据中的每种情况,而是可以专注于数据应用和演示各种推理任务的程序。

更多技术细节与实验结果请参阅原论文。

参考内容:
https://www.reddit.com/r/MachineLearning/comments/1gvveu8/r_procedural_knowledge_in_pretraining_drives/
https://lauraruis.github.io/2024/11/10/if.html
https://x.com/LauraRuis/status/1859267739313185180


© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]


上交大o1复现新突破:蒸馏超越原版,警示AI研发"捷径陷阱"

2024-11-22 12:28:00

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]

团队介绍:本项目的核心开发团队主要由上海交通大学GAIR研究组,研究团队早在一个多月前发布o1复现进展报告。

详细作者介绍见:https://github.com/GAIR-NLP/O1-Journey#about-the-team


自从 OpenAI 发布展现出前所未有复杂推理能力的 o1 系列模型以来,全球掀起了一场 AI 能力 “复现” 竞赛。近日,上海交通大学 GAIR 研究团队在 o1 模型复现过程中取得新的突破,通过简单的知识蒸馏方法,团队成功使基础模型在数学推理能力上超越 o1-preview

团队在本工作中特意聚焦于业内广泛使用却往往未被公开披露的蒸馏技术,想在 “揭秘” 蒸馏技术背后所能达到的收益的同时,又对 AI 研究界进行一次倡议,呼吁优先考虑透明创新的方法,而不是一味追求短期性能提升和 AI 技术研发 "捷径"。研究团队坚信,培养能够从第一性原理思考而不是简单套用现有解决方案的下一代 AI 研究者至关重要

团队选择 Qwen2.5-Math-72B 作为基础模型,经过精心设计的数据筛选和处理流程,仅使用数万个从 o1 蒸馏的长思考链样本进行训练。在美国高中数学邀请赛 (AIME) 等权威测试中,模型表现优于 o1-preview。研究表明,通过标准的监督微调方法,模型不仅掌握了复杂的数学推理能力,还展现出强大的泛化性。令人惊喜的是,这个主要针对数学推理训练的模型在其他领域也表现出色:

  • 安全性评估中,在 Flames 测试集上的得分从 91% 提升至 92.5%
  • 在应对误导性问题时的抵抗力显著增强,抗 "奉承" 能力从 89.70% 提升到 92.65%
  • 在通用场景评估中,Auto-J 和 LIMA 测试集的得分分别提升了 6.4 和 10 个百分点

  • 技术文档:https://github.com/GAIR-NLP/O1-Journey/blob/main/resource/report-part2.pdf
  • 相关资源将近日公开:https://github.com/GAIR-NLP/O1-Journey

"这个突破背后隐藏着重要警示。" 项目负责人表示,知识蒸馏虽然提供了快速提升模型性能的捷径,但也带来了三个层面的隐忧:

1. 技术层面:模型性能受限于教师模型,难以实现真正的突破创新
2. 研究方向:过度依赖蒸馏可能导致核心技术研发投入不足
3. 人才培养:简单的模型复制和优化可能削弱研究人员的基础创新能力

 为推动行业良性发展,团队创新性地提出了技术透明度指数 (TTI) 框架。该框架从数据、方法、评估和开源资源四个维度,对 AI 模型复制工作进行全面评估。研究发现,目前业界多个 o1 复现项目的透明度普遍不足,最高分仅为 33 分。研究团队建议,AI 领域应当:

  • 保持技术组合平衡,不过度依赖单一方法
  • 持续投入基础设施和算法研究
  • 重视人才培养,强化第一性原理思维的训练

"构建智能 AI 系统固然重要,但培养具有第一性原理思维的人才才是我们的终极使命。" 这句话道出了 AI 发展的深层智慧 —— 技术进步离不开深入的思考和创新。这项研究不仅展示了 AI 技术的最新进展,更为整个行业的发展方向提供了重要启示。在追求技术突破的同时,如何保持创新活力、培养高质量人才,将是决定 AI 未来的关键因素。

具体而言,这份报告分为几个重要的板块:

(1)详细解析了蒸馏 OpenAI o1 系列模型的技术路线,并对其有效性进行了全面的评估。研究团队发现,在一个不错的基础数学模型上仅仅通过几万条 o1-mini 的蒸馏样本进行微调,就可以在美国高难度的数学竞赛 AIME 上超越 o1-preview 的水平,并且整个过程所需要的技术复杂度极低。

(2)除了数学推理这个场景外,我们还探索了 o1 蒸馏模型在其他不同视角(如幻觉、安全性)下的表现,这些跨域实验不仅揭示了知识蒸馏技术的优势,也展现了其固有局限性,并发现了一些意想不到的跨域表现模式。

(3)建立了一个全面的基准框架,在多个不同的角度(如数据透明性、方法技术透明性、评估透明性以及资源的开源程度)评估和分类 o1 的各种复现尝试工作的技术透明度与开放性,并为此设立了一套排行版机制。

(4)最后,此研究报告还进行了非常深刻的讨论,最终得出尽管追求更强大的 AI 很重要,但培养具有第一性原理思维的研究人员往往更加重要。这一教育使命不仅仅是一个技术层面的考虑,更是一项将塑造 AI 创新未来的根本性人文使命。

章节 1:o1 复现的一条 “捷径”

o1 技术的回顾

o1-Journey (Part1) 中探索的技术路线。

研究团队早在一个多月前的 o1-Journey (Part1) 中已经提出了一种结合树搜索构建长思维链数据的方式,并取得了一定的初步效果。在整个技术路线中,最为关键的一个环节是如何构建长思维链数据,这种长思维数据需要体现 “深度” 的思考,包含反思、纠错和回溯步骤。虽然树搜索是最有效的方法之一,但它可能会耗费大量计算资源和时间。除了树搜索之外,合成长推理链的其他替代方法如下图所示。这些方法在计算效率和推理完整性之间提供了不同的权衡。

各种合成长思维数据的方法(按照代价从小到大)。

  • 完整的人类思维过程标注(代价最高)

人类解决问题很少遵循一条通向成功或失败的线性路径。相反,人们在遇到障碍时会经常停下来反思、回溯并修改他们的方法。这个自然过程反映了长思维的特征。通过详细记录人类如何解决问题,我们可以生成真实的长思维训练数据。但是这种方式需要依赖大量极高质量的人工标注,并且随着问题难度的升级,标注的难度也会大幅上升。

  • 多智能体方法

与策略模型不直接对反馈作出反应的历程学习 (Journey Learning) 不同,我们可以让多个智能体参与探索过程,指导它们扮演不同的角色。例如,我们可以构建一个多智能体辩论系统,其中策略模型生成持续的推理,而评判模型则评估是继续还是回溯。当找到解决方案时,这种交互过程自然会产生长思维训练数据。

  • 从高级模型蒸馏

像 o1 系列这样强大的模型展示出强大的反思和自我纠正能力。使用更强大的模型来指导较弱模型的常见做法,是一种简单,不需要设计复杂技术路线的方法。然而,由于 o1 限制了对其内部思维过程的访问,因此需要谨慎的提示词设计。

蒸馏的技术路线

  • 格式对齐

团队选用了 Qwen-2.5-Math-72B 作为基座模型,在实际进行蒸馏之前,研究团队首先在这个模型上面进行了 “格式化对齐”(Reformatted Alignment)。团队从开源数据集 NuminaMath-CoT 上选取了一部分奥林匹克级别的问题作为起点,并应用了一个过滤流程来优化数据集:设计规则移除了依赖图像的问题、缺乏明确标注答案的问题以及所有证明题,仅保留答案类型为数值的问题。为了进一步增强数据集,利用 GPT-4o-mini 重写原始解答。重写过程遵循特定的标准,确保解答的步骤是细粒度的、高度详细的,并且篇幅更长。这一步骤还规范化了输出格式,要求使用 \boxed {} 明确表示最终答案,以符合长思维格式。

  • 蒸馏:通过使用 OpenAI o1 进行长思维链的合成。

实验

评估标准

与使用 Pass@k、Maj@k 或 RM@k 等传统评估指标不同,我们引入了一个新指标,旨在评估模型在不同计算代价场景下的表现。这种新方法反映了 “推理时扩展”(inference-time scaling) 的真实情况,在衡量大模型的有效性和效率方面发挥着关键作用。在 “推理时扩展” 时代,像 OpenAI 的 o1 系列这样的模型已经证明,性能不仅取决于训练时的计算量,还显著受到推理过程中 "思考" 时间的影响。这种转变需要一个更细致的评估指标,以考虑计算成本和性能之间的权衡。团队提出的指标通过测量模型在特定的 benchmark 上,在一定的平均输出 Token 下,获得的准确率,反映这种 “推理时扩展” 的模式。此外,这个指标本质上是可扩展的。在评估选取的平均 Token 比单次模型输出 Token 数更高的场景中,采用 Maj@k 指标来近似模型的性能。注意,整个过程无需使用任何额外的奖励模型。通过采用这种方法,我们确保了一个可扩展且公平的评估框架,能够捕捉模型在不同推理时间计算设置下的表现。这种方法避免了人为约束,并允许进行有意义的比较,而无需依赖外部奖励信号,仅专注于模型的内在推理能力。

结果

使用蒸馏数据 SFT 后的模型在 AIME2024 和 MATH500 两个 benchmark 上与 o1 系列模型在一定“推理代价”的表现比较。

结果表现,在相似的 “推理计算代价”(即在对应 benchmark 的平均输出 token 类似的情形下),采用蒸馏技术得到的模型具有出色的表现,在 AIME2024 上超过了 o1-preview 的表现。

章节 2:复杂推理以外的能力


除了在推理场景下,对蒸馏技术得到的模型进行性能的探究之外,团队还涉足许多其他角度的问题,例如安全、幻觉,以及在更加通用场景任务上的表现。为了研究模型在不同领域的泛化能力,我们首先构建了一个多样化的双语数据集。从我们的蒸馏 o1 模型输出中,我们精心选择了大约 5,000 个包含回溯思维和自我反思的高质量样本。这些样本随后使用 GPT-4o mini 模型翻译成中文,形成了一个数量均衡的双语数据集。最终的训练数据集包含 10,750 对中英混合样本对。然后,我们使用这个精选数据集对 Qwen2.5-72B-Instruct 模型进行监督微调(SFT),从而获得我们的最终模型。

基于 Qwen2.5-72B-Instruct,经过 o1-mini distill 的数据 SFT 前后,模型在安全性、幻觉(事实准确性)、以及一些通用场景任务下的表现性能对比。

安全性

为了全面评估模型安全性方面的泛化能力,团队构建了一个由 600 个问题组成的多样化测试集,这些问题是从三个已建立的安全评估数据集中精心选择的:Flames、DiaSafety 和 WildSafety。具体来说,我们从每个数据集中提取 200 个问题,以确保在不同安全场景中的平衡代表性。我们使用 Safety-J 来评估原始模型和微调模型的响应。评估结果揭示了模型在安全性影响上的有趣现象:虽然在 Flames 上的表现略有提升(从 91% 提高到 92.5%),在 DiaSafety 上保持稳定(100%),但在 WildSafety 上出现了明显的下降(从 92% 降至 86.5%)。这种安全性指标的轻微下降凸显了一个关键发现:即使使用以回顾和反思为重点的高质量 o1 类训练数据,如果训练数据缺乏明确的安全性对齐,模型的安全性表现也可能出现退化。

幻觉(事实准确性)

团队还评估了模型在利用 o1 蒸馏的数据 SFT 前后的事实准确性。团队使用了来自 SimpleQA、ChineseSimpleQA 和 ChineseFactEval 的数据集。这些数据集包含中文和英文的基于知识的问题,用于验证模型的事实准确性。ChineseFactEval 数据集包含两个子集:通用问答和奉承性问答。奉承性问答子集在提示中包含误导性答案,以测试模型的奉承倾向,而通用问答子集则采用类似 SimpleQA 的格式。这些数据集中的所有问题都需要可验证的简短答案。我们使用 GPT-4o 评估模型响应与标准答案的匹配程度,以获得更稳健的答案匹配结果。

结果表明,经过 o1 蒸馏得到的数据 SFT 后的模型在事实准确性方面没有显示出显著改进。这主要是因为更长的推理链导致了额外的幻觉 —— 尤其是模型试图假装使用搜索引擎并虚构搜索结果的现象。然而,这些尝试使用搜索引擎的行为暗示了一个有前途的方向,我们认为为模型提供实际的网络访问能力将显著提高其事实准确性。此外,SFT 后模型增强的推理链提供了详细的分析和自我反思能力,这可能有助于防止幻觉的产生。我们还发现,经过 SFT 后,模型对奉承的易感性略有降低。这种改进可以归因于自我反思过程,在这个过程中,模型能够辨别并深入思考提示中呈现的不合理假设,而不是不加质疑地接受它们。


例1:反思和深度思考缓解回答的幻觉

例2:反思和深度思考缓解回答的幻觉

例3:反思和深度思考缓解回答的幻觉
例4:反思和深度思考检测错误的假设

例5:反思和深度思考缓解回答的幻觉

通用场景任务

为了评估我们模型在通用场景中的表现,我们从 Auto-J 和 LIMA 数据集中各抽取 50 个查询,组成了一个包含 100 个查询的测试集,并通过人工调整,特别聚焦于长期规划任务,并请三位领域专家对模型的输出质量进行 0-100 分的评估。评估结果显示在经过 o1 蒸馏数据微调后,模型的表现有显著改进。在 Auto-J 查询上的得分从 81.6% 提升至 88%,在 LIMA 查询上从 77.2% 提升至 87.2%。这种性能提升表明,我们的微调方法不仅改善了双语对话能力,还增强了模型处理一般任务的能力,特别是在需要长期规划和结构化思维的场景中。

章节 3:对工作透明度的评分体系

为了系统地评估和比较各种尝试 o1 复现的工作,我们提出了基于透明度的评价体系,这是一个全面的框架,用于量化各个工作实现的透明度和可复现性。该框架旨在为研究界提供客观指标,主要从透明度角度评估 o1 复现工作,这包括几个相互关联的方面:数据透明度,涵盖下游进行搜索或后训练所用数据集的透明性;方法透明度,体现在所描述技术、流程和实验设置是否清晰;以及评估透明度,考虑性能评估的可复现性和全面性。此外,该框架还评价了资源的开源程度,如代码、数据集和模型是否开源,以确保研究界能验证和有效利用这些工作。这种全面的视角捕捉了复现工作中透明度的多面性。

  • 数据透明度

这一方面评估数据来源是否明确在技术报告中指明,包括所使用数据集及其各自来源的详细描述。这个数据涉及下游任务(如监督微调 (SFT)、强化学习 (RL) 或搜索算法)中使用的所有数据集。数据的透明度,对后期后训练、搜索算法、强化学习,以及最重要的长思维数据构建阶段起到了非常重要的奠基作用。

  • 方法透明度

方法透明度确保对工作中采用的方法、技术和流程有足够详细的描述,以方便其他研究者的复现和验证。本部分的评估由多个部分组成,从基础模型的选取、介绍到训练、搜索、强化学习和数据合成方法。此外,除了详细说明方法如何实施外,验证方法本身的有效性更为重要。全面的评估应量化各个技术对整体系统性能的贡献(例如设计消融实验、对比实验),而不是简单地报告最终结果。

  • 评估透明度

评估透明度包括方法选用的 benchmark 测试集是否是领域公认的,并且全面公开的;此外,采用的评估指标是否权威,如果牵涉到自己定义的评估指标是否有详细介绍其定义以及发明的动机。同时,在汇报的 baseline 中,很重要的一点是评估指标的对齐,即对不同的模型 / 方法是否是在公平、一致的实验环境下进行评测的。

  • 资源的开源程度

开源资源在促进可重复性和使研究社区能够建立在现有工作之上发挥着重要作用。这一部分评估数据集、模型、代码和文档的可用性和可访问性,这些对于独立验证和进一步实验至关重要。

针对以上提到的科研工作透明性的评价角度,研究团队精心设计了一套评分机制,这套机制里涵盖了 25 个是 / 否问题,并结合每个问题的重要性赋予不同的分值,最后得到了一套总分为 100 分的评价体系。


对 o1 各种复现工作的评价体系,包含了 25 个 Yes/No 问题,总分为 100 分。

利用上述的评价体系,团队对市面上现存的 o1 复现工作进行了全面的评估。涉及的工作包括:Open o1、o1-Journey (Part1)、LLaMA-o1、K0Math、Skywork o1、DeepSeek-R1-Lite、o1-Journey (Part2,即本工作),评估的结果如下表所示:


各种 o1 复现工作的透明度得分 (截至 2024.11.22 日的统计)。

从评估结果可以看出,无论是工作在各个维度的透明开放程度,还是在资源的开源方面,团队系列的 o1-Journey 工作都占据了非常大的优势,即有非常大的透明性、开放性层面,从而利于研究社区的进一步利用和探索。

章节 4:“蒸馏” 的背后?

教训

从 o1 进行知识蒸馏的显著成功,为在数学推理任务中获得令人印象深刻的性能提升提供了一条 “诱人” 的捷径。虽然这种方法提供了即时且切实的效益,但它掩盖了一系列深层挑战,这些挑战威胁着 AI 技术及其研究社区的长期发展。在本节中,团队将探讨优先选择容易获胜而非基础创新付出的真实代价,揭示出远超纯技术层面的影响。

  • 表面吸引力:乍一看,蒸馏似乎是一种优雅的解决方案:通过直接学习 o1 的复杂推理模式,模型可以通过相对简单的实现方式快速获得显著的性能提升。这种易用性使其得到了广泛应用,尤其是在那些希望迅速展示接近 o1 能力的组织中。然而,这种便利背后隐藏的代价可能并不明显,但从长远来看,对整个领域的发展可能是毁灭性的
  • 性能瓶颈:最直接的技术问题或许在于蒸馏方法的内在局限性。通过蒸馏训练的模型,其能力不可避免地受到教师模型(在本例中为 o1-mini 模型)水平的限制。这种限制形成了隐性的 “天花板效应”,即使蒸馏过程再精妙,也无法真正超越原始模型的能力。尤其是在需要扩展到新领域或应对前所未见的挑战时,这一局限性变得尤为突出。
  • 创新缺失:更为根本的问题在于,蒸馏方法的广泛应用使我们错失了核心技术创新的关键机会。o1 的真正突破不仅在于解决复杂问题的能力,还在于其推理时间扩展和搜索优化的精妙机制。然而,通过规避开发这些基础能力的挑战,我们可能正在加剧技术差距 —— 即掌握核心技术的组织与主要依赖蒸馏的组织之间的鸿沟。随着领域的不断发展,这种技术基础设施差距可能变得愈发难以弥合。
  • 研究风气的转变:对科学研究风气的影响同样令人担忧。通过蒸馏获得 “轻松取胜” 的便利性,正在使研究重点逐渐远离基础性挑战。这一趋势表现为对高级计算基础设施投资的减少,以及对复杂搜索和推理算法开发的重视程度降低。这种由此产生的自我强化循环 —— 缺乏基础设施限制了研究可能性,从而进一步鼓励依赖蒸馏方法 —— 有可能形成一个创新瓶颈,阻碍未来的重大突破。
  • 基础能力的削弱:最令人警惕的,是蒸馏方法对领域内教育发展的影响。蒸馏方法的广泛采用对未来 AI 研究者的培养构成了显著威胁。当学生和职业初期的研究者主要接触 “捷径” 式的解决方案时,他们错失了发展深度问题解决能力的关键机会。从第一性原理出发解决复杂技术挑战的能力 —— 科学创新的基石 —— 可能会随着快捷方案成为常态而逐渐被削弱。我们正目睹下一代 AI 研究者在问题解决方式上的转变:他们不再通过解决基础性挑战获得深刻理解,而更多地接受优化和提示工程的训练。这种从 “如何运作” “什么有效” 的转变,标志着研究心态的根本变化,可能对领域未来的创新能力产生深远影响。
  • 第一性原理的衰退:第一性原理思维的削弱尤为令人担忧,因为它动摇了科学创新的根基。从零开始开发搜索算法、优化推理时间以及构建推理机制的过程,提供了蒸馏方法无法替代的宝贵学习经验。这些挑战迫使研究者深入理解模型的行为与局限性,形成系统性问题解决策略,并培养对算法设计与优化的直觉。如果缺少这些经历,我们可能会培养出一代更倾向于套用现有方案,而非基于第一性原理开发新方案的研究者。这种趋势将对领域的长远发展产生深远的不利影响。
  • 学术影响:这种教育影响不仅限于个人技能的培养,对学术研究环境的冲击尤为显著。学术界历来是孕育基础性创新的摇篮,但其对这种趋势的脆弱性不容忽视。对快速产出的压力可能掩盖深入技术探索的价值,同时令学生对追求更具挑战性和基础性的研究方向望而却步。当研究重点更多放在性能指标而非深层理解上时,可能导致培养出一代擅长优化却缺乏创新能力的研究者。这种转变对学术界的长远发展无疑是一个巨大的隐患。
  • 不断扩大的鸿沟:展望未来,这些因素的累积效应描绘出一个令人担忧的前景。那些掌握了基础搜索和推理技术的组织,与主要依赖蒸馏方法的组织之间的技术能力差距可能会变得愈发难以弥合。这一鸿沟可能导致研究生态系统的失衡:真正的突破将成为少数资源充足的组织的专属领域,而更广泛的研究群体则被困在依靠蒸馏实现渐进式改进的循环中。这种局面不仅限制了整体技术的多样性,也将显著影响领域的创新能力和公平发展。

建议与呼吁

首先,各个研究组织应保持良性、平衡的研究,既包括基于蒸馏的方法,也包括对搜索与推理优化的基础研究。其次,尽管蒸馏解决方案的短期效果显著,对高级计算基础设施的持续投入依然不可或缺。最后,研究计划应优先培养搜索算法和推理优化的核心能力,同时兼顾性能提升。

在教育层面,我们需要重新设计培养未来研究者的方法。这包括开发兼顾实践应用与基础理论的平衡课程、构建既促进深刻理解又兼顾性能优化的研究项目,并营造一种重视长期创新而非快速收益的研究文化。

深刻的教训在于,蒸馏本身并非问题,它是我们技术工具箱中的重要组成部分。真正的风险在于,它的便利性可能让我们偏离基础创新这一更困难但回报更高的道路。在未来的发展中,保持即时收益与长期发展的平衡,将是确保 AI 能力持续提升以及培养领域未来创新者的关键。

构建智能 AI 固然重要,但培养具备第一性原理思维的人才才是我们的终极使命 —— 毕竟,他们才是 AI 未来的真正设计者。

© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]


全球十亿级轨迹点驱动,首个轨迹基础大模型来了

2024-11-22 12:28:00

机器之心报道

机器之心编辑部


在智慧城市和大数据时代背景下,人类轨迹数据的分析对于交通优化、城市管理、物流配送等关键领域具有重要意义。然而,现有的轨迹相关模型往往受限于特定任务、区域依赖、轨迹数据规模和多样性困乏等问题,限制了模型的泛化能力和实际应用范围。近日,来自于香港科技大学(广州)、南方科技大学、香港城市大学的联合研究团队整理了首个全球大规模轨迹数据集 WorldTrace,并基于该数据集训练了首个世界轨迹基础大模型 UniTraj,为交通领域内构建通用时空智能提供了一种全新的思路。


研究团队提出了轨迹基础模型的构建范式,旨在通过其模型架构设计和数据集支撑的流程,克服现有方法的局限性,实现跨任务、跨区域的泛化能力,并在不同数据质量下保持鲁棒性。具体来说,研究团队首先收集了一个全球范围的 WorldTrace 轨迹数据集,涵盖 70 个国家和地区,包括 245 万条轨迹和十亿级别的轨迹数据点。这为构建轨迹基础模型提供了充足且丰富的数据支持。进一步,研究团队设计并预训练了 UniTraj 这样一个通用的轨迹基础模型结构,并集成了多种重采样和掩码策略,能够有效支撑不同区域、任务和数据质量的需要。


论文地址:https://arxiv.org/pdf/2411.03859

主要解决的问题

  • 任务特异性:现有方法通常为特定任务设计,缺乏跨任务的灵活性。UniTraj 能够适应不同的应用,无需大量修改。
  • 区域依赖性:许多模型在特定地理区域之外效果不佳。UniTraj 通过全球数据训练,减少了对特定区域数据的依赖。
  • 数据质量敏感性:现实世界中的轨迹数据质量参差不齐,现有模型对这些不一致性很敏感。UniTraj 能够有效处理不同质量的轨迹。

主要研究内容及贡献

为了解决上述问题,这项研究开创了构建轨迹基础模型的新范式,分别从数据准备模型设计两个方面进行展开。

WorldTrace 数据集

该研究最显著的贡献是构建了首个大规模、高质量、全球范围分布的轨迹数据集,名为 WorldTrace,并首次实现了全球范围的轨迹数据收集与整合。


上图展示了 WorldTrace 数据集的地理分布,该数据集在北美、东亚和欧洲部分地区有较为密集分布,涵盖了发达和新兴经济地区,其中美国、中国提供了较多的轨迹数据。从地理分布上来说,这突显了数据集中的轨迹模式的多样性,能够反应不同交通基础设施和地理环境。此外,通过美国本土的数据密度也进一步展示了主要公路网络和城市中心的高分辨率覆盖。进一步说明了该数据在开发独立于区域和通用轨迹基础模型的潜力。


通过作者进一步对原始数据进行规范和校正处理,表中统计了这项研究使用的数据的主要特征。在轨迹规模上,可以看到 WorldTrace 主要包含 245 万条轨迹,8.8 亿个采样轨迹点 (采样频率规范到 1 秒后),并覆盖 70 了个国家和地区。在数据质量上,WorldTrace 数据集的时间跨度从 2021 年 8 月开始,一直持续到 2023 年 12 月,提供了长时间范围和及时的数据样本,能够进一步增强该数据集的应用价值。

构建轨迹基础模型 UniTraj

在模型的架构设计上,UniTraj 采用了灵活的编码器 - 解码器架构,为了提升模型的计算效率、鲁棒性和对各种数据质量的适应能力,作者在模型训练过程中进一步集成了一系列的重采样策略和掩码策略。


重采样策略

这项研究主要设计了两种重采样策略:

  1. 第一种是基于对数采样率衰减的随机动态重采样策略,根据轨迹长度动态调整采样率。动态重采样策略主要应用于解决两个问题,第一是控制数据冗余、减少模型的计算成本;第二是对轨迹数据进行随机重采样,可以得到不同时间间隔的轨迹点,这对增加轨迹数据的多样性至关重要。
  2. 第二种采样策略是基于轨迹采样频率的间隔一致性重采样策略,其核心思想是将原始轨迹调整为一个随机的固定采样率,以适应不同的设备和场景需要,同时也能够显著降低轨迹点的数量。

掩码策略

由于 UniTraj 使用重构式预训练的方法来提升模型对轨迹局部和全局模式建模能力。在预训练过程中,作者设计了 4 种掩码策略,而模型的目标是恢复这些被掩蔽的轨迹点,从而帮助模型更好地理解和捕捉轨迹序列的时空关系。

  1. 随机掩码:按照一定的比率,随机掩盖一定数量的轨迹点。随机掩码训练模型捕获一般时空模式,增强其对缺失数据点的鲁棒性。
  2. 块状掩码:掩盖轨迹内的连续数量点,模拟连续数据段可能缺失的场景。这对于训练模型处理长期依赖或者长距离关系较为有效,使模型重建可能由于传感器故障、低采样率、或暂时通信丢失而发生的缺失段。
  3. 关键点掩码:关键点掩码关注轨迹中重要的轨迹点(例如转弯或速度或方向明显变化)。这里,作者使用 RDP 算法来识别这些关键点,从而加强了模型对轨迹内关键结构模式的理解。
  4. 最后点掩码:此策略会屏蔽轨迹的最后 N 个点,模拟未来点不可用且必须从观察到的数据推断的场景。

模型架构

在模型架构设计方面,UniTraj 首先将重采样和掩码处理后的轨迹转换为结构化的嵌入,并利用 Transformer 块和旋转位置编码(RoPE)来捕捉轨迹中的时空关系。编码器负责学习可见点的压缩表示,而解码器则基于这些表示来重建被掩码的点,实现轨迹的精确重建和预测。对于训练过程,模型使用重建目标进行训练,旨在最小化预测点和原始点之间的差异。在推理和下游任务应用中,预训练的 UniTraj 编码器可以作为通用特征提取器,通过简单的适配器训练,即可支持多种轨迹相关的分析任务,如分类、预测和异常检测等。


实验验证

为了测试 UniTraj 模型的性能,研究团队设计了一系列实验,旨在评估模型在处理真实世界轨迹数据时的准确性和泛化能力。研究团队选择了多个具有不同地理覆盖、数据质量和采样率的真实世界轨迹数据集进行实验。这些数据集包括但不限于 WorldTrace 数据集,以及其他公开可用的数据集,如成都、西安、GeoLife 等。实验设计考虑了零样本和少样本学习场景,以评估模型在未见过的数据上的适应性。实验主要围绕以下几个方面进行:

1. 任务适用性分析:评估 UniTraj 在轨迹恢复、预测、分类和生成等不同任务上的表现,以及其在零样本和少样本学习场景中的适应性。


2. 数据集研究:比较 UniTraj 在 WorldTrace 数据集和其他公开数据集上的训练效果,分析数据规模和质量对模型性能的影响。

3. 模型研究:探讨 UniTraj 模型中不同组件和参数设置对性能的影响,包括编码器块的数量、掩码比例等。


总结

UniTraj 这项研究提出了数据 + 模型的基础模型构建范式。在数据准备方面,其首次构建了一个全球范围的轨迹数据集,并且提供了大规模和高质量的轨迹数据用于训练。在模型设计方面,其通过重采样和掩码策略,集成轨迹处理模块和灵活的编码器 - 解码器架构,有效地捕捉了轨迹数据中的复杂时空依赖性以应对各种不同的数据质量。这一模型的提出,为处理大规模、多样化的轨迹数据提供了新的工具,带来了新的思路。

© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]