MoreRSS

site icon机器之心修改

中文人工智能垂直媒体。由kindle4rss生成。
请复制 RSS 到你的阅读器,或快速订阅到 :

Inoreader Feedly Follow Feedbin Local Reader

机器之心的 RSS 预览

正在和DeepSeek-V3-0324做个大项目,「氛围编程」简直太疯狂了

2025-03-31 12:52:00

机器之心报道

机器之心编辑部


最近超火的氛围编程(Vibe coding)你听说了吗?


这个概念是由 AI 大神 Andrej Karpathy 提出的,用户只需要自然语言描述,就能生成代码。


仅仅过去一个多月,这一术语就迅速席卷了开发者社区,大家开始纷纷整活。


刚刚,Hugging Face 联合创始人 Thomas Wolf 表示:打开 Hugging Face 上的 DeepSite 应用,你也可以体验氛围编程了。


做出这一研究的是一位名叫 enzostvs 开发者。


image.png


值得一提的是,该应用使用了最新版本的 DeepSeek-V3-0324,直接开箱即用,让你一次性创建应用程序和游戏。


image.png


体验地址:https://huggingface.co/spaces/enzostvs/deepsite


看到这,大家可能已经发现了一个有趣的事情,DeepSite 应用程序和 DeepSeek 模型都是完全开源的,开源界联手简直无敌了。


效果如何,我们先看官方 demo。


在该示例中,首先在左下角的输入框中输入提示:一个带有爆炸效果的网络版乒乓游戏。


就这么一句简单的指令,游戏就生成好了,代码、游戏全部展示在一个界面中,整个时间也就是你喝口水的功夫。


生成的游戏界面也无可挑剔,游戏名称、玩家区域、控制按钮等元素统统都包含。



X 上也有用户展示使用效果,比如仅耗时两分半制作一个扫雷游戏。


image.png


AI 大神 AK 用它创建了可交互的 3D 内容,而且它没有从外部读取图像等资产或纹理文件,而是完全通过代码实现了这种可视化!



还有用户用它制作了一个适用于 WhatsApp 的小型链接生成器。


image.png


让它生成一个动漫网站也是轻轻松松!



一手实测


接下来我们上手实测一下吧:


先来一个传统项目:贪吃蛇。


收到指令立刻上工,很快就搓出了一个赛博风格贪吃蛇。



接下来,我们想要生成一个 3D 飞行模拟游戏。也是简单到只需要一句提示(帮我生成一个 3D 飞行模拟游戏)。只见 400 多行代码,嗖嗖的就跑完了,然后出现了如下右边界面。


image.png


生成的游戏也是可玩的。我们按照操作说明,实战了一番。


按下不同的操作键,效果如下所示。




最后,我们又输入提示:鹈鹕骑自行车,效果咋样,各位读者来评论吧。可能是提示词不那么准确,感觉效果不是那么好。



接着我们又输入:「编码一只骑自行车的鹈鹕,SVG。」后来因为轮子不转,我们又通过对话提示 AI,鹈鹕的脚应该和轮子联动,脚应该放在踏板上。结果,脚确实放在踏板上了,轮子也转了,而且可以调速度。但是,这个鹈鹕的位置还是很奇怪。



于是我们又提示 AI 进一步改进,但这次没有成功。



大家有什么新奇好玩的想法,可以前去一试,免费的应用,不薅白不薅。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]



第一个免费可用的智能Agent产品全量上线,中国公司智谱打造,推理模型比肩R1

2025-03-31 12:52:00

机器之心报道

作者:蛋酱


国产 AI 领域,从今天起有了既能深度研究又能动手操作的自主智能体产品。


这款神器叫做「AutoGLM 沉思」,来自中国公司智谱。


我们来看一个非常经典的案例:只需要输出你想讨论的话题,AI 就能自动去小红书、知乎等平台上深度查询、总结完整报告,并转化为面向大众的传播内容。短短 14 天里,AI 孵化出了一个 5000 多个粉丝的小红书账号,还接到了商单。


「起号」,从未如此简单高效:



3 月 31 日,智谱官宣了新一代 Agent 产品「AutoGLM 沉思」。


相比于此前 OpenAI 的 Deep Research 等产品,「动手能力」是 AutoGLM 沉思最大的亮点之一。它能够「边想边干」,像人类一样自动操作和浏览网页,这意味着知网、小红书、公众号、京东等优质却不对外开放 API 的信源都能被查看到,同时基于背后基座模型的多模态理解能力,这些网页上的图文信息也能被充分利用。


2025 年,大模型技术的演进来到了关键的新阶段:从单纯的语言模型到多模态模型,再到今天,我们终于看到了成熟的自主 Agent 产品,业内称之为「Agentic AI 时代」。更详细地说,我们触手可及的大模型应用已经从「生成式 AI 的单次响应」,真正升级为具备自主推理能力、指挥自身行动和工具调用的智能系统。


「AutoGLM 沉思」的面世,扛起了国产 AI Agent 落地的大旗。且在今天的发布后,「AutoGLM 沉思」即全量上线,免费开放给每一位用户。



体验方式:https://chatglm.cn/(下载「智谱清言」PC 客户端)


与此同时,我们也看到了智谱这家中国公司在 Agent 领域的领先技术布局,包括推理、多模态、记忆和工具。值得一提的是,「AutoGLM 沉思」基于的是智谱全栈自研的 Agent 技术,包括新一代推理模型 GLM-Z1-Air 和基座模型 GLM-4-Air-0414,前者性能比肩 DeepSeek-R1,在速度提升最高 8 倍的同时,价格仅需 DeepSeek-R1 的 1/30。


对于智谱来说,2025 年将是以「开源」为主题的一年。所有 Agentic 相关的模型和技术,包括基座模型 GLM-4-Air0414、推理模型 GLM-Z1-Air、沉思模型 Z1-Rumination、智能体框架,都将在 4 月 14 日正式开源。模型会在接下来的两周内,陆续上线智谱 AI 大模型开放平台(bigmodel.cn),惠及整个技术社区。


首个免费可用、具备强反思能力的 Agent 产品


智谱表示,「AutoGLM 沉思」可以视为自主智能体的「Preview 版本」,可以理解为 DeepResearch 和 Agent 的强强组合。


我们可以从三个方面去评价「AutoGLM 沉思」:


  • 深度思考:能不能模拟人类在面对复杂问题时的推理与决策过程。

  • 感知世界:能不能像人一样获取并理解环境信息。

  • 工具使用:能不能像人一样调用和操作工具,完成复杂任务。


打开智谱清言,说出自己的需求,也就是一段 Prompt,剩下的全部交给 AI:


Prompt:

分析问题:生成式 AI 技术对未来知识生产模式的颠覆性影响

具体要求:

对比传统学术研究与 AI 辅助研究的范式差异

选取至少 5 个典型领域(如医学、法学、文学,经济学,艺术学等)进行深度研究案例分析

字数要求一万字以上



它能探究开放式问题并根据结果执行操作,能够模拟人类「深度研究」的过程,从数据检索、分析到生成报告。


再来一个看看:


Prompt:我要去香港玩 3 天,请帮我设计旅游攻略,注意每个景点都要从小红书上查看网友的真实评论。



到这里,我们都应该看出来「AutoGLM 沉思」的优势何在了。


「AutoGLM 沉思」在一般 Deep Reseach 的基础上,叠加了 AutoGLM 操作电脑浏览器的环境交互能力,有效促进了模型思考的宽度和深度,自然输出的内容也就更全面了。这也是第一个 C 端可以使用的拥有强反思能力的 Agent 产品。目前,AutoGLM 沉思的平均思考步骤在 20 步以上,拥有处理复杂问题的能力。


目前上线的是「AutoGLM 沉思」Preview 版本,比较擅长 Research 相关场景。在未来的两周,产品还将增加更多的 Agent 执行能力。


另一方面,「免费开放」的意义值得重视。以 OpenAI 的 Deep Research 为例,虽然功能上非常吸引人,但被惊艳到的也只是付费 200 美元购买了 Pro 套餐的那一波会员。而「AutoGLM 沉思」选择「免费」开放给所有用户,这延续了智谱的传统,也瞬间打破了海外 AI 公司制定的高昂价格门槛。


「AutoGLM 沉思」背后

智谱在下一盘 Agent 的棋


在百舸争流的技术大变革时代,模型能力的领先始终是智谱这家公司位于行业内的核心竞争力。在「AutoGLM 沉思」面世之前,智谱围绕 Agent 的技术布局已经持续多年。


可以说,这家公司见证、参与、引领了 Agent 技术的几个重要发展阶段:


智谱清言是最早具备 Function Call 能力的大模型应用。早在 2023 年 10 月,智谱就在当时的 ChatGLM3 基座大模型和智谱清言中引入了代码交互能力,并支持 AgentTuning 技术,让模型实现了自主规划任务并调用工具完成任务。


2024 年初,伴随着 GLM-4 的发布,智谱清言上线了 GLMs 个性化智能体定制功能。用户无需编程基础,即可通过简单的提示词指令创建专属智能体,并通过智能体中心分享和调用。


到了 2024 年底,智谱开放了「AutoGLM」。这是智谱第一个产品化的智能体 Agent,可以做到让 AI 通过语音直接操纵硬件设备,还能跨不同 App 全局操作。


每一次更新,都伴随着智谱在相关技术研发的突飞猛进。「AutoGLM 沉思版」的推出,意味着智谱 Agent 产品的又一次重大迭代,背后是更强大的基础模型、推理、Agent 框架。


在这场发布活动上,智谱透露了「AutoGLM 沉思」背后的关键技术进展:


技术演进路径:GLM-4 基座模型 → GLM-Z1 推理模型 → GLM-Z1-Rumination 沉思模型 → AutoGLM 模型。


首先是推理模型 GLM-Z1-Air。GLM-Z1-Air 是智谱基于扩展强化学习技术训练的新一代推理模型,面对复杂、开放问题,能够进行推理和反思,为 Agent 提供了强大的推理、规划与反思能力。其效果比肩 DeepSeek-R1,提速 8 倍,价格是 R1 的 1/30,可以在消费级显卡上运行。


在性能表现上,GLM-Z1-Air 可以与 DeepSeek-R1(671B,激活 37B)媲美。智谱在 AIME 24/25、LiveCodeBench、GPQA 等基准测试中对 GLM-Z1-Air 进行了评估,评估结果显示 GLM-Z1-Air 展现了较为强大的数理推理能力,为更多复杂任务的解决提供了支持。


GLM-Z1-Air 背后的基座模型是 GLM-4-Air-0414, 以 32B 参数量比肩更大参数量的国内外主流模型。它在预训练阶段加入了更多的推理类数据,并在对齐阶段针对智能体能力进行了优化,在工具调用、联网搜索、代码等智能体任务上的能力得到大大加强。



在 GLM-Z1 的基础上,智谱又通过强化学习训练了沉思模型 GLM-Z1-Rumination,提升了模型结合工具使用完成长程推理能力。



同时,智谱在 MAAS 平台上将免费模型 GLM-4-Flash 的基座版本更新至 GLM-4-Flash-0414,并推出了对应的推理版本 GLM-Z1-Flash,在保留大部分效果的情况下更轻量级、更高速,完全免费调用,以适用于更广泛的应用场景。


在落地进程方面,智谱也已经有了清晰的规划:「智谱将专注于在 AGI 和基座模型研发方向,我们未来很长一段时间将专注于 Agentic GLM 相关模型技术的研发上。我们在基座模型上搭建智能体平台,以便帮助我们的生态伙伴调用智谱智能体的能力,打造基于行业、地域和场景的智能体应用。在行业生态方面,我们是模型厂商的占位,我们希望帮助应用合作伙伴做出成功的大模型应用。在城市生态方面,我们依然是模型厂商的占位,通过与当地龙头企业合作来赋能当地产业升级与政务的智能化。」


「传统的复杂工作流将不复存在」


技术和产品的飞速迭代,将为每一个人带来什么?


举例来说,近日 OpenAI 为 GPT-4o 增加了原生的图像生成功能,从网友的反馈到机器之心的亲身体会,生成效果都可以说是「一骑绝尘」,不管是人物真实性还是内容一致性。对于「文生图」这一赛道来说,GPT-4o 树立了一个全新的标杆,让所有的竞争对手又紧张了一下,也让这条赛道重新活跃了起来。


更重要的是,它指出了 AI 正在不断趋近理想中的状态:「所有传统的、复杂的工作流都将不再存在。」一句话 P 图、一句话玩手机、一句话写报告…… 不管是图像的生成和持续编辑,还是设备操控,都指向这一终极形式。


因此,我们能够看到「AutoGLM 沉思」所具备的划时代的意义:当推理模型的「深度研究」结合 Agent 的「动手执行」,它能够模拟人在面对复杂问题时的思考、能够像人一样感知这个世界、能够像人一样使用工具。


Chatbot 同样具有交互性和功能性,而 Agent 与之最大的差异就是自主性和适应性。「AutoGLM 沉思」的价值在于,模型实现了自己决策操作过程,能够通过连续、多步推理实现模型自主规划,并通过反思实现动态调整,不需要提前设计工作流。


从此以后,我们不需要再设计复杂的智能体工作流。这就是自主智能体的雏形,不久后的我们,或许就能触摸到 AI 作为生产力工具的理想形态。


就像领域内最近在讨论的观点:我们所有人都在一架上升的电梯里,你可以站着不动,也可以原地俯卧撑。但最终,都能轻松抵达那个曾经遥不可及的高点。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]



清华朱军团队 | 从点云到高保真三维网格:DeepMesh突破自回归生成瓶颈

2025-03-31 12:52:00

图片

论文有三位共同一作。赵若雯,清华大学一年级硕士生,主要研究生成模型、强化学习和具身智能,已在ICRA等会议发表论文。叶俊良,清华大学二年级硕士生,专注于3D生成和基于人类偏好的多模态强化学习研究,曾以第一作者身份在ECCV发表DreamReward,该成果能生成更符合人类偏好的3D资产。王征翊,清华大学四年级博士生,主要研究3D多模态生成模型,已在NeurIPS、ECCV、ICML、CVPR等顶级学术会议发表多篇论文。

在三维数字内容生产领域,三角形网格作为核心的几何表示形式,其质量直接影响虚拟资产在影视、游戏和工业设计等应用场景中的表现与效率。

传统的三维网格生成方式,如人工建模或 Marching Cubes 等算法,存在成本高、拓扑结构质量差等问题。

针对这一瓶颈,清华大学朱军团队近日提出了 DeepMesh 方法,通过引入创新的自回归生成框架,显著提升了高面片人造网格的生成能力。该方法支持生成高达 3 万个面片的三维网格,相比现有技术提升了一个数量级。


  • 论文标题:DeepMesh: Auto-Regressive Artist-mesh Creation with Reinforcement Learning 
  • 论文主页:https://zhaorw02.github.io/DeepMesh/
  • 论文地址:https://arxiv.org/abs/2503.15265
  • 代码:https://github.com/zhaorw02/DeepMesh

DeepMesh 基于输入点云,采用自回归的 Transformer 架构逐步预测面片序列,从而生成拓扑结构合理且视觉美观的高质量三维网格。


DeepMesh 架构如图所示,系统首先利用编码器对输入点云进行特征提取;提取到的特征随后被输入至自回归 Transformer 模块,该模块通过融合自注意力与交叉注意力机制,逐步预测网格的顶点或面片序列,最终生成结构完整的高质量三维网格。


在预训练阶段,DeepMesh 引入了三级块结构网格标记化方法:根据面片之间的连通性对网格进行分解,并将其划分为粗、中、细多个空间层级。在此基础上,将面片中各顶点的坐标映射为相对于所属层级块的偏移索引,并对重复索引进行合并处理。


该方法在确保几何精度的同时,显著压缩了序列长度,从而大幅提升了训练效率。图中展示了采用 DeepMesh 网格标记化方法与其他方法,在训练不同面片数量的网格数据时的耗时对比情况。

通过对训练数据进行封装处理,并引入融合几何质量与结构规整度的双重筛选机制,DeepMesh 有效解决了异常样本引发的训练不稳定问题,同时实现了训练过程中的动态负载均衡。为突破长序列带来的内存瓶颈,模型还采用了滑动窗口截断训练技术,支持单个网格生成高达 3 万个面片,显著提升了建模能力。

此外,DeepMesh 创新性地引入了「直接偏好优化(DPO)」强化学习框架,并构建了一个结合客观几何指标与主观人类评价的分阶段数据标注系统。

该系统首先利用几何质量指标筛除存在明显缺陷的 3D 样本,随后由人工对剩余数据进行标注,评估其拓扑结构的合理性与视觉观赏性。基于这套高质量的标注数据,团队对模型进行了强化训练,从而显著提升了生成结果在几何完整性与拓扑美观性方面的表现。


DeepMesh 在细节保真与结构多样性方面表现出色,并具备对传统生成方法所生成网格进行拓扑优化的能力。与现有方法相比,DeepMesh 在几何精度与拓扑质量两个维度均实现最优性能,生成的三维网格不仅在结构合理性上表现卓越,也在视觉美观性上更具吸引力。


在多样性生成方面,DeepMesh 能在保持输入点云几何一致性的前提下,对同一输入生成多种具有高保真度且外观风格各异的三维网格方案,展现出强大的创意生成与精度控制的能力。这一特性对于影视制作、游戏设计等需进行多版本快速迭代的应用场景具有显著价值。


针对传统方法(如 TRELLIS)生成的拓扑结构混乱问题,DeepMesh 可对其输出结果进行有效的拓扑优化,显著提升网格结构的有序性与合理性。


凭借在高保真、多样性与拓扑优化方面的突出表现,DeepMesh 展现出在 3D 内容创作领域的颠覆性潜力,特别适用于数字游戏、虚拟现实、影视制作等对创意表达与建模效率要求极高的行业。

该研究成果发布后迅速引发广泛关注,知名推特博主 AK 第一时间转发支持,相关内容获得上千点赞,引发业内与社群的热烈讨论与积极反馈。


以下展示更多由 DeepMesh 生成的三维网格示例,进一步体现模型在细节还原、拓扑合理性及多样性方面的强大能力。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]


200美金,人人可手搓QwQ,清华、蚂蚁开源极速RL框架AReaL-boba

2025-03-31 10:22:00


由于 DeepSeek R1 和 OpenAI o1 等推理模型(LRM,Large Reasoning Model)带来了新的 post-training scaling law,强化学习(RL,Reinforcement Learning)成为了大语言模型能力提升的新引擎。然而,针对大语言模型的大规模强化学习训练门槛一直很高:


  • 流程复杂、涉及模块多(生成、训练、奖励判定等),为实现高效稳定的分布式训练带来很多挑战;

  • R1/o1 类推理模型的输出长度很长(超过 10K),并且随着训练持续变化,很容易造成显存和效率瓶颈;

  • 开源社区缺乏高质量强化学习训练数据,以及完整可复现的训练流程。


本周,蚂蚁技术研究院和清华大学交叉信息院吴翼团队,联合发布了训练速度最快最稳定的开源强化学习训练框架 AReaL(Ant Reasoning RL),并公开全部数据和完成可复现的训练脚本。在最新的 AReaL v0.2 版本 AReaL-boba 中,其 7B 模型数学推理分数刷新同尺寸模型 AIME 分数纪录,并且仅仅使用 200 条数据复刻 QwQ-32B,以不到 200 美金成本实现最强推理训练效果。


  • 项目链接:https://github.com/inclusionAI/AReaL
  • HuggingFace数据模型地址:https://huggingface.co/collections/inclusionAI/areal-boba-67e9f3fa5aeb74b76dcf5f0a


关于 AReaL-boba


AReaL 源自开源项目 ReaLHF,旨在让每个人都能用强化学习轻松训练自己的推理模型和智能体。AReaL 承诺完全开放与可复现,团队将持续发布与训练 LRM 相关的所有代码、数据集和训练流程。所有核心组件全部开源,开发者可无阻碍地使用、验证和改进 AReaL。


本次最新版本boba的命名一方面源自团队对珍珠奶茶的偏爱,另一面也是希望强化学习技术能如奶茶成为大众饮品一般,渗透至 AI 开发的每个日常场景,普惠整个社区。


AReaL-boba 发布亮点


训练速度最快的开源框架


AReaL-boba 是首个全面拥抱 xAI 公司所采用的 SGLang 推理框架的开源训练系统,对比初代 AReaL 训练大幅度提升训练吞吐:通过集成 SGLang 框架及多项工程优化,AReaL-boba 可以无缝适配各种计算资源下的强化学习训练,实现吞吐在 1.5B 模型尺寸上速度提升 35%,在 7B 模型速度提升 60%,32B 模型速度提升 73%。


图 1:AreaL-boba 对比初代 AReaL 训练大幅度提升训练吞吐


使用 AReaL-boba 即可以 128 张 H800 规模在 1 天内训练完成 SOTA 1.5B 推理模型,以 256 张 H800 规模在 2 天内完成 SOTA 7B 推理模型训练。


AReaL 希望让整个社区不论单机器,还是大规模分布式训练,都可以轻松高效率驾驭强化学习。


7B 模型数学推理分数断崖领先


AReaL 团队以 Qwen-R1-Distill-7B 模型为基础模型,通过大规模强化学习训练,即可在 2 天内取得领域最佳的数学推理能力,实现 AIME 2024 61.9 分、AIME 2025 48.3 分,刷新开源社区记录,也大幅超越了 OpenAI o1-preview。相比基础模型,AReaL-boba 通过强化学习让模型能力实现跃升 —— 在 AIME 2024 上提升 6.9 分,在 AIME 2025 提升 8.6 分 —— 再次证明了 RL Scaling 的价值。


表 1: 同类参数模型的不同基准测试分数


同时 AReaL-boba 不仅开源了推理模型,也开源所有的训练数据 AReaL-boba-106k,以及全部的训练脚本和评估脚本,确保人人可复现。在项目官方仓库,AReaL 团队也放出了极其详细的技术笔记,总结了大量训练中的关键点,包括 PPO 超参数、奖励函数设置、正则化设置、长度上限设置等等。 


通过创新性数据蒸馏技术,200 条数据复现 QwQ-32B


在 32B 模型尺寸上,AReaL 团队进一步精简训练数据并发布数据集 AReaL-boba-SFT-200 以及相关训练脚本。基于 R1-Distill-Qwen-32B,AReaL-boba 使用仅仅 200 条数据并以轻量级 SFT 的方式,在 AIME 2024 上复刻了 QwQ-32B 的推理结果,相当于仅仅使用了 200 美金的计算成本,让所有人都可以以极低的成本实现最强的推理训练效果。


表 2:同类参数模型的 AIME 2024 分数


结语


AReaL 团队的核心成员均来自于蚂蚁研究院强化学习实验室以及交叉信息研究院吴翼团队,项目也借鉴了大量优秀的开源项目,比如 DeepScaleR、SGLang、QwQ、Open-Reasoner-Zero、OpenRLHF、veRL、Light-R1 和 DAPO。作为国内第一个完整开源(数据、代码、模型、脚本全开源)的强化学习项目团队,AReaL 希望能真正实现 AI 训练的普惠。


AReaL 团队在项目列表中也列出了团队后续的开源计划和目标,包括异步训练、训练吞吐优化、数据集和算法升级,以及代码和 Agent 智能体能力支持。让我们期待 AReaL 团队的下一个 release,猜猜是哪一款奶茶呢?


© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]


ICLR 2025 | 真正「Deep」的「Research」,通过强化学习实现可自主进化的科研智能体来了!

2025-03-31 10:22:00


CycleResearcher 研究团队成员包括:张岳教授,西湖大学人工智能系教授,工学院副院长,其指导的博士生朱敏郡、张鸿博、鲍光胜、访问学生翁诣轩;UCL 访问研究员杨林易博士,25 Fall 入职南方科技大学拟任独立 PI,博士生导师,研究员。


AI 技术不断进步,科研自动化浪潮正在深刻改变学术世界!近日,来自西湖大学、UCL 等机构的研究团队在自动化科研方向发布了一项突破性的成果:CycleResearcher 。 CycleResearcher 首次实现了可训练的科研流程的全链路端到端训练,覆盖智能文献检索、模型主动提问、强化学习迭代优化论文创新点、方法论架构设计、实验设计到论文自动生成的完整闭环。 


值得一提的是,同类功能在 OpenAI 商业化方案中需支付高达 2 万美元 / 月的服务费用,而团队开源了所有代码、数据、和 Demo:



  • 论文链接:https://openreview.net/forum?id=bjcsVLoHYs

  • 网页链接:https://ai-researcher.net/

  • 代码链接:https://github.com/zhu-minjun/Researcher


牛津大学教授 Will MacAskill 最新预言未来 AI 的增长率足以在不到 10 年的时间里,推动相当于 100 年的技术进步。如何让 AI 实现「递归自我改进」成为了解决这个问题的关键!然而,现有的一系列工作包括 SakanaAI 公司于去年 8 月发布的 AI Scientist、香港大学最近发布的 AI-Researcher 都是基于调用 API 构建推理的框架去实现自动化科研,而无法被训练优化。CycleResearcher(模型上传于 24 年 8 月)是全球首个通过强化学习迭代优化训练实现的 AI 科研智能体。


图 1: AI Researcher 功能展示图


CycleResearcher 首次实现了通过强化学习进行科研过程的自动迭代改进,它能够模拟完整的科研流程,包括文献综述、研究构思、论文撰写,以及模拟实验结果。


研究团队主要干了三件事情:


1)数据集: 发布了两个大规模数据集 Review-5k 和 Research-14k,用于评估和训练学术论文评审和生成模型。

2)CycleResearcher 模型: 可以生成质量接近人类撰写预印本的论文(评分 5.36 分),实现 31.07% 的接受率。

3)CycleReviewer 模型: 一个做论文评审的模型,在平均绝对误差 (MAE) 方面显示出令人鼓舞的结果,与人类评审员相比,平均绝对误差(MAE)降低了 26.89%。


利用商业大型语言模型(LLMs)作为研究助理或想法生成器已经取得了显著进展,但在多达上万次模拟同行评议中通过反馈而自我进化的自动科研大模型从未实现过。这项研究的提出旨在解决了这个领域难题。


图 2: CycleResearcher 训练框架图


创新点详细解读:


1. 高质量数据集与模型规模化:为训练 CycleResearcher,研究团队专门构建了包含近 1.5 万篇高质量学术论文的数据集(Research-14K),数据来源覆盖了 ICLR、NeurIPS、ICML、ACL、EMNLP、CVPR 和 ICCV 等顶级会议。提供了多个不同规模的模型(12B、72B、123B),满足不同科研需求。


2. 强化学习与迭代反馈机制:如图二所示,CycleResearcher 的核心技术,在于其采用迭代式偏好优化(Iterative SimPO)的训练框架,这一方法使得在线强化学习(Online RLHF)成为了可能。这个框架包含两个关键模型:策略模型 (CycleResearcger) 和奖励模型 (DeepReveiwer)。


3. 指令微调(SFT)热身阶段:策略模型 CycleResearcher 负责生成论文的各个部分,它首先会进行广泛的文献综述,从输入的 bib 文件中获取所有参考文献及其摘要,全面了解研究背景。然后,它会交替生成论文的大纲和正文,确保逻辑流畅。具体来说,它会先生成动机和大纲中的主要思想,然后生成标题、摘要、引言和方法部分。接下来,概述实验设置和结果,随后生成实验设计和模拟结果(注意,这里的实验结果是模拟的)。最后,它会分析实验结果并形成结论。整个过程就像一位经验丰富的科研人员在撰写论文一样,有条不紊,逻辑清晰。奖励模型 CycleReviewer 则负责模拟同行评议,对生成的论文进行评估和反馈。它会从多个维度对论文进行打分,并给出具体的评审意见。


4. 迭代反馈训练阶段:研究人员首先通过拒绝采样获取样本,通过 CycleReviewer 的打分构成偏好对,两个模型相互配合,通过强化学习的方式不断优化,CycleResearcher 根据 CycleReviewer 的反馈不断改进自身的论文生成策略,CycleReviewer 则根据 CycleResearcher 生成的论文不断提高自身的评审能力。两个模型交互反馈,不断优化策略。在 Iterative SimPO 算法中,SimPO 算法虽然可以帮助 AI 区分 “好” 论文和 “坏” 论文,但它不能保证 AI 生成的文本是流畅的。因此,我们将 SimPO 损失和 NLL 损失结合起来,让 AI 模型既能写出高质量的论文,又能保证文本的流畅性。


5. 实验结果:CycleResearcher 生成论文的模拟评审平均得分达到 5.36 分,超过目前 AI Scientist 的 4.31 分,且十分接近人类真实预印本的平均水平(5.24 分)。同时,CycleResearcher 论文的接受率达到了 35.13%,远高于 AI Scientist 的 0%。


总结


1: 这篇工作首次提出了一个用于自动化整个研究生命周期的迭代强化学习框架 通过集成 CycleResearcher(策略模型)和 CycleReviewer(奖励模型),该框架能够模拟真实世界的研究 - 评论 - 改进的迭代循环。


2: 团队发布了两个大规模数据集,用于学术论文生成和评论的评估与训练 Review-5k 和 Research-14k 数据集专为捕捉机器学习中同行评审和研究论文生成的复杂性而设计,为评估和训练学术论文生成和评审模型提供了宝贵的资源。


3: CycleResearcher 在研究构思和实验设计方面表现出一致的性能,可以达到人类撰写预印本的论文质量,接近会议接受论文的质量。 这表明 LLM 可以在科学研究和同行评审过程中做出有意义的贡献。


我们坚信科研工具应当开放共享,因此提供了完整的开源资源套件:


pip install ai_researcher


开源套件包含:


1. 不同规模模型:所有模型均支持本地部署


  • CycleResearcher:提供 12B、72B 和 123B 三种规模

  • CycleReviewer:提供 8B、70B 和 123B 三种规模

  • DeepReviewer:提供 7B 和 14B 两种规模 


2. 大规模训练数据集: 


  • Review-5K:包含 4,989 篇论文的专业评审数据

  • Research-14K:包含 14,911 篇高质量论文的结构化数据

  • DeepReview-13K:包含 13,378 篇论文的多维度深度评审数据


3. 详尽教程: 


  • CycleResearcher 教程:https://github.com/zhu-minjun/Researcher/blob/main/Tutorial/tutorial_1.ipynb

  • CycleReviewer 教程:https://github.com/zhu-minjun/Researcher/blob/main/Tutorial/tutorial_2.ipynb

  • DeepReviewer 教程:https://github.com/zhu-minjun/Researcher/blob/main/Tutorial/tutorial_3.ipynb


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]