MoreRSS

site icon机器之心修改

中文人工智能垂直媒体。由kindle4rss生成。
请复制 RSS 到你的阅读器,或快速订阅到 :

Inoreader Feedly Follow Feedbin Local Reader

机器之心的 RSS 预览

百页专业报告一次直出!Jürgen团队开源框架WriteHERE,重塑AI写作天花板

2025-04-21 18:12:00


在 AI 长文写作领域,一项革命性突破正在改写行业规则 —— 由「人工智能之父」Jürgen Schmidhuber 领衔的团队,正式开源其长文写作框架 WriteHERE。该框架凭借异质递归规划(Heterogeneous Recursive Planning)技术,实现单次生成超 4 万字、100 页专业报告的能力,在小说创作、报告生成场景中全面超越 Perplexity 付费版「深度研究」、DeepMind 的 Agent's Room 及斯坦福 STORM 等顶尖方案。



  • 论文标题:Beyond Outlining: Heterogeneous Recursive Planning for Adaptive Long-form Writing with Language Models

  • 论文地址:https://arxiv.org/pdf/2503.08275

  • 项目主页 & 在线 Demo:http://writehere.site/

  • GitHub 仓库:https://github.com/principia-ai/WriteHERE



动态规划颠覆传统

从「大纲先行」到「实时编织」


现有 AI 长文生成系统(如 Agent's Room、STORM)多将写作简化为「规划 - 填充」的线性流程,而 WriteHERE 首次通过数学形式化揭示:长文写作本质上是检索(Retrieval)、推理(Reasoning)、写作(Composition)三类异构任务的动态编织


1. 写作代理系统的五元组定义


研究团队将写作系统抽象为数学元组:



其中:


  • :Agent 内核,负责任务调度与决策。

  • :内部记忆,存储大纲、草稿、检索结果。

  • :外部数据库,包括搜索引擎、参考文献。

  • :工作空间,承载文本生成与编辑。

  • :输入输出接口,连接用户与信息源。


这一形式化框架突破了传统 AI 写作工具「重生成、轻管理」的设计范式。写作不再是简单的文本扩展,而是记忆空间、工作空间与外部环境的持续交互过程


2. 任务类型的数学建模


研究团队将写作过程解构为三类原子操作:


  • 检索任务:针对信息需求,从环境获取知识更新记忆

  • 推理任务:基于知识解决推理问题,如逻辑校验、结构优化。

  • 写作任务:基于知识,在状态为的工作空间中生成满足目标的文本。


规划问题的形式化革命

从 HTN 到异质递归


研究团队受层次任务网络(HTN)规划启发,提出写作规划问题的数学定义:



  • 顶层写作任务:包含目标、初始工作空间状态、初始记忆内容

  • 原子任务集合:可执行的检索、推理、写作原子操作。


解决方案为满足以下条件的原始操作序列:


  • 可执行性:每个操作的前置条件均被满足。

  • 目标达成:最终工作空间状态符合写作目标。


核心技术

异质性递归与状态化 DAG 任务管理


WriteHERE 的核心突破体现在两大技术创新:


1. 异质任务递归分解:每个写作任务被动态标注类型(检索 / 推理 / 写作),并基于类型分解为子任务,直至可执行的原子任务。例如,当执行「撰写贸易报告第六章:行业深度剖析:识别赢家与输家」,系统进一步分解为以下子任务:


  • 检索任务:收集最新 (截至 2025 年 4 月) 的行业数据,包括科技 (半导体、软件、硬件)、汽车、农业、制药 / 医疗保健、能源和消费品行业的贸易统计、市场份额、公司财务表现、行业报告及专家评论。

  • 推理任务(8 个子任务):构建统一分析框架,确立「赢家」和「输家」识别标准;分别分析科技、汽车、农业、制药 / 医疗保健、能源和消费品行业的关税、非关税措施、宏观经济状况及全球价值链重构影响;规划行业绩效对比可视化内容。

  • 写作任务(8 个子任务):撰写章节引言;分别撰写科技、汽车、农业、制药 / 医疗保健、能源和消费品六大行业的详细分析;撰写章节结论,综合关键发现并过渡至下章区域视角。


2. 状态化层次调度算法:任务依赖关系以有向无环图(DAG)管理,结合任务状态(激活 / 挂起 / 静默)实现自适应执行。该机制确保系统能根据实时反馈动态调整规划深度,例如在贸易报告中,系统能追踪每个子任务的状态,确保在撰写特定章节(如区域分析)前完成其所有依赖任务(如宏观经济影响分析)。


实验表现

全面碾压现有方案


团队在小说创作(Tell me a story 数据集)和技术报告生成(WildSeek 数据集)两大任务中验证了 WriteHERE 的优越性:


  • 小说写作:基于 GPT-4o 和 Claude-3.5-Sonnet,WriteHERE 在情节结构、创意性、角色塑造等维度全面领先。当生成长度从 2000 词扩展至 8000 词时,其优势进一步扩大,整体胜率较 Agent's Room 超过 90%(见图 1)。

  • 技术报告:在信息相关性、覆盖广度、深度等关键指标上,WriteHERE 以接近满分的表现(平均 4.9/5)超越 STORM 和 Co-STORM。对比移除异质递归规划模块的消融实验,性能显著下降,印证了该设计的核心价值(见图 2)。


图 1 小说写作任务评测


图 2 报告写作任务评测


压力测试

百页报告生成


研究团队公开的超 100 页《2025 年 Q2 全球贸易战深度报告》展现了框架的极致能力:


系统自动构建了一个包含 16 个主要章节、超过 80 个子任务的异质递归计划,涵盖引言、全球关税结构、非关税壁垒、宏观经济冲击、全球价值链重构、行业赢家与输家、地区分析、未来预测等内容。整个生成过程体现了异质递归规划的优势 —— 系统能够自动根据需要深入研究特定主题(如美国 232 条款钢铝关税扩张),同时保持对整体结构的把控,确保各章节之间的连贯性和一致性。最终报告包含超过 44,000 字的正文,覆盖从关税机制到行业赢家的全面分析。


开源生态与社区反响


作为完全开源(MIT 协议)的框架,WriteHERE 支持开发者自由调用异构 Agent(如专用检索模型、推理引擎),或将彻底改变长文写作工具的商业模式。


英伟达高级研究科学家 Enze Xie 试用后评价模型表现惊艳:



社区用户 @AIExplorer 反馈:


WriteHERE 太棒了。我把它和 GPT-4o-mini 一起使用,它能有效替代我的大部分 OpenAI 深度搜索。」



知名 AI 领域推特大 V Ben Tossell 更直言:


「这个写作模型太棒了。」



此刻,长文写作的「自动化天花板」已被打破。访问 writehere.site,即可加入这场 AI 写作的革命。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]


文章原文

RL很重要,但远非All You Need!微软副总裁:AI不靠单个技术撑起

2025-04-21 18:12:00

机器之心报道

机器之心编辑部

近日,微软副总裁 Nando de Freitas 发文指出,「别再神化技术或个人,AI 是一场系统性工程。」


「AI 领域确实存在苦涩的教训,但若当初全盘接受它,我们现在可能还在用线性回归搞强化学习。」


刚刚,微软副总裁 Nando de Freitas 一篇长推文表达了自己的观点:


  • 反对单一技术的过度宣传,如 RL,应该强调多领域合作的重要性;

  • AI 进步不是靠单一天才撑起的,而是成千上万的参与者共同推动了这一领域的发展;

  • 过去的一些观点在当时看似合理,但随着技术的发展,这些观点显得过时;

  • 人工智能的发展需要不断突破传统观念,就像数学一样,通过不断的探索和试错来逐步推进。



推文中,Freitas 还透露 RL 固然重要,但还远未达到「RL is all you need」的程度。


最近,关于 RL 的讨论开始刷屏,不管是智能体还是大模型,都有 RL 身影。


连最近大火的智能体版《苦涩的教训》强调了 RL 的重要性。


图片

主流人工智能范式的简要时间线。纵轴显示该领域在强化学习(RL)上的总体努力和计算资源的占比。


但 Freitas 却不这么认为。


他表示「RL is not all you need,此外,注意力机制不是,贝叶斯不是,自由能量最小化不是,经验时代也不是。这类说法不过是一种宣传话术罢了。


Freitas 进一步表示:「AI 的进步绝非仅靠单一技术或少数天才,而是需要成千上万的人的努力,他们协力构建数据 pipelines、扩展基础设施、部署高性能计算、开发具有反馈循环的应用来驱动基准测试和数据迭代,还需要投入海量研究工程资源到生成模型、数据混合、消融实验、强化学习 / 自训练等方向。


我们还将需要大批人才攻克安全性、因果世界模型、意识机制等难题,或设计创新工程方案来提升能源效率,推动机器人技术发展。


最终某些简单理念在后来或许会显得不言自明,但这种显而易见永远来自后见之明。确实存在苦涩的教训,但若当初全盘接受它,我们现在可能还在用线性回归搞强化学习。我们不要过于简单化,而是向成千上万人的研究和工程致敬。


历史叙事总被不断改写,回想十年前当初创公司 Dark Blue Labs 被谷歌收购加入 DeepMind 时,那些 AGI 文档通篇都在讨论概念认知、强化学习、情景记忆,明确将语言排除在外。


平心而论,当时这种立场并不算荒谬。如今看来固然可笑,但这完全是后见之明。


AI 发展史上没有单一作战的英雄,只有成千上万辛勤工作的学生、教授、工程师、运维支持人员、产品经理、管理者,甚至包括对冲基金从业者。


我们需要致敬整个社群,而非只追捧科技巨头 CEO 或那些贝叶斯、强化学习、深度学习的开创者。


别盲从现有叙事,要创新。记住,就像数学发展一样,AI 的进步永远需要代际更迭 —— 科学进步是一次又一次的葬礼实现的。


对于这一观点,很多人表示认同,来自佐治亚理工学院的助理教授 Animesh Garg 表示:「人工智能本质上是算法和系统之间复杂的相互作用,它需要的不仅仅是一个聪明的想法。然而,我们却将那些可见的少数人奉为神明!」


image.png


「算法的发明者和使用者的贡献是不同的。我们需要承认这一点。」


image.png


回头来看,在人工智能漫长征程中,每一个微小的进步都凝聚着无数人的智慧。从数据的整理到模型的优化,从理论的探索到应用的落地,每一个环节都不可或缺。正如 Nando de Freitas 所言,AI 的发展绝非单一技术或少数天才的独舞,而是成千上万参与者共同努力的结果。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]




文章原文

用任务向量做模型编辑为何有效?这篇ICLR 2025 Oral论文给出了理论分析

2025-04-21 18:12:00


本文作者李宏康,博士毕业于美国伦斯勒理工大学,本科毕业于中国科学技术大学,并即将前往宾夕法尼亚大学担任博士后研究员。研究方向包括深度学习理论、大语言模型理论等等。本文的通讯作者为伦斯勒理工大学的汪孟教授。


任务向量(task vector)方法近来在许多视觉和语言任务中表现出了在效率与可迁移性方面的优势。但是由于人们尚未深入理解任务向量的理论机制,其在更广泛与更大规模的应用中面临挑战。


近期,一个来自美国伦斯勒理工大学、密歇根州立大学 OPTML 实验室、和 IBM 研究院的研究团队从神经网络的优化和泛化理论的角度分析了任务向量在模型编辑中的有效性。该工作已经被 ICLR 2025 录取,并被选为前 1.8% 的 Oral 论文。



  • 论文标题:When is Task Vector Provably Effective for Model Editing? A Generalization Analysis of Nonlinear Transformers

  • 论文地址:https://openreview.net/pdf?id=vRvVVb0NAz


背景介绍


任务向量(task vector)是指微调得到的模型与预训练模型之间的权重差值。人们发现,将不同的任务向量进行线性算术运算后叠加在一个预训练模型上可以直接赋予此模型多种全新的能力,例如多任务学习(multi-task learning)、机器遗忘(machine unlearning)、以及分布外泛化(out-of-domain generalization),其优势是无需使用下游任务的训练数据对模型进行微调。


这种基于任务向量的直接运算对模型进行编辑从而做下游任务预测的方法被称为任务运算(task arithmetic)


由于缺乏对该方法的理论研究,本文重点探索任务向量方法能够被有效且高效使用的深层原因。我们的贡献如下:


  • 我们为任务加法和减法运算的有效性提供了一个特征学习的理论分析框架。

  • 我们给出了任务运算在分布外泛化的理论保证。

  • 解释了任务向量的低秩近似和模型剪枝的理论机制。



初步观察


我们从一个简单的问题出发:组合多个任务向量的系数会受到哪些因素的影响?


直觉告诉我们,任务间的关系可能是一个关键因素。比如说,在多任务学习中,让一个模型具备两个相似任务的能力,理应是更容易的。


为了论证这一点,我们用 Colored-MNIST 数据集构建了一组二分类实验。其中,分类的标准是数字的奇偶性。我们通过调整数字的颜色来控制任务之间的关系。


于是,我们设计了「相似任务」(aligned tasks)、「无关任务」(irrelevant tasks)、「相反任务」(contradictory tasks) 的任务关系。




根据上图所示的实验结果,我们有以下观察:


  1. 在多任务学习和机器遗忘的实验中,最佳的任务运算系数会随着给定的任务向量间的关系的不同而改变。

  2. 在分布外泛化的实验中,目标任务与给定任务的正反相关性可以被最佳的任务运算系数的正负性反映出来。


以上的两点发现引向了一个重要的研究方向:任务关系会如何影响任务运算。


理论分析


我们在二分类问题的设定下研究该问题。我们以一层单头的带有 softmax attention 的 Transformer 为理论分析的基本模型,用 Ψ 来表示所有权重参数的集合,其中包括 attention 层的参数 W 以及 MLP 层的参数 V。仿照许多特征学习(feature learning)的理论工作,我们做如下的数据建模:定义 μ_T 为当前任务的 discriminative pattern。数据 X 中的每一个 token 都是从 μ_T、-μ_T 以及无关的 pattern 中选择的。如果对应于 μ_T 的 token 个数多于 -μ_T 的个数,那么 X 的标签 y=1。如果对应于 -μ_T 的 token 个数多于 μ_T 的个数,那么 X 的标签 y=-1。


接下来我们给出使用两个任务向量进行多任务学习和机器遗忘的理论结果。


具体而言,给定预训练模型   以及两个已经被训练到可以取得 ϵ 的泛化误差的模型所对应的任务向量  和 ,融合得到的模型被计算为 。我们定义  表示任务 T_1 与 T_2 之间的相关性。α>0,=0,<0 分别表示任务之间的相似、无关、以及相反关系。β 为一个很小的数值。那么我们有以下结果:



定理 1 的结果表明:当两个任务是相似的关系的时候,将任务向量叠加可以得到理想的多任务学习性能,即泛化误差在两个任务上都达到 ϵ。



定理 2 的结果表明:当两个任务是相反关系时,用 T_1 的任务向量减去 T_2 的任务向量可以得到理想的机器遗忘性能,即 T_1 的泛化误差达到ϵ,而 T_2 的泛化误差较大。


然后,我们给出利用一组任务向量   对一个从未见过的分布外的目标任务 T'进行预测的理论结果。我们假设所有给定任务 T_i 的 discriminative pattern 互相正交,目标任务 T' 的 discriminative pattern 可以被写为各个给定任务的 discriminative pattern 的线性组合,并以 γ_i 为第 i 个任务的 discriminative pattern 的系数。假设 γ_i 不全为 0。我们有定理 3 的结果:



定理 3 的结果表明:总是存在一组 λ_i,使得融合多个任务向量得到的模型可以在目标任务 T' 上取得理想的泛化性能。


我们还在理论上论证了对任务向量进行高效应用的方法。在我们的一层 Transformer 以及二分类问题的框架下,我们得出了推论 1:任务向量可以被低秩近似,同时只会造成很小的预测误差。这意味着人们可以将各种低秩训练和推断方法用在任务向量中,从而大大节省任务向量的计算和存储开销。



我们还可以得到推论 2:训练得到的任务向量在 MLP 层中的部分神经元权重较大,而剩余的神经元权重很小。对这些小的神经元进行剪枝只会引起很小的误差,从而使得前面所有定理依然成立。这个推论为对于任务向量进行权重剪枝与稀疏化提供了理论保障。



实验验证


我们首先用 ViT-small/16 模型对任务向量的分布外泛化能力进行了测试。我们使用 Colored-MNIST 数据集设计训练任务 T_1,T_2,以及目标测试任务 T',用训练任务的任务向量合成一个模型,即 。我们对 T'分别与 T_1,T_2 之间的相关性 γ_1,γ_2 进行了估计。


我们下图的结果表明:实验中得到的能够带来出色的分布外泛化性能的 λ_1,λ_2 区域(图 A 的红色部分)与定理 3 中证明得到的(图 B 的红色部分)一致。



我们接下来用 Phi-3-small (7B) 模型对任务向量在机器遗忘中的表现进行验证,所使用的数据集为《哈利波特 I》(HP1),《哈利波特 II》(HP2),《傲慢与偏见》(PP)。其中,由于出自相同的作者 J.K. 罗琳,《哈利波特 I》与《II》的语义相似度较高,而《傲慢与偏见》与另外两个数据集不太相似。


下表的结果展示了使用从《哈利波特 I》训练得到的低秩任务向量  构建模型 对三个数据集进行机器遗忘的表现。我们发现通过叠加反向的(λ<0)任务向量,新模型在相似任务上也可以取得很好的遗忘效果,而在不相似任务上的遗忘效果较差。



总结


本文定量证明了如何根据任务间关系确定任务运算系数,从而实现理想的多任务学习、机器遗忘、以及分布外泛化的方法,解释了使用低秩和稀疏任务向量的可靠性。本文的理论通过实验得到了验证。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]


文章原文