MoreRSS

site icon机器之心修改

中文人工智能垂直媒体。由kindle4rss生成。
请复制 RSS 到你的阅读器,或快速订阅到 :

Inoreader Feedly Follow Feedbin Local Reader

机器之心的 RSS 预览

【倒计时3天】2025宝山・智能机器人产业大会暨嘉年华,精彩抢先看!

2025-11-18 17:08:00


文章原文

中国AI Agent产业化参考范本:斑马口语攻克的四大技术难关

2025-11-18 13:06:00

机器之心报道

编辑:杨文


2025 年,AI 产业正在经历一场关键转折。


当 OpenAI、Google 等 AI 巨头们还在展示多模态大模型的各种可能性时,真正决定 AI 商业价值的战役已经在教育、医疗、客服等具体领域打响。在这场产业化竞赛中,斑马推出业内首个真正实现 AI 外教一对一的产品「斑马口语」,是真正意义上在垂直行业落地的 AI Agent,它所突破的技术难题,更深刻地验证了 AI 落地的本质规律:垂直场景的深度打磨,往往比通用能力的炫技更具意义


行业共识的转向:从通用探索到垂直落地


过去两年,大模型领域最不缺的就是令人惊艳的演示视频。多模态交互、情感识别、实时对话,每一项技术突破都让人看到 AI 应用的无限可能。但当这些技术真正要落地到具体场景时,才会发现理想与现实之间横亘着巨大的鸿沟。


这是因为通用大模型试图在所有场景下都表现良好,却在任何场景下都难以做到极致。这种「什么都能做一点,什么都做不精」的状态,使得通用大模型难以直接承担关键的生产任务。


真正的产业化落地,必然发生在垂直场景。在线口语教学恰恰是最适合 AI Agent 落地的垂直场景之一。它有明确的教学目标、可量化的学习效果、标准化的内容体系,同时又需要个性化的互动和即时的反馈,这些特性为 AI 技术的应用提供了清晰的边界和明确的价值锚点。


然而,教育场景对 AI 的要求也尤其苛刻。一个合格的 AI 外教,不仅要能听懂孩子说的话,还要判断孩子的发音是否标准、情绪是否积极、理解程度如何,然后根据这些信息实时调整教学策略。更关键的是,它必须适龄 —— 不能输出任何不当内容,不能超出孩子的认知范围,不能产生事实性错误。这些要求,通用大模型都很难直接满足。


斑马口语给出的解决方案是基于通用大模型能力,针对 6-12 岁儿童英语口语这个场景做深度定制,打造一个真正「会教英语」的一对一 AI 外教,而非仅仅「能聊英语」的 AI 助手。



技术突围:AI 口语教育必须跨越的四道门槛


要让 AI 真正「像老师一样」完成教学任务,面临的挑战远超想象。这些挑战不是单靠调几个参数、改几句 Prompt 就能解决的,它需要的是系统性技术攻关。



挑战一:实时交互必须「够快」


人类对话有个基本规律:日常闲聊时 0.2 到 1.5 秒的响应让人感觉自然流畅,需要思考的场景 2 到 4 秒可以接受,但如果超过 5 秒,对话就会有明显的中断感,让人怀疑「对方是不是没听清」。


AI 外教要模拟真人老师的教学节奏,就必须把延迟控制在合理范围内。斑马口语团队制定了分层延时目标:鼓励、确认、简单纠错等即时反馈要在 1.5 秒内完成,保持学习节奏流畅;常规问答、知识点讲解等标准响应则需控制在 1.5 到 2.5 秒,符合 AI 老师在组织语言的认知预期。


不过现实很骨感。一个完整的语音交互链路包括 ASR 语音识别(500-800ms)、大模型推理(700-1200ms)、TTS 语音合成(300-500ms),再加上网络传输(约 100ms),总延迟很容易超过 2.5 秒。这在教学场景下是不可接受的,因为孩子说完话等了好几秒 AI 才回应,学习节奏完全被打乱,专注度也会大幅下降。


斑马口语的解决方案是全链路的流式处理架构。ASR 采用流式识别,孩子边说、系统边转写,不用等整句话说完;大模型实现流式推理,优化首句时间,让系统尽早开始响应;TTS 采用流式合成,边生成边播放;通过流式架构,将各环节由「串行等待」改为「流水线并行」。


更关键的是,团队设计了智能调度策略。系统会判断当前交互的复杂度,简单的鼓励、确认用轻量模型快速响应,复杂的讲解、纠错才调用大模型深度分析,动态选择最优路径。同时根据教学流程预加载可能的回复内容,减少临场计算。在网络层面,采用 WebRTC 协议实现低延迟实时通信,建立 ES (Event Stream) 和 RS (Response Stream) 双通道架构,优化数据传输效率。


这套组合拳下来,端到端延迟被压到了 1.5 到 2.5 秒的目标范围,基本达到了「真人对话」的自然度。从实际体验来看,当孩子完成一个复杂的自我介绍后,AI 外教的回应也能在 2 秒左右给出,没有明显的卡顿感,对话相当流畅。



挑战二:语音识别必须「够准」


英语教学对语音识别的要求,远超普通的语音助手。


首先是发音评测的精准度。英语中有很多易混音素,比如 /θ/(think)和 /s/(sink)的细微差别,传统 ASR 很难准确识别。跟读纠音需要给出音素级别的反馈,告诉孩子哪个音发得不标准、应该怎么改进。不同年龄段孩子的发音能力差异大,低龄儿童的发音不标准率可能超过 40%,系统必须能准确识别这些「不标准」的发音,否则就无法给出有针对性的指导。


其次是真实环境的音频干扰。孩子在家里学习,背景有电视声、家人说话声、宠物叫声,不同设备的麦克风质量参差不齐。在这种复杂环境下,系统既要准确识别孩子的声音,又要过滤掉各种噪音,难度相当大。


还有个技术细节特别关键,那就是 VAD(语音活动检测)判停策略。怎么判断孩子是说完了还是在思考?如果判停太快会打断孩子思路,判停太慢又会让对话节奏拖沓。低龄学生习惯说「嗯…… 那个…… 就是……」这种语气词,很容易被误判为多次独立输入,导致交互混乱。


斑马口语的做法是智能 VAD 判停策略和引入上下文感知。结合音频能量、静音时长、语义完整度三维判断,而非单纯依赖静音时长来进行判断;同时根据教学环节(问答、跟读、思考题)动态调整判停阈值。


在 VAD 判停上,团队设计了智能策略,结合音频能量、静音时长、语义完整度三维判断,而非单纯依赖静音时长。并且引入上下文感知,根据教学环节动态调整判停阈值。比如在思考题环节系统会容忍更长的停顿时间,在跟读环节则会更快地判断结束。


在 TTS 输出能力层面,团队持续打磨教学场景的语调、语速、教学重读等维度的精细控制能力,在纠音场景中实现了音素级的发音控制,让孩子能清楚地听到标准发音的特点。同时根据不同教学环节(如自然对话、示范带读、发音纠音)的场景特点,拆分出多种语音风格的控制能力,达到拟人化的表现效果。此外在音频的返回速度上持续优化,降低孩子与老师之间的交互延迟提升体验。团队还建立了标准发音库和纠错话术模板,确保发音示范的准确性和一致性。


这套方案的效果,在实际体验中得到了验证。比如在「你说我画」的小游戏里,孩子用不那么精准的英语描述妈妈长相,AI 依然能准确理解并实时画出头像,这背后正是语音识别能力的体现。



挑战三:内容输出必须「够适龄」


教学场景与通用对话的本质区别在于,教学需要严格的目标导向和内容可控,而大模型天然具有开放性和随机性。它们可能产生错误的知识表述、输出不适合儿童的内容,或者可能在对话中「跑题」,比如讲宇航员时扯到太空站、重力等,6-12 岁的孩子根本听不懂。在儿童教育场景下,任何一个失误都可能引发严重后果。


斑马口语的应对是建立多层防护体系。


在模型训练阶段,其自研「猿力大模型」的训练数据经过严格筛选。团队不仅排除暴力、偏见等明显不当内容,还特别关注数据是否适合儿童,强调正向价值观的传递。同时通过对抗性训练、安全奖励机制等方式进行安全强化训练,让模型在生成内容时就具备基本的安全意识。


在功能上线前,团队进行了全面的测试集验证,覆盖各种极端场景。比如孩子突然问一个超纲问题、或者故意说些奇怪的话,AI 应该如何应对。测试集会持续更新,随着使用场景的拓展不断完善。


在服务运行时,系统接入传统风控系统实时拦截,同时进行在线会话质检监控。一旦发现问题内容,立即触发安全预案,比如终止对话、转移话题、或者给出标准化的安全回复等。


挑战四:多模态呈现必须「够稳」


现代在线教学是语音、动画、文字、特效等多种元素的协同,要让这些元素在时序上精确配合、在体验上浑然一体,是个系统工程挑战。


最直观的问题是同步性。AI 说「Look at this」时,屏幕上的高亮特效必须精确同步出现,误差超过 200 毫秒就会让人感觉「对不上」。但这些元素分属不同的技术栈,语音播放由 Audio 引擎负责,动画由渲染引擎控制,UI 交互由前端框架管理,三者运行在不同的线程甚至不同的进程。AI 生成的是文本流,需要实时转化为语音、动画、UI 指令等不同形式。当某个环节出现延迟,比如网络卡顿导致音频流中断等,其他模块需要同步暂停或降级,避免出现「声画不同步」。


为此,斑马口语设计了统一的时序编排引擎。所有模态元素在统一时钟下调度,将复杂交互分解为原子指令,比如播放语音、显示动画、高亮元素等,每个指令携带精确时间戳。此外还实现了自动补偿机制,检测到某个模块延迟时,动态调整后续指令的触发时机,保持整体同步。


在内容生成上,采用「边生成边渲染」的流式策略。LLM 生成文本流后实时分句,并行触发 TTS 合成和动画指令生成。这意味着第一句话在播放时,第二句话已经在合成,第三句话的动画指令已经在准备。同时建立指令预取缓存,根据教学脚本预加载高概率的动画资源和音频片段,进一步降低延迟。


此外,针对设备性能差异,团队实现了自适应性能降级。系统实时监测设备的 FPS、内存占用、网络延迟、CPU 温度等指标,根据性能档位动态调整呈现策略。高端设备给 60fps 动画加粒子特效,低端设备降到 30fps 动画加静态图,网络弱时优先保证语音交互,降低动画资源的加载优先级。



下半场看落地:斑马口语为中国 AI Agent 产业化落地提供范本


AI 教育这个赛道,从来不缺入局者。


谷歌推出了 Learn Your Way,能根据学生兴趣改写教科书;可汗学院做了 Khanmigo,用 GPT 技术提供个性化辅导;大英百科全书上线了 Britannica Chatbot,靠海量数据库答疑解惑。不过,这些产品主要围绕知识问答、内容重构展开,大多停留在「AI 辅助学习」的层面,本质上仍是工具属性,而非真正意义上的「教学」。


真正能做到 AI 主导教学、像真人老师一样引导孩子完成系统化学习、且经得起日常大规模使用的,斑马口语算是领先者。


这种领先绝非偶然。它建立在斑马多年的实践积累之上,近 60 万节真实对话数据、1500 万分钟的交流记录,这些都是其他公司难以复制的垂直领域资产。研发团队在儿童培养方向尤其是语言学习领域上的技术积累,也不是靠短期投入就能够建立起来的。



斑马口语的成功,实际上正在重构整个口语教育赛道的竞争规则。过去行业比拼的是外教资源、师资数量、约课便利性,现在斑马口语把标准拉到了新高度 ——AI 外教能否做到「超人类」,即比真人外教更稳定、更个性化、更具可扩展性。这种标准的提升,意味着竞争焦点从资源获取能力转向 AI Agent 打造能力,门槛彻底改变了。


而当这样的垂直 AI Agent 在教育领域站稳脚跟,其他行业也必然会跟进。我们可以预见,未来会有更多领域的专业 Agent 涌现,比如医疗问诊 Agent、心理咨询 Agent、法律咨询 Agent,就像移动互联网时代各个超级 App 的崛起一样,这些垂直 Agent 将在各自领域深耕,最终形成一个全新的 AI 服务生态。


从更宏观的视角来看,斑马口语的实践为中国 AI Agent 产业化提供了一个可参考的范本。它证明了中国企业在垂直 AI 应用上,完全有能力做到全球领先。当技术和产业深度融合时,中国市场的庞大规模、丰富场景、快速迭代能力,会成为巨大的优势。


AI 的下半场,比拼的不是谁的大模型参数更大、谁的 Benchmark 分数更高,而是谁能真正把技术转化成用户价值、谁能在垂直场景里做出真正好用的产品。随着更多像斑马口语这样的垂直 AI Agent 涌现,中国在 AI 产业化落地的道路上,也将走出一条属于自己的路径。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]


文章原文

韩松等提出FlashMoBA,比MoBA快7.4倍,序列扩到512K也不会溢出

2025-11-18 13:06:00

机器之心报道

机器之心编辑部


今年 2 月,月之暗面提出了一种名为 MoBA 的注意力机制,即 Mixture of Block Attention,可以直译为「块注意力混合」。


据介绍,MoBA 是「一种将混合专家(MoE)原理应用于注意力机制的创新方法。」该方法遵循「更少结构」原则,并不会引入预定义的偏见,而是让模型自主决定关注哪些位置。


MoBA 在处理长上下文时表现出极强的潜力,它允许 Query 只稀疏地关注少量 Key-Value 块,从而大幅降低计算成本。


然而,目前业界对 MoBA 性能背后的设计原则仍缺乏深入理解,同时也缺少高效的 GPU 实现,这限制了其实际应用。


在这篇论文中,来自 MIT、NVIDIA 机构的研究者首先建立了一个统计模型,用于分析 MoBA 的内部机制。模型显示,其性能关键取决于路由器是否能够基于 Query-Key 的相似度,准确区分相关块与无关块。研究者进一步推导出一个信噪比,将架构参数与检索准确率建立起形式化联系。


基于这一分析,本文识别出两条主要的改进路径:一是采用更小的块大小,二是在 Key 上应用短卷积,使语义相关信号在块内聚集,从而提升路由准确性。


然而,尽管小块尺寸在理论上更优,但在现有的 GPU 实现中,小块会导致严重的内存访问碎片化和低并行度,速度甚至慢于稠密注意力。


为解决这一矛盾,研究者进一步提出了 FlashMoBA,一种硬件友好的 CUDA kernel,可在小块配置下仍然高效地执行 MoBA。


结果显示优化后的 MoBA 在性能上可与密集注意力基线相匹敌。对于小块场景,FlashMoBA 相比 FlashAttention-2 可实现最高 14.7 倍加速。



  • 论文地址:https://arxiv.org/pdf/2511.11571

  • 项目地址:https://github.com/mit-han-lab/flash-moba

  • 论文标题:OPTIMIZING MIXTURE OF BLOCK ATTENTION


FLASHMOBA:一种面向小块 MoBA 的优化内核


理论模型表明,较小的块尺寸能带来显著的质量提升,但朴素的 GPU 实现效率低下。由月之暗面发布的原始 MoBA 实现,在配置小块尺寸时会遭遇性能瓶颈,这些瓶颈抵消了稀疏性带来的计算节省,导致执行速度比稠密注意力更慢。


研究者推出了 FlashMoBA,这是一种硬件感知的 CUDA 内核,旨在使小块 MoBA 变得实用且高效。


小块带来的性能挑战


小块尺寸引入了几个关键的性能挑战,要在实际部署中应用必须解决这些问题。


首先,在为每个查询收集稀疏、不连续的键值块时,会出现低效的内存访问,导致从 HBM 读取数据时出现非合并内存读取。


其次,随着较小的块尺寸 图片 导致路由器必须评分的块数量(图片)增加,Top-k 选择和门控的开销变得棘手。原始实现显式生成了一个巨大的图片 分数矩阵,产生了巨大的内存开销。


最后,由于每个块的工作量减少以及启动大量独立内核的开销,导致 GPU 占用率低,进而造成并行度差和硬件利用率低。


FLASHMOBA 内核设计


为了克服这些挑战,FlashMoBA 采用了三个融合内核,以最大限度地减少 HBM 往返次数,并使计算与 GPU 架构相对齐,如图 1 所示。


  • 分块 Top-K 选择


Top-k 选择过程是原始 MoBA 实现中的主要瓶颈,该实现显式生成了完整的分数矩阵并串行处理批次序列。研究者将其替换为 Flash TopK(图 1 中的步骤 1),这是一个由融合内核组成的高度优化的三阶段流水线。


图片


首先,一个 Triton 内核计算键块的质心,生成一个更小的矩阵 图片


其次,受 FlashAttention-2 启发的分块内核通过计算图片和 图片 之间的分数来为每个查询找到 Top-k 个键块,且无需将完整的分数矩阵显式写入 HBM,如算法 3 所述。


图片


最后,一个高效的后处理步骤将以查询为中心的索引重新格式化为以键块为中心的变长布局,以便进行主注意力传递。整个流水线在批次和注意力头之间完全并行化,消除了原始的性能瓶颈。


  • 采用「收集并致密化」策略的前向传播


为了处理 MoBA 的不规则稀疏性,前向内核使用了一种基于两级分块机制的「收集并致密化」策略,详见算法 1。


图片


要区分两种类型的块:


逻辑块内核在其外层循环中迭代的大型连续查询块图片和键块图片。一个逻辑键块对应一个 MoBA 键块。


物理块加载到 SRAM 中用于矩阵乘法的较小图块(Tiles,例如图片图片。它们的最佳尺寸取决于 GPU 架构和注意力头的维度。


内核将一个逻辑查询块图片分配给每个线程块,并遍历所有逻辑键块图片。对于每一对块,它使用变长索引来查找相关的查询。该子集被分批处理成稠密的物理块:从 HBM 收集物理查询块并放入稠密 SRAM 缓冲区进行计算。


这种两级方法是关键所在,因为在 SRAM 中缓存查询允许在逻辑键块的所有物理图块之间复用数据,从而通过高效的稠密 GEMM(通用矩阵乘法)分摊昂贵的不规则内存访问成本。


  • 带重计算的反向传播


反向传播利用了 FlashAttention-2 的内存高效设计,并实现为三个内核的序列(算法 5)。


图片


主内核在键维度上并行化计算,每个线程块处理一个键块。为了处理稀疏性,它镜像了前向传播的「收集并致密化」策略,使用变长索引收集查询子集并将梯度输出到片上图块中。


遵循 FlashAttention-2 的方法,研究者在反向传播期间重计算注意力分数,以避免将完整的注意力矩阵存储在内存中。虽然键和值的梯度直接写入 HBM,但部分查询梯度图片需要跨多个键块进行累加,这是通过对高精度全局缓冲区使用原子加法来高效且安全地处理的。


这种设计确保了反向传播在序列长度上保持线性复杂度,这是相对于标准注意力的二次复杂度的一个关键改进。由于反向传播通常构成优化注意力实现的主要性能瓶颈(通常比前向传播慢 2-3 倍),因此我们需要反向内核的高效率对于实现长序列的实际训练至关重要。


实验及结果


本文从零开始预训练模型,并进行可控实验来验证 MoBA 的设计原则。实验共训练了两个模型,所有实验均在 8× H100 80GB GPU 上完成:


  • 340M 参数模型(hidden size 1024,16 heads,中间层规模 2816);

  • 1B 参数模型(hidden size 2048,32 heads,中间层规模 8192)。


质量评估结果


本文在语言建模、长上下文检索以及真实任务上对 MoBA 的表现进行了评估。实验结果表明,改进后的模型在多种基准测试中提高了性能。


首先是块大小的影响。图 2 展示了块大小对 340M 模型在 WikiText 困惑度(perplexity)和 RULER 准确率上的影响。正如的理论预测,将块大小从 512 缩小到 128,使困惑度从 20.9 降至 19.7,RULER 准确率从 38.8% 提升到 56.0%。更小的块能够帮助路由器更精准地识别相关内容。



这一趋势在所有基准和不同模型规模上都保持一致。对 340M 模型来说,将块大小从 512 缩小到原来的 1/4 到 128,可带来如下提升:


  • 语言建模准确率从 44.6% 提升到 45.6%(表 1);

  • RULER 准确率从 38.8% 提升到 63.9%(表 3);

  • LongBench 综合得分从 13.2 提升到 15.3(表 5)。





总体来看,小块尺寸对于 MoBA 达到与密集注意力相当的性能是必要的。


Key Convolution 。Key Convolution 在不同任务中都能带来性能提升,而且具有任务偏好特性。对于 340M 模型:


  • kconv3 将语言建模准确率从 45.1% 提升到 45.6%(表 1);

  • kconv5 在 64K 长度检索任务中达到 100% 的检索率(表 3);

  • 在 LongBench 上,kconv3 得分达到 15.3%(表 5)。


对于 1B 模型:


  • kconv3 将语言建模准确率提升到 52.7%(表 2);

  • 将 RULER 准确率提升到 68.2%(表 4)。




这些结果表明,卷积通过使相关 token 在块内聚集,提升了有效均值差异 ,从而显著提高路由准确性。


注:卷积核宽度 W∈{3,5},分别记作 kconv3 和 kconv5。


稀疏匹配密集注意力机制。在多个基准测试和规模下,MoBA 的表现与密集注意力机制相当甚至更胜一筹。



效率结果


虽然理论上小块尺寸能够带来更高的模型质量,但此前由于 GPU 利用率低下,小块一直难以在实际中使用。FlashMoBA 的出现让这些配置真正变得可行。


端到端性能。图 3 对比了不同序列长度(8K 至 512K token)下的延迟和内存占用。FlashMoBA 在两项指标上都显著优于原始实现。


在 N=64K 且 B=128 的配置下:FlashMoBA 比原始 MoBA 快 7.4 倍,内存占用减少 6.1 倍,原始 MoBA 在 128K 序列就会 OOM(内存溢出),而 FlashMoBA 能扩展到 512K。


随着序列越长、块越小,优势更明显,因为 FlashMoBA 消除了全局 reindex 的开销,在长序列条件下可实现最高 14.7× 快于 FlashAttention-2 的速度。



为了理解 FlashMoBA 的提速来源,图 4 展示了在 N=64K 下前向传播的耗时分布。


原始 MoBA 包含 5 个阶段:(1)计算质心并执行 top-k、(2)全局 reindex、(3)在路由后的索引上执行注意力、(4)局部因果注意力以及(5)合并结果。


其中步骤 (1)、(2)、(5) 占据了超过 70% 的执行时间。


FlashMoBA 则使用两个融合 kernel,这种融合设计将 64K 序列下的前向传播时间降至 49 ms,而 FlashAttention-2 在相同设置下为 99 ms。




图片


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]


文章原文

视频生成Prompt何须仅是文字!字节&港中文发布Video-As-Prompt

2025-11-18 13:06:00


本工作由第一作者在字节跳动智创北美团队实习期间完成。第一作者卞宇轩目前为香港中文大学计算机科学与工程系博士二年级学生,研究方向为可控视频生成,师从徐强教授,并曾在字节跳动、腾讯等公司实习。个人主页:https://yxbian23.github.io/


视频创作中,你是否曾希望复刻变成 Labubu 的特效,重现吉卜力风格化,跳出短视频平台爆火的同款舞蹈,或模仿复杂有趣的希区柯克运镜?


在现在的 AI 视频生成中,这些依赖抽象语义控制的创作,因缺乏统一的条件表征,实现起来往往异常困难。


最基础和直接的想法是针对每一种抽象语义单独训练 LoRA 或针对某一类语义条件设计专门的模型架构完成针对性的特征提取和可控生成。


然而,语义条件可能无穷无尽,一个条件训练一个模型会导致实际使用非常复杂,计算消耗非常庞大,且面对未曾训练的其他语义条件,模型没有任何泛化性能;针对某一类语义设计模型架构一定程度上在单独子集解决了这个问题(例如:相机控制,风格迁移),但面对着不同语义类别,仍需要不断切换模型,其任务专一的设计也无法完成不同语义类别的统一建模,阻碍了统一模型和模型规模化的进展。


为了解决这一痛点,香港中文大学与字节跳动团队联合提出了一种全新的语义可控的视频生成框架 Video-As-Prompt。它引入了一种「视频参考」的新范式,用户只需提供一段参考视频和对应的语义描述共同作为 prompt,模型就能直接「克隆」指定语义并应用于新内容,从根本上实现了抽象语义下可控视频生成范式的统一。


该工作的训练、推理代码和目前最大的高质量多语义数据集均已开源。该工作所提出的数据集规模宏大,包含超过 100K 视频,覆盖超过 100 个不同的高质量语义条件。



  • 论文标题:Video-As-Prompt: Unified Semantic Control for Video Generation

  • 项目主页:https://bytedance.github.io/Video-As-Prompt/

  • 论文:https://arxiv.org/pdf/2510.20888

  • Demo:https://www.youtube.com/watch?v=S3zpLIMOU4c

  • 模型:https://huggingface.co/collections/ByteDance/video-as-prompt

  • 数据集:https://huggingface.co/datasets/BianYx/VAP-Data

  • 代码:https://github.com/bytedance/Video-As-Prompt


Video-As-Prompt 能力展示


Video-As-Prompt 支持四大类复杂语义的克隆和迁移:复杂概念、艺术风格、指定动作和相机运镜,基于其强大的克隆能力,Video-As-Prompt 衍生出诸多应用:


  • 用包含不同语义的不同参考视频驱动同一张图片: 



  • 用包含相同语义的不同参考视频驱动同一张图片:



  • 用同一个参考视频驱动不同图片:



  • 结合文本实现语义编辑:



更多的 demo 效果请参考项目主页。


Video-As-Prompt 算法解读


实现一个统一的语义可控视频生成模型的关键就在于:


  • 如何构建统一的语义条件表征

  • 如何在语义条件表征和生成视频之间建立有效的语义信息映射

  • 如何找到可扩展的架构以实现高效训练


Video-As-Prompt 通过让具有指定语义的参考视频充当生成上下文 prompt,实现了抽象语义条件下的统一可控视频生成。


  • 语义条件表征


提出使用参考视频作为统一的抽象语义条件表征,无需针对不同语义进行分类和设计针对编码模型,大大提升了模型架构的通用性、可拓展性,同时降低了用户使用的难度。


  • 语义信息映射


将参考视频当作「视频 prompt」,从 in-context generation 的角度完成统一的语义映射。


  • 可扩展的架构


直接训练视频生成基模通常会导致在数据有限的情况下发生灾难性遗忘。为了稳定训练,研究者采用 Mixture-of-Transformers(MoTs):一个冻结的视频扩散 Transformer(DiT)加上一个从主干初始化的可 trainable 并行专家 Transformer 联合建模。



具体来说,专家处理参考视频代表的语义条件 tokens,而冻结的 DiT 处理待生成的视频 tokens。每个 DiT 都保留各自的 Q、K、V 投影、前馈层和归一化层;在每一层连接两部分的 Q/K/V,并运行全注意力机制,以实现双向信息融合和上下文控制。


Video-As-Prompt 实验结果


为了支持统一的语义控制视频生成,研究者构建并发布了 VAP-Data 用于促进相关研究大规模训练,和对应的 Benchmark 用于公平评测,这是目前开源用于语义可控视频生成的最大数据集,其中包含超过 100 个语义条件下的 100K 个精选配对视频样本。



研究人员主要和两类方法进行了比较:


  • 统一的结构化控制视频生成:VACE 的三个变体(分别采取原始参考视频,参考视频的深度、光流作为控制条件)

  • 离散的语义控制视频生成:原始的视频 DiT 基座,视频 DiT 基座 + 针对每种语义单独训练 LoRA,Kling/Vidu 等商业 API


总体而言,Video-As-Prompt 的性能在整体视频质量、文本一致性、语义一致性(Gemini-2.5-Pro 判别)和人工偏好上都与闭源模型 Kling/Vidu 相当并优于其他开源基线,并且是首个针对所有语义条件统一控制且可扩展和推广的模型。


并且,通过将所有语义条件视为统一的视频提示,Video-As-Prompt 支持多种语义控制的生成任务。此外,当给定一个不属于训练数据的语义参考时,从参考视频建模范式中学习到的上下文生成能力使 Video-As-Prompt 能够执行由新语义参考引导的零样本生成,这超越了之前所有的方法,并为未来的统一可控生成提供了新的可能。


左边为训练时完全不曾见过的相关语义参考视频,右边为 zero-shot 推理结果


总结


Video-As-Prompt 是一个统一的、语义控制的视频生成框架,它提出参考视频克隆生成的生成范式,将参考视频视为 video prompt,并通过 Mixture-of-Transformers 实现即插即用的上下文控制,提供了可扩展的语义控制和零样本泛化能力。其统一的参考视频建模(「Video-As-Prompt」)框架,验证了基于参考视频的可控生成这一思路的巨大潜力。


同时,开源的大规模视频参考生成数据集也将为社区的相关研究提供强有力的数据支持,有望推动 AIGC 视频创作进入一个生成更可控、语义更丰富的新阶段。


图片


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]


文章原文

告别「一条路走到黑」:通过自我纠错,打造更聪明的Search Agent

2025-11-18 13:06:00


为了同时解决知识的实时性和推理的复杂性这两大挑战,搜索智能体(Search Agent)应运而生。它与 RAG 的核心区别在于,Search Agent 能够通过与实时搜索引擎进行多轮交互来分解并执行复杂任务。这种能力在人物画像构建,偏好搜索等任务中至关重要,因为它能模拟人类专家进行深度、实时的资料挖掘。


但 Search Agent 经常面临着一个棘手的瓶颈:缺乏过程中的自我纠错能力。现有的智能体一旦在推理早期因一个模糊的查询而走上错误的路径,就会基于这个错误结果继续执行,引发连锁式错误(Cascading Errors),最终导致整个任务失败。


为了攻克这一难题,腾讯内容算法中心联合清华大学,近期提出 ReSeek 框架,它不是对 RAG 的简单改进,而是对 Search Agent 核心逻辑的一次重塑。


ReSeek 的关键在于引入了动态自我修正机制,允许智能体在执行过程中主动评估每一步行动的有效性。一旦发现路径无效或信息错误,它就能及时回溯并探索新的可能性,从而避免「一条路走到黑」。



  • 论文地址:https://arxiv.org/pdf/2510.00568

  • 开源模型及数据集地址:https://huggingface.co/collections/TencentBAC/reseek

  • Github 地址:https://github.com/TencentBAC/ReSeek


连锁式错误:一步错,步步错


连锁式错误指的是,智能体在多步推理链的早期,哪怕只犯了一个微小的错误,也会像推倒第一块多米诺骨牌一样,导致后续所有步骤都建立在错误的基础之上,最终使整个任务走向完全失败。


这个过程可以分解为以下几个阶段:


  1. 初始偏差:任务起点是「美国上一任总统哪一年出生的」智能体没有先去识别 「上一任总统」是谁,而是直接将整个模糊问题扔给搜索引擎,这种跳过推理、依赖直接搜索的策略就是最初的偏差。

  2. 错误固化:搜索结果中可能同时出现了「特朗普」「总统」和「出生年份」等信息,智能体从中错误地提取并认定了「上一任总统就是特朗普」,它没有停下来验证这个信息的准确性,而是将这个未经证实的猜测固化为后续步骤不可动摇的事实依据。

  3. 无效执行:智能体基于「上一任总统是特朗普」这个前提,去执行搜索「特朗普的出生年份」的指令。接着智能体抓取了年份「1946」(这是特朗普的出生年份),这个执行步骤本质上是一次无效执行。

  4. 任务失败:最终,智能体给出了一个完全错误的答案:「美国上一任总统出生于 1946 年。」这个结果与事实(正确应为 1942 年)完全不符,它错误地将一个人的信息安在了另一个人身上,直接导致了任务的彻底失败。



根源何在?「执行者」而非「思考者」


为什么当前的搜索智能体会如此脆弱?根源在于它们在设计上更偏向一个「忠实的执行者」,而非一个「批判性的思考者」。


  • 缺乏反思机制:智能体遵循一个线性的「思考 - 行动」循环(Think-Act Loop),但缺少一个关键的「反思 - 修正」环节(Reflect-Correct Loop)。它不会在得到中间结果后,与最初的目标和约束条件进行比对和审视,评估当前路径的合理性。

  • 对中间结果的「盲信」:智能体将每一步的输出都视为不容置疑的「事实」,并将其直接作为下一步的输入。这种对中间结果的过度自信,使其无法从错误的路径中抽身。


因此,当前搜索智能体的脆弱性在于其推理链的刚性。它擅长沿着一条既定路线走到底,却不具备在发现路走不通时,掉头或另寻他路的能力。要让智能体真正变得鲁棒和可靠,未来的关键突破方向在于:赋予智能体自我反思和动态纠错的能力,让它从一个只会「一条路走到黑」的执行者,进化成一个懂得「三思而后行、及时止损」的思考者。


让 Agent 具备元认知能力


为了赋予智能体自我反思和动态纠错的能力,团队扩展了 Agent 动作空间,引入了一个核心的 JUDGE 动作。该动作在每次信息获取后被调用,用于评估新信息的有效性。


这个机制的关键在于对历史信息的选择性关注 (selective attention to history),而非复杂的状态回溯。在每个时间步 t,智能体首先执行一个动作(如 Search)并获得一个观察结果 。随后,它执行 JUDGE 动作,输出一个判断 。这个判断将决定是否被纳入后续决策的上下文中。


具体而言,智能体在生成下一步动作时所依赖的上下文是动态构建的:



这里表示到上一步为止的有效轨迹历史,是指示函数,代表上下文的拼接操作。


当 JUDGE 的判断不为 'bad' 时,当前观察到的信息会被追加到历史中,为后续决策提供证据。反之,若判断为 'bad',该信息将被忽略,智能体将仅基于之前的有效历史进行下一步规划。这一机制使得智能体能够主动过滤掉无效或误导性的信息,并在一个已知的「好」状态上重新尝试,从而有效阻断错误链条。



自我纠错的奖励函数设计


为了让策略网络学会做出准确的判断,JUDGE 动作需要有效的学习信号。为此,团队设计了一个密集的中间奖励函数,专门用于训练智能体的自我评估能力。


其核心思想是:当智能体的判断一个客观的「理想判断」一致时,给予正奖励;反之则给予惩罚。



这里的挑战在于如何确定理想判断。团队通过一个外部的重排模型(Reranker)来近似生成该标准。具体来说,计算当前观察信息与问题标准答案(Ground-Truth Answer)之间的语义相关性得分。该得分随后被映射到一个离散的标签('good' 或 'bad'),作为的近似。


这种奖励塑造(Reward Shaping)策略为智能体提供了密集的、步进式的反馈,引导其逐步学会如何准确评估信息价值,从而使 JUDGE 动作真正有效。


FictionalHot 基准的构建


为了公正且严格地评估智能体的真实推理能力,团队构建了 FictionalHot 数据集。其核心目标是创建一个封闭世界(closed-world)的评测环境,以消除预训练模型因「记忆」了训练数据而带来的评估偏差(即「数据污染」问题)。


构建流程如下:

  1. 采样与改写:从现有的问答数据集中采样种子问题,并利用大模型对问题进行改写,将其中所有真实世界的实体(人名、地名、事件等)替换为虚构实体,同时保持原问题复杂的推理结构不变。

  2. 生成虚构知识:为每一个虚构实体生成对应的、维基百科风格的说明文档。这些文档是解决新问题的唯一事实来源。

  3. 构建封闭知识库:将这些生成的虚构文档注入到一个标准的维基百科语料库中,形成一个封闭且受控的知识环境。


通过这种设计,FictionalHot 迫使智能体必须依赖其程序化的搜索、整合与推理能力来解决问题,而不是依赖其参数中存储的先验知识。这样能够更干净、更准确地评估 ReSeek 框架在提升智能体核心能力方面的真实效果。



 多数研究实验设置不一致


当前,对 Search Agent 的评估面临着实验设置的不一致的挑战。现有研究在多个关键方面存在差异:


  1. 知识库 (Corpus): 使用的知识源各不相同,从静态的维基百科快照(如 2018、2019 年版)到无法复现的实时互联网,差异巨大。

  2. 测试集 (Test Sets): 有的研究使用涵盖多种任务的广泛测试集(如 NQ, TriviaQA 等,集合 A),有的则专注于需要复杂推理的多跳问答任务(如 HotpotQA, Musique 等,集合 B)。

  3. 训练方式 (Training Regimes): 模型的训练策略也五花八门,从完全不训练,到在单个或多个不同数据集上进行训练。

  4. 评估指标 (Metrics): 评估标准同样不统一,涵盖了从精确匹配(Exact Match)和 F1 分数,到使用大模型作为评判者(LLM-as-a-judge, LJ)等多种方式。



为了确保公平的比较,Reseek 采用了最普遍的训练方法,在 NQ 和 TriviaQA 的训练集上进行训练,并采用精确匹配(Exact Match, EM)作为主要评估指标。该模型在 7 个主流的公开问答数据集上进行了测试,涵盖了从简单事实查询到复杂多跳推理(如 HotpotQA)的各种任务。


此外,Reseek 还在自建的 FictionalHot 数据集上进行了测试。该数据集通过虚构内容,彻底杜绝了 “数据污染” 问题,能够更公平地评估模型的真实推理能力。


主要结果


实验结果表明,ReSeek 在 3B 和 7B 参数规模上均达到了业界领先的平均性能。该模型在 HotpotQA 和 Bamboogle 等需要复杂多跳推理的基准上优势尤为突出,这证明了其自我纠错范式在处理复杂问题上的高效性。


在 FictionalHot 基准上的测试揭示了一个关键现象:模型规模(7B vs. 3B)对性能的影响显著减小。这表明 FictionalHot 成功地消除了模型因规模增大而产生的记忆优势,从而能够更准确地衡量其程序化推理能力,凸显了该基准的评估价值。



交互轮次越多,模型效果越好?


为了分离行动预算(action budget)的影响并检验模型的迭代式自我纠错能力,团队对最大交互轮数(turns)进行了消融实验。此处的「交互轮数」定义为模型为单个查询可执行的最大动作次数。该设置旨在验证额外的动作步骤能否帮助模型复核证据、修正假设,或者其性能是否在一次「搜索 - 回答」的最小循环后即已饱和。


如下图,基线模型(baselines)的性能从一轮增至两轮时有显著提升,但在三轮和四轮时几乎停滞,这与其典型的两步工作流(搜索后回答)相符。


相比之下,ReSeek 的性能从一轮到四轮单调递增,展现了更强的自我纠错能力:当交互轮数更充裕时,它会在不确定时重新查询证据、优化规划并修正答案。平均性能也印证了这一趋势,ReSeek 取得了最高的平均分,证明该方法能将更多的交互预算转化为真实的性能增益,而非冗余操作。



JUDGE 机制到底有没有用?


为了更深入地理解判断器(Judge)机制在具体案例中的作用,而不仅仅是看最终的宏观分数,团队对其行为进行了细致的逐例分析。根据判断器干预所产生的实际效果,将其分为三类(见下图):


  • 积极影响 (蓝色): 这类情况代表判断器的干预带来了明确的好处。例如:(1) 当模型状态能够导向正确答案时,判断器正确地给出了「是」的信号;(2) 当检索到的信息不包含答案时,判断器正确地给出「否」的信号,成功阻止了模型被错误信息干扰。

  • 负面影响 (红色): 这类情况代表了判断器的干预起到了反作用。具体来说,就是判断器发出了「是」的信号(认为当前信息足以回答问题),但模型最终还是给出了错误答案。

  • 中性影响 (绿色): 其余所有情况归为此类,表示判断器的作用不明确或为中性。


分析结果非常清晰:在全部的测试上,「积极影响」 的比例都非常高,稳定在 40-50% 之间。相比之下,「负面影响」的比例最低,通常不到 25%。正面与负面影响之间的这种显著差距,充分证明了该设计的有效性。这一质性证据表明,判断器是整个框架中一个可靠且高效的关键组件。



展望


ReSeek 框架的核心价值在于为复杂的业务场景提供高可靠性的决策支持。在需要实时数据或热点理解等领域,简单的「检索 - 生成」已无法满足需求。这些任务不仅要求信息实时,更要求推理过程的严谨无误。ReSeek 的自我纠错机制,正是为了解决这一痛点,通过赋予 Agent「反思」和「修正」的能力,显著降低因单点错误导致全盘失败的风险,提升复杂任务的成功率。


当然,通往通用智能 Agent 的道路充满挑战。当前的训练数据还不充分,距离实际落地还有一定距离,还面临一些有待解决问题和算法挑战, 相信在未来,Search Agent 能够作为一种基本的 Agent 范式,服务于每一位用户。


图片


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]


文章原文