MoreRSS

site icon52nlp | 我爱自然语言处理修改

一个自然语言处理爱好者的群体博客。
请复制 RSS 到你的阅读器,或快速订阅到 :

Inoreader Feedly Follow Feedbin Local Reader

52nlp | 我爱自然语言处理的 RSS 预览

Llama-Nemotron:高效推理大模型的技术突破与应用前景

2025-05-06 18:21:46

近年来,大型语言模型(LLM)在复杂推理任务(如数学解题、代码生成、科学问答)上的表现突飞猛进。然而,推理效率用户控制能力逐渐成为制约模型实际落地的核心挑战。针对这一痛点,NVIDIA 近期发布了 Llama-Nemotron 系列模型,以开放许可、高效推理和动态控制为核心卖点,在性能与效率之间实现了新的平衡。本文将深入解析这一技术报告,揭示其背后的技术革新与应用潜力。


一、核心亮点:为什么关注 Llama-Nemotron?

1. 动态推理切换:按需调整模型行为

用户只需在输入中添加 "detailed thinking on/off" 系统提示,即可实时切换模型的响应模式:

  • 推理模式(On):生成多步思维链、自我验证和回溯,适合解决复杂问题(如竞赛级数学题)。
  • 聊天模式(Off):直接输出简洁答案,适用于日常对话或低复杂度任务。

这一功能通过指令微调实现,无需为不同模式部署独立模型,显著降低了部署成本。

2. 极致的推理效率优化

通过 Puzzle 框架(神经架构搜索工具)和 FFN 融合技术,模型在保持高性能的同时大幅提升推理速度:

  • LN-Super(49B):单块 H100 GPU 上推理吞吐量比 Llama 3.3-70B 快 5 倍。
  • LN-Ultra(253B):在 8xH100 节点上,延迟比原版 Llama 3.1-405B 降低 1.71 倍,内存占用减少 40%。

3. 开源生态的全面支持

  • 模型权重:Nano(8B)、Super(49B)、Ultra(253B)均开放商用许可。
  • 训练数据:公开完整的监督学习和强化学习阶段数据集。
  • 代码库:涵盖 NeMo、NeMo-Aligner、Megatron-LM 等工具链。

二、技术揭秘:如何打造高效推理模型?

1. 五阶段训练流程

  1. 神经架构搜索(NAS):从 Llama 3 出发,通过块级局部蒸馏生成高效变体(如移除注意力层、压缩 FFN 维度)。
  2. 知识蒸馏与继续预训练:恢复 NAS 导致的性能损失,扩充领域知识。
  3. 监督微调(SFT):使用 DeepSeek-R1 等教师模型生成的高质量思维链数据,训练模型分步推理能力。
  4. 大规模强化学习(RL):针对科学推理任务(如 GPQA-Diamond),通过课程学习逐步提升难度,使 LN-Ultra 超越教师模型。
  5. 对齐优化:平衡指令遵循、安全性与人类偏好。

2. 关键优化技术

  • Puzzle 框架:通过混合整数规划(MIP)选择最优块组合,精准权衡精度与效率。
  • FFN 融合:合并连续的前馈网络层,减少序列计算深度,提升多 GPU 并行效率。
  • 合成数据生成:从 Art of Problem Solving、CodeForces 等平台提取问题,结合模型生成解决方案,并通过 LLM 裁判过滤低质量数据。

3. 资源效率突破

  • LN-Ultra 的 RL 训练:消耗 14 万 H100 小时,采用 FP8 推理生成技术,吞吐量达 32 tokens/s/GPU。
  • 内存管理优化:通过权重分片、流水线并行和动态卸载,在 8xH100 节点上支持 300 万 token 的 FP8 缓存。

三、性能表现:全面领先的开源模型

1. 推理任务表现

模型 GPQA-Diamond AIME25(30题) LiveCodeBench
LN-Ultra 76.0% 72.5% 68.1%
DeepSeek-R1 71.5% 70.0% 65.9%
Llama-3.1-405B 43.4% 0.0% -

2. 非推理任务表现

  • IFEval(指令遵循):LN-Ultra 达到 89.5%,接近 GPT-4 水平。
  • Arena-Hard(对话质量):LN-Super 以 88.3 分超越 Claude 3.5 Sonnet。

3. 效率对比

在相同硬件(8xH100)下,LN-Ultra 的推理吞吐量比 DeepSeek-R1 高 1.8 倍,且支持 128K 长上下文。


四、应用场景与未来展望

1. 典型应用

  • 教育辅助:动态切换模式帮助学生理解解题过程或快速获取答案。
  • 科研工具:处理复杂科学问题(如化学合成路径推理)。
  • 企业级助手:低延迟响应客户查询,同时支持深度数据分析。

2. 社区贡献

  • 开放数据集:涵盖数学、代码、科学领域的 3300 万条高质量样本。
  • 可复现性:完整公开训练代码与超参数配置,推动开源社区协作。

3. 未来方向

  • 代码能力增强:计划更新 LN-Super 的代码数据集,提升 LiveCodeBench 表现。
  • 多模态扩展:结合视觉模块解决 STEM 领域的图文推理问题。

五、总结:推理模型的新标杆

Llama-Nemotron 系列通过动态控制架构优化混合训练策略,在开源模型中树立了新的性能标杆。其技术方案不仅证明了“大模型未必低效”,也为企业提供了兼顾成本与能力的落地选择。随着后续迭代和社区贡献,这一系列有望成为复杂推理任务的默认基础设施。

附Llama-Nemotron技术报告英中对照版,仅供学习参考:

DeepSeek-Prover-V2:形式化数学推理的范式突破

2025-05-02 07:16:17

一、引言:形式化定理证明的困境与机遇

在数学研究的圣殿中,形式化定理证明始终扮演着"终极验证者"的角色。从欧几里得的《几何原本》到现代数学的ZFC公理体系,严格的形式化证明始终是数学真理的基石。然而,这一过程长期面临两大挑战:

  1. 人类认知瓶颈:数学家需要将直觉性思维转化为符号逻辑系统(如Lean/Coq)的严格推导,这种"思维编译"过程耗时且易错。
  2. 机器可解释性缺失:传统自动定理证明器依赖硬编码规则,难以处理开放域的高阶抽象推理。

DeepSeek-Prover-V2的诞生,标志着神经定理证明(Neural Theorem Proving)进入新纪元。该模型在MiniF2F-test上达到88.9%的通过率,首次在形式化推理领域逼近人类顶尖选手水平,其技术突破值得深入解析。


二、技术架构:三阶递进的智能证明引擎

2.1 递归子目标分解(Recursive Subgoal Decomposition)


核心思想:模仿人类数学家的"分治策略",将复杂定理分解为可独立验证的引理链。

实现步骤

  1. 自然语言草图生成:DeepSeek-V3将原始问题转化为非正式证明大纲lean4复制下载-- 示例:IMO 1963 P5的非正式推理 "观察到cos(π/7) - cos(2π/7) + cos(3π/7)的对称性,尝试使用倍角公式展开..."
  2. 形式化子目标标记:将大纲转换为Lean4语句,用sorry标注待证子目标lean4复制下载have h1 : cos (π/7) > 0 := by sorry have h2 : cos (2*(π/7)) = 2*cos(π/7)^2 -1 := by sorry
  3. 分布式证明搜索:7B专用模型并行求解子目标,通过类型检查和语义验证

2.2 冷启动-强化学习双阶段训练

阶段一:冷启动数据合成

  • 数据源:混合DeepSeek-V3的CoT推理链与形式化子目标证明
  • 增强策略:自动生成32,768 token长程依赖的教材级问题

阶段二:群体相对策略优化(GRPO)

  • 算法创新:相比PPO,GRPO通过组内样本对比消除偏差估计python复制下载# GRPO核心伪代码 def compute_reward(group_proofs): baseline = median([verify(p) for p in group_proofs]) return [1 if p > baseline else 0 for p in group_proofs]
  • 课程学习:动态调整问题难度分布,优先学习可分解的"边界问题"

三、性能突破:重新定义基准的天花板

3.1 核心基准测试表现

数据集 规模 DeepSeek-Prover-V2-671B (CoT) 前最佳模型 提升幅度
MiniF2F-test 244题 88.9% (Pass@8192) 82.4% +7.9%
ProofNet-test 186题 37.1% (Pass@1024) 26.9% +37.9%
PutnamBench 658题 49题 8题 512.5%

3.2 涌现的元推理能力

  • 隐式类型推理:在非CoT模式下,671B模型自动插入类型注释lean4复制下载-- 自动推断多项式次数 have h₃ : degree P = 2n := by linarith [degree_eq_natDegree P]
  • 反事实修正:当子目标证明失败时,回溯调整分解策略
  • 符号操作泛化:成功解决涉及Cardinal.toNat的集合论问题

四、范式创新:形式化推理的四个维度突破

  1. 混合推理架构:首次实现非正式推理链与形式化验证的端到端对齐
    • 证明步骤与自然语言解释的token级映射
  2. 可扩展课程学习:通过子目标自动生成百万级合成问题
    • 问题难度与模型能力动态匹配
  3. 资源解耦设计
    • 670B模型负责高层策略
    • 7B模型专注局部验证
    • 训练成本降低83%
  4. 证明风格迁移:支持简洁证明与教学式推导双模式输出

五、未来展望:数学智能的下一个前沿

  1. 组合爆炸难题:当前模型在CombiBench上仅解决12/77题,需引入图神经网络处理离散结构
  2. 交互式证明助手:实时接收Lean4反馈,实现"写一步验一步"的协作模式
  3. 元数学发现:从证明模式中自动归纳新猜想,如:lean4复制下载conjecture auto_induction : ∀ n : ℕ, ∑ k in range n, (2k+1) = n^2 := by -- 自动生成归纳步骤 induction n with | zero => simp | succ n ih => simp_all [Finset.sum_range_succ, ih]; ring
  4. 多模态推理:整合几何画板、符号计算引擎,构建数学认知闭环

当DeepSeek-Prover-V2在Lean4中写下Qed的那一刻,我们看到的不仅是代码的终结,更是机器智能向数学圣殿迈出的历史性一步。这场静默的革命,正在重新定义人类对"数学真理"的认知边界。

附DeepSeek-Prover-V2技术报告英中对照版,仅供学习参考:

小米MiMo-7B技术报告深度解读:如何打造面向推理的高效大模型?

2025-04-30 14:48:47

近日,小米LLM-Core团队发布了MiMo-7B技术报告,详细介绍了其专为复杂推理任务设计的大语言模型系列。该模型通过创新的预训练与后训练策略,在数学、编程及通用推理任务中表现卓越,甚至超越参数量更大的主流模型。本文将深入解析其核心技术,探讨其设计思路与性能优势。


核心亮点速览

  • 推理潜力爆发:7B参数的MiMo-7B-Base在数学与编程任务中超越32B量级模型。
  • 两阶段优化:预训练阶段通过数据优化与多令牌预测(MTP)强化基础能力,后训练阶段基于强化学习(RL)实现精准调优。
  • 高效基础设施:无缝滚动引擎将训练速度提升2.29倍,验证速度提升1.96倍。
  • 开源共享:完整模型检查点(Base、SFT、RL)已开源,推动社区研究。

预训练:为推理而生的数据与架构设计

1. 数据优化:密度与多样性并重

  • 高质量数据提取:开发专用HTML解析工具,保留数学公式与代码片段,提升推理模式密度。
  • 三阶段混合策略
    • 阶段1:平衡数据分布,过滤低质量内容(如广告、新闻),提升专业领域数据权重。
    • 阶段2:数学与代码数据占比增至70%,强化专项能力。
    • 阶段3:引入10%合成推理数据(数学、代码、创意写作),上下文长度扩展至32K。
  • 数据规模:总计25万亿Token,覆盖网页、论文、代码、书籍及合成数据。

2. 模型架构创新:速度与性能的平衡

  • 基础架构:采用类Llama的Decoder-only Transformer,集成GQA(分组查询注意力)、RoPE(旋转位置编码)和SwiGLU激活函数。
  • 多令牌预测(MTP)
    • 训练阶段:单层MTP辅助模型预测未来令牌,增强推理连贯性。
    • 推理阶段:复制MTP层至多分支,通过推测解码(Speculative Decoding)加速生成,实测令牌接受率高达90%,显著降低延迟。

3. 预训练性能验证

  • 评估基准:覆盖语言理解(MMLU、BBH)、数学(AIME、GSM8K)、代码(LiveCodeBench)等任务。
  • 关键结果
    • 通用推理:BBH得分75.2,超越同规模模型5分以上。
    • 数学能力:AIME 2024得分32.9,显著优于Qwen2.5-7B(10.1)。
    • 长上下文:32K窗口内检索准确率接近100%,支持复杂推理链生成。

后训练:强化学习的精准调优

1. RL数据与奖励设计

  • 数据筛选
    • 数学问题:保留原始题目(避免答案整数化),通过模型筛选过滤过难/过易样本。
    • 编程问题:仅保留含有效测试用例的题目,剔除黄金解法失败的问题。
  • 奖励机制
    • 数学验证:基于规则库Math-Verify严格判定答案正确性。
    • 代码奖励:引入测试难度驱动奖励,参考IOI竞赛规则,按测试用例通过率分级赋分,缓解稀疏奖励问题。

2. 训练策略优化

  • 动态采样:过滤通过率100%或0%的问题,维持有效梯度信号。
  • 简单数据重采样:保留10%“已掌握”问题,缓解后期采样效率下降。
  • 算法改进:移除KL损失、动态调整剪裁阈值(Clip-Higher),提升策略探索能力。

3. 基础设施加速

  • 无缝滚动引擎
    • 持续滚动:异步执行生成与奖励计算,消除GPU空闲。
    • 早期终止:动态终止长序列生成任务,平衡效率与稳定性。
  • vLLM增强:支持MTP加速推理,优化KV缓存一致性。

性能表现:全面领先的推理能力

1. 预训练模型(MiMo-7B-Base)

  • 数学与代码:LiveCodeBench v5得分32.9,远超Llama-3.1-8B(0.4)和Qwen2.5-7B(5.0)。
  • 长上下文:RULER评测中,多任务检索与推理准确率领先同类模型。

2. 强化学习模型(MiMo-7B-RL)

  • 数学推理:AIME 2025得分55.4,超越OpenAI o1-mini(50.7)。
  • 代码生成:LiveCodeBench v6得分49.3,领先QwQ-32B-Preview(39.1)10分以上。
  • 通用能力:MMLU-Pro得分58.6,优于蒸馏版竞品。

挑战与启示

  • 领域干扰:RL后期数学与代码任务性能难以同步提升,需更精细的奖励设计。
  • 语言混合惩罚:中英文混合响应的检测与抑制仍具挑战,可能影响多语言场景表现。
  • 轻量SFT陷阱:实验表明,仅对齐答案格式的轻量监督微调(SFT)会限制模型潜力。

开源与社区价值

小米开源了MiMo-7B全系列模型(Base、SFT、RL),为研究者提供了:

  • 可复现的基线:完整训练流程与超参配置。
  • RL基础设施参考:无缝滚动引擎与vLLM优化实践。
  • 跨领域启示:数据混合策略与测试难度驱动奖励可迁移至其他推理任务。

总结

MiMo-7B通过“预训练挖潜+后训练提效”的双阶段策略,证明了小模型在复杂推理任务中的巨大潜力。其核心创新——数据密度优化、MTP加速、测试难度奖励——为行业提供了新思路。未来,如何进一步平衡多领域性能、优化多语言支持,将是推理模型发展的关键方向。

附小米Mimo-7B技术报告英中对照版,仅供学习参考:

Qwen3来了,全尺寸开源,性能拉满!附最新一手实测!

2025-04-29 09:19:47

这两天技术群都在传阿里通义 Qwen3 五一前后发布,然后昨晚各种消息满天飞:

一觉醒来,千问果然没有让人失望,赶在五一前发布并开源Qwen3,效率杠杠的。作为国内首个实现"混合推理"能力的开源模型,Qwen3不仅达到了36万亿token的训练数据量,还支持119种语言和方言。通过混合专家(MoE)架构与混合推理机制的深度整合,在参数效率与任务适应性层面实现双重突破。旗舰模型Qwen3-235B-A22B在数学证明、代码生成等核心基准测试中,展现出与DeepSeek-R1、Grok-3等顶尖模型的竞争优势。

此外,小型 MoE 模型 Qwen3-30B-A3B 的激活参数量仅为 QwQ-32B 的 10%,但性能却更胜一筹。甚至像 Qwen3-4B 这样的小型模型,也能与 Qwen2.5-72B-Instruct 的性能相媲美。

Qwen3 此次开源了六款Dense模型和两款Moe模型,Dense模型包括0.6B、1.7B、4B、8B、14B、32B 6个尺寸,Moe模型包括30B和235B,均采用Apache2.0协议开源,诚意满满。其中旗舰版 Qwen3-235B-A22B,总参数量 235B,激活参数仅 22B,可以低成本实现本地部署。而 Qwen3-30B-A3B,总参数量 30B,激活参数仅 3B,消费级别显卡即可部署,整体性能堪比Qwen2.5-32B。另外阿里还开源了小尺寸的 Qwen3-0.6B,可以在手机等端侧部署。

特别值得注意的是Qwen3是国内首个“混合推理模型”,在同一模型中集成了两种推理模式:

  • 即时响应模式:针对简单查询(如信息检索),通过轻量化推理路径实现快速响应;
  • 深度思考模式:应对复杂任务(如数学证明),激活MoE架构中的专家模块进行多步推理;
  • 动态切换机制:支持API参数控制(enable_thinking=True)或自然语言指令(/think)触发模式转换;

另外Qwen3的多语言能力进一步大幅跃升,从之前支持的29种提升至支持119种语言和方言:

  • 国际通用语言:完整涵盖联合国六大官方语言(汉语、英语、法语、西班牙语、俄语、阿拉伯语);
  • 国家官方语言:包括德语、意大利语、日语、韩语、泰语、越南语等国家官方语言;
  • 特色方言及小语种:特别纳入中国粤语、非洲斯瓦希里语、中东意第绪语、西亚亚美尼亚语、东南亚爪哇语、美洲海地克里奥尔语等具有文化代表性的地方语言;

通过开源技术赋能,千问3为全球技术储备不足的国家和地区提供了可用的AI大模型,让语言不再成为数字时代的鸿沟。

同时Qwen3通过原生支持MCP多模态协作协议,构建了面向智能体(Agent)生态的核心能力,其深度集成的工具调用架构支持跨平台设备控制与工业协交互,结合开箱即用的Qwen-Agent框架,开发者可快速构建复杂工作流,如生产线调度、跨端自动化等,标志着大模型从"生成答案"向"完成任务"的范式跃迁。

目前可以在欢迎在 Qwen Chat 网页版和通义 APP 中直接体验 Qwen3,相关地址如下:

  • Qwen Chat:https://chat.qwen.ai/
  • GitHub:https://github.com/QwenLM/Qwen3
  • HuggingFace:https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f
  • ModelScope:https://modelscope.cn/collections/Qwen3-9743180bdc6b48

Qwen3 快速体验

说了这么多,我还是想动手体验一下 Qwen3,直接在Qwen Chat网页版上体验:

可下拉选择相关模型:

开始测试那个经典问题:9.8和9.11谁大,直接给了推理过程和答案,相当快:

再来一个经典大模型测试题:strawberry有几个r,还是直接给出推理过程和答案:

看起来一般问题难不倒大模型了,那就做一道中考级别的数学题吧:

中考题难不住,继续上高考数学题,这是一道2024年年高考全国甲卷数学(文)试题:

这次思考的过程稍久,不过依然得到了正确答案:-7/2,看起来一般的高考题也难不住Qwen3了,这让我很期待今年高考数学题国内外这些顶尖大模型的PK了。

测试 Qwen3 模型 

当然除了体验网页版,我还想上手体验一下开源的Qwen3模型,直接选择最小的0.6B模型,复用Qwen官方博客上提供的代码,只是简单修改了一下模型:


from modelscope import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen3-0.6b"

# load the tokenizer and the model
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)

# prepare the model input
prompt = "Give me a short introduction to large language model."
messages = [
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=True # Switch between thinking and non-thinking modes. Default is True.
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

# conduct text completion
generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=32768
)
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist() 

# parsing thinking content
try:
    # rindex finding 151668 (</think>)
    index = len(output_ids) - output_ids[::-1].index(151668)
except ValueError:
    index = 0

thinking_content = tokenizer.decode(output_ids[:index], skip_special_tokens=True).strip("\n")
content = tokenizer.decode(output_ids[index:], skip_special_tokens=True).strip("\n")

print("thinking content:", thinking_content)
print("content:", content)

第一次运行模型下载速度挺快的,但是遇到了报错:

刚好看到一篇文章说运行Qwen3 transformers版本不能小于4.51.0,直接升级transformer到4.51.0,再次运行,没有问题了,测试成功:

要禁用思考模式,只需对参数 enable_thinking 进行如下修改:


text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=False  # True is the default value for enable_thinking.
)

Qwen3模型还有很多高级玩法,包括在用户提示或系统消息中添加 /think 和 /no_think 来逐轮切换模型的思考模式,以及Agent和MCP等,限于时间关系,这里就不一一测试了,后续我会测一下更大尺寸的模型,到时候深入研究一下。刚好五一放假,大家可以好好安排五一了!

Kimi-Audio:开源音频基础模型的技术突破与应用前景

2025-04-27 14:59:23

近年来,随着大语言模型(LLM)的飞速发展,音频处理领域也迎来了革命性突破。近日,月之暗面(Moonshot AI)团队发布了Kimi-Audio,一款开源的音频基础模型,支持音频理解、生成与对话任务,并在多个基准测试中刷新了性能记录。本文将深入解读其技术报告,剖析其创新设计与应用价值。


一、为什么需要统一的音频基础模型?

音频是人类感知环境、情感表达和语言交流的重要媒介。然而,传统音频处理技术(如语音识别、语音合成)通常针对单一任务设计独立模型,存在以下问题:

  1. 任务孤立:不同模型之间无法共享知识,导致开发成本高;
  2. 数据瓶颈:高质量标注数据稀缺,模型泛化能力受限;
  3. 模态割裂:音频与文本的联合理解与生成能力不足。

Kimi-Audio的目标是构建一个通用音频基础模型,通过统一架构处理多种任务(如语音识别、音频问答、语音对话),同时开源代码与工具,推动社区共同发展。


二、核心技术亮点

1. 混合音频分词器:兼顾语义与声学细节

Kimi-Audio采用离散语义标记(12.5Hz)连续声学向量结合的输入表示:

  • 语义标记:基于ASR模型的向量量化层生成,聚焦内容信息;
  • 声学向量:通过Whisper模型提取,捕捉音色、情感等细节。
    两者叠加后输入音频LLM,平衡了语义理解与声学建模能力。

2. 双分支LLM架构:文本与音频联合生成

模型核心基于预训练LLM(Qwen2.5 7B)初始化,并扩展为双分支结构:

  • 共享层:底层Transformer处理多模态输入;
  • 文本分支:生成文本响应;
  • 音频分支:预测离散语义标记,供反分词器生成语音。
    这种设计保留了LLM的语言能力,同时新增音频生成功能。

3. 流式反分词器:低延迟高质量语音合成

反分词器采用流匹配(Flow Matching)技术,将语义标记转换为梅尔频谱,再通过BigVGAN生成波形。为解决分块生成时的边界问题,引入前瞻机制

  • 将当前块与未来4个标记拼接后生成,仅保留当前块结果;
  • 训练时动态调整分块大小(0.5-3秒),平衡质量与延迟。

三、数据与训练策略

1. 预训练数据:1300万小时多模态音频

覆盖语音、音乐、环境音等场景,通过自动化流程处理:

  • 语音增强:随机选择原始或降噪音频,保留环境信息;
  • 分段与聚类:改进说话人分割算法,合并短片段;
  • 多语言转录:Whisper生成英文文本,Paraformer处理中文。

2. 微调数据:300K小时任务导向数据

涵盖语音理解、对话、问答等任务:

  • 语音理解:集成公开数据集(如LibriSpeech、AISHELL)与内部ASR数据;
  • 语音对话:通过TTS系统生成多样化用户提问,固定助手音色;
  • 音频到文本聊天:过滤复杂文本,转换为多轮对话格式。

3. 训练任务设计

  • 单模态预训练:分别学习音频与文本分布;
  • 跨模态对齐:ASR(音频→文本)与TTS(文本→音频)任务;
  • 交替训练:音频与文本交替输入,增强模态融合能力。

四、性能表现:多项任务刷新SOTA

基于团队开发的评估工具包,Kimi-Audio在多个基准测试中表现卓越:

任务类型 数据集 Kimi-Audio性能 对比模型最佳性能
语音识别(WER↓) LibriSpeech 1.28(test-clean) Qwen2-Audio(1.74)
音频场景分类(ACC↑) CochlScene 80.99 Qwen2.5-Omni(63.82)
语音情感识别(ACC↑) MELD 59.13 Qwen2-Audio(51.23)
端到端语音对话 主观评测(5分制) 3.90 GPT-4o(4.06)

五、开源生态与生产部署

Kimi-Audio的全链路开源(代码、模型、评估工具)为社区提供了重要基础设施:

  • 推理工具包:标准化评估协议,支持多模型公平对比;
  • 生产架构:模块化设计(Tokenizer/LLM/Detokenizer服务),支持低延迟实时对话;
  • 应用场景:智能助手、无障碍通信、多媒体内容生成等。

六、挑战与未来方向

尽管Kimi-Audio取得突破,音频AI仍面临挑战:

  1. 超越ASR/TTS依赖:当前模型依赖转录数据,需探索原生音频预训练;
  2. 更丰富的音频表示:融合内容与声学特征,提升细粒度控制能力;
  3. 多模态描述生成:联合文本描述与语音内容,理解复杂声学场景。

结语

Kimi-Audio的发布标志着通用音频智能迈出重要一步。其统一的架构设计、大规模数据训练与开源生态,为学术界与工业界提供了强大工具。未来,随着多模态技术的进一步融合,音频AI有望在医疗、教育、娱乐等领域创造更大价值。

项目地址https://github.com/MoonshotAI/Kimi-Audio
评估工具https://github.com/MoonshotAI/Kimi-Audio-Evalkit

附Kimi-Audio技术报告英中对照版,仅供学习参考:

开源 AI 短剧神器来了!SkyReels-V2 与 A2 正式登场

2025-04-22 14:24:33

影片创作迎来新纪元!SkyReels-V2 和 A2 双剑合璧,打破时长壁垒,赋予镜头魔法。用 AI 技术演绎无限创意,让每一帧画面都栩栩如生,低成本打造电影级视觉盛宴。

当前 AI 视频生成领域,普遍面临诸多困境:模型大多数不开源,视频生成长度最多10秒,剧情还没开始就结束了;用户难以二次开发与深度定制;效果一言难尽,让它来个王家卫风格的逆光特写,结果呢,给你整出个表情包;使用门槛高,普通创作者难以驾驭;操作复杂,上手难度大。此外,这些闭源模型的使用成本居高不下,对于预算有限的创作者和团队来说,无疑是巨大的障碍。

全球首个开源 SOTA 无限时长电影级视频的 AI

在 AI 视频生成领域,昆仑万维再次引领行业潮流,继年初开源 SkyReels-V1、A1 后,持续迭代,近期重磅推出 SkyReels-V2 和 SkyReels-A2 两大模型,为创作者带来前所未有的创作自由和强大的技术支持。其中,SkyReels-V2 作为全球首个开源的 SOTA 级无限时长电影级视频生成模型,彻底打破了传统视频生成的时长限制,让创作者能够随心所欲地构建长镜头叙事,为影视创作开辟了全新的可能性。

  • 官网地址:https://www.skyreels.ai/home
  • GitHub地址:https://github.com/SkyworkAI/SkyReels-V2 & https://github.com/SkyworkAI/SkyReels-A2
  • HuggingFace地址:https://huggingface.co/Skywork/SkyReels-V2 & https://huggingface.co/Skywork/SkyReels-A2
  • 论文地址: & https://arxiv.org/pdf/2504.02436

SkyReels-V2:无限时长的电影级视频生成

技术架构与训练方法

SkyReels-V2 的核心在于其独特的技术架构和训练方法。它通过多模态大语言模型(MLLM)和子专家模型的结合,精确理解视频内容的结构化描述,包括主体类型、外观、动作、表情、位置等多维度信息,以及镜头类型、角度、位置和相机运动等专业电影元素。这种结构化字幕的设计,使得视频生成能够精准遵循提示词,确保创作意图得到完美呈现。

此外,SkyReels-V2 采用渐进式分辨率预训练和多阶段后训练策略,逐步提升视频生成的质量。从低分辨率的基础训练到高分辨率的精细微调,每一个阶段都经过严格的优化,确保生成视频在视觉质量、动态效果和时长上的卓越表现。而其创新的扩散强迫框架,通过非递减噪声安排,让视频内容能够无限延伸,实现了真正的无限时长电影级视频生成。


SkyReels-V2的核心创新

1. 结构化视频表示与高效标注

  • 训练了一个统一的视频理解模型 SkyCaptioner-V1:能够高效地标记视频数据,生成符合原始结构信息的多样化描述。通过这种方式,SkyCaptioner-V1不仅能够理解视频的一般内容,还能捕捉到电影场景中的专业镜头语言,从而显著提高了生成视频的提示词遵循能力。此外,这个模型现在也是开源可以直接使用。
  • 半自动数据标注:结合人工验证与合成数据,高效标注百万级视频片段,确保训练数据的多样性与专业性。

2. 多阶段渐进式训练

  • 三阶段预训练:从低分辨率(256p)到高分辨率(540p),逐步提升模型对基础概念、运动模式和细节纹理的学习能力。
  • 强化学习优化运动质量:针对运动失真问题,设计半自动偏好数据生成流程,通过Direct Preference Optimization(DPO)让模型学会生成更自然的动作。
  • 扩散强制框架:引入非递减噪声调度(Non-decreasing Noise Schedule),实现稳定训练与无限长度生成。

3. 高效推理优化

  • 量化与并行策略:采用FP8量化和多GPU并行,将720p视频生成时间从5分钟缩短至1分钟内。
  • 蒸馏技术:通过DMD蒸馏(Distribution Matching Distillation)加速生成,同时保持画质。

性能表现

SkyReels-V2 通过自研的高质量数据清洗和人工标注管线,构建了千万级的高质量电影、电视剧、纪录片数据。这不仅确保了模型在人物微表情、肢体动作、场景描述、光影、画面构图等方面的精准理解与生成,还使模型在各项指标上达到了开源 SOTA 级别。如在人物表情生成方面,SkyReels-V2 支持 33 种细腻人物表情与 400 多种自然动作组合,高度还原真人情感表达,生成的视频中人物表演细节丰富且精准。在场景生成方面,基于好莱坞级的高质量影视数据训练,SkyReels-V2 生成的每一帧画面在构图、演员站位、相机角度等都具备电影级的质感。在权威评测基准V-Bench 1.0和自建SkyReels-Bench中,SkyReels-V2展现了全面优势:

  • 提示遵循性:在镜头类型、摄像机运动等专业领域准确率超过90%,显著优于现有模型。
  • 长视频生成:支持30秒以上的连贯视频生成,并通过滑动窗口与噪声稳定技术减少误差累积。
  • 多任务支持:在图像到视频(I2V)、元素组合生成(E2V)等任务中达到闭源模型(如Kling-1.6、Runway Gen-4)的同等水平。

SkyReels-A2:多元素可控的视频生成框架

SkyReels-A2 则专注于多元素视频生成任务,能够将多个视觉元素(如人物、物体、背景)根据文本提示精确地组合成连贯自然的视频。它通过精心设计的数据管道构建文本 - 参考图像 - 视频三元组,利用图像 - 文本联合嵌入模型,将多元素表示注入生成过程,平衡元素特定的一致性与全局连贯性以及文本对齐。

在架构上,SkyReels-A2 采用双流结构处理参考图像,分别提取语义特征和空间特征,并通过交叉注意力层和通道拼接的方式,将这些特征融入到视频扩散模型中。这种设计不仅保留了每个参考元素的保真度,还确保了场景的整体连贯性和自然输出。

SkyReels体验

说了这么多,我还是想动手体验一下SkyReels的视频创作能力,目前这两大模型已被融入到SkyReels官网:https://www.skyreels.ai/

开始创作之前,用户需要在 SkyReels 官方网站注册账号并登录,以获取免费的创作额度。对于需要更高创作质量和速度的用户,平台还提供了升级计划,可享受更强大的功能和更快的生成速度。

视频生成

用户可以选择使用 SkyReels-V2 进行电影级视频创作。点击 AI Video 即可直接创作AI 视频:在平台上输入详细的文本提示词,描述视频的主题、情节、人物、动作、场景等关键信息。然后,根据需要选择视频的时长、分辨率和风格等参数。点击生成按钮后,SkyReels-V2 将基于提示词和参数,自动生成高质量的视频。这是用SkyReels创作的一个30秒视频,仅供欣赏:

短剧创作

除了可以创作长达30秒的视频外,我更感兴趣的是短剧创作,作为一个零经验的技术人员,体验了一把20分钟创作一部短剧的乐趣。

选择 AI Drama,点击 Create,进入的AI短剧的创作页面,SkyReels给了一个自动生成的英文小说剧本:

看起来是一个关于程序员的爽文故事,就直接使用了,然后点击右上角的“Generate Script",SkyReels帮我自动生成了一个AI 小说剧本:

翻译了一下大概是:

总结 在城市小巷中,艾斯琳格利用她的专长黑入阿德里安的安保系统,揭露企业机密。与此同时,浑然不觉的阿德里安在企业办公室与罗斯讨论安保漏洞,而罗斯怀疑 “Vixen” 的介入。

剧本外景:城市小巷——夜晚 狭窄的小巷中,霓虹灯闪烁。艾斯琳格伪装成她的黑客化身 “Vixen”,蹲在控制面板旁。她的手指在腕戴界面飞舞,访问着禁用代码。难得有闲情散步的阿德里安·托雷斯在小巷入口处停下,被暗影中神秘的科技闪光吸引。

...

继续点击"Generate Character",SkyReels 自动生成了三个角色:

继续点击"Generate Storyboard",生成分镜脚本,这个时间稍长,大概用了5分钟左右:

可以逐个点击编辑,没问题的话可以点击"To Video"单独生成视频,或者直接点击"One-Click Video",将这个场景中的所有分镜脚本转换为视频,这个时间会较长。我测试了一下第3个分镜头的视频生成,配音也有了,很贴心。

如果不想用系统随机提供的故事剧本,也可以自己生成,我直接用中文测试了一下,也会帮我生成英文的小说剧本和角色,很方便。

总之,传统 AI 视频工具往往只能生成简短片段,动作生硬不连贯,且难以理解专业指令。相比之下,SkyReels V2 和 A2 无疑是视频创作领域的重大突破,堪称 AI 短剧创作领域里的 “好莱坞生产线”。

SkyReels V2 拥有无限时长的连续生成能力,彻底打破了时间限制,为创作者提供了广阔的叙事空间。无论是长篇故事还是复杂情节,都能一镜到底,流畅呈现。其动作流畅性更是达到了物理级真实,每一个转身、每一次奔跑都自然流畅,仿佛真人实拍,完全避免了传统 AI 视频中常见的卡顿和僵硬。此外,它还具备极高的智能理解能力,能够精准解析专业指令,无论是复杂的运镜技巧还是一镜到底等高阶拍摄手法,都能一一实现,为创作者提供了前所未有的精准控制。

而 SkyReels A2 则专注于多元素可控视频生成,能够将多个视觉元素精确组合成连贯自然的视频。它能精准理解并执行导演术语,从人物表情控制到特殊运镜技巧,构建出好莱坞级别的叙事逻辑和视觉效果。无论是人物微表情的细腻捕捉,还是光影细节的精致渲染,都能满足创作者对高品质视频的追求。

两者都代表了目前开源模型中的顶尖水平,为视频创作带来了革命性的变化,让创作者能够以极低的成本实现高质量的创意构想。