MoreRSS

site icon52nlp | 我爱自然语言处理修改

一个自然语言处理爱好者的群体博客。
请复制 RSS 到你的阅读器,或快速订阅到 :

Inoreader Feedly Follow Feedbin Local Reader

52nlp | 我爱自然语言处理的 RSS 预览

DeepSeek-V3解析及技术报告英中报告对照版

2025-03-04 13:07:49

在追求AGI的道路上,模型规模与训练成本的矛盾始终存在。DeepSeek团队前期发布的671B参数MoE模型DeepSeek-V3,以仅278万H800 GPU小时的惊人训练成本,在多项基准测试中达到闭源顶尖模型水平,开创了开源大模型的高效新时代。本文将深入解析其核心技术突破。


一、架构创新:效率与性能的完美平衡

1.1 注意力机制再进化:MLA架构

(图1:MLA与传统注意力机制对比示意图)

  • KV缓存压缩:通过低秩联合压缩技术,将Key-Value缓存维度从传统结构的d_h*n_h压缩至512,推理时KV缓存减少70%
  • 查询解耦设计:将RoPE位置编码单独应用于解耦的查询分支,在保证位置感知能力的同时,避免冗余计算
  • 训练激活内存优化:查询路径采用1536维压缩,相比V2降低22%的中间激活内存占用

1.2 MoE架构的工程哲学

(图2:DeepSeekMoE结构示意图)

  • 细粒度专家分配:256个路由专家+1个共享专家,每个token激活8个专家
  • 无辅助损失负载均衡
    • 动态偏置调节:根据专家负载实时调整路由偏置项,实验显示比传统辅助损失方法在MMLU上提升1.2%
    • 序列级补偿机制:引入极低权重(α=0.0001)的序列级平衡损失,防止单序列内的极端失衡
  • 节点受限路由:限制token最多分布在4个节点,结合NVLink/IB混合通信策略,使跨节点A2A通信开销接近于零

二、训练基础设施:突破算力瓶颈的工程艺术

2.1 DualPipe并行策略

(图3:DualPipe与传统流水线对比)

  • 双向气泡消除:通过前向/反向微批次双向流动,将128K上下文训练的流水线气泡从传统1F1B的35%降至12%
  • 计算-通信全重叠
    • 将Attention、MLP计算与A2A通信解耦
    • 利用CUDA Stream实现计算kernel与通信操作的硬件级重叠
  • 内存优化三连击
    1. RMSNorm重计算节省22%激活内存
    2. FP8梯度检查点技术
    3. 专家参数分片存储,单节点内存占用控制在48GB以内

2.2 FP8混合精度训练

(表1:不同精度格式训练效果对比)

指标 BF16基准 FP8实现
训练速度 1x 1.83x
内存占用 100% 63%
MMLU衰减 - <0.25%

关键技术突破:

  • 分块量化策略:对激活值采用1x128分块量化,权重采用128x128分块
  • 动态指数对齐:每个分块独立计算缩放因子,动态范围提升4个数量级
  • 累积精度提升:在每128次乘加后触发FP32精度累积,使矩阵乘误差从2%降至0.3%

三、训练策略:数据与算法的交响曲

3.1 预训练优化

  • 14.8T token数据配方
    • 代码数据占比提升至18%,数学数据12%
    • 创新性引入FIM(Fill-in-Middle)训练,在保持自回归能力的同时增强代码补全性能
  • 渐进式学习率调度:python复制# 学习率变化示例 if step < 2000: lr = 2.2e-4 * (step/2000) elif step < 10T tokens: lr = 2.2e-4 else: lr = cosine_decay(2.2e-4, 2.2e-5)

3.2 上下文扩展魔法

  • 两阶段YaRN扩展
    1. 第一阶段:4K→32K,batch_size=1920
    2. 第二阶段:32K→128K,batch_size=480
  • RoPE缩放因子创新:复制s = 40, α = 1, β = 32 scaling_factor = sqrt(t) = 0.1*ln(s) + 1

四、后训练优化:知识蒸馏的艺术

4.1 推理能力迁移

(图4:DeepSeek-R1到V3的蒸馏流程)

  • 双重监督机制
    • 原始数据监督:<问题,标准解答>
    • R1增强监督:<系统提示,问题,R1长链推理>
  • 奖励塑造技巧
    • 数学问题:规则验证奖励(答案框识别准确率>99%)
    • 代码任务:测试用例验证(LiveCodeBench通过率提升17%)

4.2 自对齐进化

  • 混合奖励模型
    • 规则验证器:覆盖数学、代码等结构化任务
    • 基于V3的评判模型:在RewardBench中获得87%准确率
  • 群体相对策略优化(GRPO):数学公式复制A_i = (r_i - μ_r)/σ_r L_GRPO = Σ[min(π_θ/π_old * A_i, clip(π_θ/π_old, 0.8, 1.2)*A_i)]

五、性能表现:重新定义开源天花板

(表2:核心基准测试对比)

测试集 DeepSeek-V3 LLaMA-3.1 405B GPT-4o
MMLU 88.5 84.4 87.2
MATH-500 90.2 73.8 74.6
LiveCodeBench 40.5 28.4 33.4
训练成本($) 557万 估计>3000万 N/A

特别亮点:

  • 中文事实知识(C-SimpleQA) 64.8,超越GPT-4o的59.3
  • 128K上下文在NIAH测试中全位置准确率>92%
  • 推理速度达到1.8倍TPS(Tokens Per Second)

六、启示与展望

DeepSeek-V3的成功印证了"规模不是唯一出路"的技术哲学。通过架构创新(MLA+MoE)、训练革新(FP8+DualPipe)和知识蒸馏三位一体的协同优化,实现了效率的阶跃式提升。

未来值得期待的方向:

  1. 动态专家冗余机制:根据负载实时调整专家分布
  2. 无限上下文支持:基于MLA的进一步扩展
  3. 训练-推理一体化架构:MTP模块的推测解码潜力

开源模型正在打破闭源黑箱的垄断,DeepSeek-V3的发布标志着AGI民主化进程的重要里程碑。在效率与性能的天平上,中国团队正在书写新的技术范式。

以下是DeepSeek-V3技术报告中英对照版,仅供学习参考:

Qwen2.5-VL:阿里巴巴新一代多模态大模型的技术突破与应用前景

2025-02-21 10:18:46

近年来,多模态大模型(Large Vision-Language Models, LVLMs)在人工智能领域掀起了一场革命。它们通过结合视觉感知与自然语言处理能力,重新定义了机器对复杂信息的理解与交互方式。阿里巴巴团队最新发布的Qwen2.5-VL,作为Qwen系列的最新旗舰模型,凭借其在视觉识别、文档解析、视频理解等方面的突破性进展,再次将多模态技术的边界向前推进。本文将深入解读Qwen2.5-VL的技术亮点、架构设计、性能表现及其应用潜力。


一、技术亮点:四大核心创新

Qwen2.5-VL的核心理念是“从感知到行动”,其技术突破主要体现在以下四个方面:

1. 动态分辨率与帧率处理

传统模型在处理不同尺寸的图片或视频时,通常需要将输入标准化为固定分辨率,导致信息丢失或计算冗余。Qwen2.5-VL通过动态分辨率处理,直接在原生分辨率下处理图像和视频。例如,视觉编码器(Vision Transformer, ViT)将输入图像按原始宽高分割为14×14的图块,并引入窗口注意力机制(Window Attention),仅在部分层使用全局注意力,其余层采用局部窗口注意力,使得计算复杂度从二次方降至线性。这一设计显著降低了计算开销,同时保留更多细节信息。

对于视频输入,模型采用动态FPS采样绝对时间编码。通过将时间戳与MRoPE(多模态旋转位置嵌入)对齐,模型能够理解视频中的时间动态(如事件节奏和精确时间定位),即使面对长达数小时的视频,也能实现秒级事件定位。

2. 多模态旋转位置嵌入(MRoPE)

位置编码是多模态模型的关键技术。Qwen2.5-VL在Qwen2-VL的基础上,将MRoPE扩展至时间维度,实现了对视频时序的精准建模。具体来说,位置嵌入被分解为时间、高度和宽度三个分量:

  • 文本输入:三个分量共享相同的位置ID,与传统1D RoPE等效。
  • 图像输入:时间分量固定,高度和宽度根据空间位置动态分配。
  • 视频输入:时间分量随帧数递增,空间分量与图像处理一致。
    这种设计使模型能够理解视频内容的绝对时间关系,而非单纯依赖帧数,从而适应不同采样率的视频输入。

3. 全场景文档解析能力

传统文档解析依赖多个独立模型(布局分析、文本提取、图表识别等),而Qwen2.5-VL通过统一的HTML格式表示文档的布局、文本、表格、公式等元素,实现了端到端的全场景解析。例如,模型可处理包含手写文字、化学公式、乐谱等复杂元素的文档,并将其转化为结构化数据。这一能力在发票处理、学术文献分析等场景中具有重要价值。

4. 增强的智能代理功能

Qwen2.5-VL不仅擅长静态图像理解,还可作为交互式智能代理执行复杂任务。通过结合视觉定位、多模态推理和决策能力,模型能够操作计算机或移动设备的图形界面(GUI)。例如,在AndroidWorld和OSWorld等真实环境评测中,Qwen2.5-VL无需辅助标记即可完成多步骤任务,展现了在动态环境中的实用性。


二、模型架构:三模块协同设计

Qwen2.5-VL的架构由三部分组成:

  1. 大型语言模型(LLM):基于Qwen2.5 LLM的预训练权重,通过改进的1D RoPE适应多模态需求。
  2. 视觉编码器(ViT):采用动态分辨率处理,结合窗口注意力机制和SwiGLU激活函数,支持高效计算。
  3. 视觉语言融合模块:通过多层感知机(MLP)压缩图像特征序列,减少计算成本并保持与文本嵌入的维度对齐。

Qwen2.5-VL架构示意图
图:Qwen2.5-VL框架,支持动态分辨率与时间编码。


三、训练策略:数据驱动与高效优化

1. 预训练数据构建

  • 规模扩展:预训练数据从1.2万亿token扩展至4.1万亿,涵盖图像文本对、OCR数据、视频描述、代理交互数据等。
  • 质量控制:采用四阶段评分系统(文本质量、图文相关性、信息互补性、密度平衡)过滤低质量数据,确保训练集的高效性。
  • 多样化合成:通过合成引擎生成手写文字、化学公式等复杂文档,并利用开源模型(如Grounding DINO)增强定位数据。

2. 分阶段训练

  • 视觉预训练:仅训练视觉编码器,提升与语言模型的初步对齐。
  • 多模态预训练:解冻所有参数,引入视频、代理任务等复杂数据。
  • 长上下文预训练:将序列长度扩展至32,768 token,增强长视频和长文档的处理能力。

3. 后训练优化

  • 监督微调(SFT):使用200万条指令数据(50%纯文本、50%多模态),覆盖通用问答、数学推理、代码生成等场景。
  • 直接偏好优化(DPO):通过人类偏好数据进一步对齐模型输出,提升用户体验。

四、性能表现:全面领先的基准测试

Qwen2.5-VL在多项评测中展现了卓越性能:

任务类型 关键指标(Qwen2.5-VL-72B) 对比模型(GPT-4o/Claude 3.5)
文档理解 OCRBench_v2英文得分61.5 超越Gemini 1.5 Pro 9.6%
视觉问答 MMBench-EN准确率88.4% 超过InternVL2.5 5%
视频定位 Charades-STA mIoU 50.9 显著优于GPT-4o
对象计数 CountBench准确率93.6% 领先Molmo-72b 2.4%
智能代理 Android Control高分任务67.36 超越Aguvis-72B 1%

值得一提的是,即使是轻量级的7B和3B版本,在资源受限环境下仍表现出色。例如,Qwen2.5-VL-7B在OCRBench上的得分达到864,远超同类竞品。


五、应用场景:从边缘计算到行业落地

Qwen2.5-VL的多样化模型规模(72B/7B/3B)支持广泛的应用场景:

  • 边缘AI:3B模型适用于移动设备,实时处理图像与视频。
  • 高性能计算:72B模型可部署于云端,用于复杂文档解析或长视频分析。
  • 行业应用:在医疗(医学影像报告生成)、金融(表格数据提取)、教育(多模态试题解答)等领域潜力巨大。

六、总结与展望

Qwen2.5-VL的发布标志着多模态大模型在实用化道路上迈出了关键一步。其动态分辨率处理、时间感知编码和高效架构设计,不仅提升了模型性能,还降低了计算成本。未来,随着更多垂直领域数据的引入和交互式任务的扩展,Qwen系列有望进一步推动AI从“感知智能”向“行动智能”的进化。

对于开发者而言,Qwen2.5-VL的开源特性(代码与模型已在GitHub和Hugging Face发布)提供了丰富的实验和定制空间。无论是学术研究还是工业落地,这一技术突破都将成为多模态AI发展的重要里程碑。


(注:本文部分数据与图表引用自Qwen2.5-VL技术报告,详情请参考原文。)

以下为Qwen2.5-VL技术报告原文和中文翻译版,仅供学习参考:

Native Sparse Attention(NSA):重新定义长上下文建模的效率与性能

2025-02-18 22:59:35

编者注:DeepSeek团队的最新论文:Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention

论文链接:https://arxiv.org/abs/2502.11089

值得一提的是,幻方科技、DeepSeek 创始人梁文锋也是论文的作者之一。以下是论文解读:

引言

随着大语言模型(LLM)在复杂推理、代码生成和多轮对话等任务中的广泛应用,长上下文建模能力成为新一代模型的核心需求。然而,传统的全注意力机制(Full Attention)在处理长序列时面临高昂的计算成本,尤其是序列长度超过万级时,注意力计算占用了70%以上的延迟。尽管现有稀疏注意力方法试图通过减少计算量提升效率,但它们往往在硬件对齐性、训练支持或性能保持上存在显著缺陷。DeepSeek团队提出的Native Sparse Attention(NSA),通过动态分层稀疏策略和硬件优化设计,为这一难题提供了全新的解决方案。


NSA的核心设计

NSA的核心理念是分层稀疏,通过三路并行注意力机制平衡全局与局部信息的捕捉:

  1. 压缩注意力(Compressed Attention)
    将序列划分为连续块,通过可学习的MLP生成压缩的块级表示,大幅减少需处理的键值对数量。例如,块长度l=32l=32时,压缩后的键值数量仅为原始序列的1/32,显著降低计算开销。
  2. 选择注意力(Selected Attention)
    基于压缩块的注意力得分,动态筛选出对当前查询最重要的细粒度块(如Top-16块)。这种块级选择策略不仅符合注意力得分的空间连续性规律,还通过硬件友好的连续内存访问优化了GPU计算效率。
  3. 滑动窗口注意力(Sliding Window)
    保留局部窗口内的原始键值(如最近512个令牌),防止模型因过度依赖压缩和选择路径而忽略局部模式。三路注意力的输出通过门控机制动态加权融合,确保信息的完整性和灵活性。

创新亮点

1. 硬件对齐的算法设计

NSA针对现代GPU的Tensor Core特性优化内存访问模式:

  • 组中心数据加载(Group-Centric Data Loading):以GQA(Grouped-Query Attention)组为单位加载查询和键值块,减少内存访问碎片化。
  • 连续块计算:选择注意力仅加载连续的键值块,避免随机索引导致的低效内存访问,充分利用GPU的并行计算能力。

实验显示,NSA在64k序列长度下实现了11.6倍解码加速9.0倍前向传播加速6.0倍反向传播加速,且加速比随序列长度增长持续提升(图1)。

2. 端到端的可训练性

NSA首次实现了原生可训练的稀疏注意力架构

  • 梯度反向传播支持:通过可微的块选择机制(基于压缩注意力得分派生),避免传统方法中离散操作(如聚类、哈希)导致的梯度断裂问题。
  • 训练稳定性:独立的注意力分支设计(压缩、选择、滑动窗口)减少了梯度干扰,确保模型在长序列预训练中稳定收敛(图4)。

性能表现

通用任务与长上下文任务

在27B参数的模型上,NSA在多项基准测试中全面超越全注意力基线(表1-2):

  • 通用任务:在MMLU(知识)、GSM8K(数学推理)、HumanEval(代码生成)等任务中,NSA平均得分提升1.3%,尤其在推理任务(DROP、GSM8K)上优势显著。
  • 长上下文任务:在64k长度的“大海捞针”测试中,NSA实现100%的检索准确率(图5)。在LongBench多文档QA和代码任务中,NSA以0.469的平均分领先全注意力模型(0.437)和其他稀疏方法(如H2O、InfLLM)。

推理与训练效率

  • 推理加速:64k序列的解码速度提升11.6倍,内存访问量仅为全注意力的1/11(表4)。
  • 训练成本:通过Triton优化的稀疏核,NSA在预训练中减少30%的计算资源消耗,同时保持更优的收敛曲线(图6)。

讨论与启示

NSA的成功揭示了稀疏注意力设计的两个关键原则:

  1. 硬件感知的算法设计:计算效率的提升需紧密结合硬件特性(如内存带宽、Tensor Core利用率),而非单纯追求理论计算量的减少。
  2. 训练与推理的协同优化:仅优化推理阶段的稀疏性会导致模型偏离预训练轨迹,而原生可训练的稀疏架构能更充分地挖掘长上下文潜力。

未来,NSA的模块化设计有望扩展至多模态、实时交互等场景,例如处理超长视频序列或实时代码仓库分析。此外,其分层稀疏思想也可启发更高效的MoE(Mixture-of-Experts)模型优化。


结语

NSA通过创新的分层稀疏架构和硬件对齐优化,在长上下文建模中实现了效率与性能的兼得。它不仅为当前LLM的规模化应用提供了实用工具,更重新定义了稀疏注意力机制的设计范式——从“计算量削减”转向“硬件-算法-训练”的全栈协同优化。这一突破或将加速下一代千亿级长上下文模型的落地,推动AI在复杂任务中的边界进一步拓展。

以下为中文翻译版:

如何构建和优化推理型大型语言模型?DeepSeek R1的启示

2025-02-09 14:05:04

前两天国外大模型领域知名博主 Sebastian Raschka 发表了一篇”理解推理大模型“的文章:

Understanding Reasoning LLMs

Methods and Strategies for Building and Refining Reasoning Models

https://sebastianraschka.com/blog/2025/understanding-reasoning-llms.html

这篇文章非常棒,主要讨论了如何构建和改进具有推理能力的大型语言模型(LLMs),特别是DeepSeek R1模型的开发过程,以及四种主要的构建推理模型的方法。以下是该文的简要解读,中文翻译版可以参考文末的pdf附件。

一、什么是推理模型?

在AI领域,「推理模型」特指能够处理多步骤复杂任务的大型语言模型(LLMs)。与简单的事实问答(如“法国的首都是哪里?”)不同,推理模型需要拆解问题、生成中间步骤,最终得出答案。例如:

  • 数学题:计算7^999的最后一位数字,需通过观察幂次循环规律(7→9→3→1)并取余推导。
  • 逻辑谜题:16个球中一半是高尔夫球,其中一半是蓝色,需分步计算总数。
  • 编程挑战:验证代码的正确性并推导解决方案。

这类模型的输出通常包含显式的思考过程(如公式推导),或隐式地通过多轮迭代优化答案。


二、推理模型的优势与局限

优势

  1. 复杂任务表现优异:擅长数学证明、代码调试、逻辑谜题等需要分步推理的任务。
  2. 更好的泛化能力:能处理未见过的复杂问题类型。
  3. 支持链式思考(Chain-of-Thought):通过中间步骤提高答案的可解释性和准确性。

局限

  1. 成本高昂:推理时需要更多计算资源,生成更多token。
  2. 简单任务效率低:对知识型问答或翻译等任务可能“过度思考”,导致延迟和错误。
  3. 依赖高质量数据:训练需大量标注的中间步骤数据,否则易产生“幻觉”。

三、DeepSeek R1的四大训练策略

Sebastian Raschka以DeepSeek R1为例,总结了构建推理模型的四种核心方法:

1. 推理时扩展(Inference-Time Scaling)

  • 核心思想:通过增加推理时的计算资源提升表现,类似人类“多花时间思考”。
  • 实现方式
    • 链式提示(CoT Prompting):在输入中加入“逐步思考”等指令,强制模型生成中间步骤。
    • 多数投票(Majority Voting):生成多个答案后选择最优解。
    • 搜索策略(Beam Search/Lookahead):结合奖励模型筛选最佳路径。
  • 典型案例:OpenAI的o1模型可能采用此策略,导致其推理成本高于GPT-4。

2. 纯强化学习(Pure RL)

  • 突破性发现:DeepSeek-R1-Zero证明,推理能力可通过纯强化学习自发涌现
  • 训练流程
    • 从预训练模型DeepSeek-V3(671B参数)出发,跳过监督微调(SFT)。
    • 使用两种奖励信号:准确性(代码编译验证/数学结果校验)和格式(LLM判断输出规范性)。
  • 结果:模型自主生成中间思考步骤,如解方程时的“啊哈时刻”(Aha Moment)。

3. 监督微调+强化学习(SFT + RL)

  • DeepSeek-R1的核心方法
    1. 用R1-Zero生成初始“冷启动”SFT数据。
    2. 监督微调(SFT)优化模型表现。
    3. 二次强化学习(RL)加入一致性奖励,防止语言混合。
    4. 最终结合60万条链式思考(CoT)数据和20万条知识数据二次训练。
  • 效果:在数学、代码等基准测试中显著超越纯RL模型(如AIME得分从71.0提升至79.8)。

4. 蒸馏(Distillation)

  • 目标:将大模型能力迁移到小模型,降低部署成本。
  • DeepSeek实践
    • 用R1生成的SFT数据微调Llama和Qwen系列小模型(1.5B~70B参数)。
    • 结果:32B的蒸馏模型性能接近R1-Zero,成本大幅降低。
  • 启示:蒸馏虽依赖大模型,但为预算有限的研究者提供了可行路径。

四、低成本开发推理模型的实践案例

案例1:Sky-T1(450美元训练)

  • 方法:仅用1.7万条SFT数据微调32B模型。
  • 效果:性能接近OpenAI o1,成本不到学术会议注册费。

案例2:TinyZero(30美元训练)

  • 方法:对3B模型应用纯强化学习。
  • 突破:小模型展现出自我验证能力(如修正错误计算步骤)。

新方向:旅程学习(Journey Learning)

  • 核心:在SFT数据中引入错误路径和纠错过程,模拟人类试错学习。
  • 潜力:可能提升模型的自我修正能力,减少“幻觉”。

五、总结与展望

  • 推理模型的核心价值:解决复杂问题,但需权衡成本与任务需求。
  • 技术趋势:RL+SFT+推理时扩展的组合策略将成主流(如DeepSeek R1与o1的较量)。
  • 开源与低成本化:蒸馏和小规模RL实验(如TinyZero)为社区提供了新工具。

未来,随着“旅程学习”等方法的成熟,推理模型有望在保持高效的同时,进一步逼近人类的思考深度。正如Raschka所言:“我们正见证AI推理能力的黎明。”


延伸阅读

(本文为Sebastian Raschka原文的归纳与解读,部分案例为作者补充说明。)

以下是该文的中文翻译版本,仅供学习参考:

Kimi k1.5 报告解读及中文版技术报告

2025-01-24 12:47:08

前几天Kimi 发布了k1.5,报告原文:

https://github.com/MoonshotAI/Kimi-k1.5/blob/main/Kimi_k1.5.pdf

以下是该论文的解读,由kimi辅助完成:

这篇论文是关于 Kimi k1.5 的技术报告,详细介绍了一种基于强化学习(Reinforcement Learning, RL)训练的多模态大型语言模型(LLM)。论文的核心内容包括模型的设计、训练方法、多模态数据处理以及在多个基准测试中的表现。以下是对论文的详细解读:


1. 研究背景与动机

传统的语言模型预训练方法(如基于下一个词预测的任务)在提升模型性能方面已经取得了显著成果,但这种方法受限于可用的高质量训练数据量。为了突破这一限制,研究者们开始探索利用强化学习(RL)来扩展模型的训练数据,通过奖励机制让模型自主探索,从而实现更高效的训练和性能提升。

然而,以往的基于RL的LLM训练方法并未取得理想的结果。因此,Kimi k1.5的开发旨在探索一种新的训练框架,通过长文本上下文扩展(Long Context Scaling)和改进的策略优化方法(Improved Policy Optimization),在不依赖复杂技术(如蒙特卡洛树搜索、价值函数等)的情况下,实现高效的强化学习训练。


2. Kimi k1.5 的关键设计与训练方法

2.1 长文本上下文扩展(Long Context Scaling)

Kimi k1.5将上下文窗口扩展到128k,通过部分轨迹回放(Partial Rollouts)技术提高训练效率。这种方法允许模型在训练过程中重用之前轨迹的大块内容,避免从头生成新轨迹的成本。研究发现,上下文长度的增加可以显著提升模型性能,尤其是在复杂任务上。

2.2 改进的策略优化方法(Improved Policy Optimization)

论文提出了一种基于在线镜像下降(Online Mirror Descent)的变体,用于鲁棒的策略优化。该方法通过有效的采样策略、长度惩罚和数据配方优化,进一步提升了模型的训练效果。具体来说:

  • 采样策略:通过课程学习(Curriculum Sampling)和优先采样(Prioritized Sampling)方法,让模型先从简单任务开始,逐步过渡到复杂任务,并且更多地关注模型表现不佳的任务。
  • 长度惩罚:为了避免模型生成过长的推理过程,引入了长度惩罚机制,鼓励模型生成更简洁的推理路径。

2.3 多模态能力(Multimodalities)

Kimi k1.5是一个多模态模型,能够同时处理文本和视觉数据。这种能力使得模型可以在多个模态之间进行联合推理,例如在解决数学问题时结合图像和文本信息。


3. 强化学习训练框架

Kimi k1.5的训练分为预训练、监督微调(SFT)、长链推理(Long-CoT)监督微调和强化学习(RL)四个阶段。论文重点介绍了RL阶段的设计和实现。

3.1 RL提示集构建(RL Prompt Set Curation)

为了确保RL训练的有效性,研究者精心设计了一个高质量的提示集,涵盖多个学科领域(如STEM、编程和通用推理),并确保提示的难度分布均衡、可客观评估。此外,通过模型自身的能力评估提示的难度,并排除容易被“奖励黑客攻击”的问题。

3.2 长链推理监督微调(Long-CoT Supervised Fine-Tuning)

在RL训练之前,模型通过长链推理监督微调,学习生成详细的推理路径。这种方法类似于拒绝采样(Rejection Sampling),但专注于生成长链推理路径,帮助模型掌握规划、评估、反思等人类推理策略。

3.3 强化学习训练策略(RL Training Strategies)

在RL训练中,模型通过生成推理路径(CoT)和最终答案来解决问题,并根据奖励模型(Reward Model)的反馈进行优化。论文提出了一种基于规划算法的视角,将推理过程视为一个搜索树的构建过程,模型通过自回归预测直接在推理空间中进行隐式搜索。


4. 实验与结果

Kimi k1.5在多个基准测试中表现出色,尤其是在长链推理(Long-CoT)和短链推理(Short-CoT)任务上。具体结果如下:

4.1 长链推理模型(Long-CoT Model)

  • 数学推理:在MATH-500上达到96.2的EM分数,在AIME 2024上达到77.5的Pass@1分数,与OpenAI的o1模型相当。
  • 编程能力:在Codeforces上达到94百分位,表现出色。
  • 视觉推理:在MathVista上达到74.9的Pass@1分数。

4.2 短链推理模型(Short-CoT Model)

通过长链推理技术改进短链推理模型,Kimi k1.5在多个任务上超越了现有短链推理模型(如GPT-4o和Claude Sonnet 3.5),性能提升显著:

  • 数学推理:在MATH-500上达到94.6的EM分数,在AIME 2024上达到60.8的Pass@1分数。
  • 编程能力:在LiveCodeBench上达到47.3的Pass@1分数。

5. 长链到短链推理技术(Long2Short Methods)

为了将长链推理模型的优势转移到短链推理模型中,论文提出了一系列方法,包括模型融合(Model Merging)、最短拒绝采样(Shortest Rejection Sampling)和长链到短链强化学习(Long2Short RL)。这些方法显著提高了短链推理模型的性能和token效率。


6. 训练基础设施与优化

论文还介绍了Kimi k1.5的训练基础设施,包括大规模强化学习训练系统的设计和优化。例如:

  • 部分轨迹回放(Partial Rollouts):通过将长轨迹分解为多个片段,优化了长文本上下文的处理效率。
  • 混合部署策略(Hybrid Deployment):通过共享GPU资源,实现了训练和推理任务的高效并行化。
  • 代码沙盒(Code Sandbox):为代码执行任务提供了一个安全、高效的执行环境。

7. 结论与未来工作

Kimi k1.5通过长文本上下文扩展和改进的策略优化方法,在多模态推理任务中取得了显著的性能提升。未来的工作方向可能包括:

  • 进一步优化长文本上下文的训练效率。
  • 探索更高效的信用分配方法,减少模型的“过度思考”。
  • 结合长链到短链技术,进一步提升模型的token效率。

总结

这篇论文展示了Kimi k1.5作为一种新型多模态LLM的设计和训练方法,特别是在强化学习框架下的长文本上下文扩展和策略优化方面的创新。通过详细的实验和结果分析,论文证明了Kimi k1.5在多个基准测试中的优越性能,为未来LLM的发展提供了新的方向。

以下是我用gpt辅助翻译的kimi k1.5技术报告中文版,仅供参考学习:

深度解读:DeepSeek-R1——强化学习如何重塑语言模型的推理能力?

2025-01-22 18:17:27

前两天DeepSeek发布了DeepSeek R1的报告:

技术报告原文:https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

我让DeepSeek做了一件事,将其全文翻译为中文,以下是技术报告中文翻译版本,仅供参考:

以下是这篇论文的解读,由DeepSeek辅助完成。

近年来,大型语言模型(LLMs)在自然语言处理领域取得了显著进展,但其核心推理能力仍面临挑战。传统方法多依赖监督微调(SFT)和复杂的提示工程,而DeepSeek-AI团队的最新研究《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》提出了一种革命性路径:通过纯强化学习(RL)自主激发模型的推理能力,并结合蒸馏技术实现高效迁移。本文将从技术突破、实验成果与行业影响三个维度,深度解析这一研究的核心价值。


一、技术突破:从零开始的推理能力进化

1. DeepSeek-R1-Zero:纯RL训练的“自我觉醒”

传统LLM的推理能力通常需要大量人工标注的监督数据,但DeepSeek-R1-Zero首次验证了无需任何SFT数据,仅通过强化学习即可实现推理能力的自主进化。其核心创新在于:

  • 算法框架:采用Group Relative Policy Optimization(GRPO),通过组内奖励对比优化策略,避免传统RL中复杂价值模型的依赖。
  • 自我进化现象:模型在训练中自发涌现出“反思”(Re-evaluation)、“多步验证”(Multi-step Verification)等复杂推理行为。例如,在解决数学方程时,模型会主动纠正早期错误步骤(如表3的“Aha Moment”)。
  • 性能飞跃:在AIME 2024数学竞赛任务中,模型Pass@1准确率从初始的15.6%提升至71.0%,多数投票(Majority Voting)后更达86.7%,与OpenAI的o1-0912模型持平。

然而,纯RL训练的代价是可读性差与多语言混杂。模型生成的推理过程常包含中英文混合、格式混乱等问题,限制了实际应用。

2. DeepSeek-R1:冷启动与多阶段训练的平衡之道

为解决上述问题,团队提出**“冷启动+多阶段RL”策略**:

  • 冷启动阶段:引入数千条高质量长推理链数据对基础模型微调,强制规范输出格式(如<think>推理过程</think>标签),提升可读性。
  • 两阶段强化学习
    1. 推理导向RL:结合规则奖励(答案准确性、语言一致性),优化数学、编程等结构化任务表现。
    2. 通用对齐RL:融入人类偏好奖励模型(Helpfulness & Harmlessness),确保模型在开放域任务中的安全性与实用性。
  • 性能对标:DeepSeek-R1在MATH-500(97.3% Pass@1)、Codeforces(超越96.3%人类选手)等任务上达到与OpenAI-o1-1217相当的水平,同时在MMLU(90.8%)、GPQA Diamond(71.5%)等知识密集型任务中显著超越前代模型。

二、实验验证:推理能力的全方位跃升

1. 基准测试:超越顶尖闭源模型

论文在20余项基准任务中对比了DeepSeek-R1与Claude-3.5、GPT-4o、OpenAI-o1系列等模型(表4),关键结论包括:

  • 数学与编程:AIME 2024(79.8%)、MATH-500(97.3%)、LiveCodeBench(65.9%)等任务表现全面领先,Codeforces评分(2029)接近人类顶尖选手。
  • 知识密集型任务:MMLU(90.8%)、GPQA Diamond(71.5%)等得分显著高于DeepSeek-V3,逼近OpenAI-o1-1217。
  • 通用能力:AlpacaEval 2.0(87.6%胜率)、长上下文理解(如FRAMES任务82.5%)表现突出,证明RL训练可泛化至非推理场景。

2. 蒸馏技术:小模型的逆袭

通过将DeepSeek-R1生成的80万条数据用于微调开源模型(Qwen、Llama系列),团队实现了推理能力的高效迁移

  • 小模型性能飞跃:7B参数模型在AIME 2024上达55.5%,超越32B规模的QwQ-Preview;70B蒸馏模型在MATH-500(94.5%)等任务接近o1-mini。
  • 开源贡献:发布1.5B至70B的蒸馏模型,为社区提供低成本、高性能的推理解决方案。

三、行业启示:AGI之路的新范式

1. 纯RL训练的价值与挑战

DeepSeek-R1-Zero的成功证明,无需人工标注的RL训练可自主挖掘模型的推理潜力。这一发现挑战了传统LLM依赖监督数据的范式,为AGI研究提供了新思路。然而,其局限性(如可读性差)也表明,完全自主进化仍需与人类先验知识结合。

2. 蒸馏技术的普惠意义

通过蒸馏实现推理能力迁移,不仅降低了计算成本,更使小模型在特定任务中媲美大模型。例如,7B模型在数学任务上超越GPT-4o,这为边缘计算、实时应用场景提供了可行方案。

3. 开源生态的推动力

DeepSeek团队开源了R1-Zero、R1及多个蒸馏模型,涵盖Qwen和Llama架构。这一举措不仅加速了学术研究,更助力企业低成本部署高性能推理模型,推动AI技术的民主化。


四、未来展望:从推理到通用智能

尽管DeepSeek-R1取得了突破,其局限仍指向未来方向:

  • 多语言与工程任务:当前模型优化以中英文为主,其他语言支持有限;软件工程任务因评估效率问题提升缓慢。
  • 长推理链的扩展:探索CoT在函数调用、多轮对话等复杂场景的应用。
  • 安全与可控性:RL训练中奖励模型的设计需进一步平衡性能与伦理约束。

结语

DeepSeek-R1的研究标志着LLM推理能力进化的一次重要跨越。通过纯强化学习与蒸馏技术,团队不仅验证了模型自主进化的可能性,更构建了从理论研究到产业落地的完整链条。这一工作为AGI的发展提供了新范式:在减少对人类先验依赖的同时,通过算法创新与开源协作,推动智能技术的普惠与深化。未来,随着更多类似研究的涌现,我们或许正站在通用人工智能的真正起点。