MoreRSS

site icon52nlp | 我爱自然语言处理修改

一个自然语言处理爱好者的群体博客。
请复制 RSS 到你的阅读器,或快速订阅到 :

Inoreader Feedly Follow Feedbin Local Reader

52nlp | 我爱自然语言处理的 RSS 预览

Qwen3-VL技术报告英中对照版.pdf

2025-11-29 18:34:27

Qwen3-VL 是阿里推出的最先进多模态基础模型,面向文本、图像、PDF、表格、界面(GUI)与视频的统一理解和推理任务。它具备 256K 原生上下文 的长文能力,能够跨数百页文档、完整教材、长视频进行稳定关联、定位与引用,是面向企业真实场景的全栈多模态引擎。

模型体系覆盖 2B / 4B / 8B / 32B Dense,以及 30B-A3B / 235B-A22B MoE,在延迟、吞吐与精度间提供灵活选择。多模态训练不仅未削弱语言能力,反而在多个 NLP benchmark 上优于纯文本大模型,使其在文本任务上也具备强竞争力。

技术核心升级有三点:

  1. Interleaved-MRoPE:将时间/水平/垂直的频率交错排列,解决旧式 MRoPE 在长视频中的频率偏置问题,使视频时空建模更稳定。
  2. DeepStack 视觉跨层注入:从视觉编码器的多个层级提取特征并注入 LLM 对应层,融合低层细节与高层语义,大幅提升视觉理解与推理精度。
  3. 文本式时间戳:用 <3.0 seconds> 这种显式 token 替代复杂的时间编码,为长时间序视频带来更可控、更通用的时间理解能力。

训练采用 四阶段预训练(8K→32K→256K)+ SFT + 强到弱蒸馏 + RL(Reasoning + General) 的完整体系,并提供 Thinking / Non-Thinking 双模式,兼顾推理能力与速度。

数据方面构建了庞大的多模态体系:高质量图文、网页与教材、PDF 解析(HTML/Markdown)、39 语言 OCR、3D/空间理解、动作/事件级视频语义、跨层 grounding、超过 6000 万的 STEM 题目、以及 GUI 与多工具 Agent 行为数据,使其具备高度覆盖现实场景的能力。

性能上,235B-A22B 在多模态推理、长文档理解、视频理解、OCR、空间推理等关键任务中普遍领先,部分任务接近或超过 Gemini 2.5 Pro / GPT-5 / Claude Opus;而 32B 也显著领先 GPT-5-mini 和 Gemini Flash,同等尺寸小模型(2B/4B/8B)在轻量级场景中具有强竞争力。

综合来看,Qwen3-VL 是面向企业场景的 多模态智能底座,可胜任从长 PDF 解析、图表理解、界面自动化、流程 Agent,到视频监控分析、技术文档检索、多模态代码生成等核心任务,覆盖从“理解 → 推理 → 决策 → 自动执行”的全链路智能能力。

附该技术报告英中对照版,仅供学习参考:

DeepSeek-V3.2-Exp:用稀疏注意力实现更高效的长上下文推理

2025-09-30 09:01:43

近年来,大语言模型在处理长文本任务中展现出强大能力,但也面临着计算复杂度高、推理速度慢的挑战。DeepSeek-AI 最近发布了实验性模型 DeepSeek-V3.2-Exp,通过引入一种新颖的稀疏注意力机制(DeepSeek Sparse Attention, DSA),在保持模型性能的同时,显著提升了长上下文任务中的训练与推理效率。

什么是 DeepSeek Sparse Attention?

DeepSeek Sparse Attention 主要由两个部分组成:

  1. 闪电索引器(Lightning Indexer)
  2. 细粒度令牌选择机制(Fine-Grained Token Selection)

传统的注意力机制在计算时需要关注序列中所有之前的令牌,导致计算复杂度为 O(L2)O(L2),其中 LL 是序列长度。而 DSA 通过索引器为每个查询令牌筛选出最相关的 kk 个键值令牌,将复杂度降至 O(L⋅k)O(Lk),其中 k≪LkL

具体来说,索引器会为每个查询令牌计算一个“注意力分数”,并只保留分数最高的 kk 个令牌参与后续的注意力计算。这一机制不仅减少了计算量,还保留了模型对关键信息的捕捉能力。

模型训练:从密集到稀疏

DeepSeek-V3.2-Exp 是基于 DeepSeek-V3.1-Terminus 继续训练得到的。训练过程分为两个阶段:

  1. 密集预热阶段:仅训练索引器,保持其余参数不变,使其输出的分数分布与原始注意力分布对齐。
  2. 稀疏训练阶段:引入令牌选择机制,同时优化索引器和主模型参数,使模型适应稀疏注意力模式。

整个训练过程使用了 128K 长度的上下文数据,总计训练了近千亿令牌。

性能表现:效率提升,性能不降

在多项基准测试中,DeepSeek-V3.2-Exp 的表现与 V3.1-Terminus 基本持平,甚至在部分任务中有所提升。例如:

  • 通用能力:MMLU-Pro、GPQA 等任务中表现稳定
  • 搜索与代码任务:BrowseComp、Codeforces 等任务中略有提升
  • 数学推理:AIME 2025 中表现更优

更重要的是,在长上下文推理场景中,V3.2-Exp 的推理成本显著降低。图3显示,随着序列长度增加,其推理速度优势愈发明显。

技术细节:MLA 架构下的 DSA 实现

DSA 是基于 DeepSeek 自研的 MLA(Multi-head Latent Attention)架构实现的,特别采用了 MQA(Multi-Query Attention)模式,使得每个键值条目可以被多个查询头共享,进一步提升计算效率。

未来展望

尽管内部测试结果令人鼓舞,DeepSeek-AI 仍在积极推进在真实场景中的大规模测试,以进一步验证稀疏注意力架构的鲁棒性与实用性。

小结

DeepSeek-V3.2-Exp 的发布,不仅展示了一种高效的长上下文处理方案,也为大模型在保持性能的同时降低计算成本提供了新的思路。如果你对技术细节感兴趣,可以访问其开源实现:


希望这篇博客能帮助你理解 DeepSeek-V3.2-Exp 的核心价值与技术亮点。如果你有更多问题,欢迎继续提问!附该技术报告英中对照版,仅供学习参考:

LongCat-Flash:美团发布的高效MoE大模型,支持智能体任务,推理速度达100 token/秒

2025-09-01 15:23:24

近日,美团 LongCat 团队发布了 LongCat-Flash 模型及技术报告,这是一款总参数量达 5600亿 的混合专家模型(Mixture-of-Experts, MoE),在保持高性能的同时,显著提升了训练与推理效率,尤其擅长处理需要多步推理和工具调用的智能体(Agent)任务

一、核心创新:动态计算与通信优化

1. Zero-Computation Experts(零计算专家)

传统MoE模型中,每个token都会激活固定数量的专家,但LongCat-Flash引入了“零计算专家”机制,允许模型根据上下文重要性动态分配计算资源。简单来说,重要的token会激活更多专家,不重要的则激活较少甚至零计算专家,直接返回输入值,不进行额外计算。

  • 每token激活参数量在 186亿~313亿 之间波动,平均约为 270亿
  • 通过PID控制器动态调节专家偏置,保持计算负载均衡;
  • 在相同计算预算下,相比固定激活策略,验证损失显著降低

2. Shortcut-Connected MoE(快捷连接MoE)

MoE模型在扩展时常遇到通信瓶颈。LongCat-Flash采用ScMoE结构,通过跨层快捷连接,将密集FFN计算与MoE层的通信操作重叠执行,大幅提升训练和推理效率。

  • 训练损失与基线模型几乎一致,不影响模型质量
  • 推理时采用单批次重叠(SBO)调度,理论时间每输出token(TPOT)降低近50%。

二、训练策略:高效扩展与稳定性保障

1. 超参数迁移与模型增长

  • 通过宽度缩放规则,将小模型(宽度768)的最佳超参数迁移到大模型(宽度6144),大幅节省调参成本;
  • 采用模型增长初始化,将训练好的半规模模型堆叠成完整模型,加速收敛并提升最终性能。

2. 多维度稳定性控制

  • 路由器稳定性:监控专家权重相似度和梯度范数比,防止负载均衡损失压制语言建模损失;
  • 激活稳定性:引入隐藏z-loss,抑制异常大幅激活,避免训练中的数值溢出;
  • 优化器稳定性:将Adam的ε设为极小的1e-16,避免梯度二阶矩被淹没。

三、多阶段训练与数据策略

1. 预训练阶段

  • 使用超过20万亿token的多语料数据,涵盖网页、书籍、代码等;
  • 采用两阶段数据混合策略,逐步提升STEM和代码数据的比例至70%;
  • 支持128K长上下文,适用于长文档理解和代码库级任务。

2. 中训练与后训练

  • 中训练:增强推理与代码能力,使用合成数据和知识图谱构建高质量问题;
  • 后训练:针对智能体任务,构建多智能体合成框架,生成高难度、多轮交互的任务数据;
  • 涵盖数学、代码、逻辑推理、指令遵循、长上下文、安全性等多个维度。

四、推理与部署:高吞吐、低延迟

1. 系统级优化

  • 使用多token预测(MTP) 作为推测解码的草案模型,接受率超90%;
  • 采用分层传输分层量化,减少KV缓存传输开销;
  • 支持FP8量化,在几乎不损失精度的情况下提升吞吐量。

2. 实测性能

  • 在H800上推理速度达 100 token/秒,成本低至 $0.7 / 百万输出token
  • 在终端任务(TerminalBench)上表现优异,得分39.51,排名第二;
  • 在自建智能体评测集VitaBench上取得最高分24.30,展现强大复杂任务处理能力。

五、综合评测结果

LongCat-Flash在多项基准测试中表现优异:

  • 通用能力:MMLU 89.71,CEval 90.44,ArenaHard-V2 86.50;
  • 数学推理:MATH500 96.40,AIME25 61.25;
  • 代码生成:HumanEval+ 65.85,TerminalBench 39.51;
  • 智能体工具使用:τ²-Bench 电信场景73.68,VitaBench 24.30;
  • 安全性:在有害内容、犯罪信息、隐私保护等维度表现突出。

六、开源与社区贡献

LongCat-Flash已全面开源,包括模型权重、推理代码和部分训练数据,推动MoE架构、高效训练与智能体研究的进一步发展。

结语

LongCat-Flash不仅在模型架构上实现创新,更在训练策略、系统优化和智能体能力培养方面树立了新的标杆。其高效的推理性能和优秀的任务表现,使其成为业界领先的开源MoE模型之一,有望推动AI智能体在真实场景中的广泛应用。

附美团LongCat-Flash模型技术报告英中对照版,仅供学习参考:

GLM-4.5:三体合一的开源智能体大模型,重新定义AI推理边界

2025-08-11 17:14:58

在追求通用人工智能(AGI)的道路上,智能体能力(Agentic)复杂推理(Reasoning) 和编程能力(Coding) 是衡量大模型综合实力的“黄金三角”。而最新开源的 GLM-4.5 系列,正是以“ARC三位一体”为目标打造的超级模型,以3550亿参数登顶全球开源模型性能前三!


一、核心突破:MoE架构 + 混合推理模式

1. 高能效设计

  • 总参数3550亿,激活参数仅320亿(MoE稀疏激活),计算效率提升3倍
  • 对比:参数量仅为DeepSeek-V3(6710亿)的一半,Kimi-K2(10430亿)的1/3
  • GLM-4.5-Air轻量版:1060亿参数,性能仍超多数百亿级模型

2. 混合推理引擎

markdown

| 推理模式     | 适用场景                  | 技术特点               |
|--------------|---------------------------|------------------------|
| 思考模式     | 数学/科学/多步工具调用    | 长链式思维(CoT)      |
| 直答模式     | 聊天/翻译/简单问答        | 低延迟响应             |

模型可动态切换模式——复杂问题启动深度思考,简单任务秒级回应,兼顾效率与精度。


二、性能屠榜:ARC三项全能冠军

1. 智能体能力(Agentic)

  • TAU-Bench(真实场景工具调用):79.7% 准确率,超越Gemini 2.5 Pro
  • BrowseComp(网页信息检索):26.4%,碾压Claude Opus 4 (18.8%)
  • 创新函数调用模板:用XML标签替代JSON,减少90%转义字符(见图4)

2. 推理能力(Reasoning)

  • AIME 24(国际数学竞赛题):91.0% 正确率,逼近人类奥赛选手水平
  • HLE人类终极考试:14.4% 得分,全球仅4个模型超过10%
  • 动态温度采样RL:防止强化学习后期陷入局部最优

3. 编程能力(Coding)

  • SWE-bench Verified(真实GitHub issue修复):64.2% 通过率
  • Terminal-Bench(终端操作):37.5%,超越Claude Sonnet 4
  • CC-Bench实测:工具调用成功率90.6%,碾压Qwen3-Coder(77.1%)

🔥 综合ARC 12项基准:全球排名第3(开源第1),智能体单项排名第2!


三、训练黑科技:三阶段锻造ARC铁三角

1. 预训练数据革命

  • 23T高质量Token,分层处理网页/代码/学术数据
  • 创新过滤技术:
    • SemDedup:语义去重剔除模板网页
    • 质量分桶:高分数据重复3.2个epoch,强化核心知识

2. 中训练(Mid-Training)

  • 128K上下文支持:从4K→128K分阶段扩展,RoPE频率调整至100万
  • 跨文件代码训练:拼接同仓库代码文件,学习项目级依赖

3. 后训练专家蒸馏

python

# 专家迭代流程
1. 分领域训练专家模型:推理专家 + 智能体专家 + 通用聊天专家
2. 自我蒸馏融合:将专家能力注入统一模型
3. 混合强化学习:
   - 推理RL:难度分级课程(先易后难)
   - 智能体RL:轨迹自蒸馏迭代
   - 病理RL:根治语言混合/格式错误

四、真实场景碾压性体验

1. 逻辑推理

  • 新构建高难度逻辑题库:62.0分,持平DeepSeek-R1(62.1)
  • 动态规划/归纳推理错误率降低37%

2. 颠覆级翻译能力

  • 理解网络梗+文化符号:如“yyds”→“永远的神”
  • 上下文推理:输入:“三花公主驾到,速来围观”
    输出:“The Calico Princess has arrived! Come and see!”
    (准确识别“三花”指三花猫)
  • 人类评分1.71,碾压专业翻译模型Qwen-MT(0.38)

3. 终端编程实测

  • Docker隔离环境测试52个开发任务:
    • VS Claude Sonnet 4:40.4%胜率 + 50%平局
    • VS Kimi K2:53.9%胜率,工具调用效率高4.4%

五、开源意义:中国大模型的新里程碑

💡 开发者提示:轻量版GLM-4.5-Air在106B参数下实现接近GPT-4的性能,推理成本降低60%!


结语:ARC时代的新王者

GLM-4.5不仅证明了中国团队在MoE架构和强化学习领域的顶尖实力,更首次实现智能体-推理-编程三大能力的统一。其开源将加速AI智能体的实际落地——从自动代码修复到网页信息挖掘,一个真正“会思考、能执行”的AI时代正在到来。

项目地址https://github.com/zai-org/GLM-4.5
在线体验https://z.ai (支持128K上下文对话)


延伸阅读:报告中隐藏的4大技术彩蛋👇

  1. 推理RL黑科技:Token加权损失函数,比序列级loss收敛快2倍
  2. 长轨迹智能体训练:异步RL框架Slime,支持Docker环境高并发
  3. 安全防护:SafetyBench综合得分89.9,伦理类问题94.3分
  4. 中文场景优化:文本生成得分9.0,逻辑推理9.27(满分10)

本文数据均来自GLM-4.5技术报告,更多技术细节参见原始论文,附英中技术报告对照版,仅供学习参考:

OpenAI gpt-oss-120b &amp; gpt-oss-20b 模型技术报告英中对照版

2025-08-06 11:26:54

OpenAI 发布的 gpt-oss-120b 与 gpt-oss-20b 是首批面向开源社区、同时强调“强推理+工具调用”的权重开放模型。以下从性能、安全与生态三个维度给出简评。

  1. 性能:小模型也能打
    • 在 AIME、GPQA 等硬核数学与科学基准上,120b 版本已逼近 o4-mini,20b 版本虽参数少 6 倍,却仍能超过 o3-mini,验证了 MoE+可变推理长度方案的有效性。
    • 代码与工具场景是最大亮点:Codeforces Elo 2463(120b, high)、SWE-Bench Verified 62.4%,均刷新同尺寸开源模型纪录;τ-Bench 也展示了可插拔函数调用的工程友好性。
    • 多语言与医疗问答表现亮眼,HealthBench 上 120b 几乎对齐 o3,给低成本、本地部署的健康咨询带来想象空间。
  2. 安全:开放权重带来的“双刃剑”
    • 默认对齐:沿用 deliberative alignment 与 instruction hierarchy,标准违禁内容评估与 o4-mini 持平,Production Benchmarks 甚至略优,显示基础拒答能力已达标。
    • 风险上限:OpenAI 罕见地公开了“红队微调”实验——在内部用最强 RL 栈对 120b 进行生物与网络安全方向的对抗训练,结果仍“未触及 High 风险阈值”,并邀请 METR、SecureBio 等外部专家复核,为社区提供了可信的风险锚点。
    • 责任下沉:模型卡反复提醒“开源≠无责”,开发者需自行叠加内容审核、CoT 过滤与 prompt 防护,这对本地化部署者提出了更高工程要求。
  3. 生态与启示
    • Apache 2.0 许可证 + 量化到 4.25bit,使 120b 可单机 80 GB GPU 运行,20b 仅需 16 GB,门槛大幅降低。
    • Harmony chat format 与配套工具链(浏览、Python、开发者函数)提供了近似 ChatGPT 的代理体验,降低了二次开发成本。
    • 作为首批“官方开源推理模型”,其评估框架(生物、网络、AI 自我改进)与透明红队方法论,或将成为后续开源大模型的安全基线。


gpt-oss-120b/20b 的最大价值不仅是“性能对标闭源”,更在于示范了“开放权重+开放评估+可控风险”的新范式:让社区既能拿到可商用、可微调的强模型,又能复现其风险测量与缓解路径。对于追求本地私有化、成本敏感或需深度定制的开发者,这套组合极具吸引力;对于行业而言,它把“安全可验证的开源大模型”向前推进了一大步。

以下是该技术报告英中对照版,仅供学习参考:

从万亿参数到智能体:Kimi K2 技术报告全景解读

2025-07-22 14:13:07

1. 引言:为什么 K2 值得关注?

过去两年,大模型的竞争主线从「参数规模」转向「推理深度」再到今天的「智能体能力(Agentic Intelligence)」。
Kimi K2 用一份 32 页的技术报告告诉我们:开源模型第一次在「非思考」条件下,同时在代码、数学、工具调用三大硬核基准上逼近甚至超越 Claude-4 系列
更重要的是,K2 用一套完全开源的权重 + 数据管线 + RL 框架,把「智能体」这件事做到了可复现、可扩展、可落地。


2. 模型概览:一图看懂 K2 的「身材」

维度 K2 DeepSeek-V3 Llama4-Maverick
总参数 1.04 T (MoE) 671 B (MoE) 400 B (MoE)
激活参数 32 B 37 B 17 B
专家数 384 256 -
注意力头 64 (节省 83% FLOPs) 128 128
上下文 128 k 128 k 128 k

一句话总结:在同样 32 B 激活量的前提下,K2 把专家数提升到 384,用更稀疏但更大的「外脑」换来单位 FLOP 的更高收益。


3. 预训练:如何让 15.5 T tokens 发挥 30 T 的价值?

3.1 MuonClip:让 Muon 优化器告别“爆炸”

  • 痛点:Muon 比 AdamW token-efficient,但 attention logit 容易爆炸到 1000+,导致 loss spike。
  • 解法:提出 QK-Clip —— 每 head 实时检测 logit 最大值,仅在必要时对 Query/Key 权重做 per-head 的轻量级缩放。
  • 效果
    • 全 15.5 T tokens 零 loss spike
    • 小模型 ablation 显示对收敛几乎无损(<0.1%)。

3.2 数据炼金术:把一条知识变十条

  • Knowledge 重写管线
    • 风格多样化 prompt → chunk-wise 自回归改写 → 语义一致性校验;
    • SimpleQA 实验:10 次改写 + 1 次 epoch 比 10 次重复 epoch 绝对提升 5.2%
  • Math 重写管线
    • 引入 SwallowMath 的「学习笔记」格式,把数学证明改写成步骤化讲解;
    • 多语言翻译进一步扩量 30%。

结论:在高质量数据见顶的时代,「可控改写」成为新的数据杠杆。


4. 后训练:合成 20 k 工具 + RL 闭环

4.1 超级工具工厂:从 API 文档到可执行沙箱

K2 构建了一个三层合成管线:

  1. Tool Spec 生成
    • 3000+ 真实 MCP 工具(GitHub 爬取)
    • 20000+ LLM 合成工具,覆盖金融、机器人、软件等 50+ 领域
  2. Agent & Task 生成
    • Agent persona 随机采样(性格、知识、可用工具)
    • Rubric-based task:每个任务带成功标准、期望调用链
  3. Trajectory 生成与过滤
    • 多轮用户模拟 + 沙箱执行
    • LLM Judge 打分,保留 success rate > 90% 轨迹
    • Hybrid 沙箱:真实 Docker/K8s 环境 + 模拟器,兼顾规模与真实性

最终产出 数十万条 高质量工具调用轨迹,用于 SFT。

4.2 RL 框架:从可验证奖励到自我批判

  • Verifiable Rewards Gym
    • 数学、逻辑、代码、指令遵循等 100+ 任务,全部可自动判题;
    • 采用 预算控制:按任务类型设定 max_tokens,防止 RL 把答案写成小说。
  • Self-Critique Rubric Reward
    • 用 K2 自己当裁判, pairwise 比较回答;
    • 裁判模型在可验证任务上持续微调,保证主观打分不失焦。
  • 算法细节
    • 沿用 K1.5 的 policy gradient,新增:
      • PTX loss:混入高质量预训练数据,防止灾难遗忘;
      • Temperature decay:训练后期降温,提升稳定性。

5. 评估:把「非思考」做到极致

5.1 代码与软件工程

基准 K2 开源 SOTA 闭源标杆
SWE-bench Verified (multi-attempt) 71.6 % 54.6 % (DeepSeek) 80.2 % (Claude-4-Sonnet)
SWE-bench Multilingual 47.3 % 25.8 % 51.0 %
LiveCodeBench v6 53.7 % 46.9 % 48.5 %

解读:在「不思考」设定下,K2 把开源天花板抬高了 10~20 个百分点,与 Claude-4 的差距缩小到 5 个百分点以内。

5.2 工具调用

  • τ²-Bench (平均):66.1 %,领先第二名 17+ 点
  • ACEBench:76.5 %,超过 GPT-4.1(74.5 %)

5.3 数学 & STEM

  • AIME 2024:69.6 %(开源第一,领先 DeepSeek 10 点)
  • GPQA-Diamond:75.1 %(开源第一)

5.4 LMSYS Arena 真实用户投票

  • 7 月 17 日榜:开源第 1,全榜第 5,3 k+ 人类盲投

6. 系统:1 T 模型如何 30 秒热启动?

  • Colocated RL 架构
    • 训练 / 推理双引擎同节点,GPU 0 等待;
    • Checkpoint Engine 分布式广播,30 s 完成 1 T 参数更新。
  • Pipeline 优化
    • EP=16 最小专家并行,降低 all-to-all 开销;
    • FP8 缓存 + CPU offload,单机 30 GB 显存即可跑 128 k 上下文。

7. 局限与展望

作者坦诚当前局限:

  • 复杂推理下容易“话痨”,导致输出截断;
  • 工具定义模糊时误调用;
  • 单轮一次性项目生成成功率仍低于 Agentic 框架。

未来路线图:

  • 工具自省:让模型先判断“需不需要用工具”;
  • 推理-行动融合:把 long-CoT 与工具调用做成统一 token 预算;
  • 端侧轻量化:32 B 激活量已在 4090 可跑,下一步做 8 B/4 B 蒸馏。

8. 写给开发者 & 研究者的三点 takeaway

  1. 数据策略 > 参数魔法:在 1 T 参数以下,「高质量合成 + 重写」仍是提效最快路径。K2 的 rephrasing 代码已开源,可快速迁移到垂直领域。
  2. Agentic 数据管线可复制:工具-任务-轨迹三层抽象 + 混合沙箱,基本覆盖 80% 真实场景。
  3. RL 基础设施进入「工业化」阶段:30 秒热启动、万级并发沙箱、FP8 显存优化,意味着 RL 不再是炼丹,而是可规模化的产品组件。

9. 结语

Kimi K2 用 15.5 T tokens、32 B 激活、1 T 总参数,把「开源模型做不到的事」清单划掉了一大半。
更重要的是,它把「如何训练一个可落地的智能体」拆解成了可复现的配方:

高效优化器 + 合成数据工厂 + 可验证 RL = Agentic Intelligence at scale

接下来,轮到社区去玩出更多花样了。


附录:相关链接

附技术报告英中对照版,仅供学习参考: