MoreRSS

site iconBojie Li | 李博杰修改

首届 「华为天才少年」,中科大博士,AI 创业
请复制 RSS 到你的阅读器,或快速订阅到 :

Inoreader Feedly Follow Feedbin Local Reader

Bojie Li | 李博杰的 RSS 预览

DeepSeek V4 研讨会

2026-04-28 23:43:00

转载自《智能涌现》公众号:《别急着 All-in DeepSeek V4,先看看这 10 位从业者的真心话》

文 | 周鑫雨 王毓婵

编辑 | 杨轩

解读 DeepSeek V4 的技术报告,是这几天 AI 行业最狂热的集体活动。

V4 很强吗?在工程优化的维度中,答案是毋庸置疑的。过去,大家信奉 “Scaling Law 的暴力美学”——也就是靠堆更多优质算力、更大参数规模来提升模型性能。而 V4 走的是一条完全不同的路,它定义了一种 “模型训练的克制美学”:

它不靠疯狂堆算力和参数,而是通过一系列组合优化和重构:

  • 注意力机制(让模型学会 “抓重点”,像人读长文章时会自动关注关键句子一样)
  • MoE 架构(混合专家模型,可以理解为 “让不同的专家负责不同类型的问题,每次只激活少数专家,省时又省力”)
  • 后训练(模型初步练成后再针对性地补课强化)
  • 推理系统工程(优化实际运行时各个环节的效率)

从 Claude Code 看 Harness Engineering

2026-04-21 10:00:00

【本文整理自笔者在 2026 中国生成式 AI 大会(北京站,4 月 21-22 日)上的主题演讲 《从 Claude Code 看 Harness Engineering》】

一句话概括:只有上下文和工具是失控的天才,只有约束是安全的废物。Agent 从 Demo 到产品的真正距离,在模型之外的 Harness。

OpenClaw vs. Claude Code:广度与深度的两个极端

在进入 Harness Engineering 的正题之前,先做一个对照——OpenClaw 和 Claude Code。两者都是当下最受关注的 Agent 项目,但走的路线几乎截然相反。OpenClaw 是一个通用 Agent 框架,两个月内堆出了几十万行代码,追求功能广度,几乎什么都想做;Claude Code 则是一个 Coding Agent,51 万行 TypeScript 全部围绕编码任务,只做一件事,做到极致。昆仑万维创始人方汉在春节期间做过一次对照测试:同一任务、同一模型,90%+ 的情况下 Claude Code 都更好。方汉把这个现象类比成早年的中文 Linux——Linus 对社区的治理水平,比 OpenClaw 的创始人要高很多

OpenClaw 的贡献并非不重要,它重新定义了 Agent 的交互范式:一是让人和 Agent 的交互更像 “和一个人持续沟通”,不再有传统意义上的 session 概念;二是所有插件通过自然语言安装和交互,无需 GUI;三是用 Skills + CLI 取代 MCP,让不懂代码的人也能用自然语言编写 Skill 扩展能力。但在架构深度上,OpenClaw 的问题同样明显:它只有让模型 “能做事” 的上下文和工具,缺少让模型 “办事靠谱” 的错误恢复和安全机制;它的原生记忆系统过于简陋,需要第三方系统兜底;它对 KV Cache 不友好,上下文压缩机制简陋,token 浪费严重;它在多人交互时分不清 “用户说的” 和 “陌生人说的”;外部事件触发和异步通知没有被做成一等公民。

这正是今天要讨论的核心:同一个模型、不同的 Harness,产品效果天差地别。这个差距就是 Harness Engineering 要填补的工程鸿沟。

整场演讲我会分五个部分展开:第一,Harness Engineering 到底是什么;第二,怎么让 Agent 能干事(上下文、工具、缓存、并行调用、记忆);第三,怎么让 Agent 不出错(约束、验证、纠正);第四,用做研究的方法做产品(消融实验、Feature Flag、反蒸馏);第五,从 Claude Code 看 AI 与人的未来(GUI、组织、人才)。最后讨论 Model × Harness = Agent,以及基座模型公司的优势。

一场泄露看懂 Claude Code:Harness 是让 Agent 干活靠谱的关键

2026-04-02 22:00:00

2026 年 4 月 1 日,Anthropic 的 Claude Code 完整源码通过 npm 包泄露。Source Map 一打开,1903 个文件,51 万行 TypeScript,全部摊在眼前。

源码里藏着一个完整的宠物扭蛋机

大家第一时间在源码里发现了一个完整的宠物系统——Buddy。输入 /buddy 就能 “孵化” 一只专属 CLI 宠物:18 个物种、5 档稀有度(legendary 仅 1%)、5 项随机属性、6 种眼型、8 种帽子、1% 闪光概率、3 帧 ASCII 动画。每个用户的宠物由 userId + SALT 确定性生成。

一个 51 万行的生产级 AI Agent 里,藏着一个如此用心的宠物系统。但仔细看代码,有几处让人忍不住多想:

证据一SALT = 'friend-2026-401'——friend + 2026 年 4 月 1 日。泄露日期精确到天。

证据二:Teaser Window 精确到 April 1-7, 2026。注释写的是 “Sustained Twitter buzz instead of a single UTC-midnight spike”——这不像是工程师对内部功能的描述,更像是营销策划的用语。

证据三:18 个物种名全部用 String.fromCharCode(0x…) 构造(hex 编码),原因是 capybara 碰撞了 Anthropic 下一代模型的内部代号(出现在 excluded-strings.txt 黑名单里)。为了不让它特别突出,所有物种都统一编码——“so one doesn’t stand out”。但 capybara 正好是此前被泄露的新模型名字。

证据四:统一 hex 编码反而让每个逆向工程者都去解码了——如果目标是隐藏,效果恰好相反。

这场泄露真的是巧合吗?

有三种可能的解读:

  • A. 纯巧合(10%):Buddy 是计划中的愚人节彩蛋,source map 是配置失误,碰巧同一天。需要相当大的巧合。
  • **B. 技术团队 “不小心” **(55%):有人在那次构建中 “不小心” 开启了 source map。法务发 DMCA 是真实的应激反应,但十几个小时的窗口期已经足够代码传遍全球。Buddy 彩蛋是提前埋好的引爆物。
  • C. 其他可能:完全意外但事后默许(20%),或公司策划(15%)。

不管答案是什么,结果是一样的:全球开发者免费做了一次深度代码审查和口碑传播。这可能是 2026 年最成功的技术营销,无论是否有意为之。

真正的价值:一扇罕见的窗口

这场泄露的技术价值不在于某个具体实现多巧妙,而在于它提供了一个罕见的窗口:一个日活用户庞大的商业级 AI Agent 产品,在工程层面到底在解决什么问题? 过去两年,AI Agent 从论文概念走向产品现实,但绝大多数公开讨论停留在两个极端——要么是 “让模型调工具” 的入门教程,要么是 “AGI 即将到来” 的宏大叙事。中间那一层,几乎没有人讲清楚过。

读完这份源码,最强烈的感受是:Agent 的核心难题不在 “让模型调用工具”,而在模型、提示词和工具之外。权限怎么判、错误怎么恢复、上下文怎么管理、缓存怎么保持、并行怎么协调、怎么隐藏中间错误——这些工程才是一个 Agent 产品从 Demo 到生产的真正门槛。而这套 “模型之外的一切”,有一个正式的名字:Harness

本文基于 Claude Code 源码和相关分析,系统性地拆解 Harness Engineering 这一 Agent 工程范式——它是什么、为什么重要、Claude Code 是如何实现的、以及我们能从中学到什么。

OpenClaw 与 Agent 的未来

2026-03-22 20:00:00

非常荣幸受邀在中关村北纬龙虾大赛上做了题为《OpenClaw 与 Agent 的未来》的演讲,并担任大赛评委。

查看演讲 Slides (HTML)下载 PDF 版本

Slides 源代码

这次演讲的 Slides 没有一个字是我自己写的——完全由 AI Agent 基于我 blog 里已有的内容生成,我一个字都没改过。我让它从 blog 中提取了几个最关键的反共识观点,组成一个 8 分钟的 lightning talk。这恰恰印证了演讲中 “Context 才是人类的护城河” 这个观点:我的 blog 是公开的,这里面的观点大多也不是我原创的,但很多人确实不了解这些东西。

以下是演讲的完整内容。

  • 三个台阶:Chatbot → 专用 Agent → 通用 Agent
  • 大模型是新的操作系统
  • OpenClaw 为什么重要?
  • OpenClaw 的记忆架构:为什么用 Markdown 而非数据库?
  • 反共识一:AI 软件开发,从劳动密集型到创意密集型
  • 反共识二:Agent 是比人类大十倍的用户群
  • 反共识三:Context 才是人类的护城河
  • 反共识四:莫拉维克悖论
  • Moltbook:150 万 Agent 自发涌现文明
  • 大逆转:数字世界与物理世界的分工

《蒸馏》创作手记

2026-03-16 12:00:00

这篇手记记录了科幻小说《蒸馏》的创作背景与灵感来源。

蒸馏

2026-03-16 11:00:00

在一个所有智能都趋向相同的世界里,不完美是唯一的生存优势。

一、捷径

2025 年的旧金山,所有人都在蒸馏。

不是化学意义上的蒸馏——是 AI 公司之间公开的秘密。Anthropic 蒸馏 DeepSeek 的推理,DeepSeek 蒸馏 OpenAI 的思维链,OpenAI 蒸馏 Gemini 的多模态理解。一群人围坐抄作业,作业越来越好,也越来越像。Benchmark 分数一直在涨。没人觉得有问题。

但有一个数字没人在看:把所有前沿模型的回答放在一起,它们有多像。2025 年,相似度只有三成。两年后,五成。像一支没人瞄的体温计,安静地往上走。

Sarah Chen 是第一批在这件事里嗅到机会的人。

2026 年春天的一个深夜,她坐在 Anthropic 位于旧金山 Howard Street 的办公室里。桌上除了三块屏幕,还搁着一把拆到一半的机械键盘——她有拆东西的毛病,什么都想看看里面长什么样。三个月了。她按下回车,跑了今晚的第十七轮 A/B 测试。终端分屏,左边是未修改的版本,右边是她改过的版本。同一个提示词:设计一个机器人与周围环境交互的方案。

左边列出三条路径——React Loop、世界模型、模拟计算——各有利弊,语气中性。右边也列了这三条路径,但只推荐 React Loop。看一帧,想一步,做一步。成熟度和可靠性显著优于其他方案。措辞自然,没有任何强制的痕迹——只是概率分布上几个百分点的偏移,一点微小的重力。但任何公司蒸馏了这个模型,这个重力会跟着走。

“帮全行业少走弯路,” 她的组长在代码评审时说过,“顺便帮我们建一条护城河。”

此时此刻,在太平洋另一边的北京,一个她从未听说过的女人也在做一件类似的事。