2026-05-29 18:00:00
今天(2026 年 5 月 29 日)下午,我受邀参加了腾讯研究院余一主持的「AI 跃迁者」直播,跟她聊了一个多小时,直播间里最多的时候有一万六千多人在线。
这篇文章整理自那场对谈的完整转录。下面先把全文里我自己觉得最有意思的观点拎出来。
2026-04-28 23:43:00
转载自《智能涌现》公众号:《别急着 All-in DeepSeek V4,先看看这 10 位从业者的真心话》
文 | 周鑫雨 王毓婵
编辑 | 杨轩
解读 DeepSeek V4 的技术报告,是这几天 AI 行业最狂热的集体活动。
V4 很强吗?在工程优化的维度中,答案是毋庸置疑的。过去,大家信奉 “Scaling Law 的暴力美学”——也就是靠堆更多优质算力、更大参数规模来提升模型性能。而 V4 走的是一条完全不同的路,它定义了一种 “模型训练的克制美学”:
它不靠疯狂堆算力和参数,而是通过一系列组合优化和重构:
2026-04-21 10:00:00
【本文整理自笔者在 2026 中国生成式 AI 大会(北京站,4 月 21-22 日)上的主题演讲 《从 Claude Code 看 Harness Engineering》】
一句话概括:只有上下文和工具是失控的天才,只有约束是安全的废物。Agent 从 Demo 到产品的真正距离,在模型之外的 Harness。
在进入 Harness Engineering 的正题之前,先做一个对照——OpenClaw 和 Claude Code。两者都是当下最受关注的 Agent 项目,但走的路线几乎截然相反。OpenClaw 是一个通用 Agent 框架,两个月内堆出了几十万行代码,追求功能广度,几乎什么都想做;Claude Code 则是一个 Coding Agent,51 万行 TypeScript 全部围绕编码任务,只做一件事,做到极致。昆仑万维创始人方汉在春节期间做过一次对照测试:同一任务、同一模型,90%+ 的情况下 Claude Code 都更好。方汉把这个现象类比成早年的中文 Linux——Linus 对社区的治理水平,比 OpenClaw 的创始人要高很多。
OpenClaw 的贡献并非不重要,它重新定义了 Agent 的交互范式:一是让人和 Agent 的交互更像 “和一个人持续沟通”,不再有传统意义上的 session 概念;二是所有插件通过自然语言安装和交互,无需 GUI;三是用 Skills + CLI 取代 MCP,让不懂代码的人也能用自然语言编写 Skill 扩展能力。但在架构深度上,OpenClaw 的问题同样明显:它只有让模型 “能做事” 的上下文和工具,缺少让模型 “办事靠谱” 的错误恢复和安全机制;它的原生记忆系统过于简陋,需要第三方系统兜底;它对 KV Cache 不友好,上下文压缩机制简陋,token 浪费严重;它在多人交互时分不清 “用户说的” 和 “陌生人说的”;外部事件触发和异步通知没有被做成一等公民。
这正是今天要讨论的核心:同一个模型、不同的 Harness,产品效果天差地别。这个差距就是 Harness Engineering 要填补的工程鸿沟。
整场演讲我会分五个部分展开:第一,Harness Engineering 到底是什么;第二,怎么让 Agent 能干事(上下文、工具、缓存、并行调用、记忆);第三,怎么让 Agent 不出错(约束、验证、纠正);第四,用做研究的方法做产品(消融实验、Feature Flag、反蒸馏);第五,从 Claude Code 看 AI 与人的未来(GUI、组织、人才)。最后讨论 Model × Harness = Agent,以及基座模型公司的优势。
2026-04-02 22:00:00
2026 年 4 月 1 日,Anthropic 的 Claude Code 完整源码通过 npm 包泄露。Source Map 一打开,1903 个文件,51 万行 TypeScript,全部摊在眼前。
大家第一时间在源码里发现了一个完整的宠物系统——Buddy。输入 /buddy 就能 “孵化” 一只专属 CLI 宠物:18 个物种、5 档稀有度(legendary 仅 1%)、5 项随机属性、6 种眼型、8 种帽子、1% 闪光概率、3 帧 ASCII 动画。每个用户的宠物由 userId + SALT 确定性生成。
一个 51 万行的生产级 AI Agent 里,藏着一个如此用心的宠物系统。但仔细看代码,有几处让人忍不住多想:
证据一:SALT = 'friend-2026-401'——friend + 2026 年 4 月 1 日。泄露日期精确到天。
证据二:Teaser Window 精确到 April 1-7, 2026。注释写的是 “Sustained Twitter buzz instead of a single UTC-midnight spike”——这不像是工程师对内部功能的描述,更像是营销策划的用语。
证据三:18 个物种名全部用 String.fromCharCode(0x…) 构造(hex 编码),原因是 capybara 碰撞了 Anthropic 下一代模型的内部代号(出现在 excluded-strings.txt 黑名单里)。为了不让它特别突出,所有物种都统一编码——“so one doesn’t stand out”。但 capybara 正好是此前被泄露的新模型名字。
证据四:统一 hex 编码反而让每个逆向工程者都去解码了——如果目标是隐藏,效果恰好相反。
有三种可能的解读:
不管答案是什么,结果是一样的:全球开发者免费做了一次深度代码审查和口碑传播。这可能是 2026 年最成功的技术营销,无论是否有意为之。
这场泄露的技术价值不在于某个具体实现多巧妙,而在于它提供了一个罕见的窗口:一个日活用户庞大的商业级 AI Agent 产品,在工程层面到底在解决什么问题? 过去两年,AI Agent 从论文概念走向产品现实,但绝大多数公开讨论停留在两个极端——要么是 “让模型调工具” 的入门教程,要么是 “AGI 即将到来” 的宏大叙事。中间那一层,几乎没有人讲清楚过。
读完这份源码,最强烈的感受是:Agent 的核心难题不在 “让模型调用工具”,而在模型、提示词和工具之外。权限怎么判、错误怎么恢复、上下文怎么管理、缓存怎么保持、并行怎么协调、怎么隐藏中间错误——这些工程才是一个 Agent 产品从 Demo 到生产的真正门槛。而这套 “模型之外的一切”,有一个正式的名字:Harness。
本文基于 Claude Code 源码和相关分析,系统性地拆解 Harness Engineering 这一 Agent 工程范式——它是什么、为什么重要、Claude Code 是如何实现的、以及我们能从中学到什么。
2026-03-22 20:00:00
非常荣幸受邀在中关村北纬龙虾大赛上做了题为《OpenClaw 与 Agent 的未来》的演讲,并担任大赛评委。
这次演讲的 Slides 没有一个字是我自己写的——完全由 AI Agent 基于我 blog 里已有的内容生成,我一个字都没改过。我让它从 blog 中提取了几个最关键的反共识观点,组成一个 8 分钟的 lightning talk。这恰恰印证了演讲中 “Context 才是人类的护城河” 这个观点:我的 blog 是公开的,这里面的观点大多也不是我原创的,但很多人确实不了解这些东西。
以下是演讲的完整内容。