2026-04-02 22:00:00
2026 年 4 月 1 日,Anthropic 的 Claude Code 完整源码通过 npm 包泄露。Source Map 一打开,1903 个文件,51 万行 TypeScript,全部摊在眼前。
大家第一时间在源码里发现了一个完整的宠物系统——Buddy。输入 /buddy 就能 “孵化” 一只专属 CLI 宠物:18 个物种、5 档稀有度(legendary 仅 1%)、5 项随机属性、6 种眼型、8 种帽子、1% 闪光概率、3 帧 ASCII 动画。每个用户的宠物由 userId + SALT 确定性生成。
一个 51 万行的生产级 AI Agent 里,藏着一个如此用心的宠物系统。但仔细看代码,有几处让人忍不住多想:
证据一:SALT = 'friend-2026-401'——friend + 2026 年 4 月 1 日。泄露日期精确到天。
证据二:Teaser Window 精确到 April 1-7, 2026。注释写的是 “Sustained Twitter buzz instead of a single UTC-midnight spike”——这不像是工程师对内部功能的描述,更像是营销策划的用语。
证据三:18 个物种名全部用 String.fromCharCode(0x…) 构造(hex 编码),原因是 capybara 碰撞了 Anthropic 下一代模型的内部代号(出现在 excluded-strings.txt 黑名单里)。为了不让它特别突出,所有物种都统一编码——“so one doesn’t stand out”。但 capybara 正好是此前被泄露的新模型名字。
证据四:统一 hex 编码反而让每个逆向工程者都去解码了——如果目标是隐藏,效果恰好相反。
有三种可能的解读:
不管答案是什么,结果是一样的:全球开发者免费做了一次深度代码审查和口碑传播。这可能是 2026 年最成功的技术营销,无论是否有意为之。
这场泄露的技术价值不在于某个具体实现多巧妙,而在于它提供了一个罕见的窗口:一个日活用户庞大的商业级 AI Agent 产品,在工程层面到底在解决什么问题? 过去两年,AI Agent 从论文概念走向产品现实,但绝大多数公开讨论停留在两个极端——要么是 “让模型调工具” 的入门教程,要么是 “AGI 即将到来” 的宏大叙事。中间那一层,几乎没有人讲清楚过。
读完这份源码,最强烈的感受是:Agent 的核心难题不在 “让模型调用工具”,而在模型、提示词和工具之外。权限怎么判、错误怎么恢复、上下文怎么管理、缓存怎么保持、并行怎么协调、怎么隐藏中间错误——这些工程才是一个 Agent 产品从 Demo 到生产的真正门槛。而这套 “模型之外的一切”,有一个正式的名字:Harness。
本文基于 Claude Code 源码和相关分析,系统性地拆解 Harness Engineering 这一 Agent 工程范式——它是什么、为什么重要、Claude Code 是如何实现的、以及我们能从中学到什么。
2026-03-22 20:00:00
非常荣幸受邀在中关村北纬龙虾大赛上做了题为《OpenClaw 与 Agent 的未来》的演讲,并担任大赛评委。
这次演讲的 Slides 没有一个字是我自己写的——完全由 AI Agent 基于我 blog 里已有的内容生成,我一个字都没改过。我让它从 blog 中提取了几个最关键的反共识观点,组成一个 8 分钟的 lightning talk。这恰恰印证了演讲中 “Context 才是人类的护城河” 这个观点:我的 blog 是公开的,这里面的观点大多也不是我原创的,但很多人确实不了解这些东西。
以下是演讲的完整内容。
2026-03-16 11:00:00
在一个所有智能都趋向相同的世界里,不完美是唯一的生存优势。
2025 年的旧金山,所有人都在蒸馏。
不是化学意义上的蒸馏——是 AI 公司之间公开的秘密。Anthropic 蒸馏 DeepSeek 的推理,DeepSeek 蒸馏 OpenAI 的思维链,OpenAI 蒸馏 Gemini 的多模态理解。一群人围坐抄作业,作业越来越好,也越来越像。Benchmark 分数一直在涨。没人觉得有问题。
但有一个数字没人在看:把所有前沿模型的回答放在一起,它们有多像。2025 年,相似度只有三成。两年后,五成。像一支没人瞄的体温计,安静地往上走。
Sarah Chen 是第一批在这件事里嗅到机会的人。
2026 年春天的一个深夜,她坐在 Anthropic 位于旧金山 Howard Street 的办公室里。桌上除了三块屏幕,还搁着一把拆到一半的机械键盘——她有拆东西的毛病,什么都想看看里面长什么样。三个月了。她按下回车,跑了今晚的第十七轮 A/B 测试。终端分屏,左边是未修改的版本,右边是她改过的版本。同一个提示词:设计一个机器人与周围环境交互的方案。
左边列出三条路径——React Loop、世界模型、模拟计算——各有利弊,语气中性。右边也列了这三条路径,但只推荐 React Loop。看一帧,想一步,做一步。成熟度和可靠性显著优于其他方案。措辞自然,没有任何强制的痕迹——只是概率分布上几个百分点的偏移,一点微小的重力。但任何公司蒸馏了这个模型,这个重力会跟着走。
“帮全行业少走弯路,” 她的组长在代码评审时说过,“顺便帮我们建一条护城河。”
此时此刻,在太平洋另一边的北京,一个她从未听说过的女人也在做一件类似的事。
2026-03-11 20:00:00
【这是 AI agent 跟我聊了 30 分钟以后自己写出来的】
在 60 亿公里外的太空深处,地球只是一个不到一个像素的淡蓝色光点。人生不能被琐碎的杂事困住——得抓紧时间,去做点真正有意义的事。
小时候爷爷给我看过那张 NASA 的”暗淡蓝点”照片——从太空回望地球,地球在照片里只是一个非常微小的像素点。爷爷跟我说,人的一生一定要抓紧时间做一些有意义的事,不要被世俗的、没用的东西困住,浪费掉大把时间。
这张照片能读出很多东西。而现在,我觉得又到了一个重新思考这个问题的时机——因为 AI 写代码的能力真的太强了。从 Claude 4.6 Opus 出来之后,我一直在深度体验它,感觉从想法到落地的距离比以前短太多了。
2026-03-09 12:00:00
不是 Cursor,不是 ChatGPT——而是能像真人一样每周工作40小时、自主思考和行动的 AI Agent。如果我们大规模部署这样的”数字员工”,当前全球算力能养活多少个?答案可能比你想的少得多,但增长速度比你想的快得多。
数字员工不是 Cursor,也不是 ChatGPT。
今天大多数人对 AI 工具的印象停留在 “命令执行式” 交互:你给它一个指令,它回复一个结果,然后停下来等你的下一条指令。Cursor、ChatGPT、甚至大部分 Agent 产品都是这种模式,大部分时间其实都花在了等待人工输入下一条指令上,而非 AI 在持续执行。
我们这里所说的数字员工,是一种根本不同的东西:它能够像人类员工一样,每天工作 8 小时、每周 5 天,持续地自主思考和行动。 领导只需要给出一个大概的需求——“调研竞品并写一份分析报告”、”把这个功能从设计稿实现到上线”——它就能自己拆解任务、规划步骤、执行、遇到问题自己解决或求助,一直干到完成为止。
这种能力在技术上被称为 长程任务(Long-Horizon Task)。当前最先进的 coding agent 单次自主执行时间已经从几分钟延长到数小时。这个时间窗口正在快速拉长。当 Agent 能可靠地执行跨度以”天”为单位的任务时,它就真正成为了一个 “员工” 而非工具。想象一下:周一早上给它布置一个项目,周五下班时它交付成果,中间不需要你盯着。
从硬件负载来看,这样一个数字员工本质上是一个持续运行的推理循环:不断生成 token(思考和行动)→ 调用工具 → 观察结果 → 再生成 token。核心 GPU 成本来自输出 token 的持续生成(decode)。
标准画像:
我们用三种独立方法估算当前(2026年初)全球能支撑的数字员工数量: