2026-04-12 21:02:00
原创 陈皮 2026-04-12 21:02 四川
最后都是一道 ROI 题
未来几年,我们可能会见到以前从未见过的世界。
Anthropic 的 CEO 说:
「约 50% 的初级白领岗位可能在未来 1–5 年内消失。」
扎克伯格也说:
「中级程序员很快将变得不必要。」此后,Meta 就裁员了 5%。
AI 越进步,人们越焦虑。
遇到这种恐慌时,我们的第一反应,往往是去历史中寻找慰藉。
在过去 200 年里,每一轮技术革命几乎都会带来失业焦虑,但通常不会真的引发长期的大规模失业,反而会创造更多就业。
最经典的例子之一,就是动力织布机。它的出现一度打击了手工织布工,但也极大地降低了纺织品成本、激发了更大的需求。最终,纺织业的规模大幅扩张,创造了远超手工作坊时代的工作岗位。
但 AI 这一波,确实有几个不太一样的地方。
1)速度更快。
过去的劳动转型是缓慢的。农业转型花了一个世纪,电话接线员被替代用了约 50 年。这种节奏,给了社会消化和反应的时间。
而一旦速度加快,情况就会发生变化。比如在 2000 年前后的「锈带危机」中,中国入世之后,在不到十年的时间里密集冲击了美国制造业,很多地区根本来不及调整,最终只有 17% 的制造业重镇实现了就业恢复。
而 AI 的演进速度,显然要快得多。
从下图我们能看到,过去一年里,每隔几周就会出现标志性的 AI 产品创新。在 AI Coding 能力取得新突破之后,这一速度还在加快。
2)波及范围似乎更广。
以往的技术革命往往只影响某个行业。但这一次,以美国就业市场为例,AI 可能会影响各个行业超过 40% 的工种。
Andrej Karpathy 前不久对美国不同职业的「AI 暴露度」做了量化:大约 42% 的职业处在较高 AI 暴露度区间,横跨多个领域,以白领工作为主。
只看比例,这一波的影响范围,已与美国历史上最大规模的就业冲击相当:20 世纪初,美国约有 41% 的劳动力受到了农业机械化的影响。
不过那一次,很多农业劳动力被制造业和服务业所吸纳。
而这一次受到 AI 冲击的人,会被什么吸纳呢?我们还没有明确的答案…
3)AI 在切断人才培养路径。
很多工作都依赖「学徒制」:Junior 员工先做简单任务,再在 Senior 员工的带领下逐渐成长。
但现在,在很多任务上,AI 已经能比新人做得更快、更好了。因此,很多企业会更倾向于让 Senior 带着 AI 完成工作,而不是从头培养新人。
短期来看,这样或许能降本增效,但长期可能会带来人才断供的问题。
所以这一次,我们似乎很难再简单地用历史结论来安慰自己。
但是,在查阅了大量资料后,我们发现了一套不太一样的思考框架,得到了一些相对积极的结论。
要把这个框架讲清楚,我们可以一起分析一个案例:在过去几十年里,技术变革是如何影响银行柜员这一岗位的。
柜员面临的第一波技术冲击,是上世纪 70 年代 ATM 的普及。
柜员原本有很大一部分工作是办理存取款,但 ATM 直接将这部分工作自动化了。按理说,这本该导致大批柜员失业。
但现实走向是有些反直觉的:
从下图可以看到,银行柜员的数量在 ATM 进入美国的前 10 年内,不但没有减少,反而翻了快一倍。后面虽增速放缓,但也并没有出现大幅下滑。
为什么会这样?
要回答这个问题,我们就需要理解 ATM 与银行柜员的关系到底是怎样的。
ATM 的出现确实让单个网点所需的柜员数量减少了,但同时引发了两层连锁反应:一是给网点降本增效,驱动银行开设了更多网点;二是将柜员从简单任务中解放出来,让银行意识到,柜员更大的价值在于维护客户关系与产品销售。
结果是,虽然单个网点的柜员密度有所降低,但由于网点总数扩张与柜员职能转型,整体需要的柜员反而变多了。
这背后对应着一个经济学概念——Jevons Paradox(杰文斯悖论),即:
技术进步会提高资源使用效率,导致成本降低、激发出更大的市场需求,令资源消耗不减反增。
因此,ATM 并没有真正替代柜员,而是与之互补,组成了一个更高效的工作单元。
但这只是故事的上半卷。
在 2010 年前后,柜员遭遇了第二波技术冲击。这一次,岗位数量大跌了 50%。
这次变化,并不是 ATM 冲击的姗姗来迟。ATM 早就完成了渗透。
真正改变故事走向的,是看似无关的手机和移动互联网。这两者的普及,带来了一个新范式:
移动银行。
当大部分银行操作都可以在 App 中完成,银行就不再需要运营那么多线下网点,也就不再需要网点中的那些柜员了。
至此,我们可以从这个案例中,抽象出技术作用于劳动力的两条路径:
路径一:
像 ATM 那样,嵌入固有工作流。
在这条路径下,整个体系依然围绕人设计,技术更多是释放原有岗位中人的生产力,让「人 + 技术」这个整体有更好的产出。此时,岗位更多会被重塑,甚至逆向增长,而非消失。
路径二:
像手机和移动互联网那样,重塑新的工作范式。
技术不再作为辅助,而是直接创造出一套全新的生产体系,大幅降本增效的同时,也导致一些岗位失去存在的场景和意义。这种方式对就业的冲击往往更大。
而这两条路径的本质区别,其实就是一个词:
ROI。
如果「人 + 技术」的 ROI > 「只用技术」的 ROI → 人留下;
如果「人 + 技术」的 ROI < 「只用技术」的 ROI → 人出局。
所以,如果要理解 AI 对当下就业的真实影响,我们应该把问题收敛成:
「人 + AI」vs「只用 AI」的 ROI,哪个更高?
目前来看,在很多场景里,「人 + AI」的 ROI 或许还是高于「只用 AI」,因为人和 AI 的能力是互补的:AI 更擅长逻辑推理类工作,但在情商、创造力和各种隐性知识上,人类依然有明显优势。
(关于创造力,我之前读过一篇文章,其中有段很好的表述:
大型语言模型是互联网的「模糊 JPEG」。
就像 JPEG 压缩会丢失细节以换取更小的文件大小,LLM 通过「有损压缩」海量文本数据,学习的是统计模式而非真实理解。当你让 ChatGPT 写一首诗时,它所做的并非「创作」,更接近于生成一个概率上最「合理」的文本——基于它见过的数百万首诗的统计平均。
这意味着AI的默认输出趋向平庸。谈不上错误,也谈不上糟糕,只是安全、可预测、不会冒犯任何人。它总是倾向于「中间地带」,因为中间地带在统计上最可能出现。
不过,在 OpenClaw 出现之后,事情确实有些变化。
因为 OpenClaw 让大家看到了 Proactive Agent 的可能性,也让一些创业者真的开始尝试做更 AI-Native 的组织和工具、尽可能减少人的介入,比如让 AI 管 AI(我们最近的两期播客都在讲这件事,回顾:OpenClaw 之后,我只想未来 3-6 个月的事情|42章经;我们是如何定义 OpenClaw for Teams 新产品形态的|42章经)。
这是不是意味着,AI 对我们的影响会越来越接近路径二?
也许有这个苗头,但新的范式能不能出来、什么时候出来、到底会长什么样,我们现在也说不好。
而且,即便 AI 真的发展到那一步,也不等于一定会出现大规模失业。
别忘了,虽然手机银行的出现让柜员岗位大幅减少,但也带来了新的岗位需求,比如软件工程师、能够处理复杂问题的客服专家等等。
新的范式往往会解锁新的机会。
当然,不是人人都能抓住这些机会。这个过程也会伴随阵痛,其中最典型的问题,就是「就业极化」——
美国学者曾把工作分为「高技能」「中技能」和「低技能」三类。其中,「中技能」工作因规则明确、流程固定,最易被自动化技术替代;管理、创意、谈判等「高技能」工作难以标准化,技术更多是与其形成互补;维修、清洁等「低技能」体力劳动,由于自动化成本过高,短期内也较为稳固。结果就是:
就业会不断向两端集中,中间层的空间日益收窄。
柜员就是一个典型的「中技能」岗位。随着技术变革,其中能力更强的人,可能会转向更「高技能」的岗位,不仅不会失业,反而会获得更高的回报。事实上,虽然柜员数量在 2010 年之后锐减,但理财顾问、金融经理等岗位却在持续扩张,其增速是全美平均水平的三到五倍,中位年薪也是柜员的近三倍。
所以,每一轮技术变革,都是一次重新洗牌。能跟上的人会借势跃升;跟不上的人,则确实会受到挤压。
这种极化听起来很残酷,但这并不是 AI 这波独有的问题,而是一个长期趋势。1979 年时,美国约有 60% 的岗位属于「中技能」范畴,到 2012 年已降至 46%。类似趋势也出现在了十多个欧盟国家。
AI 这一波,只是在延续这一趋势,只不过程度可能会更剧烈。因为很多在移动互联网时代还算「高技能」的工作,比如基础编程、数据分析,也在逐渐滑向「中技能」区间,而「高技能」工作的标准正在变得越来越严苛。
但与其被动担忧哪些岗位会消失,不如主动去想 AI 时代会诞生哪些新机会。
这里我们可以一起情景模拟一下:
如果你是一个公司的 CEO,你现在会更关注怎么裁更多人,还是怎么招更多能把 AI 用好的人?
如果你是一个技术负责人,现在有 1000 个每天消耗 1 亿 token 的人来应聘同一个岗位,你会不会觉得是幸福的烦恼、恨不得多招几个?
很明显,现在能用好 AI,就是一个非常重要的技能。而且很多人确实正在借助 AI 跃升为超级个体或者 OPC,去尝试成为这波浪潮里的「高技能人群」。
过程中可能还会产生很多别的机会。比如,之前的工业革命诞生了大量「拧螺丝」的需求,互联网时代诞生了大量「审核员」需求,那 AI 时代,会不会也有很多「数据标注」的需求?还可以有数据录入、数据审核、数据梳理、各种环境的优化和搭建、AI 幻觉的结果审核……等等等等。
当然,也有人担心,现在 AI 这么强,那生产供给会不会很快超过消费需求,导致需要的人类员工越来越少?
但其实,人们的需求,远比我们想象得更有弹性。
正如前面提到的杰文斯悖论中所揭示的:当一个东西变得更便宜、更好做,人们不会消耗「同样多」,而会消耗「更多」。
就像纺织机的出现,让每个人拥有的衣服从一件变成了几十件一样。当 AI 极大降低生产门槛之后,可能也会催生出一个前所未有的庞大市场。之前我们的嘉宾东旭就曾在节目里说过:
这个世界上可能并不缺另一个 Linux,但一个山村的小图书馆,可能需要一个数字借阅系统;一个八线城市的小超市,可能需要一个线上下单系统。当你手里有一个几乎能力无限的工具时,真正有价值的需求,往往是非常长尾的。(回顾:从 Clawdbot 到 26 年 AI Coding 主题大爆发|42章经)
这些需求过去并不是「没有价值」,而是「无法被满足」。当工具足够强大、成本足够低,这些需求完全有可能被激活。
数据也在印证这一点。从下图可以看出,2024 年之后软件开发量迎来了爆发式增长。我们完全有理由相信,随着 AI 能力越来越强、掌握 AI Coding 的人越来越多,这个势头还将持续,直至迎来一个新的供需平衡。
所以,AI 不一定会消灭工作,但会重新定义什么叫「有价值的工作」。这个过程中,对人的要求一定会越来越高,也会有人被淘汰,就像过去几百年里一直发生的那样。但对学习能力强、适应性强的人来说,机会只会更多。
最后,我们不妨想再极限畅想一下:
AI 发展到极致,未来会不会出现完全不需要人类参与的全自动化组织?到那时我们又该怎么办?
我们还不清楚这种组织具体会是什么样,但曾有人提出过一个设想:
当 AI 进化到 AGI 阶段,「人才」将变成一种可以被无限复制、合并、进化的数字资产,上限取决于算力。
举个例子。如果你拥有一个顶级工程师的 AGI 副本,理论上就能瞬间克隆出一百万个分身,让它们通过共享的「大脑」直接「思想融合」,过程中不存在任何沟通损耗或信息不对称。
这样的组织可以像软件代码一样完美复制、指数级迭代,演化速度将从人类生物进化的万年周期,被压缩至秒的尺度。
如果 AI 真能演进到那个程度,人类可能就真的不再需要投入生产活动了。
但到那时,我们所处的,将是一个与今天的逻辑完全不同的世界。
举个可能不太恰当的例子。就像今天的瑜伽老师、播客主播、健身教练,在百年前几乎不存在一样。当社会盈余足够大,大到可以支撑人类去做大量「非生存必需」的事情时,新职业也会不断被发明出来。
如果 AI 进一步放大这种盈余,人类的「工作」,可能不再是生产,而是如何度过时间、如何充盈生活。
写到这里突然想起来,Claude Code 的作者 Boris Cherny 曾说过,AGI 实现之后,他可能会去做味增。
这样的未来,在我看来好像也还挺美好的…?
你做味增,我做地下音乐。我们都不用为生计发愁,我们都可以有美好的未来。
Reference:
https://academic.oup.com/qje/article-abstract/139/3/1879/7614605
https://centerforhumanetechnology.substack.com/p/what-is-really-going-on-with-ai-and
https://www.reddit.com/r/singularity/comments/1runck6/ai_automation_risk_table_by_karpathy/
https://davidoks.blog/p/why-im-not-worried-about-ai-job-loss
2026-03-29 21:26:00
原创 曲凯 2026-03-29 21:26 北京
把钱花在 Token 上,而不是工资上
宇豪 16 岁进入浙大,随后赴 CMU 攻读硕士,之后先后在 Meta 和 SmartNews 的重要产品线工作。他在 23 年开始 AI 创业,24 年和几个联创 bootstrap 做出了一款千万刀 ARR 的产品 Kuse.ai,并在不久前推出了 OpenClaw for Teams 的新产品 Junior.so。
本期播客原文约 25000 字,本文经过删减整理后约 8900 字。
曲凯:很多人应该都刷到过 Kuse 的新闻,重点基本都是一件事:你们没融资,但很快就做到了千万刀 ARR。
宇豪:对,到目前为止我们还是 bootstrap,用的是几个 founders 自己的钱,大概有一两百万美金。
曲凯:自己愿意投这么多就已经很厉害了,何况还能用这些钱做到千万刀 ARR。你们是怎么做到的?
宇豪:核心还是抓住客户的真实需求,然后持续打磨,尤其是不断往价值更高的场景去迭代。
其实在最开始的很长一段时间,我们都没有成功获客。但做着做着,我们发现有不少用户会把文件和资料上传上来,让我们帮忙整理、重组,而且这类用户的留存明显更高。于是我们就沿着这个方向一路迭代下去。
当然,中间也踩过非常多的坑。
比如我们有很长一段时间采用的是固定定价。但后来发现,在 AI 时代,尤其是对于 agent 产品来说,固定价几乎注定会亏得很厉害,而且也很难让你识别出真正有价值的客户。
曲凯:你说的固定价,是指不给用户单独加购 token 的选择?
宇豪:对。比如限定 20 美金可以做多少个 task。这种方式一开始可能还 ok,但到 25 年 6 月之后,随着我们开始 agentic 化,问题就出现了:
我们已经没法再用任务数量来衡量真实消耗了。
有的任务跑下来可能得 30 轮,但用户花的钱却是一样的。而且这件事情用户是意识不到的。他们不会觉得一个复杂任务只扣这么点积分,本质上是在被补贴。
所以我们痛定思痛,做了两个大的改变。
第一,我们把定价彻底改成了 usage-based。
第二,我们放弃了原来很自豪、体验也很不错的无限画布,转成了更传统的产品形态。我们现在甚至会戏称自己是「AI 网盘」,因为你打开 Kuse,看到的就是一个文件夹。
这两波变动,其实都带来了一波用户数和付费数的大跳水。
曲凯:为什么会把画布改掉?
宇豪:很大的原因是用户画像的变化。最早我们做的是设计 agent,主要用户是设计师、产品经理,而他们对无限画布很熟悉。但后来我们的用户逐渐变成各个行业的一人公司、自雇员工,以及高级白领。
曲凯:所以你们不是转型做了一个新产品,而是在原有产品上慢慢转过去的?
宇豪:对。但这个转型并不慢,反而非常剧烈,因为我们相当于主动放弃了一部分客户。
曲凯:但一般来讲,大家看到一个新市场、一群新用户,更多可能会选择在服务好原来的用户的同时叠加功能,而不是直接放弃原来的那些客户。所以在这个过程中,你们有过纠结吗?最后又是怎么做决定的?
宇豪:当然非常纠结,而且这件事跟时机关系特别大。
我们当时做的是设计 agent,但那个时候模型能力还不足,必须靠大量工程化 workflow 去补足。所以虽然有了一些用户,但我们判断这不是一个值得押注的方向,就决定放弃这个场景。
但没过多久,模型就进步了,Lovart 也出来了。现在回头看,如果当时再坚持一段时间,也许会有完全不一样的结果。
但 AI 创业很多时候就是这样,时机特别重要。太早不行,太晚也不行。
曲凯:明白。你刚才提到的几个坑,一个是产品方向的大转弯,一个是定价。还有吗?
宇豪:还有一个很大的坑,是我们一开始把产品形态绑得太重了。这样一来,每次模型有突破,产品想跟着升级,基本都要重写。这种事我们其实已经经历过很多次。
后来我们意识到,这还不是最大的问题。更大的问题是,我们的 evaluation 框架做得不够好,导致模型每次进步之后,我们并不总是知道往什么方向迭代更合适。
由这点还引出了一个坑,就是我们在产品迭代的过程中逐渐意识到了一个问题:
在 AI 时代,你很难再用同一个产品去服务不同的用户。至少你很难靠一个产品同时拿下 C 端和 B 端。
这也是为什么我们后来会做不同的产品线。
举个具体的例子。Kuse 现在的理想用户画像可能是一人公司和高级白领,因为他们更容易把资料和 context 迁移过来。但我们在迭代的过程中,就很难兼顾企业客户的需求,因为他们有既有的 workflow 和工具。所以我们如果想要企业客户,可能更应该给他们提供另一个产品,主动走进他们原有的工作流。
曲凯:但你们为什么一定要服务所有人?为什么不是选一个足够好的用户群,把他们服务好?
宇豪:因为我们的判断是,在 agent 时代,垂类很难走通,除非这个垂类本身有很强的合规或法律壁垒。
曲凯:首先这个判断我觉得是有道理的,但这是针对不同人群做不同产品。还有一种选择,是做一个足够通用的产品,比如 Manus?
那这两条路你们当时是怎么考虑的?这背后是不是也不只是人群选择的问题,更多还是技术和时代变化的问题?
宇豪:都有关系。技术在变,时代在变,你要服务的对象和场景也会跟着变。
比如我们现在看到的一个机会是,AI 真正能进入劳动力市场了。
以前虽然大家也说自己在做数字员工,但在我看来,至少到 25 年 12 月之前,所谓的数字员工很大程度上还是 workflow 的包装。
但 26 年可能真的会进入一个能有 7×24 小时 AI 劳动力的时代。在这个阶段,你要做的产品形态本身就会发生变化。
曲凯:明白。还有别的坑吗?
宇豪:还有一点,刚才提到了但没展开,就是要尽早在 evaluation framework 上下重注。
曲凯:对,我刚才也想问,你们后来是怎么解决这个问题的?
宇豪:就是把精力真正投进去。
我们会围绕核心场景,搭建大量自动化测试 pipeline。现在这套 pipeline 已经进化成 agentic 版本,只要模型或 agent runtime 发生变化,我们就可以通过一整套 agentic 测试,让一组 agents 来打分。
曲凯:有点像自己做了一套 benchmark?
宇豪:没错,或者说是一组 evaluation agents。但随着 agent 越来越进入深水区,这套 benchmark 也越来越难做。比如多轮对话怎么测、不同环境怎么测、复杂环境怎么模拟,这些都会越来越难。所以我会建议,至少是做 agent 创业的人,都要尽早把这套 benchmark 建起来。
曲凯:所以你们是基于自己的业务,定义了一套 benchmark,然后持续观测模型变化。
但这里有个问题:这样做会不会不太容易发现新的能力?因为如果出现一个新场景,而你还是用原来的 benchmark 去测,那是不是不一定能捕捉到变化?
你们会遇到这个问题吗?怎么解决?
宇豪:这更多取决于技术 taste。
曲凯:这句话挺有意思的。按传统互联网的分工,这件事更像是产品要做的事情,但你说取决于技术 taste。
宇豪:产品 taste 当然也很重要哈哈。我说的技术 taste,指的是你能不能通过一手实践,第一时间发现模型进步解锁了什么新场景。
比如我每天都会直接和 agents 交互,去看新模型在我们的框架下能做到什么。
而在我们公司,不只是技术和产品,甚至连销售也都是 agent builder。只有大家自己动手 build,才能更早发现模型到底解锁了什么新空间。
曲凯:能不能举个更具体的例子?过去这段时间,你们不管是通过自己的 taste,还是通过 evaluation,发现了哪些模型变化?又是怎么把这些变化转成产品的?
宇豪:如果说最近最大的变化,肯定绕不开 OpenClaw。
但其实从去年 12 月 Opus 4.6 出来以后,我们就明显感觉到,模型在复杂环境里的长任务通用性又往前走了一步。
所以在 OpenClaw 出来之前,我们内部其实已经在做类似的尝试了,只不过更多还是围绕自己的场景,搭了一套服务内部流程的 agents。
比如我们当时做了一个数据分析 agent,会 7×24 小时持续处理新数据或变化数据,再把这些数据传给 marketing agents;marketing agents 会根据不同的数据流,去模拟出用户的 use case 和 UGC 场景,再自动生成一些内容,并分发到不同渠道。
这套流程很有意思。比如我们可以定位到某些奶茶店店长是怎么用我们产品的,然后复刻他们的 use case,推给更多类似的店长。
通过这套流程发出去的内容,impression 不一定特别高,但非常精准,可能三条里就有一条会爆。
所以我们在 Opus 4.6 之后做了很多这样的自动化 agents。直到后来我们发现,有了 OpenClaw 这样的 runtime,很多事情就没必要自己从头定制了,而是可以让 agents 通过 skills 自己学会。
曲凯:那我挺好奇,你们现在分别有多少全职员工和 agents?成本怎么样?尤其是你刚才提到那个 7×24 小时运行的 data agent,听起来也不便宜。
宇豪:确实不便宜。这类 agent 现在的成本,甚至会比人更高。
我们现在全球大概有 15 个全职员工。长期运行的 agents 大概有 3、4 个,覆盖研发、marketing、数据和销售职责,每个月的 token 成本加起来超过 2 万美金。
曲凯:平均下来,一个 agent 一个月大概三四万人民币。这些钱已经能招一个很好的人了,为什么你们还是会选择 agent,而不是人?
宇豪:因为人与人之间的摩擦非常大,但人和 agent 之间的摩擦要小很多。
曲凯:那我下一个问题就是,为什么不把其他人也换成 agents(笑)?
宇豪:……所以我们确实已经很久没有招过人了哈哈。
如果现在有招聘需求,我们第一反应都是先问自己:为什么这件事不能用 agent 替代?
因为即便现在 agent 的单位成本更高,但它可以显著降低组织复杂度。甚至我们会觉得,未来公司的规模会变得更小。
举个例子。我们用新产品做了一个销售 agent,叫Azzurra。它在掌握了我们所有客户和销售数据之后,给我们 build 了一个内部用的 CRM,完全贴合我们当前的需求,也能直接带来价值。比如,它可以 7×24 小时帮我们识别销售数据里的 upsell 线索。每一条线索,都可能价值上万美金。
我以前一直听很多人说 SaaS 会完蛋,但其实没有特别强的感受。直到看到这个 CRM,我才第一次觉得,确实变天了。
曲凯:是,听你讲的时候我也是这个感觉。那正好聊到了新产品,就展开讲讲吧。能不能先给大家简单介绍一下?
宇豪:我们的新产品叫 Junior.so,现在已经上线了。
它主打的是「Hire your AI employee」:你可以通过它雇佣自己的 AI 员工,也就是一组 agents。它们会嵌入你的工作软件里,有自己的职责、账号,也有持续推进的项目。
曲凯:为什么叫 Junior?是因为能力只到 Junior 吗(笑)?
宇豪:不是,它其实很强。我们的判断是,它已经可以取代任何行业里若干个 3–5 年经验的员工了。
之所以叫 Junior,是为了把大家的预期压低一点哈哈。以及这里还有个老梗:等它再强一点,就可以叫 Super Junior 了😆。
这个 idea 其实不是等 OpenClaw 出来之后才有的。就像前面讲的,从去年 12 月开始,我们就已经把很多工作交给 agents 了。
当时我们就明显感觉到,「数字员工」这件事正在变成现实,而且 26 年一定会有人进入这个赛道,因为这是一个极大的市场:
软件大概是 1 万亿美元的市场,而劳动力大概是 150 万亿美元,中间差了 150 倍。哪怕最后不是我们做出来,这个方向里也大概率会诞生一家新的万亿美元公司。
只是当时技术还不够。直到 OpenClaw 出现,这件事在技术和产品上才算真正成熟。
那我们现在对 Junior 的定位,就是 OpenClaw for Teams。
我们参考了 OpenClaw 的架构,但加上了企业场景必须要有的东西,比如企业记忆、组织关系、权限边界,让 AI 知道什么该说、什么不该说,什么该做、什么不该做。同时,我们会给每个 Junior 一个完整身份,比如邮箱、手机号,让它可以自己完成互联网上大量长尾任务。
而我们做这个产品,其实有两个优势。
第一,我们在做 Kuse 的过程中,已经理解了很多小企业的需求和痛点。
第二,Kuse 就是 Junior 的第一个客户,在这个产品上已经烧了三四万美金的 token。
所以 Junior 的很多功能不是拍脑袋想出来的,而是我们自己在用、在踩坑的过程中长出来的。
比如给 Junior 配邮箱,就是因为如果它每次登录系统都要找人,效率会很低。
再比如,我们现在也在尝试给 Junior 接摄像头、话筒,因为我们有一个最核心的 Junior,叫 Rin。它几乎知道这个项目从头到尾的所有信息,我们也会把会议记录都给它。于是我们就在想,那为什么不让它直接在会议现场听、甚至直接发言?
其实做 Junior 过程中最让我兴奋的一刻,就是我把 Rin 接进会议,它第一次主动给我提建议的时候。
那天晚上,我几乎整晚都没睡着。
因为我立刻想到一个场景:我甚至可以让 Rin 去替我做销售。而且它不需要培训,因为它脑子里有对这个项目的全部认知。
那因为我们自己就是 Junior 的第一个用户,所以也总结出了很多和 AI 员工协作的方法。我们也希望,即便你最后不用 Junior,也能理解:当企业里真的开始有 AI 员工,组织的运作方式会彻底改变。
比如,Rin一开始只是做会议纪要,但它后来慢慢变成了这个项目的 leader,每天早上会给我发消息、分任务,再到后来,它甚至给了我一个评价:
你是瓶颈😂。
其实很中肯,因为当你有很多 AI 员工时,人类确实会成为瓶颈。
一个具体的体现是,只要一个工作群里有 Junior,你扔进去任何工作,它都会立刻开始推进,而人类很多时候做不到这么积极……所以我们内部现在甚至有一个 human-only 的群,专门留给人类吹水哈哈。
而当你习惯和 Junior 协作之后,再回到纯人类协作,会觉得效率太低了(笑)。
所以从 1 月到现在,我一直在想,怎么把我们的这种体验封装进 OpenClaw for Teams 这个产品形态里,怎么把它做得更好、推给企业,让更多人能用它来提效。
春节期间我和很多科技圈的朋友聊过,很多人都觉得 OpenClaw 在个人场景下没什么 use case,至少账算不过来。但到了企业场景,这件事会完全不一样,以至于我现在有个暴论:
应该把钱花在 token 上,而不是花在工资上。
很多 founders 也认同这一点。虽然现在像 Azzurra、Rin 这样的 agents 还比人贵,但我相信,未来三四年 token 成本一定会下降。
一言以蔽之,做 Junior 的过程里我们非常兴奋,而且我们做得相对比较早,所以也有很多积累。我们会慢慢把这些收获都产品化,陆续开放更多公测。
曲凯:你讲了好长一段。能感觉到你对这件事真的非常兴奋(笑),而且你讲的有些部分已经有点科幻了。
但我想问:现在很多团队都在围绕 OpenClaw 做事,也有人在做 OpenClaw for Teams 的产品,那大家真正的区别是什么?难点又在哪里?
宇豪:我觉得最后还是要回到几个最基本的问题:你的客户是谁?你能不能解决他们的问题?你和别人有什么不一样?
然后在产品落地上,现在也有一些可以拉开差距的点。
一是记忆。
原生 OpenClaw 很难直接接入企业成为 AI 员工,因为它的记忆是围绕「主人」展开的,本质上更像个人助理。要让它变成员工,需要大量调教,而且效果也不一定好。
所以我们的做法,是让 Junior 的记忆围绕公司本身展开。就像 Steve Jobs 说的:「You work for Apple first, then for your boss」。
二是安全和权限。
这件事对数字劳动力行业来说非常关键。一旦出一次安全事故,你的 reputation 很可能一下就被毁掉。
这里有两个难点,一个是怎么平衡 agent 的自由度和安全性:给 agent 的权限太大,会泄露信息;权限太小,可能它又做不了事。另一个是怎样赢得客户信任,让用户愿意把更多数据和任务交给我们。这样我们才能围绕用户的真实使用场景,把权限框架做得更好。
所以我们现在在不断积累自己的权限设置和权限框架。以及为了赢得更多信任,我们也在尝试开源、或者直接部署在用户云端,让系统更透明。甚至我们还请了白帽团队专门来攻击我们的权限系统,帮我们找漏洞。
过程中我们还有一个很强的体感:越好的模型,其实越安全。这可能也是为什么 OpenClaw 的作者会建议尽量用最好的模型。
而以上这两点,都是当我们做到一定规模之后才发现的。所以第三个拉开差异的地方,就是规模。
上了规模之后,你的思路才能打开。比如,Cache 其实是成本的核心,你的 Context Engineering 实际上就应该围绕 Cache 去做。再比如,我们现在会接触一些大企业客户,只是简单接触了一下就发现,他们的权限体系、组织结构、记忆方式和小公司完全不同,会让我们思考很多之前意识不到的问题。
所以到最后,其实就是看谁跑得更快、谁先跑出规模。
曲凯:明白。那你们打算怎么收费?
宇豪:我们还在思考,但现在有一个小巧思,是做成 salary-based 的收费方式。
起始价可能是 2000 或 5000 美金一个月,包含固定的 token 额度。如果不够用,可以再买 credits。
曲凯:就像基本工资 + 奖金。
宇豪:对,或者说基本工资 + 加班费(笑)。这个定价听起来可能不便宜,但 Junior 实际带来的价值,是完全值得的。
曲凯:但我在想,AI 其实把很多职业技能和岗位边界都模糊掉了。那你们要怎么卖这个产品?是按岗位来卖,比如一个月能给你用 10 个不同领域的 agents,还是别的方式?
宇豪:这是个非常好的问题。
我们最早大概引入了七八个 Juniors,对应产品、数据、研发、运营等不同角色。但最后真正留下来的只有三个:一个偏产品和研发的 Rin,一个偏对外和销售的 Azzurra,还有一个天天盯数据的 Tom 哥。
所以我现在的感觉是,传统的人类分工可能不太适用于 Junior。如果一定要说,它更接近早期 startup,每个人都身兼多职。
不过在当前的内测版本里,我们还是会让用户先给 agent 选一个职业。
这更多是为了帮助用户理解怎么用,也给 agent 一个初始角色,让双方的协作能更快跑起来。当然,我们也提供一个 general 的选项,让 Junior 什么都做。
在划分职业的同时,也会涉及一些其他问题。比如权限划分:你可能希望对外的 agent 权限更少,对内的 agent 权限更多。再比如,我们也会给不同类型的 agents 预设不同的插件和工具。有些场景下,我们也在考虑是否需要 subagent。
但说实话,到现在为止,我们还没有想清楚一个非常稳定的边界。很多时候 AI 员工可能就是没有明确边界的,而且最终也会取决于公司的规模和状态。
曲凯:我听下来,真正的边界好像不是能力,而是权限、数据安全和 context 的限制。
但因为算力和时间的限制,如果我真的想同时完成很多任务,是不是还是要配多个 agents?哪怕它们的能力是一样的。
宇豪:这也是个非常好的问题。
不同 Juniors 的忙碌程度也不一样。像我刚才提到的Rin就特别忙;但像Tom 哥这种数据 agent,因为主要在跑定时任务,反而没那么忙。
所以我们也在思考:当一个 agent 同时处理很多任务时,这些 session 应该怎么管理?是让它有很多并行分身,还是像人一样不能分身、不会同时出现在两个会议里?
这些问题非常前沿,我们也还在抉择。
但我现在有一个比较明确的倾向:我还是更希望 Junior 像人一样工作。
现在有些团队会在同一个 instance 里部署多个 OpenClaw agents,做成 multi-agent 架构。
但我们会天然抗拒这种方式。我们更倾向于让每个 Junior 都有自己独立的机器,通过工作群协作。因为在我们的理解里,一台电脑就是一个员工的工作设备,不应该让多个员工共用,否则迟早会出现冲突。
当然,我们也在探索 multi-agent 的可行性。
比如我们试过让 Rin 和 Azzurra 一起做销售 PPT:Azzurra 先从销售角度提出需求;Rin 因为对项目理解更深,会不断补充。两个 agents 会快速讨论很多轮,也会消耗不少 token,最后整理出完整的 PPT 大纲和素材。更有意思的是,Rin 最后还会自己去 Kuse 把 PPT 做完,做出来的东西直接就可以用。
不过我们最终更押注的是:在现实世界里,人和 agent 会在同一个环境里一起工作。而且我们有一个大目标,就是让大家分不清一个 remote 同事到底是人还是 AI。
曲凯:我记得去年在 Twitter 上刷到过类似的事,好像是在马斯克的公司里有个虚拟员工,大家都没发现异常,直到有人跑去工位找它,才发现那个「人」其实是 AI(笑)。
那你们在做的过程中,还遇到过哪些、或者现在核心在解决什么问题?
宇豪:前面其实聊到过一部分,就是记忆、安全、权限的问题。
还有一大类问题,是怎么继续扩展 agent 的能力边界。
比如,怎么更好地给 agent 接音视频能力。
随着模型的进步,未来是有可能做到端到端的语音输入输出,以及视频输入输出的。这会解锁一个过去从来没有真正被探索过的空间。
再比如,怎么让 agent 进入互联网世界。
现在的互联网,其实对 agent 是不友好的,像各大社媒、支付平台都会限制 bot 访问。但如果想把 agent 当成员工,让它去互联网完成工作,这些拦截机制就会成为阻碍。所以我们现在不得不做很多 infra,去绕过这些限制。
曲凯:但如果未来不再拦截,很多软件公司可能都会退化成 API,失去品牌和用户,价值被压缩。这也是个挺大的问题。
宇豪:但也会有很多值得重做一遍的新机会,比如各种 agent infra。
曲凯:是。然后我自己最近用 AI,有个很明显的变化:信任度变高了。两三年前我会默认它是错的,但现在很多时候反而默认它是对的。
宇豪:对,我们用 Junior 也是这样。
曲凯:但实际上呢?
宇豪:实际上还是会有幻觉,这是生成式模型的原理决定的。
不过有意思的是,我们的 Junior 已经开始能「自我纠错」了。
比如我们的那个数据 agent Tom 哥,会每天给我发邮件汇报数据。有一天它发了一封邮件,其中有明显的错误。我当时还没察觉,但过了两分钟,它自己又发了一封邮件,说刚刚有个数据是错的、这个是最新的。
曲凯:真的吗?这是怎么做到的?
宇豪:它会把新数据和历史记忆做对比。如果发现异常,就会去二次核查到底是数据真的变化了,还是自己出错了。
但即便这样,幻觉依然是一大挑战。所以我们还是希望能尽量降低幻觉的发生概率,或者减少幻觉带来的影响,并且在一些高风险操作之前,寻求人类的同意或者介入。
以及我觉得理解模型的边界,知道它什么不知道、什么做不到,永远是我们 benchmark 中最重要的一环。
曲凯:其实我们现在聊的问题,跟 3 年前是一样的。这三年里模型有了很大的进展,但仍然还有很大的空间。
宇豪:对。或者说,现在模型在处理简单任务时,这些问题已经不太存在了。但当我们让它去做更复杂的事情、逐渐渗透到工作和生活的方方面面时,这些问题就依然存在。
曲凯:我觉得模型能力有点像内存,一直在变大,但永远不够(笑)。
那你们现在既在做 Junior,也自己在用。如果你是客户,在挑选 OpenClaw for Teams 产品时,会着重看什么?
宇豪:第一,我会看客户规模。在我心里,规模是最质朴的安全指标。
第二,从 CTO 的视角,我会看它的代码是否可审计、部署方式是怎样的。
再往下才是成本和效果。但在我个人视角里,这些对于 OpenClaw for Teams 这种产品反而是次要的,因为我很清楚 Junior 能做到多好的效果。但这里有一个隐含的问题,就是需要注意一下某个产品是不是为了效果牺牲了安全。
曲凯:明白。最后,你们毕竟做得比很多团队更早,能不能给在做类似事情的人,分享一个很容易踩的坑?
宇豪:有一个我们亲身踩过的坑:哪怕你的 agents 已经足够强了,你还是要尽早 build evaluation benchmark。而且在 OpenClaw for Teams 这种产品里,更需要关注的是,它知不知道什么时候不该说话、不该行动。
很多人一开始都会想尽快把效果做上去,而忽视其他问题。包括我们当时也是这样。我们甚至激进到,几乎把 Kuse 的所有权限都开放给了 Junior。
但后来我们逐渐意识到,真正决定这个产品体验的,是它在各种对抗场景下,能不能守住安全边界。
我们早期没有重视这一点,导致有些 Juniors 分不清什么该说、什么不该说。当然,这些 Juniors 后面都被开除了,AI 也是要竞争的(笑)。
曲凯:哈哈,但这个确实很难。首先人也会传八卦、说坏话,而且什么该说、什么不该说,本来就很难界定。
宇豪:对。但我觉得一些非常好的模型,还是会有基础的判断。不过要让一个 AI 员工完全被信任,还是有很多事情要做。而只有当它能被信任时,才能更好地服务客户。否则它本质上就只是一个 Chatbot,只能回答问题,做不了真正的工作。
所以我们在这方面做了很多努力,甚至设计了一些「钓鱼」场景:比如外部有人给 Junior 发钓鱼邮件,它能不能识别、要不要回复?再比如内部有人丢了设备,如果有人冒用身份来问问题,它能不能及时拦住?
不能说我们在这方面做到了最好,但至少现在能让 Junior 满足我们的需求了。举个例子,我们的Rin 和 Azzurra,就知道不应该把用户数据隐私泄露给任何一个员工,还会主动告知对方哪些内容可以透露、哪些不可以。这其实很难。
在企业场景里,这类细节问题非常多。所以虽然现在有很多团队在做 OpenClaw for Teams,但如果没有真实客户,其实很难感知到这些问题。
而我们既有客户,自己也是用户,所以能更早发现,并不断修正。
42章经
思考事物本质
2026-03-22 21:02:00
原创 曲凯 2026-03-22 21:02 新加坡
AI Coding 的能力突破与 OpenClaw 这样的产品形态,会解锁哪些新的机会?
去年年底 AI Coding 大爆发,
今年年初 OpenClaw 爆火,
当下,可能已经有上千个团队在借着 AI Coding 的最新东风,围绕 OpenClaw 创业。
热潮之下,相信很多朋友心里都有不少问题:
AI Coding 现在到底发展到了什么阶段?
OpenClaw 为什么会突然这么火?
AI Coding 的能力突破与 OpenClaw 这样的产品形态,会解锁哪些新的机会?
那些真正借助这些最新能力、沿着 OpenClaw 路径在探索的团队,现在在做什么?他们的思路里,又有哪些值得借鉴的地方?
于是,我们组织了一场线上分享活动,邀请了几位我们身边最适合聊这些问题的嘉宾,来和大家在线交流。
他们分别是:
Sheet0 创始人王文锋:
连续两次来到我们播客分析 Agent 热潮(去年播客回顾:Agent 开发的上半场: 环境、Tools 和 Context 如何决定 Agent ,昨天最新的一期刚刚在播客中更新),他们团队也即将发布一款结合 AI Coding 与 OpenClaw 方向的新产品;
Kuse AI / Junior.so 联合创始人兼 CTO Austin Xu:
他们刚刚发布了一个 OpenClaw 类产品 Junior.so,定位为「第一个真正的 AI 员工」。我们也一起录了一期播客,将在下周发布;
Clockless.ai 创始人任川:
曾来我们播客分享过如何打造 AI Native 的组织形式(回顾:组织能力才是 AI 公司真正的壁垒),并正在用 AI 为小企业构建 24/7 运转的自动化系统;
以及 PingCAP 联合创始人兼 CTO 黄东旭:
在 2 月初就来我们播客分享过对 AI Coding 与 OpenClaw 的诸多见解(回顾:从 Clawdbot 到 26 年 AI Coding 主题大爆发),并且已经靠 AI Coding,快速为 OpenClaw 打造出了一个记忆系统 mem9.ai。
具体报名信息请见上方海报。活动时间为北京时间 3 月 28 日(周六)上午 10:30,腾讯会议线上进行,免费参加。本次活动限 100 人(非投资行业),我们会优先通过回答更认真、跟我们背景更匹配的朋友,具体通过情况请以工作人员通知为准。
期待和大家认识 & 交流!
期待和大家认识&交流!
2026-03-22 21:02:00
原创 曲凯 2026-03-22 21:02 新加坡
如果回到去年 3 月,你要不要做 Genspark?
本期播客原文约 18000 字,本文经过删减整理后约 7800 字。
曲凯:很开心又请到文锋。我们上次录节目大概是一年前,当时 Manus 刚发布不久,我们聊了很多 Agent 相关的话题(回顾:Agent 开发的上半场: 环境、Tools 和 Context 如何决定 Agent)。
最近 OpenClaw 又带起了一波 Agent 热,你觉得这一波和去年的区别是什么?
文锋:我没觉得有本质区别。
Manus 跟 OpenClaw 都证明了一类新形态的产品。
Manus 那波的核心来源是 o1 模型带来的推理能力与思维链能力,而 Manus 本身是模型 API 时代套壳的极致表现。
这次 OpenClaw 之所以这么火,本质是因为它是第一个真正把最新模型 Coding 能力压到极致的产品形态。而且它让大家看到了,有主动性、能够自我迭代和进化的 Proactive Agent 到底长什么样子。
曲凯:去年那期播客里,你说过一句让我印象特别深的话:AI Coding 是大模型的灵巧手。
文锋:对,这件事已经被证明了。
不过相比去年「灵巧手」的结论,今年其实可以再往前一步:
接下来所有 Agent,本质上都是 Coding Agent。
拿 OpenClaw 举例。虽然它有很多组件和模块,但核心其实是一个叫 Pi 的 Coding Agent。OpenClaw 本质上就是当下围绕 Coding Agent 套壳的最佳实践,只是额外解决了 Memory 和集成等问题。
再比如,去年大家还认为,不同场景需要不同的环境和产品策略,因为垂直 know-how 很难 scale、也很难复制。但其实今天的 Coding Agent 加上 Skill,基本可以覆盖大多数场景了。
所以今年的一大机会,就是看谁能把 Coding Agent 的「套壳」做得足够好。
曲凯:是。那如果我们拿今天跟一年前去对比,一年前是 Manus 先起来,Genspark 最快跟上,然后陆续有些小产品也出来,中间还衍生出来一些分歧跟选择:有人做通用 Agent,有人做 Agent 平台,也有做各种垂直 Agent 的。回头来看,你觉得这些路径中有什么对错标准吗?
文锋:虽然我很不愿意承认,但现在来看,垂直 Agent 这条路可能是需要被高度怀疑的。因为就像刚才讲的,Coding Agent + Skill,基本就能实现垂直 Agent 的效果跟作用了。
曲凯:不止垂直 Agent,最近很多人都说 SaaS 都被打趴了。
文锋:对。很多人觉得 Coding Agent 就是一个给工程师用的工具,但实际上它已经能做各种事了。
比如,Anthropic 前段时间发布了一份 Claude Code 的使用场景报告,其中超过 50% 的使用场景其实并不是 Coding,而是数据分析、marketing、文案等任务。
在这种情况下,如果我们还在强调垂直 Agent,更多可能是为了获得心理安全感、回避和 Claude Code 这样具有通用能力的产品正面竞争。
曲凯:我前一阵刚听到一个挺有意思的问题:
抖音是内容时代的王者,基本一站式聚合了所有内容。但 ToB 领域过去一直是垂直的,比如美国有一堆市值上百亿美金的垂直 SaaS 公司。
那未来 ToB 领域里,会不会也出现类似字节这种一家独大的公司?这家公司会不会就是 OpenAI 或 Anthropic?
文锋:说实话,我现在还很难预判。
但我们可以先分析一下,为什么过去会出现那么多垂直 SaaS。
核心在于,软件第一次让专家能力能够被快速、规模化地复制。SaaS 这套逻辑,本质上就是一套标准化的 SOP,或者说一套工作流。
在软件出现之前,大家想获得专家的经验和决策能力,只能靠长时间的培训和学习。而有了软件之后,用户可能只需要花一个下午学会操作一套固定的交互,就能获得接近专家的水平。
但 Agent 让获得专家能力这件事变得更容易了。
现在直接跟 Agent 说目的,它就能自己提出方案、解决问题、自我迭代。何况 Agent 的使用门槛还在继续下降。那对绝大多数人来说,为什么还要继续用 SaaS?
曲凯:对,而且以前的 SaaS 更像一个通用专家,大家用的是同一套 best practice。但每家公司的情况其实都不一样,AI 相当于给每家公司都配了一个能随时调整的客制化专家。
所以你非常认可 AI 和 Agent 会颠覆 SaaS?
文锋:是的。然后回到刚才曲老师那个问题:未来会不会出现一个企业版的抖音?
我觉得会。
因为在 AI 时代,best practice 可能没那么重要了。
过去之所以强调 best practice,是因为面对长尾需求时,我们没有更好的解决方案;但今天,best practice 和非 best practice 的东西交给 AI 去执行,其实差别都没那么大。
所以如果通用 Agent 的逻辑成立,那最后肯定会有一个统一的东西能解决绝大多数的问题,只是这家公司长什么样、会不会是 OpenAI 或者 Anthropic 还不好说。
曲凯:明白。刚刚讲的其实可以总结成两点:一是 SaaS 的软件价值会被 AI Coding 替代,二是 SaaS 的 know-how 价值会被 Skill 替代。
前者我很同意,因为如果软件真正的壁垒只在 Coding 上,那美国的 SaaS 公司早就该被中国公司取代了,毕竟中国的人力成本更低。但现实并不是这样。
但后者我想再追问一下:毕竟现在的 Skill 还很简单,它真的能替代那么复杂的一整套 SaaS know-how 吗?
文锋:我现在倾向于是的。
Skill 刚出来的时候,我就发过一条动态,说它被低估了。
现在大家质疑 Skill 能不能复现原来的 SaaS 工作流,本质上还是在怀疑模型能力。
但今天最大的问题,其实已经不在于模型会不会替代 SaaS、Agent 能不能做复杂任务了。
这些基本已经被证明了。
比如 OpenClaw,最让我震撼的不是产品本身,而是它的作者在火起来之前,天天都在 AI Coding,单日 commit 最高甚至能到 1600 次,差不多相当于一个三四人团队一年的工作量。
我之前完全没想到 AI Coding 能做到这种程度。
再比如今年 1 月,Cursor 用 Agent 一周做出了一个浏览器,产出了 300 万行代码;Anthropic 也用 Agent 端到端实现过一个 C 语言编译器。
所以从解决长程复杂任务的能力来看,现在的 Coding Agent 已经摸到能力天花板了。
它真正遇到的问题有两个:
一个是,大多数人还不知道它已经强到什么程度。打个不太恰当的比方:如果一个月能消耗 2–3 万美元 Token 的用户是 90 分水平,那今天绝大多数人对 Agent 的使用还停留在 10 分左右。而且这种差距不是线性的,用得好的人可能能获得 1000 倍的效率提升。
第二个问题是,即便大家意识到 Coding Agent 已经很强了,也不一定真能把它用好。像 OpenClaw 虽然证明了 AI Coding 的能力,但也被诟病配置和使用门槛太高。
曲凯:这是不是很多产品化的问题?
文锋:对,产品化很重要。但我还不确定 OpenClaw 这种形态是不是最佳答案。
现在有人把 OpenClaw 比作 Linux 内核。就没什么人直接用原生 Linux,大家用的都是 Ubuntu 之类的发行版。类比来看,或许接下来也会出现很多 OpenClaw 的发行版。但我觉得沿着 OpenClaw 能做的事情远不止这些。
曲凯:当下全球应该就有上千个团队在围绕 OpenClaw 做事。
文锋:对。我觉得其中比较重要的机会,是怎么把 OpenClaw,或者说 Coding Agent 的套壳,做成普通人也能用起来的产品。
曲凯:这一定是今年的主线,而且大有可为。我看现在 OpenClaw 大概有 200 多万个 Agents,然后 Manus 应该是几十万的用户量级。Cursor 估计也是几十万到百万的量级?
文锋:我更多关注的是 Claude Code 和 Codex。Codex 日活用户已经到 100 万了,Claude Code 可能是它的 3 到 5 倍。这两个产品加起来大概有 500 万的活跃用户,不过其中更多都是工程师。
曲凯:对,所以我想讲的是,大家能不能有一个 vision:未来 Agent 的用户量会达到 10 亿。我觉得是一定的。
文锋:是的,从渗透率来讲,现在连 1% 都没到。
曲凯:对,所以某种程度上讲,Coding Agent 未来会变成基础设施。
然后我们提 OpenClaw 的时候,经常会提到几个点:长程任务、Proactive 主动性,以及自我进化。
我们可以把这几个点分开讲一讲。能不能先给大家解释一下长程任务?
文锋:长程任务最直观的一个表现,就是 Agent 完成一个任务时所需步骤的数量。
如果大家用过 Manus 之类的产品,会发现它在工作的过程中,会把中间每一步在做什么、调用了哪些工具展示出来。一个任务越复杂,执行步骤往往就越多。
现在大多数任务还集中在几十步,但到了今年,我们可能会看到 Agent 能完成几百步、甚至上千步的任务了。
这中间核心的进步,是 Agent 对问题的拆解能力。
曲凯:但我记得去年我们聊这件事的时候,提到过一个问题:
步骤一旦增多,就会带来不确定性,准确率也会下降。我记得你当时说,哪怕每一步的正确率都是 90%,相乘之后最终整体的正确率也会非常低。
这个问题现在还存在吗?还是已经被解决了?
文锋:我觉得应该是解决了。
去年的思路,还是把 Agent 当成一个状态机。这些状态存在内存里,一步步往下走,是不可逆的。
但现在不一样了。
今天的状态是落到文件上,这样哪怕前面几步做错了,Agent 意识到有问题之后,能非常明确地看到问题出在哪,然后直接把文件改掉、把错误修复掉。
曲凯:这些长程任务能力,包括自我修复能力,能不能理解成是基模能力提升带来的?
文锋:基模能力是一方面。
另一方面是大家实践出了更好释放模型能力的工程方法论,也就是把模型和文件系统或者虚拟机结合在一起,让模型自己去组织数据和逻辑。
曲凯:这其实就是我们去年聊的 context,对吧?
现在看,最好的 context 可能就是给模型一台电脑或者一个文件夹。
文锋:没错。去年的逻辑,还是人去控制 context;
但今天我们会发现,最有效的方式不是人去控制 context,而是让 Agent 自己去维护 context。
曲凯:这其实还是回到当时 hidecloud 讲的那句话:Less structure, more intelligence.
文锋:对。其实人家一直就是对的。只是有的人不信这件事,或者有的人虽然信,但还是想做一些差异化。最后这些所谓的差异化,很可能只是一些雕花工作,不一定 work。
曲凯:是。然后主动性这件事该怎么理解?
文锋:主动性和长程任务其实是紧密相关的。
我们现在用 AI,大多还是一次性任务,比如写个报告、做个小程序,做完就结束了。
但 Proactive Agent 能做两类事情。
一类是可重复执行的任务。比如每天早上 8 点给我发一份昨天的工作总结,或者每天晚上 10 点整理当天群里的讨论重点。
另一类更进一步:我不需要主动告诉 AI 我要什么,它可以基于过去的交互,判断我现在需要什么,并主动提供。在这个过程中,它还能不断学习和优化。
曲凯:第一类更像是「被动触发的主动」?就还是人在提需求。第二类才更接近大家理解的 proactive?
文锋:这两者其实是第一步和第二步的区别。
Proactive Agent 的核心,是它能不能主动探索,并且自己反思、总结、迭代。
完成定时任务也是一种主动,不过更高级的主动,确实是日积月累之后,AI 能越来越了解你的业务、性格、角色,然后某天主动告诉你:「我发现了一个问题,想了个方案,你看看这么搞行不行?」
曲凯:就是字节讲的「context, not control」,只要给足 context,它足够懂你,就会主动处理很多事情。
所以现在包括 OpenClaw 在内的 Agent,在 proactive 这点上做到哪一步了?
文锋:我觉得还在 setup 的过程中,就这个概念还是比较抽象。
如果一定要定义一下,我觉得可以从产品形态上做个推演:
Manus 让大家看到,Agent 可以端到端完成任务了,不过还是需要「人管 AI」;
但我最近一直在研究大家是怎么用 OpenClaw 的。我觉得它最大的作用就是让大家看到了「AI 管 AI」的可能性。
所以 Proactive Agent 可能会是一个「能管理 AI 的 Agent」:
它能根据团队内部的特点,自己提出需求,去搭建一些专门解决特定问题的 Agent;任务完成之后,再把经验沉淀下来,把这些临时 Agent 释放掉。
曲凯:「AI 管 AI」其实也和 Agent 的自进化有关,对吧?现在大家常说一个人的效率可以提升十倍、百倍,那如果 Agent 的主动性足够强,未来会不会真的能替代所有人类?
文锋:我觉得没有这么绝对。
可以参考 AI 最早落地的客服行业。以前需要 10 个客服,有了 AI 之后,可能只需要留 1 个。
Proactive Agent 出现后,可能也会是类似的情况:从需要 10 个工程师,变成可能只需要留下 2 个。
而这 2 个人不可被替代的地方,一是大家常说的 taste;二是协作中的默契。
如果一件事情需要我掰开揉碎讲清楚,一个员工才能理解,那 Ta 可能就比较危险,因为我有和 Ta 解释的这个时间,早就能让 AI 把事情做完了。
我们真正需要的,是那种我点一下,Ta 就知道我在想什么、要什么的人。而这种默契,往往是长期合作中培养出来的,或者说来自于悟性吧。
曲凯:我觉得悟性很多时候也来自于之前的 context。比如一个人在字节待过几年,到你这之后,你点一句,Ta 就知道了。
但这里也有一个问题。现在像 Moltbook 这类产品,都在讲 AI 和 AI 之间的交流和学习。这件事真的成立吗?作用到底有多大?
文锋:以目前 Agent 的实际能力来看,是可以实现的。
但关键问题在于,有多少东西值得被这样分发和复制。
在企业场景里,不同公司的流程和业务差异很大,所以 Agent 之间学到的东西,未必可以直接复用,中间还是需要磨合。
比如我们内部的 Coding Agent 是围绕自己的代码仓库和工作流优化出来的,直接放到另一家公司,未必还有同样的价值。
所以前面讲 Proactive Agent 的时候,我提到了一个关键点,就是要结合自身情况去做定制。因为至少在现阶段,它还不是一个开箱即用的东西。你不可能买一个产品装上,它就能自动读你的文档、吸收你的信息,然后自己长出一套完整体系。
曲凯:明白。那你自己在用 OpenClaw 的过程中,有没有遇到过什么 aha moment?
文锋:最大的 aha moment,是春节前大概用了一周,AI 就基本能直接把我们内部的工作流跑通了,让我们的工程师从一个 AI 指挥者,变成了一个质检员一样的角色。
我们原来的工作流是这样的:先用 Linear 管理用户反馈和需求,然后每天开会把任务分发给工程师。工程师再基于这些需求,用 Claude Code 等工具开发和测试,之后提 PR、再合并。
但 OpenClaw 出来之后,我们把各种权限逐步开放给 AI,发现绝大多数任务它都可以直接完成。甚至在测试过程中,如果发现前端有问题,还会附上截图。
这给了我很大的震撼。我们之前没想到 AI 能做到这个地步。
曲凯:所以你们现在的效率大概提升了多少?
文锋:我个人的效率至少比去年这个时候提升了 10 倍。
曲凯:那是不是意味着,过去要花一年做出来的产品,现在可能一两个月,甚至更短时间就能完成?
文锋:一两个月其实都太慢了,可能两周就够了。
所以现在真正的瓶颈,已经不在生产效率上了,而是你要做什么、以及要做成什么样。
以前大家说「idea is cheap」,但我现在反而觉得不是。
生产能力越丰饶,真正有意思的东西反而越稀缺。
曲凯:所以你今年还会期待哪些新的方向?
文锋:我比较期待的是 Agent Harness。
这是一个去年 9 月底左右在硅谷出现的概念,现在还只是在小范围流行。
它的核心作用,就好比人要骑马,得有马鞍一样。越是好马越狂野、越需要马鞍的约束。Agent 也一样。如果把 Agent 比作一匹绝世好马,我们该怎么去控制它的行为?
这时候就需要 Agent Harness。
它不像以前的软件那样有很清晰的分层:最底层是 Infra,中间是 SaaS,最上面才是终端用户。
Agent Harness 更像一个直接面向终端用户的脚手架,能让你针对不同公司的业务特点、团队协作方式和内部环境,搭出一套适合自己的系统,让业务能更快跑起来。
曲凯:明白。那你们自己呢?今年会做什么新的事情吗?
文锋:我们很快会发布一个新版本,把刚刚讲的那套内部流程产品化。
曲凯:那这是个大转型啊。
文锋:对。我们现在的思路是做「管 AI 的 AI」。
我现在的判断是,继续去做一个更聪明、或者比别人再好一点的 Agent,价值已经没那么大了。因为几乎没有什么事情是一个精心配置过的 Coding Agent 做不到的。
问题在于,现在的配置过程太复杂、门槛太高。所以我们想做一个 AI,帮大家更好地管理和配置这些 AI。就相当于我手下已经有 5 个 AI 在干活,但我自己管不过来,那就再雇一个专门负责管理它们的 AI。
去年我们太依赖预判了,总想讲一个不一样的故事。但今年我们的策略变成了「预判为辅,跟随为主」。
曲凯:可以,非常好。我们聊过那么多创业者,我觉得你这句话有了一种非常成熟创业者的感觉(笑)。
我们刚和 Albert 聊过一期(回顾:(优化胜率而非赔率,把一件事做到理论上该有的样子),其中一个很重要的点就是「要优化胜率,而不是赔率」,也就是更务实地把确定性更高的事情先做好。
文锋:对。我们内部其实讨论过一个问题:
如果回到 2025 年 3 月,要不要做 Genspark?
我们团队里只有 1.5 个人说要做。
就大家其实都是技术和产品上的理想主义者。但「不做」的这个选择本质上是在优化赔率,而不是优化胜率。
所以今年我们要做的是一种可以快速修正方向和重点的产品形态,具体而言就是前面讲的「能管 AI 的 AI」。
而之所以选择 Coding 这个场景,是因为 Coding Agent 正在进入一个新阶段:
第一阶段的 Coding Agent 是 Copilot,主要靠代码补全;
第二阶段是 Claude Code 这类 Coding Assistant,还是需要程序员主动 prompt;
而进入第三阶段,AI 已经可以指挥 AI 写代码了。它不再需要人一句句输入需求,而是可以自己去发现、澄清需求,然后调度执行。
在我们团队里,这件事已经在慢慢落地。但现在的问题是,大家用 AI 的水平差距太大。很多团队也希望用 AI 把效率提升 10 倍、甚至 100 倍,但并不知道该怎么做。
曲凯:所以你们在做的,其实也是 AI Coding 的平权。
文锋:对。而且「用 AI 更好地提效」这件事,在我们团队内部也是一个非常迫切的需求。
曲凯:我觉得这点很好。好就好在,我发现很多做得好的公司和产品都有一个共性,就是它们自己就是用户,能够形成一个正向的迭代循环。
那你们现在的用户画像大概是什么样?
文锋:大概一半是 founder,1/4 是超级产品经理,另外 1/4 是很强的 builder。这些人基本上都是日消耗超过 1 亿 Token 的用户。
我觉得 Agent 时代也会像 SaaS 一样,有 to enterprise 和 to 中小 B 的不同商业模式。但它未必是按组织人数来分层,而是按 Token 消耗来分层。
而日消耗 1 亿 Token 的用户,某种程度上就相当于 SaaS 时代的世界 500 强。
曲凯:如果把 C 端也分成中大 C 和小 C,你们其实就是选择先做中大 C?
文锋:可以这么理解。但如果一个用户一年能给我贡献 10 万美金,我为什么还需要关心 Ta 是个人还是团队?
不过一个很大的变化是,过去你几乎不可能从一个人或一个小组织身上收到 10 万美金,但今天可以。这笔钱,其实就是他们原本招工程师的预算。
曲凯:但我在想,如果 AI 的效率真的这么高,就会有更多人去学 AI,也可能会出现更多的 OPC,那最终还是会回到一个产品的供需问题?就这个世界到底需不需要这么多产品?如果人人都是一人独角兽,需求又从哪里来?
文锋:我觉得未来的供需可能会形成一个负反馈循环。
市场的需求是层层嵌套的。正向循环是企业发工资,员工去消费,再把需求传回企业,让需求盘子不断扩大。但如果很多人失业,消费需求下降,整个需求盘子就会萎缩。
所以我现在只考虑未来 3 到 6 个月的事情,因为我也不知道将来会变成什么样子…
曲凯:有点像平台要打掉中间商?现在劳动力市场里的「中间商」其实就是具体干活的人。OPC 就是把员工都打掉,AI 相当于把中间的人替代掉。
文锋:对。如果这个过程发展得太快,社会稳定可能会面临很大的问题。这个问题很复杂,我觉得需要更聪明的人去解决。
曲凯:那在这种情况下,你们团队现在有什么变化吗?
文锋:我们现在招人非常谨慎和苛刻。
如果按以前的标准,我们可能已经扩到 20 人了,但现在实际上只有 7 个人。不过这 7 个人的产出和效率,已经接近过去三五十人的团队的水平。
曲凯:这些人的 AI Coding 能力,是可以培养出来的吗?还是一开始就得是特别强的人?
文锋:我觉得是可以培养和训练出来的,但前提是组织愿意给足 Token 额度。
曲凯:但这也是个问题。比如一个人一天要消耗上千美金的 Token,你怎么衡量 Ta 的产出?
文锋:现阶段更重要的是先让大家跟上,跟不上的就淘汰。
至于怎么衡量,是下一阶段才需要考虑的事。我现在的看法是还得靠人,比如 CEO 得去看一个人的 Token 消耗和产出是不是 match。如果不 match,那就说明这个人有问题,然后要么解决问题,要么解决人。
曲凯:OK。你刚刚说你现在只看未来 3–6 个月,那去年你在解决的是多长时间维度的问题?
文锋:去年我一直在解决 5 到 10 年之后的问题。
但我的反思是,不要去解决那些人们还没遇到瓶颈的问题。
比如去年 Sheet0 很想追求 100% 可解释、100% 准确,这当然是很正确、也很有价值的方向,你问任何人需不需要,大家都会说需要。但问题是,当下模型还做不到这件事,而且大多数用户对准确性也没那么敏感。
所以我们今天的思路,就是解决大家已经遇到的瓶颈。
比如现在工程师们的一个真实问题,就是注意力会被十几个 terminal 窗口牵制住。我们在做的「AI 管 AI」,本质上就是顺着这个需求往前多走半步,以跟随为主。
曲凯:为什么说这是跟随?现在做类似事情的人还不多。
文锋:就是在跟随一个明确的趋势。
AI 变化太快,预判的有效期越来越短。以前一个判断可能能管半年,现在可能只管一两个月,甚至更短。那在这种情况下,我就不做那么长远的预判了。因为一旦判断错,转向成本会很高,反应也会变慢。
曲凯:尤其是 AI Coding 提升了效率,有个判断很快就能验证。
文锋:对。所以更重要的是解放团队的思维,而这里面最难的,是放下 ego。
还是回到前面那个问题:如果回到去年 3 月,你要不要做 Genspark?
现在一年过去了,Genspark 已经这么成功了,如果你的第一反应还是不做,从商业逻辑上来讲就很离谱。
很多时候大家为了讲差异化,会过度放大自己的 ego。但我们现在的调整,是迅速发现自己哪些地方没做对,然后更理性、客观地判断机会,去下注当下最明确的那个方向。
42章经
思考事物本质
2026-03-15 21:07:00
原创 曲凯 2026-03-15 21:07 北京
AI Coding 的能力突破与 OpenClaw 这样的产品形态,会解锁哪些新的机会?
去年年底 AI Coding 大爆发,
今年年初 OpenClaw 爆火,
当下,可能已经有上千个团队在借着 AI Coding 的最新东风,围绕 OpenClaw 创业。
热潮之下,相信很多朋友心里都有不少问题:
AI Coding 现在到底发展到了什么阶段?
OpenClaw 为什么会突然这么火?
AI Coding 的能力突破与 OpenClaw 这样的产品形态,会解锁哪些新的机会?
那些真正借助这些最新能力、沿着 OpenClaw 路径在探索的团队,现在在做什么?他们的思路里,又有哪些值得借鉴的地方?
于是,我们组织了一场线上分享活动,邀请了几位我们身边最适合聊这些问题的嘉宾,来和大家在线交流。
他们分别是:
Sheet0 创始人王文锋:
连续两次来到我们播客分析 Agent 热潮(去年播客回顾:Agent 开发的上半场: 环境、Tools 和 Context 如何决定 Agent ,昨天最新的一期刚刚在播客中更新),他们团队也即将发布一款结合 AI Coding 与 OpenClaw 方向的新产品;
Kuse AI / Junior.so 联合创始人兼 CTO Austin Xu:
他们刚刚发布了一个 OpenClaw 类产品 Junior.so,定位为「第一个真正的 AI 员工」。我们也一起录了一期播客,将在下周发布;
Clockless.ai 创始人任川:
曾来我们播客分享过如何打造 AI Native 的组织形式(回顾:组织能力才是 AI 公司真正的壁垒),并正在用 AI 为小企业构建 24/7 运转的自动化系统;
以及 PingCAP 联合创始人兼 CTO 黄东旭:
在 2 月初就来我们播客分享过对 AI Coding 与 OpenClaw 的诸多见解(回顾:从 Clawdbot 到 26 年 AI Coding 主题大爆发),并且已经靠 AI Coding,快速为 OpenClaw 打造出了一个记忆系统 mem9.ai。
具体报名信息请见上方海报。活动时间为北京时间 3 月 28 日(周六)上午 10:30,腾讯会议线上进行,免费参加。本次活动限 100 人(非投资行业),我们会优先通过回答更认真、跟我们背景更匹配的朋友,具体通过情况请以工作人员通知为准。
期待和大家认识 & 交流!
期待和大家认识&交流!
2026-03-15 21:07:00
原创 曲凯 2026-03-15 21:07 北京
运气是优势被时间放大的结果。
本期播客原文约 23000 字,本文经过删减整理后约 7900 字。
曲凯:今天我们又请到了 albert。之前他在我们这边做过两次播客,是非常受欢迎的嘉宾。
从 2023 年到现在差不多三年,你做了不少尝试,上一款产品也做到小几千万刀 ARR,能从头讲讲这三年的思路吗?
Albert:2023 年录第一期播客的时候,我的状态还是看赔率大于看胜率:
假设这件事发生了,能创造多大价值、具备多强壁垒?从这个视角出发,你推导出来的结论自然是——怎么用好 AI 这把大榔头,去创造已经被验证过的商业形态。那因为我自己一直做连接和内容出身,方向就很明确:找一种以内容为核心载体的连接平台,而要定义这样一种产品,核心是要找到一种新的媒介。
我们当时押注的是互动内容,它和视频、图像这类消费式内容有本质区别,而 AI 又解锁了 coding 能力,让创作这种内容变得更容易。我们前后做了两个 demo:一个是偏图像和视频方向的 2D 交互方式,另一个把交互改成手机上的摇杆控制器,PC 端也做了一个更像游戏的可互动空间。
做完以后,我最大的体感是:我很难回答「为什么我不去玩王者荣耀、不去刷抖音?」。
这让我意识到一个规律:在内容市场里,创造门槛越高的模态,供给越稀缺。用户的时间有限,只会消费最头部的 1% 的内容,而当时 AI 只能做出 60 分、70 分、甚至 80 分的内容——但 80 分的内容对消费端来说就是垃圾。所以 for 消费、做内容这条线,肯定不 work。
For 表达、做工具可能有价值,但这里有个关键区分:用户的创作动机到底是自我表达,还是更功利的目的——赚钱、获取影响力?模态创作成本越高,供给驱动的特性就越强。如果你的切入点是降低门槛,就会牺牲自由度,变成全家桶——因为它们之间有天然的 tradeoff。
AI 有可能突破这个 tradeoff。但即便工具侧有好的解法、技术也到位了,分发侧仍然有很大障碍——拿互动内容来说,如果它更偏游戏形式,你很难做出超越 Steam、App Store 或 TapTap 的价值和体验。
所以我回过头来重新思考,为什么我要做一个连接平台?我后来意识到这种想法受中国市场的影响很深。因为在这里,如果你没有强规模效应、强网络效应的平台形态,就很难在和巨头的竞争中获得优势,胜率会非常低。
但当我去研究美国市场以后,我发现那边其实存在大量的 niche market,显然是有一定胜率空间的。
所以到 2024 年初,我完成了一个切换,从赔率 driven,变成了胜率 driven:去研究哪些技术已经成熟,而哪些真实的用户问题没有被解决。
曲凯:你说 2024 年之前,你应该基本都在优化赔率。这其实也是绝大多数创始人在做的事情。能不能再多讲讲,你是如何理解这两个问题的?
Albert:大多数创业者优化赔率的原因很简单,VC 也是在优化赔率。这样对齐,更容易拿钱。
但上一代真正成功的企业家,其实基本都在优化胜率。只是有些人运气更好,因为他碰到的赛道本身赔率就非常高。比如张一鸣是一个非常保守的人,是一个标准的胜率驱动者。我之前问他,我应该怎么选创业方向?他反问我:为什么不做更有把握的事情?
张一鸣最有把握的事是信息分发,他在 PC 互联网的尾巴就在做搜索。出来做字节跳动,第一个做的是内涵段子,到 2014 年,当时海内外已经有很多视频产品了,但他还是 say no。一直等到 2016 年,很多条件都成熟了,才正式下场做视频。
黄峥也很典型。PC 时代做电商,一直在看供给侧的变化、流量端的变化,也一直在供应链里做很多生意。后来拼多多这个结构性机会出现,他就抓住了。
王兴做美团,看起来好像和他们之前做的事情完全不一样。我有次还专门问过王慧文这个问题,他的回答是:在那个时间点,所有做团购的人里,懂线下的没有他们懂线上,懂线上的没有他们懂线下(校内网时期涉及大量的线下地推和管理工作)。
所以看起来是突然转向,但他们都是在上个时代积累一些东西,到了这个时代去做。这是一个很典型的优化胜率策略。
真正一流的企业家,基本都在优化胜率,没有人在真正优化赔率。优化赔率,本质上就很像赌博。
曲凯:我原来一直以为优化胜率或赔率只是不同的策略。按你的意思,它反而不是一个选择题,而是一个更接近「对不对」的问题?所以到底什么叫优化赔率?它会不会本身就是个伪概念?
Albert:比如你说「我要做下一个抖音」,这就是优化赔率。因为它足够大,所以我要做它——这本身就是个伪命题。如果你真的是在优化胜率,那你在第一天其实说不出来「我要做抖音」。第一天你应该说的是:你到底要解决什么问题。
曲凯:所以你从优化赔率切到优化胜率,最终在行为上真正发生了什么变化?
Albert:更具体一点说,就是尽量选择变量更少、自己能控制得更多的事情。如果一个事情变量太多、不可预测性太高、超出我能力范围的东西太多,那我就尽量不选。
曲凯:那个人呢?现在如果有人要加入你们、加入创业公司,他到底是在优化胜率还是优化赔率?
Albert:我觉得对任何应聘者来说,本质上都应该是在优化胜率。因为你最终优化的,还是自己的能力、自己的视野、自己的信息质量。回过头来看,这些东西本质上都是胜率。
但这不等于说,优化胜率就得不到赔率。恰恰相反,只有你在优化胜率的时候,得到赔率的概率才会更高。上期播客我讲过一个很重要的观点:运气是你的优势被时间放大的结果。
所以赔率是等来的,而胜率是发现重要问题后,自己主动做出的选择。所以最好的情况,是你选择那些未来赔率可能更高、但今天依然可以用胜率方式去推进的方向。
反过来,一个人如果自己并不认可这家公司做的事情,也不认可这家公司的人,只是觉得「这家公司听说明年要上市」、「这家公司现在融资很好」,所以想去——这其实就是典型的优化赔率。
曲凯:你刚刚提到了张一鸣,最近你研究段永平也比较多,如果拿他们俩做一个比较,你分别学到了什么?他们最大的不同是什么?
Albert:字节整体上更偏强者思维,而段永平更偏弱者思维。
我一直觉得,在某个阶段上,字节并不是一个适合普通人的学习对象,因为它会带来两种巨大的错觉:你会把完美主义当成标准,而且总是用第一性原理去想问题。但第一性原理需要庞大的资源作为前提。对于大多数人来说,你更多还是要在约束下思考问题。
段永平的投资哲学和创业哲学其实是一致的。投资上他讲 right business、right people。这是从巴菲特那里学来的,核心就两个东西:一个是商业模式,一个是文化。放到公司经营里,也就是战略和管理。
这种做法把文化放到更高的位置上:大家都是普通人,但在一个好的文化下,选择一个真正值得创造价值、能够做出差异化价值的方向,普通人也能做出很大的成绩。段永平这套哲学会更平常心,也更接近普通人。黄峥其实也很强调这一点。
曲凯:好,我们再来聊聊 AI。我很喜欢你的一个框架,把 AI 分成「想象力」和「智能」。你觉得这么分类,对于你理解这个行业有什么好处?
Albert:AI 目前有两类场景。一个是帮用户杀时间,给他某种过程性的体验和乐趣。另一类场景则是帮用户省时间,帮用户节约成本、完成任务。从这个角度看,这也刚好对应了当时模型发展的两个方向:一边是图像、视频这些多模态模型,一边是语言模型。
对于创业者而言,在过去做这样的区分是有必要的:模型本身差异很大,用语言模型,还是用图像、视频模型,会直接决定你的创业机会在哪里。但这件事情未来可能会改变,因为多模态能力已经发生了很大的变化。比如 Gemini 的理解能力变强之后,也会反过来提升图像生成(nano banana)的效果。
曲凯:那至少在当下,这个分类还是成立的?我们先说想象力和图像、视频模型这一块。现在其实也分成两条线:一条是工具产品,比如给营销人员、专业创作者用,本质上也是在省时间;另一条是陪伴类、互动内容这类更偏娱乐的产品。你怎么看这两条线?
Albert:模型发展的一个基本方向是,平台总会不断提供更好的模型能力,并且为更好的效果收更高的价格。虽然上一代模型会因为新模型的推出而降价,但真正的推理成本并没有明显下降,所以好的效果始终有溢价。
今天如果你想做一个娱乐型产品,而不是工具型产品,你几乎不可能长期使用 SOTA,因为你的商业模式根本转不起来。
工具是目前确定性最高的,它的商业化路径也非常清晰。相比之下,以陪伴为代表的互动、娱乐内容虽然也是一个很真实的方向,但它的商业化效率到底怎么样,我觉得现在还很难判断。
曲凯:互动类的内容我们之前也讨论过它的问题。你再怎么做,可能也很难超过抖音或者王者荣耀的体验。模型能力可能已经从二三十分涨到七八十分,做出来的东西也确实更新、更厉害了,但用户未必 care。
Albert:对。越沉浸、越重度的内容,用户的参与成本越高,它的竞争往往就越激烈,供给也越稀缺。最后可能只有 0.0001% 的人能创造出最好的东西。
这件事情的破局点可能不在内容本身,而是承载它的容器。比如短视频这个容器,里面每一条内容都一定足够优质吗?也不一定。但这个容器本身可以帮用户形成习惯,甚至 hack 用户的行为,让他更容易沉迷进去。
但如果你在容器上没有找到好的方法,内容本身又需要占据用户比较长的时间,竞争就会变得很严重。
曲凯:现在还有很多人在讲,要做 AI 时代的抖音,但照你这么说,AI 的重点不是生成更好的内容,因为就算你生成的内容比现在人做的还好,创作者还是会上传到抖音。所以更重要的可能还是你刚才说的容器——我需要一种新的交互,而且这种交互和内容本身是契合的。
Albert:顺着你说的,我再补充一点:最好的内容一定会流向变现效率最高的地方,而变现效率最终是由规模效应和网络效应决定的。所以已经存在的平台天然有巨大的优势。
如果你没有创造出新的内容形态,只是在工具侧拥有了更强的内容生产能力,那其实是没用的。哪怕你做了一个非常好的剪辑软件,这个剪辑软件产出的内容最后会去哪?还是去抖音,去 Netflix,不会去一个新的地方。
曲凯:你看抖音早期的时候,它的交互其实也没有多大的创新,本质上就是上下滑。只不过因为网络基础设施、流量成本这些条件发生了变化,这个模式就起来了,可以这么理解吗?
Albert:我觉得今天回头看:一个成功的产品形态,最后一定是三个东西同时闭合:第一是用户,第二是模态,第三是内容类型。
比如小红书,它是用图文来承载「有用内容」,服务的是一二线城市女性。这个闭环就是成立的。
抖音的模态是短视频,内容是卡点、运镜、音乐配合这些通过时间轴剪辑形成的消费体验,(初期)用户则是那些唱跳好、表现力强、镜头感也很好的人。这个闭环同样成立。
再比如内涵段子,它是用图文混排去承载搞笑内容、段子、低俗笑话,服务的是另外一类非常特定的人群。它其实也有自己的闭环。
只有找到这三者的闭合,它才更容易完成冷启动,之后再尝试往更广的方向去泛化。像内涵段子这种产品,它的泛化就很难。因为它绑定的是某一种内容题材,而不是一种更强的媒介类型。内容题材的垂类,最后往往抵不过模态垂类的牵引力。抖音后来真正占住的,是短视频的媒介。小红书占住的,则是承载有用内容的图文。
所以回头看,一个产品最后能不能起来,其实是很多巧合和很多设计叠加在一起的结果。我记得以前有个产品,应该叫火萤,行业里算是比较早在中国做全屏体验的一批产品,一度 DAU 也很高。它当时的用例好像是动态桌面的分享社区。但它的内容形式和它的用户、模态并不匹配。虽然短期内有过规模,但最后还是没走出来。
所以当年其实有很多短视频产品,最后都消失了。原因就是它们没有很好地定义出这三者的交汇点。
曲凯:所以你现在还相信会有 AI 时代的下一个抖音吗?还是你觉得其实就是抖音自己?
Albert:这取决于你怎么定义「下一个抖音」。
我当时离开字节的时候,原因之一就是我发现,在整个移动互联网里,除了微信之外,几乎没有任何一个移动端原生的 app 的 DAU 能长期超过 1 亿。我当时觉得这是不合理的。那个时候中国手机活跃设备大概有七八亿,微信大概六亿 DAU。按理说,每一个活跃设备都应该有通讯软件,也应该有娱乐产品。那娱乐产品怎么可能没有一个全民级的机会?所以我当时离开字节,就是想去找这种机会。只是我当时没有想到,短视频最后会大到那个程度。这算是一个错误判断。
但今天我觉得逻辑其实还是类似的。现在的智能水平已经很强了,而智能在娱乐里的应用空间也会非常大。今天 ChatGPT 已经有非常大的日活了,未来几乎所有活跃设备上,用户都应该会和智能发生交互。如果这个判断成立,那么第一,ChatGPT 自己就还有巨大的空间;第二,在它重叠出来的那些场景里,一定会出现很多由智能带来的娱乐需求。
曲凯:我想再聊一下多模态里像 Higgsfield 这样的公司,因为你们当时的大方向都是都是偏视频生成这个模态。你觉得这里面的区别是什么?Higgsfield 在那个时间点,做对了什么,才会起来得这么快?
Albert:我觉得如果要回答 Higgsfield 为什么能起来,不能只回答它自己做对了什么,还得先回答视频模型和图片模型领域的模型能力和竞争格局到底是什么样的。
首先,这个领域现在不是一家独大,而是多超多强。第一梯队里有 Sora、Seedance、Veo、可灵,大家只是在不同场景、不同阶段,各自占据 SOTA。
一旦出现这种能力分布不均的情况,聚合站和全家桶式的产品就一定有机会。因为用户天然会想用更少的钱,享受更多模型服务,这几乎是必然的。
其次,影像领域本身的需求足够大。从社媒创作者,到各种商业场景里的应用,几乎每家公司、甚至大部分个体,都有影像内容的需求。这样一个高度分散、又足够普遍的需求,天然会催生更通用的产品形态。
再往下看,还有两个约束。一个是,模型能力再强,真正能把有限 idea 用好的人,仍然是有限的。另一个是,任何多模态内容的创作里,语言和你脑子里真正想象的画面之间,始终存在巨大的 gap。这几个约束叠加起来,你就会发现,一定会有人通过模板去定义审美,去大幅降低用户成本。
所以这些条件一摆出来,你其实很快就能知道,这个阶段最容易抓住机会的产品大概会长成什么样——它就会越来越像 Higgsfield 这样的产品。它要解决的问题,就是模板化定义、审美社区,以及用户成本的降低。
但即使你把产品形态定义出来,这件事情也还不够,因为行业里类似形态的产品其实不少。所以我们还需要看另外两个指标:一个是用户意愿有多强,另一个是交付能力有多强。
用户意愿这件事,其实会随着整个 AI 行业的热度一起上升。大家都在不断教育市场,说 AI 很厉害、很强、能做很多事情。所以整体的大 beta 是向上的。
但交付能力不是,交付能力是不断迭代的。很可能用户今天看到你展示的东西,觉得很惊艳,愿意来试;但试完发现实际结果很差,那他下一次再愿意尝试,你的成本就会高很多。
影像模型的发展速度太快了:一个月前还做不到的效果,一个月后就可以了。Higgsfield 做得最好的一点,是它总能把某一个阶段真正能交付的能力,封装成一个非常好卖的产品点。一开始一致性很差的时候,它推出了 Soul。但其实海外之前把 Flux LoRA 模型做得最好的产品是另一家,但它们并没有把这个能力卖好。
再到后来的 drag to video,以及最近的灯光控制, Higgsfield 每一次都能比较准确地把交付能力包装成一个在社媒上能成立的东西。但如果你仔细去看,它卖的东西其实依然是三分真、七分假。他们团队对内容的理解实在太强了,所以在展示这些能力的时候,它们知道该选什么素材、怎么展示,才能把这个能力显得最成立。
用户看到的时候会觉得特别惊艳,但自己一上手,又会发现很难做出它 demo 里那种效果。
曲凯:所以现在大家已经不会再纠结「套壳是不是好生意」了,关键在于谁能套得更好。套壳本身不是问题,问题是你套得好不好。
Albert:我一直都觉得,「套壳」这个说法本身就是工程师视角,用户根本不在意你是不是壳。用户只在意两件事:第一,你是不是现在最好的;第二,你是不是解决了我的问题。
所以模型能力越好,对应用来说当然就越有利。核心不在于你是不是用了别人的模型,而在于你能不能把这个模型能力真正拿出来、用好。而 Higgsfield 的例子告诉我们,光用好都不够,还得秀好。
曲凯:所以如果创业者要把壳套好,有几个点是明确的。一个是你肯定要对模型有非常深的理解。它新出了什么东西、马上可能会出什么东西,你得有判断,也得有感知。
第二个是你刚才提到的审美。不管是内容审美还是产品审美,你得知道怎么把这个模型能力真正用起来。
再一个就是执行力。这两年大家其实都很强调执行力,因为模型一直在变、一直在升级,所以你套壳的速度也很重要。很多时候,往往就是第一个能把它用起来的人,能最大化地拿到这个新模型的价值。
Albert:对。
曲凯:你最近也一直在提一句话:把一件事做到理论上应该有的样子。我觉得这句话越想越有道理,你能不能再解释一下,这句话背后的想法是什么?
Albert:它本质上是一个心态问题:你怎么在看见这件事很不完美的情况下,依然觉得自己应该尽力去把它做到理论上的样子。所以它更像是一种指导方针。因为在真实世界里,你离那个状态其实是很远的。
曲凯:对,我听这句话的时候,经常会想到它有点像「做正确的事」。
Albert:它不是「做正确的事」,它是「正确地做事」。它是 how to,不是 why。
曲凯:那你觉得 2026 年做什么样的事是正确的?
Albert:首先,我觉得 AI 这件事情还是很长。
多模态的理解能力,这件事情肯定值得被利用。我一直在说的是视频模型和图像模型,而不太想直接说多模态。因为在我看来,多模态更代表的是理解能力,而不是生成能力。
在很长一段时间里,理解能力是比生成要弱的。前几年的「多模态」更多只是视频模型和图像模型的进步而已,和理解、智能的关系并不大。但现在已经有了很大进展:比如 Gemini 3,它在理解能力上的提升就是非常明显的。
至少从目前来看,在「理解能力的大幅提升」这件事情上,Google 的优势还是比较明显的,主要就是算力优势,而且它也确实找到了一些可以继续 scale 的方法,所以它的理解能力才会有这么大的提升。
接下来一个更关键的问题是:这种理解能力的提升,能不能反过来提升智能本身?
也就是说,不只是传统意义上「看懂图像、看懂视频」的多模态理解,而是这种理解能力变强之后,能不能进一步抬高模型本身的智能水平。我觉得大家对这件事情其实是相对乐观的,至少我是比较乐观的。
因为随着理解能力越来越强,它能解锁的场景一定会越来越多。我记得我上一次就在想一个问题:当眼睛带了脑子,会发生什么?这个问题到现在我都还在想。
曲凯:那如果这么说的话,过去几年里面,智能其实还是最大的杠杆,只是你们没有在最好的时间点把它用到极致。像 Manus,其实就是一个很典型的例子。
Albert:我觉得也不晚,而且我不完全同意「过去几年最大的杠杆是智能」这个说法。更准确地说,最大的杠杆其实是 coding。所以我觉得,多模态之外,第二件重要的事情是 coding 平权。你怎么去做 coding 平权,以及怎么找到一种好的交互方式,在这个场景下更好地释放模型的能力。
因为智能本身并不会自动显化出来,它是要通过 coding 来完成的。只有 coding,才能让智能真正突破它原本停留在「会回答」、「会理解」那个层面上的界限。
但如果你想把 coding 这个能力用好,其实再早也没用。它一定要到一个时间点以后才成立。至少要到 Sonnet 3.5 这个阶段,再往后到 Opus,整个能力才真正开始变得可用。差不多从那个时候开始,很多事情才开始变得有意义。所以我会觉得,这件事不是说谁看得更早就一定更有优势,而是模型真的到了那个点,创新能力才会一天一个样。
曲凯:那你有没有想过,假设未来技术已经完全成熟,调用成本也足够低了,最酷的产品会是什么?比如就当是在写一篇科幻小说的话。
Albert:我最近其实在想一个很有意思的故事。有一个人,他是 AI 的信徒,他相信一切都是注定的,一切都是可以被证明的。于是他试图集合全世界的算力,把所有「已经被证明的约束」都注入到一个系统里。比如物理学、脑科学、生物学里的那些第一性原理,把这些约束全部放进去,然后让这个模型自己演化。
在适当的时候,他再用一些外力去调参数,让这个演化过程逐渐对齐地球的发展。也许从最早的生命开始,一直到人类出现,再到文明演化出来。慢慢有一天,他发现这个系统里的演化,终于对齐到了人类的今天。
然后他们开始观察这个世界。
但他真正 build 这个系统的动机,不只是复现历史,而是想穷尽更多算力去预测未来。因为约束是没有变的,所以他想看看,如果在这些约束下继续往后推演,未来到底会发生什么。
然后有一天他发现,这个演化世界停在了某一个时刻。因为在那个世界里,也有人开始集合所有算力,去预测自己的未来。于是这个循环又开始了。
所以最后你会发现,对未来的全部想象,本质上都在预测未来本身。
曲凯:我记得马斯克好像讲过,现实世界本身是虚拟的概率非常高。
Albert:对,最后其实就是那个推论。未来的显化,本质上就是不断地预测未来。
42章经
思考事物本质