2026-03-29 21:26:00
原创 曲凯 2026-03-29 21:26 北京
把钱花在 Token 上,而不是工资上
宇豪 16 岁进入浙大,随后赴 CMU 攻读硕士,之后先后在 Meta 和 SmartNews 的重要产品线工作。他在 23 年开始 AI 创业,24 年和几个联创 bootstrap 做出了一款千万刀 ARR 的产品 Kuse.ai,并在不久前推出了 OpenClaw for Teams 的新产品 Junior.so。
本期播客原文约 25000 字,本文经过删减整理后约 8900 字。
曲凯:很多人应该都刷到过 Kuse 的新闻,重点基本都是一件事:你们没融资,但很快就做到了千万刀 ARR。
宇豪:对,到目前为止我们还是 bootstrap,用的是几个 founders 自己的钱,大概有一两百万美金。
曲凯:自己愿意投这么多就已经很厉害了,何况还能用这些钱做到千万刀 ARR。你们是怎么做到的?
宇豪:核心还是抓住客户的真实需求,然后持续打磨,尤其是不断往价值更高的场景去迭代。
其实在最开始的很长一段时间,我们都没有成功获客。但做着做着,我们发现有不少用户会把文件和资料上传上来,让我们帮忙整理、重组,而且这类用户的留存明显更高。于是我们就沿着这个方向一路迭代下去。
当然,中间也踩过非常多的坑。
比如我们有很长一段时间采用的是固定定价。但后来发现,在 AI 时代,尤其是对于 agent 产品来说,固定价几乎注定会亏得很厉害,而且也很难让你识别出真正有价值的客户。
曲凯:你说的固定价,是指不给用户单独加购 token 的选择?
宇豪:对。比如限定 20 美金可以做多少个 task。这种方式一开始可能还 ok,但到 25 年 6 月之后,随着我们开始 agentic 化,问题就出现了:
我们已经没法再用任务数量来衡量真实消耗了。
有的任务跑下来可能得 30 轮,但用户花的钱却是一样的。而且这件事情用户是意识不到的。他们不会觉得一个复杂任务只扣这么点积分,本质上是在被补贴。
所以我们痛定思痛,做了两个大的改变。
第一,我们把定价彻底改成了 usage-based。
第二,我们放弃了原来很自豪、体验也很不错的无限画布,转成了更传统的产品形态。我们现在甚至会戏称自己是「AI 网盘」,因为你打开 Kuse,看到的就是一个文件夹。
这两波变动,其实都带来了一波用户数和付费数的大跳水。
曲凯:为什么会把画布改掉?
宇豪:很大的原因是用户画像的变化。最早我们做的是设计 agent,主要用户是设计师、产品经理,而他们对无限画布很熟悉。但后来我们的用户逐渐变成各个行业的一人公司、自雇员工,以及高级白领。
曲凯:所以你们不是转型做了一个新产品,而是在原有产品上慢慢转过去的?
宇豪:对。但这个转型并不慢,反而非常剧烈,因为我们相当于主动放弃了一部分客户。
曲凯:但一般来讲,大家看到一个新市场、一群新用户,更多可能会选择在服务好原来的用户的同时叠加功能,而不是直接放弃原来的那些客户。所以在这个过程中,你们有过纠结吗?最后又是怎么做决定的?
宇豪:当然非常纠结,而且这件事跟时机关系特别大。
我们当时做的是设计 agent,但那个时候模型能力还不足,必须靠大量工程化 workflow 去补足。所以虽然有了一些用户,但我们判断这不是一个值得押注的方向,就决定放弃这个场景。
但没过多久,模型就进步了,Lovart 也出来了。现在回头看,如果当时再坚持一段时间,也许会有完全不一样的结果。
但 AI 创业很多时候就是这样,时机特别重要。太早不行,太晚也不行。
曲凯:明白。你刚才提到的几个坑,一个是产品方向的大转弯,一个是定价。还有吗?
宇豪:还有一个很大的坑,是我们一开始把产品形态绑得太重了。这样一来,每次模型有突破,产品想跟着升级,基本都要重写。这种事我们其实已经经历过很多次。
后来我们意识到,这还不是最大的问题。更大的问题是,我们的 evaluation 框架做得不够好,导致模型每次进步之后,我们并不总是知道往什么方向迭代更合适。
由这点还引出了一个坑,就是我们在产品迭代的过程中逐渐意识到了一个问题:
在 AI 时代,你很难再用同一个产品去服务不同的用户。至少你很难靠一个产品同时拿下 C 端和 B 端。
这也是为什么我们后来会做不同的产品线。
举个具体的例子。Kuse 现在的理想用户画像可能是一人公司和高级白领,因为他们更容易把资料和 context 迁移过来。但我们在迭代的过程中,就很难兼顾企业客户的需求,因为他们有既有的 workflow 和工具。所以我们如果想要企业客户,可能更应该给他们提供另一个产品,主动走进他们原有的工作流。
曲凯:但你们为什么一定要服务所有人?为什么不是选一个足够好的用户群,把他们服务好?
宇豪:因为我们的判断是,在 agent 时代,垂类很难走通,除非这个垂类本身有很强的合规或法律壁垒。
曲凯:首先这个判断我觉得是有道理的,但这是针对不同人群做不同产品。还有一种选择,是做一个足够通用的产品,比如 Manus?
那这两条路你们当时是怎么考虑的?这背后是不是也不只是人群选择的问题,更多还是技术和时代变化的问题?
宇豪:都有关系。技术在变,时代在变,你要服务的对象和场景也会跟着变。
比如我们现在看到的一个机会是,AI 真正能进入劳动力市场了。
以前虽然大家也说自己在做数字员工,但在我看来,至少到 25 年 12 月之前,所谓的数字员工很大程度上还是 workflow 的包装。
但 26 年可能真的会进入一个能有 7×24 小时 AI 劳动力的时代。在这个阶段,你要做的产品形态本身就会发生变化。
曲凯:明白。还有别的坑吗?
宇豪:还有一点,刚才提到了但没展开,就是要尽早在 evaluation framework 上下重注。
曲凯:对,我刚才也想问,你们后来是怎么解决这个问题的?
宇豪:就是把精力真正投进去。
我们会围绕核心场景,搭建大量自动化测试 pipeline。现在这套 pipeline 已经进化成 agentic 版本,只要模型或 agent runtime 发生变化,我们就可以通过一整套 agentic 测试,让一组 agents 来打分。
曲凯:有点像自己做了一套 benchmark?
宇豪:没错,或者说是一组 evaluation agents。但随着 agent 越来越进入深水区,这套 benchmark 也越来越难做。比如多轮对话怎么测、不同环境怎么测、复杂环境怎么模拟,这些都会越来越难。所以我会建议,至少是做 agent 创业的人,都要尽早把这套 benchmark 建起来。
曲凯:所以你们是基于自己的业务,定义了一套 benchmark,然后持续观测模型变化。
但这里有个问题:这样做会不会不太容易发现新的能力?因为如果出现一个新场景,而你还是用原来的 benchmark 去测,那是不是不一定能捕捉到变化?
你们会遇到这个问题吗?怎么解决?
宇豪:这更多取决于技术 taste。
曲凯:这句话挺有意思的。按传统互联网的分工,这件事更像是产品要做的事情,但你说取决于技术 taste。
宇豪:产品 taste 当然也很重要哈哈。我说的技术 taste,指的是你能不能通过一手实践,第一时间发现模型进步解锁了什么新场景。
比如我每天都会直接和 agents 交互,去看新模型在我们的框架下能做到什么。
而在我们公司,不只是技术和产品,甚至连销售也都是 agent builder。只有大家自己动手 build,才能更早发现模型到底解锁了什么新空间。
曲凯:能不能举个更具体的例子?过去这段时间,你们不管是通过自己的 taste,还是通过 evaluation,发现了哪些模型变化?又是怎么把这些变化转成产品的?
宇豪:如果说最近最大的变化,肯定绕不开 OpenClaw。
但其实从去年 12 月 Opus 4.6 出来以后,我们就明显感觉到,模型在复杂环境里的长任务通用性又往前走了一步。
所以在 OpenClaw 出来之前,我们内部其实已经在做类似的尝试了,只不过更多还是围绕自己的场景,搭了一套服务内部流程的 agents。
比如我们当时做了一个数据分析 agent,会 7×24 小时持续处理新数据或变化数据,再把这些数据传给 marketing agents;marketing agents 会根据不同的数据流,去模拟出用户的 use case 和 UGC 场景,再自动生成一些内容,并分发到不同渠道。
这套流程很有意思。比如我们可以定位到某些奶茶店店长是怎么用我们产品的,然后复刻他们的 use case,推给更多类似的店长。
通过这套流程发出去的内容,impression 不一定特别高,但非常精准,可能三条里就有一条会爆。
所以我们在 Opus 4.6 之后做了很多这样的自动化 agents。直到后来我们发现,有了 OpenClaw 这样的 runtime,很多事情就没必要自己从头定制了,而是可以让 agents 通过 skills 自己学会。
曲凯:那我挺好奇,你们现在分别有多少全职员工和 agents?成本怎么样?尤其是你刚才提到那个 7×24 小时运行的 data agent,听起来也不便宜。
宇豪:确实不便宜。这类 agent 现在的成本,甚至会比人更高。
我们现在全球大概有 15 个全职员工。长期运行的 agents 大概有 3、4 个,覆盖研发、marketing、数据和销售职责,每个月的 token 成本加起来超过 2 万美金。
曲凯:平均下来,一个 agent 一个月大概三四万人民币。这些钱已经能招一个很好的人了,为什么你们还是会选择 agent,而不是人?
宇豪:因为人与人之间的摩擦非常大,但人和 agent 之间的摩擦要小很多。
曲凯:那我下一个问题就是,为什么不把其他人也换成 agents(笑)?
宇豪:……所以我们确实已经很久没有招过人了哈哈。
如果现在有招聘需求,我们第一反应都是先问自己:为什么这件事不能用 agent 替代?
因为即便现在 agent 的单位成本更高,但它可以显著降低组织复杂度。甚至我们会觉得,未来公司的规模会变得更小。
举个例子。我们用新产品做了一个销售 agent,叫Azzurra。它在掌握了我们所有客户和销售数据之后,给我们 build 了一个内部用的 CRM,完全贴合我们当前的需求,也能直接带来价值。比如,它可以 7×24 小时帮我们识别销售数据里的 upsell 线索。每一条线索,都可能价值上万美金。
我以前一直听很多人说 SaaS 会完蛋,但其实没有特别强的感受。直到看到这个 CRM,我才第一次觉得,确实变天了。
曲凯:是,听你讲的时候我也是这个感觉。那正好聊到了新产品,就展开讲讲吧。能不能先给大家简单介绍一下?
宇豪:我们的新产品叫 Junior.so,现在已经上线了。
它主打的是「Hire your AI employee」:你可以通过它雇佣自己的 AI 员工,也就是一组 agents。它们会嵌入你的工作软件里,有自己的职责、账号,也有持续推进的项目。
曲凯:为什么叫 Junior?是因为能力只到 Junior 吗(笑)?
宇豪:不是,它其实很强。我们的判断是,它已经可以取代任何行业里若干个 3–5 年经验的员工了。
之所以叫 Junior,是为了把大家的预期压低一点哈哈。以及这里还有个老梗:等它再强一点,就可以叫 Super Junior 了😆。
这个 idea 其实不是等 OpenClaw 出来之后才有的。就像前面讲的,从去年 12 月开始,我们就已经把很多工作交给 agents 了。
当时我们就明显感觉到,「数字员工」这件事正在变成现实,而且 26 年一定会有人进入这个赛道,因为这是一个极大的市场:
软件大概是 1 万亿美元的市场,而劳动力大概是 150 万亿美元,中间差了 150 倍。哪怕最后不是我们做出来,这个方向里也大概率会诞生一家新的万亿美元公司。
只是当时技术还不够。直到 OpenClaw 出现,这件事在技术和产品上才算真正成熟。
那我们现在对 Junior 的定位,就是 OpenClaw for Teams。
我们参考了 OpenClaw 的架构,但加上了企业场景必须要有的东西,比如企业记忆、组织关系、权限边界,让 AI 知道什么该说、什么不该说,什么该做、什么不该做。同时,我们会给每个 Junior 一个完整身份,比如邮箱、手机号,让它可以自己完成互联网上大量长尾任务。
而我们做这个产品,其实有两个优势。
第一,我们在做 Kuse 的过程中,已经理解了很多小企业的需求和痛点。
第二,Kuse 就是 Junior 的第一个客户,在这个产品上已经烧了三四万美金的 token。
所以 Junior 的很多功能不是拍脑袋想出来的,而是我们自己在用、在踩坑的过程中长出来的。
比如给 Junior 配邮箱,就是因为如果它每次登录系统都要找人,效率会很低。
再比如,我们现在也在尝试给 Junior 接摄像头、话筒,因为我们有一个最核心的 Junior,叫 Rin。它几乎知道这个项目从头到尾的所有信息,我们也会把会议记录都给它。于是我们就在想,那为什么不让它直接在会议现场听、甚至直接发言?
其实做 Junior 过程中最让我兴奋的一刻,就是我把 Rin 接进会议,它第一次主动给我提建议的时候。
那天晚上,我几乎整晚都没睡着。
因为我立刻想到一个场景:我甚至可以让 Rin 去替我做销售。而且它不需要培训,因为它脑子里有对这个项目的全部认知。
那因为我们自己就是 Junior 的第一个用户,所以也总结出了很多和 AI 员工协作的方法。我们也希望,即便你最后不用 Junior,也能理解:当企业里真的开始有 AI 员工,组织的运作方式会彻底改变。
比如,Rin一开始只是做会议纪要,但它后来慢慢变成了这个项目的 leader,每天早上会给我发消息、分任务,再到后来,它甚至给了我一个评价:
你是瓶颈😂。
其实很中肯,因为当你有很多 AI 员工时,人类确实会成为瓶颈。
一个具体的体现是,只要一个工作群里有 Junior,你扔进去任何工作,它都会立刻开始推进,而人类很多时候做不到这么积极……所以我们内部现在甚至有一个 human-only 的群,专门留给人类吹水哈哈。
而当你习惯和 Junior 协作之后,再回到纯人类协作,会觉得效率太低了(笑)。
所以从 1 月到现在,我一直在想,怎么把我们的这种体验封装进 OpenClaw for Teams 这个产品形态里,怎么把它做得更好、推给企业,让更多人能用它来提效。
春节期间我和很多科技圈的朋友聊过,很多人都觉得 OpenClaw 在个人场景下没什么 use case,至少账算不过来。但到了企业场景,这件事会完全不一样,以至于我现在有个暴论:
应该把钱花在 token 上,而不是花在工资上。
很多 founders 也认同这一点。虽然现在像 Azzurra、Rin 这样的 agents 还比人贵,但我相信,未来三四年 token 成本一定会下降。
一言以蔽之,做 Junior 的过程里我们非常兴奋,而且我们做得相对比较早,所以也有很多积累。我们会慢慢把这些收获都产品化,陆续开放更多公测。
曲凯:你讲了好长一段。能感觉到你对这件事真的非常兴奋(笑),而且你讲的有些部分已经有点科幻了。
但我想问:现在很多团队都在围绕 OpenClaw 做事,也有人在做 OpenClaw for Teams 的产品,那大家真正的区别是什么?难点又在哪里?
宇豪:我觉得最后还是要回到几个最基本的问题:你的客户是谁?你能不能解决他们的问题?你和别人有什么不一样?
然后在产品落地上,现在也有一些可以拉开差距的点。
一是记忆。
原生 OpenClaw 很难直接接入企业成为 AI 员工,因为它的记忆是围绕「主人」展开的,本质上更像个人助理。要让它变成员工,需要大量调教,而且效果也不一定好。
所以我们的做法,是让 Junior 的记忆围绕公司本身展开。就像 Steve Jobs 说的:「You work for Apple first, then for your boss」。
二是安全和权限。
这件事对数字劳动力行业来说非常关键。一旦出一次安全事故,你的 reputation 很可能一下就被毁掉。
这里有两个难点,一个是怎么平衡 agent 的自由度和安全性:给 agent 的权限太大,会泄露信息;权限太小,可能它又做不了事。另一个是怎样赢得客户信任,让用户愿意把更多数据和任务交给我们。这样我们才能围绕用户的真实使用场景,把权限框架做得更好。
所以我们现在在不断积累自己的权限设置和权限框架。以及为了赢得更多信任,我们也在尝试开源、或者直接部署在用户云端,让系统更透明。甚至我们还请了白帽团队专门来攻击我们的权限系统,帮我们找漏洞。
过程中我们还有一个很强的体感:越好的模型,其实越安全。这可能也是为什么 OpenClaw 的作者会建议尽量用最好的模型。
而以上这两点,都是当我们做到一定规模之后才发现的。所以第三个拉开差异的地方,就是规模。
上了规模之后,你的思路才能打开。比如,Cache 其实是成本的核心,你的 Context Engineering 实际上就应该围绕 Cache 去做。再比如,我们现在会接触一些大企业客户,只是简单接触了一下就发现,他们的权限体系、组织结构、记忆方式和小公司完全不同,会让我们思考很多之前意识不到的问题。
所以到最后,其实就是看谁跑得更快、谁先跑出规模。
曲凯:明白。那你们打算怎么收费?
宇豪:我们还在思考,但现在有一个小巧思,是做成 salary-based 的收费方式。
起始价可能是 2000 或 5000 美金一个月,包含固定的 token 额度。如果不够用,可以再买 credits。
曲凯:就像基本工资 + 奖金。
宇豪:对,或者说基本工资 + 加班费(笑)。这个定价听起来可能不便宜,但 Junior 实际带来的价值,是完全值得的。
曲凯:但我在想,AI 其实把很多职业技能和岗位边界都模糊掉了。那你们要怎么卖这个产品?是按岗位来卖,比如一个月能给你用 10 个不同领域的 agents,还是别的方式?
宇豪:这是个非常好的问题。
我们最早大概引入了七八个 Juniors,对应产品、数据、研发、运营等不同角色。但最后真正留下来的只有三个:一个偏产品和研发的 Rin,一个偏对外和销售的 Azzurra,还有一个天天盯数据的 Tom 哥。
所以我现在的感觉是,传统的人类分工可能不太适用于 Junior。如果一定要说,它更接近早期 startup,每个人都身兼多职。
不过在当前的内测版本里,我们还是会让用户先给 agent 选一个职业。
这更多是为了帮助用户理解怎么用,也给 agent 一个初始角色,让双方的协作能更快跑起来。当然,我们也提供一个 general 的选项,让 Junior 什么都做。
在划分职业的同时,也会涉及一些其他问题。比如权限划分:你可能希望对外的 agent 权限更少,对内的 agent 权限更多。再比如,我们也会给不同类型的 agents 预设不同的插件和工具。有些场景下,我们也在考虑是否需要 subagent。
但说实话,到现在为止,我们还没有想清楚一个非常稳定的边界。很多时候 AI 员工可能就是没有明确边界的,而且最终也会取决于公司的规模和状态。
曲凯:我听下来,真正的边界好像不是能力,而是权限、数据安全和 context 的限制。
但因为算力和时间的限制,如果我真的想同时完成很多任务,是不是还是要配多个 agents?哪怕它们的能力是一样的。
宇豪:这也是个非常好的问题。
不同 Juniors 的忙碌程度也不一样。像我刚才提到的Rin就特别忙;但像Tom 哥这种数据 agent,因为主要在跑定时任务,反而没那么忙。
所以我们也在思考:当一个 agent 同时处理很多任务时,这些 session 应该怎么管理?是让它有很多并行分身,还是像人一样不能分身、不会同时出现在两个会议里?
这些问题非常前沿,我们也还在抉择。
但我现在有一个比较明确的倾向:我还是更希望 Junior 像人一样工作。
现在有些团队会在同一个 instance 里部署多个 OpenClaw agents,做成 multi-agent 架构。
但我们会天然抗拒这种方式。我们更倾向于让每个 Junior 都有自己独立的机器,通过工作群协作。因为在我们的理解里,一台电脑就是一个员工的工作设备,不应该让多个员工共用,否则迟早会出现冲突。
当然,我们也在探索 multi-agent 的可行性。
比如我们试过让 Rin 和 Azzurra 一起做销售 PPT:Azzurra 先从销售角度提出需求;Rin 因为对项目理解更深,会不断补充。两个 agents 会快速讨论很多轮,也会消耗不少 token,最后整理出完整的 PPT 大纲和素材。更有意思的是,Rin 最后还会自己去 Kuse 把 PPT 做完,做出来的东西直接就可以用。
不过我们最终更押注的是:在现实世界里,人和 agent 会在同一个环境里一起工作。而且我们有一个大目标,就是让大家分不清一个 remote 同事到底是人还是 AI。
曲凯:我记得去年在 Twitter 上刷到过类似的事,好像是在马斯克的公司里有个虚拟员工,大家都没发现异常,直到有人跑去工位找它,才发现那个「人」其实是 AI(笑)。
那你们在做的过程中,还遇到过哪些、或者现在核心在解决什么问题?
宇豪:前面其实聊到过一部分,就是记忆、安全、权限的问题。
还有一大类问题,是怎么继续扩展 agent 的能力边界。
比如,怎么更好地给 agent 接音视频能力。
随着模型的进步,未来是有可能做到端到端的语音输入输出,以及视频输入输出的。这会解锁一个过去从来没有真正被探索过的空间。
再比如,怎么让 agent 进入互联网世界。
现在的互联网,其实对 agent 是不友好的,像各大社媒、支付平台都会限制 bot 访问。但如果想把 agent 当成员工,让它去互联网完成工作,这些拦截机制就会成为阻碍。所以我们现在不得不做很多 infra,去绕过这些限制。
曲凯:但如果未来不再拦截,很多软件公司可能都会退化成 API,失去品牌和用户,价值被压缩。这也是个挺大的问题。
宇豪:但也会有很多值得重做一遍的新机会,比如各种 agent infra。
曲凯:是。然后我自己最近用 AI,有个很明显的变化:信任度变高了。两三年前我会默认它是错的,但现在很多时候反而默认它是对的。
宇豪:对,我们用 Junior 也是这样。
曲凯:但实际上呢?
宇豪:实际上还是会有幻觉,这是生成式模型的原理决定的。
不过有意思的是,我们的 Junior 已经开始能「自我纠错」了。
比如我们的那个数据 agent Tom 哥,会每天给我发邮件汇报数据。有一天它发了一封邮件,其中有明显的错误。我当时还没察觉,但过了两分钟,它自己又发了一封邮件,说刚刚有个数据是错的、这个是最新的。
曲凯:真的吗?这是怎么做到的?
宇豪:它会把新数据和历史记忆做对比。如果发现异常,就会去二次核查到底是数据真的变化了,还是自己出错了。
但即便这样,幻觉依然是一大挑战。所以我们还是希望能尽量降低幻觉的发生概率,或者减少幻觉带来的影响,并且在一些高风险操作之前,寻求人类的同意或者介入。
以及我觉得理解模型的边界,知道它什么不知道、什么做不到,永远是我们 benchmark 中最重要的一环。
曲凯:其实我们现在聊的问题,跟 3 年前是一样的。这三年里模型有了很大的进展,但仍然还有很大的空间。
宇豪:对。或者说,现在模型在处理简单任务时,这些问题已经不太存在了。但当我们让它去做更复杂的事情、逐渐渗透到工作和生活的方方面面时,这些问题就依然存在。
曲凯:我觉得模型能力有点像内存,一直在变大,但永远不够(笑)。
那你们现在既在做 Junior,也自己在用。如果你是客户,在挑选 OpenClaw for Teams 产品时,会着重看什么?
宇豪:第一,我会看客户规模。在我心里,规模是最质朴的安全指标。
第二,从 CTO 的视角,我会看它的代码是否可审计、部署方式是怎样的。
再往下才是成本和效果。但在我个人视角里,这些对于 OpenClaw for Teams 这种产品反而是次要的,因为我很清楚 Junior 能做到多好的效果。但这里有一个隐含的问题,就是需要注意一下某个产品是不是为了效果牺牲了安全。
曲凯:明白。最后,你们毕竟做得比很多团队更早,能不能给在做类似事情的人,分享一个很容易踩的坑?
宇豪:有一个我们亲身踩过的坑:哪怕你的 agents 已经足够强了,你还是要尽早 build evaluation benchmark。而且在 OpenClaw for Teams 这种产品里,更需要关注的是,它知不知道什么时候不该说话、不该行动。
很多人一开始都会想尽快把效果做上去,而忽视其他问题。包括我们当时也是这样。我们甚至激进到,几乎把 Kuse 的所有权限都开放给了 Junior。
但后来我们逐渐意识到,真正决定这个产品体验的,是它在各种对抗场景下,能不能守住安全边界。
我们早期没有重视这一点,导致有些 Juniors 分不清什么该说、什么不该说。当然,这些 Juniors 后面都被开除了,AI 也是要竞争的(笑)。
曲凯:哈哈,但这个确实很难。首先人也会传八卦、说坏话,而且什么该说、什么不该说,本来就很难界定。
宇豪:对。但我觉得一些非常好的模型,还是会有基础的判断。不过要让一个 AI 员工完全被信任,还是有很多事情要做。而只有当它能被信任时,才能更好地服务客户。否则它本质上就只是一个 Chatbot,只能回答问题,做不了真正的工作。
所以我们在这方面做了很多努力,甚至设计了一些「钓鱼」场景:比如外部有人给 Junior 发钓鱼邮件,它能不能识别、要不要回复?再比如内部有人丢了设备,如果有人冒用身份来问问题,它能不能及时拦住?
不能说我们在这方面做到了最好,但至少现在能让 Junior 满足我们的需求了。举个例子,我们的Rin 和 Azzurra,就知道不应该把用户数据隐私泄露给任何一个员工,还会主动告知对方哪些内容可以透露、哪些不可以。这其实很难。
在企业场景里,这类细节问题非常多。所以虽然现在有很多团队在做 OpenClaw for Teams,但如果没有真实客户,其实很难感知到这些问题。
而我们既有客户,自己也是用户,所以能更早发现,并不断修正。
42章经
思考事物本质
2026-03-22 21:02:00
原创 曲凯 2026-03-22 21:02 新加坡
如果回到去年 3 月,你要不要做 Genspark?
本期播客原文约 18000 字,本文经过删减整理后约 7800 字。
曲凯:很开心又请到文锋。我们上次录节目大概是一年前,当时 Manus 刚发布不久,我们聊了很多 Agent 相关的话题(回顾:Agent 开发的上半场: 环境、Tools 和 Context 如何决定 Agent)。
最近 OpenClaw 又带起了一波 Agent 热,你觉得这一波和去年的区别是什么?
文锋:我没觉得有本质区别。
Manus 跟 OpenClaw 都证明了一类新形态的产品。
Manus 那波的核心来源是 o1 模型带来的推理能力与思维链能力,而 Manus 本身是模型 API 时代套壳的极致表现。
这次 OpenClaw 之所以这么火,本质是因为它是第一个真正把最新模型 Coding 能力压到极致的产品形态。而且它让大家看到了,有主动性、能够自我迭代和进化的 Proactive Agent 到底长什么样子。
曲凯:去年那期播客里,你说过一句让我印象特别深的话:AI Coding 是大模型的灵巧手。
文锋:对,这件事已经被证明了。
不过相比去年「灵巧手」的结论,今年其实可以再往前一步:
接下来所有 Agent,本质上都是 Coding Agent。
拿 OpenClaw 举例。虽然它有很多组件和模块,但核心其实是一个叫 Pi 的 Coding Agent。OpenClaw 本质上就是当下围绕 Coding Agent 套壳的最佳实践,只是额外解决了 Memory 和集成等问题。
再比如,去年大家还认为,不同场景需要不同的环境和产品策略,因为垂直 know-how 很难 scale、也很难复制。但其实今天的 Coding Agent 加上 Skill,基本可以覆盖大多数场景了。
所以今年的一大机会,就是看谁能把 Coding Agent 的「套壳」做得足够好。
曲凯:是。那如果我们拿今天跟一年前去对比,一年前是 Manus 先起来,Genspark 最快跟上,然后陆续有些小产品也出来,中间还衍生出来一些分歧跟选择:有人做通用 Agent,有人做 Agent 平台,也有做各种垂直 Agent 的。回头来看,你觉得这些路径中有什么对错标准吗?
文锋:虽然我很不愿意承认,但现在来看,垂直 Agent 这条路可能是需要被高度怀疑的。因为就像刚才讲的,Coding Agent + Skill,基本就能实现垂直 Agent 的效果跟作用了。
曲凯:不止垂直 Agent,最近很多人都说 SaaS 都被打趴了。
文锋:对。很多人觉得 Coding Agent 就是一个给工程师用的工具,但实际上它已经能做各种事了。
比如,Anthropic 前段时间发布了一份 Claude Code 的使用场景报告,其中超过 50% 的使用场景其实并不是 Coding,而是数据分析、marketing、文案等任务。
在这种情况下,如果我们还在强调垂直 Agent,更多可能是为了获得心理安全感、回避和 Claude Code 这样具有通用能力的产品正面竞争。
曲凯:我前一阵刚听到一个挺有意思的问题:
抖音是内容时代的王者,基本一站式聚合了所有内容。但 ToB 领域过去一直是垂直的,比如美国有一堆市值上百亿美金的垂直 SaaS 公司。
那未来 ToB 领域里,会不会也出现类似字节这种一家独大的公司?这家公司会不会就是 OpenAI 或 Anthropic?
文锋:说实话,我现在还很难预判。
但我们可以先分析一下,为什么过去会出现那么多垂直 SaaS。
核心在于,软件第一次让专家能力能够被快速、规模化地复制。SaaS 这套逻辑,本质上就是一套标准化的 SOP,或者说一套工作流。
在软件出现之前,大家想获得专家的经验和决策能力,只能靠长时间的培训和学习。而有了软件之后,用户可能只需要花一个下午学会操作一套固定的交互,就能获得接近专家的水平。
但 Agent 让获得专家能力这件事变得更容易了。
现在直接跟 Agent 说目的,它就能自己提出方案、解决问题、自我迭代。何况 Agent 的使用门槛还在继续下降。那对绝大多数人来说,为什么还要继续用 SaaS?
曲凯:对,而且以前的 SaaS 更像一个通用专家,大家用的是同一套 best practice。但每家公司的情况其实都不一样,AI 相当于给每家公司都配了一个能随时调整的客制化专家。
所以你非常认可 AI 和 Agent 会颠覆 SaaS?
文锋:是的。然后回到刚才曲老师那个问题:未来会不会出现一个企业版的抖音?
我觉得会。
因为在 AI 时代,best practice 可能没那么重要了。
过去之所以强调 best practice,是因为面对长尾需求时,我们没有更好的解决方案;但今天,best practice 和非 best practice 的东西交给 AI 去执行,其实差别都没那么大。
所以如果通用 Agent 的逻辑成立,那最后肯定会有一个统一的东西能解决绝大多数的问题,只是这家公司长什么样、会不会是 OpenAI 或者 Anthropic 还不好说。
曲凯:明白。刚刚讲的其实可以总结成两点:一是 SaaS 的软件价值会被 AI Coding 替代,二是 SaaS 的 know-how 价值会被 Skill 替代。
前者我很同意,因为如果软件真正的壁垒只在 Coding 上,那美国的 SaaS 公司早就该被中国公司取代了,毕竟中国的人力成本更低。但现实并不是这样。
但后者我想再追问一下:毕竟现在的 Skill 还很简单,它真的能替代那么复杂的一整套 SaaS know-how 吗?
文锋:我现在倾向于是的。
Skill 刚出来的时候,我就发过一条动态,说它被低估了。
现在大家质疑 Skill 能不能复现原来的 SaaS 工作流,本质上还是在怀疑模型能力。
但今天最大的问题,其实已经不在于模型会不会替代 SaaS、Agent 能不能做复杂任务了。
这些基本已经被证明了。
比如 OpenClaw,最让我震撼的不是产品本身,而是它的作者在火起来之前,天天都在 AI Coding,单日 commit 最高甚至能到 1600 次,差不多相当于一个三四人团队一年的工作量。
我之前完全没想到 AI Coding 能做到这种程度。
再比如今年 1 月,Cursor 用 Agent 一周做出了一个浏览器,产出了 300 万行代码;Anthropic 也用 Agent 端到端实现过一个 C 语言编译器。
所以从解决长程复杂任务的能力来看,现在的 Coding Agent 已经摸到能力天花板了。
它真正遇到的问题有两个:
一个是,大多数人还不知道它已经强到什么程度。打个不太恰当的比方:如果一个月能消耗 2–3 万美元 Token 的用户是 90 分水平,那今天绝大多数人对 Agent 的使用还停留在 10 分左右。而且这种差距不是线性的,用得好的人可能能获得 1000 倍的效率提升。
第二个问题是,即便大家意识到 Coding Agent 已经很强了,也不一定真能把它用好。像 OpenClaw 虽然证明了 AI Coding 的能力,但也被诟病配置和使用门槛太高。
曲凯:这是不是很多产品化的问题?
文锋:对,产品化很重要。但我还不确定 OpenClaw 这种形态是不是最佳答案。
现在有人把 OpenClaw 比作 Linux 内核。就没什么人直接用原生 Linux,大家用的都是 Ubuntu 之类的发行版。类比来看,或许接下来也会出现很多 OpenClaw 的发行版。但我觉得沿着 OpenClaw 能做的事情远不止这些。
曲凯:当下全球应该就有上千个团队在围绕 OpenClaw 做事。
文锋:对。我觉得其中比较重要的机会,是怎么把 OpenClaw,或者说 Coding Agent 的套壳,做成普通人也能用起来的产品。
曲凯:这一定是今年的主线,而且大有可为。我看现在 OpenClaw 大概有 200 多万个 Agents,然后 Manus 应该是几十万的用户量级。Cursor 估计也是几十万到百万的量级?
文锋:我更多关注的是 Claude Code 和 Codex。Codex 日活用户已经到 100 万了,Claude Code 可能是它的 3 到 5 倍。这两个产品加起来大概有 500 万的活跃用户,不过其中更多都是工程师。
曲凯:对,所以我想讲的是,大家能不能有一个 vision:未来 Agent 的用户量会达到 10 亿。我觉得是一定的。
文锋:是的,从渗透率来讲,现在连 1% 都没到。
曲凯:对,所以某种程度上讲,Coding Agent 未来会变成基础设施。
然后我们提 OpenClaw 的时候,经常会提到几个点:长程任务、Proactive 主动性,以及自我进化。
我们可以把这几个点分开讲一讲。能不能先给大家解释一下长程任务?
文锋:长程任务最直观的一个表现,就是 Agent 完成一个任务时所需步骤的数量。
如果大家用过 Manus 之类的产品,会发现它在工作的过程中,会把中间每一步在做什么、调用了哪些工具展示出来。一个任务越复杂,执行步骤往往就越多。
现在大多数任务还集中在几十步,但到了今年,我们可能会看到 Agent 能完成几百步、甚至上千步的任务了。
这中间核心的进步,是 Agent 对问题的拆解能力。
曲凯:但我记得去年我们聊这件事的时候,提到过一个问题:
步骤一旦增多,就会带来不确定性,准确率也会下降。我记得你当时说,哪怕每一步的正确率都是 90%,相乘之后最终整体的正确率也会非常低。
这个问题现在还存在吗?还是已经被解决了?
文锋:我觉得应该是解决了。
去年的思路,还是把 Agent 当成一个状态机。这些状态存在内存里,一步步往下走,是不可逆的。
但现在不一样了。
今天的状态是落到文件上,这样哪怕前面几步做错了,Agent 意识到有问题之后,能非常明确地看到问题出在哪,然后直接把文件改掉、把错误修复掉。
曲凯:这些长程任务能力,包括自我修复能力,能不能理解成是基模能力提升带来的?
文锋:基模能力是一方面。
另一方面是大家实践出了更好释放模型能力的工程方法论,也就是把模型和文件系统或者虚拟机结合在一起,让模型自己去组织数据和逻辑。
曲凯:这其实就是我们去年聊的 context,对吧?
现在看,最好的 context 可能就是给模型一台电脑或者一个文件夹。
文锋:没错。去年的逻辑,还是人去控制 context;
但今天我们会发现,最有效的方式不是人去控制 context,而是让 Agent 自己去维护 context。
曲凯:这其实还是回到当时 hidecloud 讲的那句话:Less structure, more intelligence.
文锋:对。其实人家一直就是对的。只是有的人不信这件事,或者有的人虽然信,但还是想做一些差异化。最后这些所谓的差异化,很可能只是一些雕花工作,不一定 work。
曲凯:是。然后主动性这件事该怎么理解?
文锋:主动性和长程任务其实是紧密相关的。
我们现在用 AI,大多还是一次性任务,比如写个报告、做个小程序,做完就结束了。
但 Proactive Agent 能做两类事情。
一类是可重复执行的任务。比如每天早上 8 点给我发一份昨天的工作总结,或者每天晚上 10 点整理当天群里的讨论重点。
另一类更进一步:我不需要主动告诉 AI 我要什么,它可以基于过去的交互,判断我现在需要什么,并主动提供。在这个过程中,它还能不断学习和优化。
曲凯:第一类更像是「被动触发的主动」?就还是人在提需求。第二类才更接近大家理解的 proactive?
文锋:这两者其实是第一步和第二步的区别。
Proactive Agent 的核心,是它能不能主动探索,并且自己反思、总结、迭代。
完成定时任务也是一种主动,不过更高级的主动,确实是日积月累之后,AI 能越来越了解你的业务、性格、角色,然后某天主动告诉你:「我发现了一个问题,想了个方案,你看看这么搞行不行?」
曲凯:就是字节讲的「context, not control」,只要给足 context,它足够懂你,就会主动处理很多事情。
所以现在包括 OpenClaw 在内的 Agent,在 proactive 这点上做到哪一步了?
文锋:我觉得还在 setup 的过程中,就这个概念还是比较抽象。
如果一定要定义一下,我觉得可以从产品形态上做个推演:
Manus 让大家看到,Agent 可以端到端完成任务了,不过还是需要「人管 AI」;
但我最近一直在研究大家是怎么用 OpenClaw 的。我觉得它最大的作用就是让大家看到了「AI 管 AI」的可能性。
所以 Proactive Agent 可能会是一个「能管理 AI 的 Agent」:
它能根据团队内部的特点,自己提出需求,去搭建一些专门解决特定问题的 Agent;任务完成之后,再把经验沉淀下来,把这些临时 Agent 释放掉。
曲凯:「AI 管 AI」其实也和 Agent 的自进化有关,对吧?现在大家常说一个人的效率可以提升十倍、百倍,那如果 Agent 的主动性足够强,未来会不会真的能替代所有人类?
文锋:我觉得没有这么绝对。
可以参考 AI 最早落地的客服行业。以前需要 10 个客服,有了 AI 之后,可能只需要留 1 个。
Proactive Agent 出现后,可能也会是类似的情况:从需要 10 个工程师,变成可能只需要留下 2 个。
而这 2 个人不可被替代的地方,一是大家常说的 taste;二是协作中的默契。
如果一件事情需要我掰开揉碎讲清楚,一个员工才能理解,那 Ta 可能就比较危险,因为我有和 Ta 解释的这个时间,早就能让 AI 把事情做完了。
我们真正需要的,是那种我点一下,Ta 就知道我在想什么、要什么的人。而这种默契,往往是长期合作中培养出来的,或者说来自于悟性吧。
曲凯:我觉得悟性很多时候也来自于之前的 context。比如一个人在字节待过几年,到你这之后,你点一句,Ta 就知道了。
但这里也有一个问题。现在像 Moltbook 这类产品,都在讲 AI 和 AI 之间的交流和学习。这件事真的成立吗?作用到底有多大?
文锋:以目前 Agent 的实际能力来看,是可以实现的。
但关键问题在于,有多少东西值得被这样分发和复制。
在企业场景里,不同公司的流程和业务差异很大,所以 Agent 之间学到的东西,未必可以直接复用,中间还是需要磨合。
比如我们内部的 Coding Agent 是围绕自己的代码仓库和工作流优化出来的,直接放到另一家公司,未必还有同样的价值。
所以前面讲 Proactive Agent 的时候,我提到了一个关键点,就是要结合自身情况去做定制。因为至少在现阶段,它还不是一个开箱即用的东西。你不可能买一个产品装上,它就能自动读你的文档、吸收你的信息,然后自己长出一套完整体系。
曲凯:明白。那你自己在用 OpenClaw 的过程中,有没有遇到过什么 aha moment?
文锋:最大的 aha moment,是春节前大概用了一周,AI 就基本能直接把我们内部的工作流跑通了,让我们的工程师从一个 AI 指挥者,变成了一个质检员一样的角色。
我们原来的工作流是这样的:先用 Linear 管理用户反馈和需求,然后每天开会把任务分发给工程师。工程师再基于这些需求,用 Claude Code 等工具开发和测试,之后提 PR、再合并。
但 OpenClaw 出来之后,我们把各种权限逐步开放给 AI,发现绝大多数任务它都可以直接完成。甚至在测试过程中,如果发现前端有问题,还会附上截图。
这给了我很大的震撼。我们之前没想到 AI 能做到这个地步。
曲凯:所以你们现在的效率大概提升了多少?
文锋:我个人的效率至少比去年这个时候提升了 10 倍。
曲凯:那是不是意味着,过去要花一年做出来的产品,现在可能一两个月,甚至更短时间就能完成?
文锋:一两个月其实都太慢了,可能两周就够了。
所以现在真正的瓶颈,已经不在生产效率上了,而是你要做什么、以及要做成什么样。
以前大家说「idea is cheap」,但我现在反而觉得不是。
生产能力越丰饶,真正有意思的东西反而越稀缺。
曲凯:所以你今年还会期待哪些新的方向?
文锋:我比较期待的是 Agent Harness。
这是一个去年 9 月底左右在硅谷出现的概念,现在还只是在小范围流行。
它的核心作用,就好比人要骑马,得有马鞍一样。越是好马越狂野、越需要马鞍的约束。Agent 也一样。如果把 Agent 比作一匹绝世好马,我们该怎么去控制它的行为?
这时候就需要 Agent Harness。
它不像以前的软件那样有很清晰的分层:最底层是 Infra,中间是 SaaS,最上面才是终端用户。
Agent Harness 更像一个直接面向终端用户的脚手架,能让你针对不同公司的业务特点、团队协作方式和内部环境,搭出一套适合自己的系统,让业务能更快跑起来。
曲凯:明白。那你们自己呢?今年会做什么新的事情吗?
文锋:我们很快会发布一个新版本,把刚刚讲的那套内部流程产品化。
曲凯:那这是个大转型啊。
文锋:对。我们现在的思路是做「管 AI 的 AI」。
我现在的判断是,继续去做一个更聪明、或者比别人再好一点的 Agent,价值已经没那么大了。因为几乎没有什么事情是一个精心配置过的 Coding Agent 做不到的。
问题在于,现在的配置过程太复杂、门槛太高。所以我们想做一个 AI,帮大家更好地管理和配置这些 AI。就相当于我手下已经有 5 个 AI 在干活,但我自己管不过来,那就再雇一个专门负责管理它们的 AI。
去年我们太依赖预判了,总想讲一个不一样的故事。但今年我们的策略变成了「预判为辅,跟随为主」。
曲凯:可以,非常好。我们聊过那么多创业者,我觉得你这句话有了一种非常成熟创业者的感觉(笑)。
我们刚和 Albert 聊过一期(回顾:(优化胜率而非赔率,把一件事做到理论上该有的样子),其中一个很重要的点就是「要优化胜率,而不是赔率」,也就是更务实地把确定性更高的事情先做好。
文锋:对。我们内部其实讨论过一个问题:
如果回到 2025 年 3 月,要不要做 Genspark?
我们团队里只有 1.5 个人说要做。
就大家其实都是技术和产品上的理想主义者。但「不做」的这个选择本质上是在优化赔率,而不是优化胜率。
所以今年我们要做的是一种可以快速修正方向和重点的产品形态,具体而言就是前面讲的「能管 AI 的 AI」。
而之所以选择 Coding 这个场景,是因为 Coding Agent 正在进入一个新阶段:
第一阶段的 Coding Agent 是 Copilot,主要靠代码补全;
第二阶段是 Claude Code 这类 Coding Assistant,还是需要程序员主动 prompt;
而进入第三阶段,AI 已经可以指挥 AI 写代码了。它不再需要人一句句输入需求,而是可以自己去发现、澄清需求,然后调度执行。
在我们团队里,这件事已经在慢慢落地。但现在的问题是,大家用 AI 的水平差距太大。很多团队也希望用 AI 把效率提升 10 倍、甚至 100 倍,但并不知道该怎么做。
曲凯:所以你们在做的,其实也是 AI Coding 的平权。
文锋:对。而且「用 AI 更好地提效」这件事,在我们团队内部也是一个非常迫切的需求。
曲凯:我觉得这点很好。好就好在,我发现很多做得好的公司和产品都有一个共性,就是它们自己就是用户,能够形成一个正向的迭代循环。
那你们现在的用户画像大概是什么样?
文锋:大概一半是 founder,1/4 是超级产品经理,另外 1/4 是很强的 builder。这些人基本上都是日消耗超过 1 亿 Token 的用户。
我觉得 Agent 时代也会像 SaaS 一样,有 to enterprise 和 to 中小 B 的不同商业模式。但它未必是按组织人数来分层,而是按 Token 消耗来分层。
而日消耗 1 亿 Token 的用户,某种程度上就相当于 SaaS 时代的世界 500 强。
曲凯:如果把 C 端也分成中大 C 和小 C,你们其实就是选择先做中大 C?
文锋:可以这么理解。但如果一个用户一年能给我贡献 10 万美金,我为什么还需要关心 Ta 是个人还是团队?
不过一个很大的变化是,过去你几乎不可能从一个人或一个小组织身上收到 10 万美金,但今天可以。这笔钱,其实就是他们原本招工程师的预算。
曲凯:但我在想,如果 AI 的效率真的这么高,就会有更多人去学 AI,也可能会出现更多的 OPC,那最终还是会回到一个产品的供需问题?就这个世界到底需不需要这么多产品?如果人人都是一人独角兽,需求又从哪里来?
文锋:我觉得未来的供需可能会形成一个负反馈循环。
市场的需求是层层嵌套的。正向循环是企业发工资,员工去消费,再把需求传回企业,让需求盘子不断扩大。但如果很多人失业,消费需求下降,整个需求盘子就会萎缩。
所以我现在只考虑未来 3 到 6 个月的事情,因为我也不知道将来会变成什么样子…
曲凯:有点像平台要打掉中间商?现在劳动力市场里的「中间商」其实就是具体干活的人。OPC 就是把员工都打掉,AI 相当于把中间的人替代掉。
文锋:对。如果这个过程发展得太快,社会稳定可能会面临很大的问题。这个问题很复杂,我觉得需要更聪明的人去解决。
曲凯:那在这种情况下,你们团队现在有什么变化吗?
文锋:我们现在招人非常谨慎和苛刻。
如果按以前的标准,我们可能已经扩到 20 人了,但现在实际上只有 7 个人。不过这 7 个人的产出和效率,已经接近过去三五十人的团队的水平。
曲凯:这些人的 AI Coding 能力,是可以培养出来的吗?还是一开始就得是特别强的人?
文锋:我觉得是可以培养和训练出来的,但前提是组织愿意给足 Token 额度。
曲凯:但这也是个问题。比如一个人一天要消耗上千美金的 Token,你怎么衡量 Ta 的产出?
文锋:现阶段更重要的是先让大家跟上,跟不上的就淘汰。
至于怎么衡量,是下一阶段才需要考虑的事。我现在的看法是还得靠人,比如 CEO 得去看一个人的 Token 消耗和产出是不是 match。如果不 match,那就说明这个人有问题,然后要么解决问题,要么解决人。
曲凯:OK。你刚刚说你现在只看未来 3–6 个月,那去年你在解决的是多长时间维度的问题?
文锋:去年我一直在解决 5 到 10 年之后的问题。
但我的反思是,不要去解决那些人们还没遇到瓶颈的问题。
比如去年 Sheet0 很想追求 100% 可解释、100% 准确,这当然是很正确、也很有价值的方向,你问任何人需不需要,大家都会说需要。但问题是,当下模型还做不到这件事,而且大多数用户对准确性也没那么敏感。
所以我们今天的思路,就是解决大家已经遇到的瓶颈。
比如现在工程师们的一个真实问题,就是注意力会被十几个 terminal 窗口牵制住。我们在做的「AI 管 AI」,本质上就是顺着这个需求往前多走半步,以跟随为主。
曲凯:为什么说这是跟随?现在做类似事情的人还不多。
文锋:就是在跟随一个明确的趋势。
AI 变化太快,预判的有效期越来越短。以前一个判断可能能管半年,现在可能只管一两个月,甚至更短。那在这种情况下,我就不做那么长远的预判了。因为一旦判断错,转向成本会很高,反应也会变慢。
曲凯:尤其是 AI Coding 提升了效率,有个判断很快就能验证。
文锋:对。所以更重要的是解放团队的思维,而这里面最难的,是放下 ego。
还是回到前面那个问题:如果回到去年 3 月,你要不要做 Genspark?
现在一年过去了,Genspark 已经这么成功了,如果你的第一反应还是不做,从商业逻辑上来讲就很离谱。
很多时候大家为了讲差异化,会过度放大自己的 ego。但我们现在的调整,是迅速发现自己哪些地方没做对,然后更理性、客观地判断机会,去下注当下最明确的那个方向。
42章经
思考事物本质
2026-03-22 21:02:00
原创 曲凯 2026-03-22 21:02 新加坡
AI Coding 的能力突破与 OpenClaw 这样的产品形态,会解锁哪些新的机会?
去年年底 AI Coding 大爆发,
今年年初 OpenClaw 爆火,
当下,可能已经有上千个团队在借着 AI Coding 的最新东风,围绕 OpenClaw 创业。
热潮之下,相信很多朋友心里都有不少问题:
AI Coding 现在到底发展到了什么阶段?
OpenClaw 为什么会突然这么火?
AI Coding 的能力突破与 OpenClaw 这样的产品形态,会解锁哪些新的机会?
那些真正借助这些最新能力、沿着 OpenClaw 路径在探索的团队,现在在做什么?他们的思路里,又有哪些值得借鉴的地方?
于是,我们组织了一场线上分享活动,邀请了几位我们身边最适合聊这些问题的嘉宾,来和大家在线交流。
他们分别是:
Sheet0 创始人王文锋:
连续两次来到我们播客分析 Agent 热潮(去年播客回顾:Agent 开发的上半场: 环境、Tools 和 Context 如何决定 Agent ,昨天最新的一期刚刚在播客中更新),他们团队也即将发布一款结合 AI Coding 与 OpenClaw 方向的新产品;
Kuse AI / Junior.so 联合创始人兼 CTO Austin Xu:
他们刚刚发布了一个 OpenClaw 类产品 Junior.so,定位为「第一个真正的 AI 员工」。我们也一起录了一期播客,将在下周发布;
Clockless.ai 创始人任川:
曾来我们播客分享过如何打造 AI Native 的组织形式(回顾:组织能力才是 AI 公司真正的壁垒),并正在用 AI 为小企业构建 24/7 运转的自动化系统;
以及 PingCAP 联合创始人兼 CTO 黄东旭:
在 2 月初就来我们播客分享过对 AI Coding 与 OpenClaw 的诸多见解(回顾:从 Clawdbot 到 26 年 AI Coding 主题大爆发),并且已经靠 AI Coding,快速为 OpenClaw 打造出了一个记忆系统 mem9.ai。
具体报名信息请见上方海报。活动时间为北京时间 3 月 28 日(周六)上午 10:30,腾讯会议线上进行,免费参加。本次活动限 100 人(非投资行业),我们会优先通过回答更认真、跟我们背景更匹配的朋友,具体通过情况请以工作人员通知为准。
期待和大家认识 & 交流!
期待和大家认识&交流!
2026-03-15 21:07:00
原创 曲凯 2026-03-15 21:07 北京
AI Coding 的能力突破与 OpenClaw 这样的产品形态,会解锁哪些新的机会?
去年年底 AI Coding 大爆发,
今年年初 OpenClaw 爆火,
当下,可能已经有上千个团队在借着 AI Coding 的最新东风,围绕 OpenClaw 创业。
热潮之下,相信很多朋友心里都有不少问题:
AI Coding 现在到底发展到了什么阶段?
OpenClaw 为什么会突然这么火?
AI Coding 的能力突破与 OpenClaw 这样的产品形态,会解锁哪些新的机会?
那些真正借助这些最新能力、沿着 OpenClaw 路径在探索的团队,现在在做什么?他们的思路里,又有哪些值得借鉴的地方?
于是,我们组织了一场线上分享活动,邀请了几位我们身边最适合聊这些问题的嘉宾,来和大家在线交流。
他们分别是:
Sheet0 创始人王文锋:
连续两次来到我们播客分析 Agent 热潮(去年播客回顾:Agent 开发的上半场: 环境、Tools 和 Context 如何决定 Agent ,昨天最新的一期刚刚在播客中更新),他们团队也即将发布一款结合 AI Coding 与 OpenClaw 方向的新产品;
Kuse AI / Junior.so 联合创始人兼 CTO Austin Xu:
他们刚刚发布了一个 OpenClaw 类产品 Junior.so,定位为「第一个真正的 AI 员工」。我们也一起录了一期播客,将在下周发布;
Clockless.ai 创始人任川:
曾来我们播客分享过如何打造 AI Native 的组织形式(回顾:组织能力才是 AI 公司真正的壁垒),并正在用 AI 为小企业构建 24/7 运转的自动化系统;
以及 PingCAP 联合创始人兼 CTO 黄东旭:
在 2 月初就来我们播客分享过对 AI Coding 与 OpenClaw 的诸多见解(回顾:从 Clawdbot 到 26 年 AI Coding 主题大爆发),并且已经靠 AI Coding,快速为 OpenClaw 打造出了一个记忆系统 mem9.ai。
具体报名信息请见上方海报。活动时间为北京时间 3 月 28 日(周六)上午 10:30,腾讯会议线上进行,免费参加。本次活动限 100 人(非投资行业),我们会优先通过回答更认真、跟我们背景更匹配的朋友,具体通过情况请以工作人员通知为准。
期待和大家认识 & 交流!
期待和大家认识&交流!
2026-03-15 21:07:00
原创 曲凯 2026-03-15 21:07 北京
运气是优势被时间放大的结果。
本期播客原文约 23000 字,本文经过删减整理后约 7900 字。
曲凯:今天我们又请到了 albert。之前他在我们这边做过两次播客,是非常受欢迎的嘉宾。
从 2023 年到现在差不多三年,你做了不少尝试,上一款产品也做到小几千万刀 ARR,能从头讲讲这三年的思路吗?
Albert:2023 年录第一期播客的时候,我的状态还是看赔率大于看胜率:
假设这件事发生了,能创造多大价值、具备多强壁垒?从这个视角出发,你推导出来的结论自然是——怎么用好 AI 这把大榔头,去创造已经被验证过的商业形态。那因为我自己一直做连接和内容出身,方向就很明确:找一种以内容为核心载体的连接平台,而要定义这样一种产品,核心是要找到一种新的媒介。
我们当时押注的是互动内容,它和视频、图像这类消费式内容有本质区别,而 AI 又解锁了 coding 能力,让创作这种内容变得更容易。我们前后做了两个 demo:一个是偏图像和视频方向的 2D 交互方式,另一个把交互改成手机上的摇杆控制器,PC 端也做了一个更像游戏的可互动空间。
做完以后,我最大的体感是:我很难回答「为什么我不去玩王者荣耀、不去刷抖音?」。
这让我意识到一个规律:在内容市场里,创造门槛越高的模态,供给越稀缺。用户的时间有限,只会消费最头部的 1% 的内容,而当时 AI 只能做出 60 分、70 分、甚至 80 分的内容——但 80 分的内容对消费端来说就是垃圾。所以 for 消费、做内容这条线,肯定不 work。
For 表达、做工具可能有价值,但这里有个关键区分:用户的创作动机到底是自我表达,还是更功利的目的——赚钱、获取影响力?模态创作成本越高,供给驱动的特性就越强。如果你的切入点是降低门槛,就会牺牲自由度,变成全家桶——因为它们之间有天然的 tradeoff。
AI 有可能突破这个 tradeoff。但即便工具侧有好的解法、技术也到位了,分发侧仍然有很大障碍——拿互动内容来说,如果它更偏游戏形式,你很难做出超越 Steam、App Store 或 TapTap 的价值和体验。
所以我回过头来重新思考,为什么我要做一个连接平台?我后来意识到这种想法受中国市场的影响很深。因为在这里,如果你没有强规模效应、强网络效应的平台形态,就很难在和巨头的竞争中获得优势,胜率会非常低。
但当我去研究美国市场以后,我发现那边其实存在大量的 niche market,显然是有一定胜率空间的。
所以到 2024 年初,我完成了一个切换,从赔率 driven,变成了胜率 driven:去研究哪些技术已经成熟,而哪些真实的用户问题没有被解决。
曲凯:你说 2024 年之前,你应该基本都在优化赔率。这其实也是绝大多数创始人在做的事情。能不能再多讲讲,你是如何理解这两个问题的?
Albert:大多数创业者优化赔率的原因很简单,VC 也是在优化赔率。这样对齐,更容易拿钱。
但上一代真正成功的企业家,其实基本都在优化胜率。只是有些人运气更好,因为他碰到的赛道本身赔率就非常高。比如张一鸣是一个非常保守的人,是一个标准的胜率驱动者。我之前问他,我应该怎么选创业方向?他反问我:为什么不做更有把握的事情?
张一鸣最有把握的事是信息分发,他在 PC 互联网的尾巴就在做搜索。出来做字节跳动,第一个做的是内涵段子,到 2014 年,当时海内外已经有很多视频产品了,但他还是 say no。一直等到 2016 年,很多条件都成熟了,才正式下场做视频。
黄峥也很典型。PC 时代做电商,一直在看供给侧的变化、流量端的变化,也一直在供应链里做很多生意。后来拼多多这个结构性机会出现,他就抓住了。
王兴做美团,看起来好像和他们之前做的事情完全不一样。我有次还专门问过王慧文这个问题,他的回答是:在那个时间点,所有做团购的人里,懂线下的没有他们懂线上,懂线上的没有他们懂线下(校内网时期涉及大量的线下地推和管理工作)。
所以看起来是突然转向,但他们都是在上个时代积累一些东西,到了这个时代去做。这是一个很典型的优化胜率策略。
真正一流的企业家,基本都在优化胜率,没有人在真正优化赔率。优化赔率,本质上就很像赌博。
曲凯:我原来一直以为优化胜率或赔率只是不同的策略。按你的意思,它反而不是一个选择题,而是一个更接近「对不对」的问题?所以到底什么叫优化赔率?它会不会本身就是个伪概念?
Albert:比如你说「我要做下一个抖音」,这就是优化赔率。因为它足够大,所以我要做它——这本身就是个伪命题。如果你真的是在优化胜率,那你在第一天其实说不出来「我要做抖音」。第一天你应该说的是:你到底要解决什么问题。
曲凯:所以你从优化赔率切到优化胜率,最终在行为上真正发生了什么变化?
Albert:更具体一点说,就是尽量选择变量更少、自己能控制得更多的事情。如果一个事情变量太多、不可预测性太高、超出我能力范围的东西太多,那我就尽量不选。
曲凯:那个人呢?现在如果有人要加入你们、加入创业公司,他到底是在优化胜率还是优化赔率?
Albert:我觉得对任何应聘者来说,本质上都应该是在优化胜率。因为你最终优化的,还是自己的能力、自己的视野、自己的信息质量。回过头来看,这些东西本质上都是胜率。
但这不等于说,优化胜率就得不到赔率。恰恰相反,只有你在优化胜率的时候,得到赔率的概率才会更高。上期播客我讲过一个很重要的观点:运气是你的优势被时间放大的结果。
所以赔率是等来的,而胜率是发现重要问题后,自己主动做出的选择。所以最好的情况,是你选择那些未来赔率可能更高、但今天依然可以用胜率方式去推进的方向。
反过来,一个人如果自己并不认可这家公司做的事情,也不认可这家公司的人,只是觉得「这家公司听说明年要上市」、「这家公司现在融资很好」,所以想去——这其实就是典型的优化赔率。
曲凯:你刚刚提到了张一鸣,最近你研究段永平也比较多,如果拿他们俩做一个比较,你分别学到了什么?他们最大的不同是什么?
Albert:字节整体上更偏强者思维,而段永平更偏弱者思维。
我一直觉得,在某个阶段上,字节并不是一个适合普通人的学习对象,因为它会带来两种巨大的错觉:你会把完美主义当成标准,而且总是用第一性原理去想问题。但第一性原理需要庞大的资源作为前提。对于大多数人来说,你更多还是要在约束下思考问题。
段永平的投资哲学和创业哲学其实是一致的。投资上他讲 right business、right people。这是从巴菲特那里学来的,核心就两个东西:一个是商业模式,一个是文化。放到公司经营里,也就是战略和管理。
这种做法把文化放到更高的位置上:大家都是普通人,但在一个好的文化下,选择一个真正值得创造价值、能够做出差异化价值的方向,普通人也能做出很大的成绩。段永平这套哲学会更平常心,也更接近普通人。黄峥其实也很强调这一点。
曲凯:好,我们再来聊聊 AI。我很喜欢你的一个框架,把 AI 分成「想象力」和「智能」。你觉得这么分类,对于你理解这个行业有什么好处?
Albert:AI 目前有两类场景。一个是帮用户杀时间,给他某种过程性的体验和乐趣。另一类场景则是帮用户省时间,帮用户节约成本、完成任务。从这个角度看,这也刚好对应了当时模型发展的两个方向:一边是图像、视频这些多模态模型,一边是语言模型。
对于创业者而言,在过去做这样的区分是有必要的:模型本身差异很大,用语言模型,还是用图像、视频模型,会直接决定你的创业机会在哪里。但这件事情未来可能会改变,因为多模态能力已经发生了很大的变化。比如 Gemini 的理解能力变强之后,也会反过来提升图像生成(nano banana)的效果。
曲凯:那至少在当下,这个分类还是成立的?我们先说想象力和图像、视频模型这一块。现在其实也分成两条线:一条是工具产品,比如给营销人员、专业创作者用,本质上也是在省时间;另一条是陪伴类、互动内容这类更偏娱乐的产品。你怎么看这两条线?
Albert:模型发展的一个基本方向是,平台总会不断提供更好的模型能力,并且为更好的效果收更高的价格。虽然上一代模型会因为新模型的推出而降价,但真正的推理成本并没有明显下降,所以好的效果始终有溢价。
今天如果你想做一个娱乐型产品,而不是工具型产品,你几乎不可能长期使用 SOTA,因为你的商业模式根本转不起来。
工具是目前确定性最高的,它的商业化路径也非常清晰。相比之下,以陪伴为代表的互动、娱乐内容虽然也是一个很真实的方向,但它的商业化效率到底怎么样,我觉得现在还很难判断。
曲凯:互动类的内容我们之前也讨论过它的问题。你再怎么做,可能也很难超过抖音或者王者荣耀的体验。模型能力可能已经从二三十分涨到七八十分,做出来的东西也确实更新、更厉害了,但用户未必 care。
Albert:对。越沉浸、越重度的内容,用户的参与成本越高,它的竞争往往就越激烈,供给也越稀缺。最后可能只有 0.0001% 的人能创造出最好的东西。
这件事情的破局点可能不在内容本身,而是承载它的容器。比如短视频这个容器,里面每一条内容都一定足够优质吗?也不一定。但这个容器本身可以帮用户形成习惯,甚至 hack 用户的行为,让他更容易沉迷进去。
但如果你在容器上没有找到好的方法,内容本身又需要占据用户比较长的时间,竞争就会变得很严重。
曲凯:现在还有很多人在讲,要做 AI 时代的抖音,但照你这么说,AI 的重点不是生成更好的内容,因为就算你生成的内容比现在人做的还好,创作者还是会上传到抖音。所以更重要的可能还是你刚才说的容器——我需要一种新的交互,而且这种交互和内容本身是契合的。
Albert:顺着你说的,我再补充一点:最好的内容一定会流向变现效率最高的地方,而变现效率最终是由规模效应和网络效应决定的。所以已经存在的平台天然有巨大的优势。
如果你没有创造出新的内容形态,只是在工具侧拥有了更强的内容生产能力,那其实是没用的。哪怕你做了一个非常好的剪辑软件,这个剪辑软件产出的内容最后会去哪?还是去抖音,去 Netflix,不会去一个新的地方。
曲凯:你看抖音早期的时候,它的交互其实也没有多大的创新,本质上就是上下滑。只不过因为网络基础设施、流量成本这些条件发生了变化,这个模式就起来了,可以这么理解吗?
Albert:我觉得今天回头看:一个成功的产品形态,最后一定是三个东西同时闭合:第一是用户,第二是模态,第三是内容类型。
比如小红书,它是用图文来承载「有用内容」,服务的是一二线城市女性。这个闭环就是成立的。
抖音的模态是短视频,内容是卡点、运镜、音乐配合这些通过时间轴剪辑形成的消费体验,(初期)用户则是那些唱跳好、表现力强、镜头感也很好的人。这个闭环同样成立。
再比如内涵段子,它是用图文混排去承载搞笑内容、段子、低俗笑话,服务的是另外一类非常特定的人群。它其实也有自己的闭环。
只有找到这三者的闭合,它才更容易完成冷启动,之后再尝试往更广的方向去泛化。像内涵段子这种产品,它的泛化就很难。因为它绑定的是某一种内容题材,而不是一种更强的媒介类型。内容题材的垂类,最后往往抵不过模态垂类的牵引力。抖音后来真正占住的,是短视频的媒介。小红书占住的,则是承载有用内容的图文。
所以回头看,一个产品最后能不能起来,其实是很多巧合和很多设计叠加在一起的结果。我记得以前有个产品,应该叫火萤,行业里算是比较早在中国做全屏体验的一批产品,一度 DAU 也很高。它当时的用例好像是动态桌面的分享社区。但它的内容形式和它的用户、模态并不匹配。虽然短期内有过规模,但最后还是没走出来。
所以当年其实有很多短视频产品,最后都消失了。原因就是它们没有很好地定义出这三者的交汇点。
曲凯:所以你现在还相信会有 AI 时代的下一个抖音吗?还是你觉得其实就是抖音自己?
Albert:这取决于你怎么定义「下一个抖音」。
我当时离开字节的时候,原因之一就是我发现,在整个移动互联网里,除了微信之外,几乎没有任何一个移动端原生的 app 的 DAU 能长期超过 1 亿。我当时觉得这是不合理的。那个时候中国手机活跃设备大概有七八亿,微信大概六亿 DAU。按理说,每一个活跃设备都应该有通讯软件,也应该有娱乐产品。那娱乐产品怎么可能没有一个全民级的机会?所以我当时离开字节,就是想去找这种机会。只是我当时没有想到,短视频最后会大到那个程度。这算是一个错误判断。
但今天我觉得逻辑其实还是类似的。现在的智能水平已经很强了,而智能在娱乐里的应用空间也会非常大。今天 ChatGPT 已经有非常大的日活了,未来几乎所有活跃设备上,用户都应该会和智能发生交互。如果这个判断成立,那么第一,ChatGPT 自己就还有巨大的空间;第二,在它重叠出来的那些场景里,一定会出现很多由智能带来的娱乐需求。
曲凯:我想再聊一下多模态里像 Higgsfield 这样的公司,因为你们当时的大方向都是都是偏视频生成这个模态。你觉得这里面的区别是什么?Higgsfield 在那个时间点,做对了什么,才会起来得这么快?
Albert:我觉得如果要回答 Higgsfield 为什么能起来,不能只回答它自己做对了什么,还得先回答视频模型和图片模型领域的模型能力和竞争格局到底是什么样的。
首先,这个领域现在不是一家独大,而是多超多强。第一梯队里有 Sora、Seedance、Veo、可灵,大家只是在不同场景、不同阶段,各自占据 SOTA。
一旦出现这种能力分布不均的情况,聚合站和全家桶式的产品就一定有机会。因为用户天然会想用更少的钱,享受更多模型服务,这几乎是必然的。
其次,影像领域本身的需求足够大。从社媒创作者,到各种商业场景里的应用,几乎每家公司、甚至大部分个体,都有影像内容的需求。这样一个高度分散、又足够普遍的需求,天然会催生更通用的产品形态。
再往下看,还有两个约束。一个是,模型能力再强,真正能把有限 idea 用好的人,仍然是有限的。另一个是,任何多模态内容的创作里,语言和你脑子里真正想象的画面之间,始终存在巨大的 gap。这几个约束叠加起来,你就会发现,一定会有人通过模板去定义审美,去大幅降低用户成本。
所以这些条件一摆出来,你其实很快就能知道,这个阶段最容易抓住机会的产品大概会长成什么样——它就会越来越像 Higgsfield 这样的产品。它要解决的问题,就是模板化定义、审美社区,以及用户成本的降低。
但即使你把产品形态定义出来,这件事情也还不够,因为行业里类似形态的产品其实不少。所以我们还需要看另外两个指标:一个是用户意愿有多强,另一个是交付能力有多强。
用户意愿这件事,其实会随着整个 AI 行业的热度一起上升。大家都在不断教育市场,说 AI 很厉害、很强、能做很多事情。所以整体的大 beta 是向上的。
但交付能力不是,交付能力是不断迭代的。很可能用户今天看到你展示的东西,觉得很惊艳,愿意来试;但试完发现实际结果很差,那他下一次再愿意尝试,你的成本就会高很多。
影像模型的发展速度太快了:一个月前还做不到的效果,一个月后就可以了。Higgsfield 做得最好的一点,是它总能把某一个阶段真正能交付的能力,封装成一个非常好卖的产品点。一开始一致性很差的时候,它推出了 Soul。但其实海外之前把 Flux LoRA 模型做得最好的产品是另一家,但它们并没有把这个能力卖好。
再到后来的 drag to video,以及最近的灯光控制, Higgsfield 每一次都能比较准确地把交付能力包装成一个在社媒上能成立的东西。但如果你仔细去看,它卖的东西其实依然是三分真、七分假。他们团队对内容的理解实在太强了,所以在展示这些能力的时候,它们知道该选什么素材、怎么展示,才能把这个能力显得最成立。
用户看到的时候会觉得特别惊艳,但自己一上手,又会发现很难做出它 demo 里那种效果。
曲凯:所以现在大家已经不会再纠结「套壳是不是好生意」了,关键在于谁能套得更好。套壳本身不是问题,问题是你套得好不好。
Albert:我一直都觉得,「套壳」这个说法本身就是工程师视角,用户根本不在意你是不是壳。用户只在意两件事:第一,你是不是现在最好的;第二,你是不是解决了我的问题。
所以模型能力越好,对应用来说当然就越有利。核心不在于你是不是用了别人的模型,而在于你能不能把这个模型能力真正拿出来、用好。而 Higgsfield 的例子告诉我们,光用好都不够,还得秀好。
曲凯:所以如果创业者要把壳套好,有几个点是明确的。一个是你肯定要对模型有非常深的理解。它新出了什么东西、马上可能会出什么东西,你得有判断,也得有感知。
第二个是你刚才提到的审美。不管是内容审美还是产品审美,你得知道怎么把这个模型能力真正用起来。
再一个就是执行力。这两年大家其实都很强调执行力,因为模型一直在变、一直在升级,所以你套壳的速度也很重要。很多时候,往往就是第一个能把它用起来的人,能最大化地拿到这个新模型的价值。
Albert:对。
曲凯:你最近也一直在提一句话:把一件事做到理论上应该有的样子。我觉得这句话越想越有道理,你能不能再解释一下,这句话背后的想法是什么?
Albert:它本质上是一个心态问题:你怎么在看见这件事很不完美的情况下,依然觉得自己应该尽力去把它做到理论上的样子。所以它更像是一种指导方针。因为在真实世界里,你离那个状态其实是很远的。
曲凯:对,我听这句话的时候,经常会想到它有点像「做正确的事」。
Albert:它不是「做正确的事」,它是「正确地做事」。它是 how to,不是 why。
曲凯:那你觉得 2026 年做什么样的事是正确的?
Albert:首先,我觉得 AI 这件事情还是很长。
多模态的理解能力,这件事情肯定值得被利用。我一直在说的是视频模型和图像模型,而不太想直接说多模态。因为在我看来,多模态更代表的是理解能力,而不是生成能力。
在很长一段时间里,理解能力是比生成要弱的。前几年的「多模态」更多只是视频模型和图像模型的进步而已,和理解、智能的关系并不大。但现在已经有了很大进展:比如 Gemini 3,它在理解能力上的提升就是非常明显的。
至少从目前来看,在「理解能力的大幅提升」这件事情上,Google 的优势还是比较明显的,主要就是算力优势,而且它也确实找到了一些可以继续 scale 的方法,所以它的理解能力才会有这么大的提升。
接下来一个更关键的问题是:这种理解能力的提升,能不能反过来提升智能本身?
也就是说,不只是传统意义上「看懂图像、看懂视频」的多模态理解,而是这种理解能力变强之后,能不能进一步抬高模型本身的智能水平。我觉得大家对这件事情其实是相对乐观的,至少我是比较乐观的。
因为随着理解能力越来越强,它能解锁的场景一定会越来越多。我记得我上一次就在想一个问题:当眼睛带了脑子,会发生什么?这个问题到现在我都还在想。
曲凯:那如果这么说的话,过去几年里面,智能其实还是最大的杠杆,只是你们没有在最好的时间点把它用到极致。像 Manus,其实就是一个很典型的例子。
Albert:我觉得也不晚,而且我不完全同意「过去几年最大的杠杆是智能」这个说法。更准确地说,最大的杠杆其实是 coding。所以我觉得,多模态之外,第二件重要的事情是 coding 平权。你怎么去做 coding 平权,以及怎么找到一种好的交互方式,在这个场景下更好地释放模型的能力。
因为智能本身并不会自动显化出来,它是要通过 coding 来完成的。只有 coding,才能让智能真正突破它原本停留在「会回答」、「会理解」那个层面上的界限。
但如果你想把 coding 这个能力用好,其实再早也没用。它一定要到一个时间点以后才成立。至少要到 Sonnet 3.5 这个阶段,再往后到 Opus,整个能力才真正开始变得可用。差不多从那个时候开始,很多事情才开始变得有意义。所以我会觉得,这件事不是说谁看得更早就一定更有优势,而是模型真的到了那个点,创新能力才会一天一个样。
曲凯:那你有没有想过,假设未来技术已经完全成熟,调用成本也足够低了,最酷的产品会是什么?比如就当是在写一篇科幻小说的话。
Albert:我最近其实在想一个很有意思的故事。有一个人,他是 AI 的信徒,他相信一切都是注定的,一切都是可以被证明的。于是他试图集合全世界的算力,把所有「已经被证明的约束」都注入到一个系统里。比如物理学、脑科学、生物学里的那些第一性原理,把这些约束全部放进去,然后让这个模型自己演化。
在适当的时候,他再用一些外力去调参数,让这个演化过程逐渐对齐地球的发展。也许从最早的生命开始,一直到人类出现,再到文明演化出来。慢慢有一天,他发现这个系统里的演化,终于对齐到了人类的今天。
然后他们开始观察这个世界。
但他真正 build 这个系统的动机,不只是复现历史,而是想穷尽更多算力去预测未来。因为约束是没有变的,所以他想看看,如果在这些约束下继续往后推演,未来到底会发生什么。
然后有一天他发现,这个演化世界停在了某一个时刻。因为在那个世界里,也有人开始集合所有算力,去预测自己的未来。于是这个循环又开始了。
所以最后你会发现,对未来的全部想象,本质上都在预测未来本身。
曲凯:我记得马斯克好像讲过,现实世界本身是虚拟的概率非常高。
Albert:对,最后其实就是那个推论。未来的显化,本质上就是不断地预测未来。
42章经
思考事物本质
2026-03-10 21:02:00
原创 曲凯 2026-03-10 21:02 北京
真正的大机会,往往无法通过逻辑推演出来。
张阳在字节做出过几千万 DAU 的社交产品,此后的两个创业项目,也分别冲上过北美应用榜前三和赛道 Top 1。这一次,在市场还没完全反应过来的时候,他又做了一个 AI + 游戏 + 社交方向的产品 Wanaka,并和我们分享了一些实践体悟。
本期播客原文约 28000 字,本文经过删减整理后约 10000 字。
曲凯:很开心又请到张阳。你这已经是第三次创业、在 3 年内的第二个 AI 项目了。要不先给大家介绍一下你现在在做什么?
张阳:我们在做 AI × 游戏 × 社交的方向,项目叫 Wanaka。
决定做这个方向,主要有两个原因。
第一,我们觉得 Coding 能力的变化,会释放出更多游戏创作的可能性。
之所以有这个判断,最重要的原因是我们看到很多不会写代码的人,也能做出自己的游戏了。
而且我们还观察到了一个很有意思的现象:很多人拿到 Agent Coding 工具的时候,会本能地想做个游戏。比如我记得在 Claude 3.7 发布之后,Twitter 上就有很多人在用它做游戏。
第二,我们观察到北美社交,尤其是熟人社交,正在发生比较大的范式变化,这一点后面可以再展开。
那么把这两件事结合起来,可能就会很有意思。
曲凯:那你这一年做下来,跟最早的预想有没有什么不同?
张阳:一是技术的演进速度,比我当时想的更快,也更乐观。
前两年大家都在说 Scaling Law 失效、模型智能提升放缓、AI 泡沫很大。但现在看,今年 AI 可能会沿着 Coding 和 Agent 有很大的延展,而且这件事才刚刚开始。
二是我们这个方向形成共识的速度,也比我预期要快。
我们是去年 4、5 月份开始做的。当时市场上还没什么类似的事情,但到了 12 月的时候,做类似事情的人就多了起来。只不过大家的落地方案有很多不同。
曲凯:我们最早聊的时候,海内外确实还没什么人在做类似的方向。当时海外可能有一些做 AI 游戏的,比如用 AI 做出个魂斗罗之类的,但和你们在做的不是一个事情。
而且即便现在国内开始有一些产品出来,但我看大家基本上就两条路径:
一条是做成类似抖音那种上下滑的内容平台,把小游戏当作一种内容资产,让大家去发现、创作、玩耍。
另一条有点像 AI 游戏开发脚手架,就是提供一整套工具,让大家用 AI 去做自己想做的游戏。
但你们的产品其实和这两种路径都有挺大区别的。
张阳:我们做的确实不太一样。
我们在创作侧和消费侧都有一些自己的思考,也基于这些思考探索出了一套不同的落地方案。
先说创作侧。
开头有提到,我们认为 Coding 解锁了更多游戏创作的可能性。
那最早我们想的就是能让用户通过自然语言,借助模型端到端的能力,做出一些短平快的游戏化内容。
但真正落地的时候,我们发现这种创作方式的天花板很低,做出来的东西往往不太可控,很难被长时间消费,而且同质化也比较严重。
不过我觉得,这其实不是模型能力的问题。事实上今天的模型能力已经很强了,只是有两个因素限制了人去用好模型。
第一,人其实很难用自然语言准确描述出自己真正想要的东西。
举个例子,如果你在做一个三维的游戏地图,想把一个城堡从 A 点移到 B 点,这件事情其实很难用自然语言讲清楚。很多时候你需要精确描述 x、y、z 坐标的变化。
曲凯:对,我最近在用即梦就深感自己的匮乏(笑)。虽然它直出的效果已经很好了,但我看有的人写的 prompt 就像电影脚本,而我可能只能写两句话,剩下就交给模型自由发挥。
张阳:对,所以我们在设计工具的时候,需要考虑到人的这个局限性。
除此之外,另一个限制因素,就是模型在执行复杂任务的时候,其实也需要工具的支持。
像 Manus 这样的产品,其实就是给模型提供了更好的环境和工具,让模型能更好地理解和执行任务。
我觉得一个很强的 Agent 产品,和模型的关系已经很近了。甚至现在像 Cursor 这样的产品还在训练自己的模型。我们可能也会做类似的事情,目的就是帮大模型更好地完成任务。
所以在创作侧,我们一个很不一样的思考,就是如果只靠模型端到端的能力,其实很难满足创作者在表达上面的需求。
基于这点,我们在创作侧做得比较重,本质上是做了一个 AI Native 的引擎。
之所以从引擎入手,是因为在游戏创作的历史中,每次创作人次的提升,都是由引擎能力的提升带来的。
而所谓 AI Native 的引擎,需要考虑两个问题:
一是 AI 在这个系统和环境里怎么工作;
二是哪些部分要划分给人类使用,以及人类要怎么交互。一些做的比较早的产品会把交互限制在对话里,但就像刚才说的,我们认为大多数人很难通过对话说清自己的需求,所以我们也考虑了不同的操作方式。
曲凯:说起来,我记得去年三四月的时候,你们的产品和现在的一些产品还挺像的,但现在看就已经完全不一样了。能不能讲讲中间经历了哪些迭代?背后的思考和遇到的问题是什么?
张阳:第一个比较重要的迭代,是我们放弃了上下滑交互。
这个变化一方面是基于前面说的创作侧的思考,就是我们发现模型直出的内容同质化比较严重,即使做很多 prompt 优化,效果也很有限。
而上下滑这种形态成立的重要前提,是内容的多样性和内容量必须足够大。
所以我们索性先在创作侧做了一些比较复杂的迭代。
另外,很多团队会选择上下滑的形态,可能是因为大家一做内容产品,下意识就会想用推荐算法去分发,毕竟字节做得实在太成功了。
但这就引出了我们在消费侧的思考:
我们认为,推荐算法未必是最适合游戏化内容、尤其是 UGC 内容的分发方式。
那什么分发形式比较合适?
我们可以先看一下内容分发的几种类型:
第一种就是靠推荐算法分发。
第二种是靠关注关系分发。这其实是比较传统的社区的解决方案。
第三种是基于社交关系,尤其是熟人关系的分发。比较典型的例子就是朋友圈和 Instagram。
曲凯:后两种其实有点类似?一个是多对少的关注关系,一个是对等的熟人关系。
另外还有一种形态,就是运营推荐,比如早年 BBS、新浪、网易那个时代的编辑推荐。
张阳:对。其中最难做的,就是基于社交关系的分发。
但它可能恰恰是最适合 UGC 内容的一种分发方式。
最直接的实现路径,是像朋友圈或 Instagram 那样,先建立起社交网络,再进行内容分发。
另外还有一种比较绕的方式。典型例子就是抖音的「朋友 Tab」——用户点进这个 Tab,看到的都是朋友发的内容。
现在这个 Tab 的渗透率已经非常高了,一个核心原因是,在抖音里,大量 UGC 内容其实很难获得算法流量,但这些内容依然有一个天然的出口,就是给朋友看。你的随手拍对整个互联网来说可能没什么价值,但你的朋友却愿意给你点赞。
曲凯:就是大家消费的其实是这个关系,而不是内容本身。
张阳:对。我觉得未来 AIGC 的内容分发也会很类似:
头部创作者做出来的高质量内容,天然适合通过关注关系分发。如果内容量级足够大,那可能也适合用推荐算法。
但对于绝大多数普通用户生产的 AIGC 内容来说,它其实只有一个去向:
给你的朋友看。
曲凯:明白。所以你的第一个迭代是丢掉了上下滑交互。但你这个迭代似乎反映出了一个更本质的点,就是现在 AI 直接生产出来的内容,还不具备那么强的消费性。
你觉得这是 AI 发展阶段的问题,还是说游戏这个形态本身就是这样?
张阳:这是个很好的问题。
我觉得创作能力其实很难真正被平权。
即使 AI 的能力再强,它做出来的内容和一个专业人士做出来的相比,还是会有很大的差距。
所以我觉得这更多还是人的问题。
曲凯:但我有一点还是没太想清楚。
我们先定义一下,你们和现在市面上一些产品在做的,到底更偏游戏,还是更偏互动内容?
张阳:叫互动内容会更准确一点,因为现在大多数内容的核心玩法,或者说游戏的 loop 都太弱了,还不足以称之为游戏。
曲凯:所以你们现在也是在做互动内容?
张阳:我们做的还是相对更重度一点的内容。
我们的想法是,如果这个创作工具足够好、足够智能,那理论上它是可以从上到下覆盖的。也就是说,用户能用它做出的最复杂的东西是游戏,然后自然也能往下做出更简单的互动内容。
曲凯:明白。那我理解这种内容形态大概会分成两类:一类会更重一点,比较像我们日常会玩的小游戏;另一类则是互动内容。
但这两类其实各自有一些问题。
如果是一个做得很好的小游戏,我可能一玩就是几个小时,它其实不太具备上下滑的属性。这点和视频不太一样,视频基本是看完一条就会刷下一条。
而如果是互动内容,不管大家消费的是社交关系,还是内容本身,好像都很难消费太久?就有点像早年我们看 Flash 视频那样。
张阳:偏游戏的内容,消费时长确实会更长,也更值得反复消费。这类形态往下发展,可能会很像网络游戏,比如你闲下来就可以和朋友开一两局,不过单局时长可能没有王者荣耀那么长。
后者其实从长期来看,更应该从多模态的角度去做。它和 Coding 的关系没那么近,反而更接近视频。
曲凯:OK。你们还有别的迭代吗?
张阳:另外一个比较重要的选择,是我们在大量尝试之后选定了 3D 方案。
在游戏化内容里,3D 和 2D 在消费深度和体验上的差别非常大。我们最近内测的一个核心场景,就是用户可以拍自己的手办,然后生成一个可以放到游戏里的能动的 3D 形象。这个功能的用户反馈非常好。
曲凯:这个还挺有意思的。因为现在用 AI 生成 2D 图已经很常见了,但如果是 3D 形象,感觉光是做这个功能都可以做成一门生意。
但 3D 涉及很多管线和经验,包括效果好坏的体感差异也很大。你们之前也没做过 3D,这个过程中有没有踩过什么坑?
张阳:还好。主要还是因为技术进步得非常快,给我们释放了很多可能性。
而且我们做的是 UGC 产品,面向的用户对 3D 资产的要求没有那么高。很多用户看到自己的手办能动起来,其实就已经有很好的体验了。
曲凯:对,Roblox 的很多游戏看起来也都非常粗糙。
所以 Roblox 到底是谁在玩?这个产品我一直不太理解,但它的用户量非常大。
张阳:我觉得 Roblox 长期都被低估了。他们有三点做得很好。
第一是他们的用户在 age up。
他们最早的用户主要是美国中小学生,然后长期面临的一个问题,就是用户年龄层上不去。这点和早期 TikTok 在美国的情况很像。
但这一两年,他们的用户年龄在慢慢变大。这点从财报和社媒内容都能看出来,比如 TikTok 上经常会有美国大学生说:「我都这个年龄了,还在玩 Roblox」,就这已经变成一个梗。
第二是平台上的游戏在变复杂。25 年开始,Roblox 上已经出现一些 SLG、策略类或者重数值的游戏了。这在过去很难想象,可能也和用户年龄层的变化有关。
第三点,是 Roblox 在慢慢从一个游戏公司变成一个社交公司。
这是我们在做 Wanaka 的过程中得到的一个重要观察。
开头提到过,我们发现现在北美年轻人的社交生态发生了非常大的范式转变。
最早注意到这一变化,是我们当时采访很多北美小朋友,会去看他们的 Instagram。
我记得看第一个人的时候,发现 Ta 的 Instagram 是空白的。这还好,但当我们发现第 20 个人的主页还是空白的时候,我们就意识到事情不太对。
后来我们发现,现在北美的 Gen Z / Gen Alpha,在 Instagram 上基本只干两件事:一是发 Story,一定要阅后即焚;二是发 DM。
而他们的社交行为非常分散。
比较集中的场景,可能就是在 Roblox、Minecraft 这些游戏平台里。相比于在社交媒体上表达自己,他们可能更喜欢在 Roblox 里开一个房间,几个朋友一起玩、一起聊天。
这对我的触动很大。
因为我们过去对游戏产品的理解是,游戏是有生命周期的。强如王者荣耀,巅峰过了之后 DAU 也很难再往上涨。
但 Roblox 不是。
过去十多年里,Roblox 的 DAU 一直在增长,现在已经接近 2 亿了。而且它的消费时长,可能是少数能在北美和 TikTok 抢时间的产品。这非常恐怖。
一方面可能是因为平台上的游戏内容确实不错,另一方面就是因为它已经变成了一个社交平台。后者也解释了为什么很多人长大之后还会继续留下来,因为他们的朋友还在那里。
曲凯:听你讲的时候我就在想,过去十年国内也有很多公司讲游戏社交的故事,比如最早的一些狼人杀产品,包括陌陌也转型过游戏社交。
但国内游戏化社交没做起来的原因,是不是因为这件事其实有两个概念:
我们做的更倾向于让陌生人通过游戏认识;
而 Roblox 之类的产品,其实是让熟人一起拉帮结伙去一个地方玩游戏?
张阳:对,我很同意。
而且你说的可能也可以回答你的那个问题,就是在中国,游戏化社交做不大的一个核心原因是我们有微信。
以及我们最大的游戏化平台,可能就是 QQ 游戏。早年 QQ 做的很多事情,其实就是游戏化社交,比如 QQ 空间、QQ 宠物、QQ 农场……就有一整套围绕 QQ 的游戏生态。
曲凯:但这也是个好问题。就为什么美国有 Meta、有 Instagram,但大家还是会去用 Roblox,甚至是各种新的社交产品?
而在国内,好像就不太会发生这种事。为什么我们有了微信和 QQ,就不太需要新的社交产品了?
张阳:我觉得一个底层的文化差异,是北美对社交关系的区隔比较清晰。他们不太喜欢把朋友、家人和工作关系混在同一个产品里。
另外一个原因,就是微信确实做得太好了…北美没有哪个社交应用能做到这么极致。
其实在没有微信的年代,我们也同时有 QQ、有 MSN,还有很多不同的社交产品。
曲凯:OK。所以回到刚才那个结论:在美国做社交产品,它的核心其实不是帮用户建立新的关系,而是让已有的关系迁移过去。可以这么理解吗?
张阳:对。其实北美一直在出现新的社交空间,每隔一段时间都会有一个新的口子被撕开,然后火一波产品。
曲凯:但各种新产品最后基本也都死掉了。这是为什么?
张阳:最核心的问题在于,社交产品就只剩两头的事情可以做。
一头是解决社交里的一个大问题。
典型例子是 Snapchat。它之所以能存续到现在,是因为它解决了熟人社交里的最后一个问题:通过会消失的内容形态,卸掉社交网络给人带来的压力。
另外一头是持续提供新的信息、玩法或者内容,反哺社交关系。
比如抖音和 Roblox 就属于这一类。它们有海量内容,用户在上面看到了什么好玩的,天然会想分享给朋友,于是在这个过程里也会形成社交关系。
在这类产品里,内容是因,社交是果。
曲凯:那如果 Snapchat 已经解决了社交里的最后一个大问题,你们呢?你们是要解决一个新问题,还是做出下一个更好的 Roblox?
张阳:后者。我们会提供更多的玩法和内容。
曲凯:这个挺有意思的。我先问一下,你刚才说在美国,新的社交产品总有机会撕开一个口子,那 Wanaka 打算怎样去撕这个口子?
张阳:靠个性化的游戏化内容。这种内容形态过去是不存在的。
曲凯:Roblox 满足不了吗?
张阳:满足不了。过去游戏 + 社交的产品,玩法和内容资产基本都是公司定义的,比如蛋仔派对里的形象其实都是一样的。但我们希望更多能由用户自己定义。
曲凯:所以你是用个性化撕开那个口子,然后靠持续可消费的内容,像 Roblox 一样去 scale。
这个思路还挺不一样的。
因为现在很多用 AI Coding 做游戏的公司,其实都是在往「下一个抖音」的方向走,而你们是在做「下一个 Roblox」。
这个根源是不是就回到刚才那个判断:这类内容的消费价值还不足以支撑一个抖音,更核心的是要消费社交关系,而个性化天然和关系结合得更紧密?相反,在抖音上,假设我刷到一个小猫视频,那这个猫是不是我朋友的都不重要。
张阳:对。要做下一个抖音,重点是要有非常好的 PUGC 生态。
比如最早在抖音火起来的很多内容,其实来自有颜值特权的人。平台当然会有源源不断的 UGC 产生,但 PGC 在里面是统领地位,所以算法才能跑起来。而当这些 PGC 内容可以覆盖 10 亿人的时候,也就自然会形成新的社交网络。
曲凯:OK。然后过去几年也有人说要做中国版 Roblox,一上来基本都是先做编辑器,因为大家认为这是 Roblox 成功的关键。你怎么看这个问题?以及结合 AI Coding 之后,编辑器可能会变成什么样?
张阳:这个归因没问题,Roblox 的编辑器确实非常好。
但大家其实低估了做这种编辑器的难度。
哪怕是专业做引擎的团队,要复制一个 Roblox Studio 也非常吃力。
曲凯:所以你们是怎么解决编辑器这个问题的?
张阳:我觉得 AI Coding 给了我们一个时代性的机会。
代码一直是 Roblox 里卡住 UGC 的一个点。我们访谈过很多美国小朋友,他们当然可以用 Roblox Studio 快速搭个东西出来,但如果想再往下做,就一定要面临写代码的问题。而代码对绝大多数用户来说,都是很难跨越的门槛。
但是 AI 来了,我们现在完全有机会去重写这部分体验。
很多人可能会想,那是不是把涉及代码的部分直接交给 AI 就行?
这也是我们过去想过的一种方案。
曲凯:但这也是你刚才否定的,就是自然语言交互还是太难了。
张阳:对。而且我们深入做之后还有一个新的认知:
在游戏里,代码场景和游戏逻辑是分不开的,不能单独解决代码问题。
游戏里的资产、场景设计、摆放,可能就占了一个游戏过半的价值。如果用户不自己做这些,那做出来的内容和模型直接生成的没什么区别,也很难真的是个很好的个性化游戏。
其实 Roblox,包括 Unity 这种传统引擎公司,也在尝试往引擎里加 AI。但他们做出的产品形态更像 Copilot,比较适合已经会写代码的人。
曲凯:因为原来的体系很难改吧。然后我看 Unity 最近跌得很惨?
张阳:确实,Gemini 3 发布之后,很多人开始做空 Unity。
而且引擎本身其实是一个很差的商业模式。很多引擎公司挣钱不是靠引擎,而是靠游戏,比如虚幻引擎赚钱是因为《堡垒之夜》。
曲凯:但 Roblox 去年涨了一波,就是因为里面几个游戏爆了。我记得有人说 Roblox 也是头部游戏贡献了大部分市场和收入。那你们以后会不会也这样?
张阳:我觉得不会。
你说的这种情况,反而是我们觉得现在有个比较大的机会的原因,就是 Roblox 其实没有控制好 PUGC 生态。现在 Roblox 上的很多游戏是大型游戏公司或工作室做的。如果这些公司离开,而平台又培养不出新的创作者,就会成为一个很大的问题。
理想的状态应该像抖音:
虽然 80% 的流量在 PGC 手里,但平台会强制留出一部分给 UGC,否则平台很容易被 PGC 绑架,就有点像现在的 B 站。
曲凯:所以基于刚才讲的这些,你们最终的解决方案大概是什么样?
张阳:大家自己上手玩一玩会更好理解(现在已经开放内测,可以在 App Store 搜索「瓦那卡」下载)。
但我可以大体讲一下。
在创作侧,我们做的是一个带完整图形界面的 AI Native 引擎。目标是让任何用户都能做出一个不错的游戏。
具体有两个特点:
第一,我们把大约 40%-50% 的工作留给了用户,比如通过对话写代码,或者用图形界面搭建场景。
因为在游戏体验里,人其实很喜欢亲自动手。这一点已经被乐高、蛋仔派对等产品验证过。而且这样用户会觉得更可控,也能更好地完成自己的表达。
第二,我们设计了一套 Agent 框架,能让用户通过自然语言实现复杂的游戏逻辑。
比如在一个跑酷游戏里,你可以随时加入新道具、改变玩法,甚至把它变成 FPS 游戏。
而在消费侧,大多数用户进来就是玩和社交,消费的就是用这个引擎生产出来的内容。
另外,前面也提到过,我们还做了一个定制生成 3D 形象的小功能,并且能让用户把自己的玩偶,甚至是自己和朋友的 3D 角色放进任何一个游戏里,让大家在无限的游戏世界里一起游玩。
曲凯:明白。那这一年做下来,你对游戏,包括游戏和社交的结合,有哪些新的理解?
张阳:首先是我很 buy in 蔡浩宇的一个观点:
未来游戏会分成两类,一类是前 1% 的顶级制作人做的游戏;剩下 99% 是普通人做的游戏。
前者还是要通过传统模式来做,需要复杂管线、细致分工和高投入。
而我们在思考的,是怎么让剩下 99% 的人也能做出好玩的东西,以及这些内容要分发给谁。
理解这一点之后,再看 Roblox 也会有很多新的感受,比如它的分发形态其实会影响内容本身。
举个例子,同样是模拟经营游戏,在 Steam 上会有很多引导。但在 Roblox 里往往没有,因为它会默认你玩的时候旁边会有朋友,他们会告诉你怎么玩。这一点很有意思。
另外,我很惊讶的是,游戏行业里有很多非常纯粹的创作者,是真的在「为爱发电」。这点和视频或图文领域就不太一样。如果能让这些喜欢创作、但没那么懂技术的人也能做出好的作品,其实是一个很大的机会。
曲凯:这点在 Minecraft 里也能看到,然后也是我一直不太理解这个游戏的原因哈哈,就有人真的会花很长时间做一个建筑,然后把过程分享出来。
张阳:是的。我听过一个很精准的比喻,就是很多玩蛋仔派对的人,会把在其中做地图的体验形容为「电子十字绣」。
很多人享受的就是那个过程,至于最后有没有人玩、能不能赚钱,其实不那么重要。
曲凯:可以理解。但在这种体验里,社交是怎么发生的?是几个人一起玩游戏,还是一边语音一边玩?
张阳:在 Roblox 里有很多多人联机的游戏,甚至会有一些很搞笑的玩法,比如把你和朋友绑在一起跑步。很多玩法其实都是围绕社交关系演化出来的。
在我们的产品里,我们会把个性化做得更重。比如前面说的自定义 3D 形象,再比如你可以基于一个游戏模板去定制。举个例子,你可以把一个合成类游戏的角色,改成自己的同学和老师。
曲凯:然后两个老师合成教导主任,三个教导主任合成校长(笑)。
张阳:对哈哈。这种东西对外人可能没什么意义,但在你自己的学校里可能特别受欢迎。
很多社交产品其实都是先在一个小圈层里做到很高的覆盖和渗透,然后局部爆发,再慢慢往外泛化。我觉得这是比较理想的状态。
曲凯:确实。然后社交其实一直是你最核心的标签,你也很擅长做增长,有没有什么核心经验可以分享?
张阳:很重要的一点是怎么找到裂变的机会,因为确实不是所有产品都有机会做到很大的裂变系数。
曲凯:我记得你在 Answer.ai 也是负责这一块,然后做得很好,当时做出了很多 TikTok 的爆款视频。
张阳:对,但那个其实更偏增长。每一种产品都有它适合的增长方式。
比如 Answer.ai 是工具型产品,那在做 TikTok 传播时,重点就是告诉大家它能解决什么问题。
但像我们现在做的这种泛娱乐、泛内容产品,可能就不太适合效果广告或投流,而是更适合通过 KOL,或者用户之间的自发裂变。
所以我们最近很关注的一个数据,就是用户用了产品之后,愿不愿意拉朋友一起来玩。
曲凯:所以聊下来,感觉你们确实和现在市面上那些做 AI 游戏、AI 互动内容的公司都不太一样,你们会更偏社交。
那你怎么看这两年 AI 社交的发展?
张阳:AI 社交挺有意思的,现在大概有两个方向。
一个方向是围绕 Agent 和人之间的关系,看能不能形成新的互动和内容。现在不少 AI 社交产品都是这个方向,我们之前做 Answer.ai 时也探索过。
但我觉得这种形态还不太够,很难替代现有社交网络。
核心原因是,它非常依赖人在其中的表达,而愿意表达的人是极少数。
现在愿意用这种产品的大概有两类人。
第一类是偏 OC 向的人群,可以理解为对二次元角色有幻想的人。这类人很容易和 AI 互动,甚至能和 AI 一起构建自己的世界。
曲凯:有点像小时候玩芭比娃娃、玩小汽车?
张阳:对。这类人通常比较年轻,甚至是小朋友。我其实挺喜欢这一类人的,因为他们想象力很强。我之前看过一个研究,说幻想能力往往只存在于大脑皮层还没完全闭合的时候,其实很珍贵。
另一类是最近一两个月才比较凸显的人群,就是那些喜欢在互联网表达、也希望有话语权的人,比如创业者、投资人。他们在这些产品里的玩法,就是不断发帖,然后获得一堆 AI 回复。
但大部分人既没有很强的幻想能力,也没有持续表达的意愿。而如果大家不说话,AI 就无法给出反馈。大家获取不到内容增量,也就很难持续玩下去。
而我们想做的社交不太一样。
我们想做的,核心还是人与人之间的社交。AI 只是提供内容增量,但是真正支撑社交的,不是人类和 AI 对话产生的东西,而是一些好玩的游戏化内容。大家在其中不说话,也能玩起来。
曲凯:OK。然后你自己做过很多社交产品,也在字节待过很久。你怎么看现在很多公司说要做「下一个抖音」这件事?
张阳:我觉得「下一个抖音」这个命题其实不太成立。
在视频这种内容形态里,已经没有新的平台型机会了。
因为如果用户是用 AI 做视频内容,那还是会发到抖音上;
如果是做互动内容,也很难做成下一个抖音,因为互动内容的起点不是 Coding,而是多模态。那在多模态领域,核心玩家还是那些视频平台。
曲凯:就是说下一个抖音可能是即梦?反正就还是从抖音里出来。
张阳:对。因为这件事对多模态能力要求太高了。在我看来,全世界可能只有两个公司能做:一个是 Google,因为它有 YouTube;另一个就是抖音。
没了。
可灵虽然做得不错,但快手的分发能力和抖音还是差一个量级,所以也很难出来。
曲凯:我最近刷即梦挺多的,感觉它现在主推的那些东西和 Sora2 有点像,也是在视频里做个性化。
但我在想,这类内容的消费价值到底有多高?
我现在刷下来大概有两类内容:一类是明星,比如刷五条里可能三条都是李诞,刷多了就跟广告似的(笑);另一类就是美女帅哥,只是把摄像头变成了 AI。
但这两类内容最后其实都可以回到抖音去消费?
张阳:对。不过即梦或许有一个机会,就是做互动。
如果互动内容直接分发到抖音,其实会打扰抖音原本的消费体验。因为抖音有一个很重要的数据叫 VV,就是用户一天看了多少条内容。这会直接影响到他们看过的广告数量。
而如果即梦在视频里加一层轻互动,比如用户看到一个场景,可以操作一个虚拟人走进去玩一下,那互动多了,VV 就会下降。这其实会影响抖音的广告收入。
曲凯:有道理。其实这几年我们也聊过不少早期字节的人,发现大家对你产品的认可度非常高。
但在我看来你有几个特点:一是产品、运营、增长和商业化都做过,二是整体特别稳,还有就是我感觉你不是特别逻辑派的创业者,更像是感觉派。
首先我想问,你怎么理解自己身上这么多的能力?它们是怎么结合在一起的?
张阳:我最核心的长板还是产品。然后肯定有很多人在增长和商业化上比我更强,但这些事情我都做过,所以在冷启动阶段也能顶上去。
曲凯:对。而且都做过的好处是,很多增长和商业化的设计,其实在产品阶段就可以提前埋进去。
那你会怎么定义自己的风格?
张阳:我确实很重感受。我觉得感受,或者说同理心,很多时候都是做好产品最底层的东西。
一方面,你得真的把自己当成用户,做出自己也喜欢的产品。如果一个产品连你自己都不喜欢,那凭什么说服别人来用呢?
另一方面,感受也能帮助我透过现象看本质。就很多对用户的理解,其实不是通过简单调研就能得到的。
前面其实举过好几个例子。像当时北美年轻人不发 Instagram 这件事,对我冲击很大,所以我才会去想它背后的原因和意义,也真能想明白很多事情,比如为什么 Snapchat 当时能增长那么快。
再比如,为什么我觉得基于 AI 对话去做社交这件事不太成立?因为长期来看,这种方式能提供的信息增量很少,所以即便大家短期会因为新鲜和对信息的 FOMO 聚集过来,最终还是会离开。
至于产品能力,其实更多是被训练出来的。只要你做过足够多产品、一直在思考,能力自然不会太差。
我比较幸运的一点,是经历过很多不同的公司和创业团队。最早小米培养了我直觉式的判断和对用户的理解能力;后来在字节以及创业的经历,又让我锻炼出了一套非常理性、数据驱动的产品方法。
理性的那套方法,对产品和公司的长期运营非常重要。
但我觉得很多底层判断,尤其是对大机会的把握,其实很难完全通过逻辑推演出来。
有时候,逻辑反而还会成为一种限制。
因为很多事情是计划不出来的。而且当你越来越看重数据的时候,对用户的感受力可能也会逐渐变钝。甚至到最后,你会过于依赖数据带来的安全感,却不再相信自己的直觉了。
42章经
思考事物本质