MoreRSS

site iconKaiQu | 曲凯 | 42 章经修改

公众号:42章经。由xlab生成。
请复制 RSS 到你的阅读器,或快速订阅到 :

Inoreader Feedly Follow Feedbin Local Reader

KaiQu | 曲凯 | 42 章经的 RSS 预览

Dify 从被低估到成为明星项目,到底做对了什么|42章经

2025-12-14 21:31:00

原创 曲凯 2025-12-14 21:31 北京

最值钱的,恰恰是工程。

Dify 是当下 AI 领域最有名的开源项目之一。但它的来时路,布满了竞争和质疑。很多人都没想到,一个最初并不起眼的小团队,能在短短两年里走到今天这个高度。甚至直到现在,仍然经常有人问我:为什么是 Dify?它到底做对了什么?在这期播客里,我就和路宇一起复盘了 Dify 过去两年的发展,并尝试回答了这些问题。

本期播客原文约 25000 字,本文经过删减整理后约 8900 字。

曲凯:两年前我们录播客的时候,Dify 刚刚发布不久,随后就一路起飞。但 Dify 能发展得这么好,其实超出了很多人的预期。我想先问下,这两年多下来,你整体的感受是怎样的?

路宇:可以梳理下时间线。

从 Day 1 开始,我们就定了三个策略:开源、To B、全球化。围绕这三点,又自然衍生出了开放生态、模型中立、工程优先这一整套逻辑。

回头看,这些判断在过去两年多里,基本都被一一验证是正确的。

从市场和技术的变化来看,这两年大概经历了三波变迁。

在 23 年,Dify 发布了第一个版本。那个版本还比较基础,但胜在界面友好。当时只要你的产品用了 AI、而且能被用户理解,就有机会一炮而红。

到了 24 年,我们推出了后来成为核心能力的 workflow,同时开始搭建插件生态。因为我们主要做 To B,所以当时能感知到一个非常明显的变化:第一批真正有付费能力的企业用户开始进场。

其实,从新技术出现到 B 端客户愿意掏钱,中间通常都会有半年到一年的时延,远没有大家想象中那么快。

到了 25 年,模型本身出现了明显进步,尤其是开源能力和多模态逐渐成熟。到今天,已经很少有人再争论「开源强还是闭源强」这种问题了。我们最早的一些核心假设,比如一定需要一个中间层,也都被市场验证是成立的。

曲凯:在 23 年的时候,大家确实还有很多问题,很多基础假设也都还没被验证。

我们可以一起复盘一下,从 23 年到现在,你们到底是哪几件事情是想对了、做对了,又有哪些是在过程中调整过的。

我记得 23 年我们一起跑融资的时候,大家对你们最大的质疑,其实就是壁垒。

尤其当时 LangChain 已经很火了,大家问得最多的一个问题就是:Dify 和 LangChain 到底有什么区别?

今天回头看,你会怎么重新回答这个问题?

路宇:两年前我其实回答得不够清楚。今天再看,我们和 LangChain 的本质区别,在于面向的用户群体不同。

如果把这类产品的用户放到一个光谱上,最左边是非常硬核的工程师,最右边是完全不懂技术的用户,那么:

LangChain 更偏向于有较强编码能力的人;

Dify 现在在中间,未来则会越来越偏向弱技术,甚至是无技术的用户;

OpenAI 的 Agent Kit 明显偏左;

n8n 比我们稍偏左;

Coze 更偏右,但它的生产属性又不足。

曲凯:那我们正好顺着 LangChain,聊聊你们的其他几款竞品。你是怎么看这些竞争的?

路宇:说起来其实挺有意思的。作为一家创业公司,我们已经经历过各种规模的竞争了,而且在这个过程中,我们的生存能力已经被反复验证。

我们和字节这样的大厂掰过手腕,和硅谷的创业公司掰过手腕,也和以 OpenAI 为代表的模型厂商掰过手腕。

23 年的时候,我们面对的竞争除了 LangChain,还有 GPTs 和 Coze。

先说 GPTs。它「想让人人都能做 Bot」的愿景本身很好,而且还拥有 ChatGPT 这么大的流量入口。但它最终没有真正跑出来,根本原因在于:它没有想清楚,这些 Bot 到底该由谁来做。

现实是,大多数人并不具备做出有实际价值产品的能力。

就像人人都能刷抖音,但不是人人都能用好剪映一样。消费内容,和用工具去解决真实问题,中间的门槛完全不同。

我认为,一个人想做出一个好产品,大概有四种可能性:

1)有硬科技,比如你非常懂硬件、算法,或者能把模型成本压到极低;

2)有创造力,能把用户体验和交互做到非常好,从而真正留住用户;

3)掌握稀缺壁垒,比如独有的数据;

4)拥有完整的流程,也就是类似 SOP 的能力。

不同的人和企业,做事的本质差距,往往就体现在对流程的理解上,这背后其实是价值观的差异。

我经常拿报销这件事举例子。报销在我们公司的流程里,短到几乎不存在,因为我们会直接给员工发信用卡,但别人未必愿意这么做。

然后在前面提到的四种可能性中,前三种都不具备可拓展性和复用性,因为它们本身就非常稀缺。真正有可能被复用的,只有流程。

所以像 GPTs、Coze 这种面向大众的产品,确实能让更多人「捏」出一个东西,但更多满足的,是让大家快速理解一项新技术、以及获得一种「造物主」般的参与感。

而由于绝大多数人既不具备前三种稀缺能力,又没有被提供搭建完整流程的可能性,最终也就很难真正做出有价值的产品。

曲凯:所以定位上,GPTs、Coze 就不是 Dify 的直接竞对?

路宇:对。Dify 一直在解决的,都是流程问题,以及如何在企业的上下文里,把 LLM 和企业中的人、工具、数据连接起来的问题。

所以虽然大家都是基于 LLM 做产品,但上下文不同,最终长出来的东西也就完全不同。

我同事打过一个很好的比方:「模型像一条鱼,放进不同的上下文鱼缸,会长成完全不同的样子。」

把 LLM 放进 IDE 里,会长成 Cursor;放进 Ubuntu 沙盒里,就会长成 Manus;而放进企业里,就会长成 Dify。

不过 23 年 7 月 Coze 发布的时候,我确实焦虑过。但这种焦虑只持续了 48 小时,之后我就再也没有关注过这个产品了,因为我们面对的受众、要解决的问题,以及组织能力都完全不同。

曲凯:那 n8n 呢?

路宇:我们的定位和理念其实比较接近。现在也有不少用户会觉得这两个产品是互补的,会同时使用。

n8n 早期的理念和我们很像,就是提供低成本、开源、中立的自动化方案。他们成立于 2019 年,那时候还完全没有用 AI,直到去年才开始和模型结合。今年他们的营销做得不错,再加上起步更早、生态相对更完善、工具和模版也更多,声量一下子就起来了。

我们的劣势在于起步更晚。但在涉及 LLM 的能力、RAG、多模态上下文处理这些方面,Dify 的 AI-Native 工程能力更强。而且我们可以做到端到端交付,这是 n8n 目前并不支持的。

曲凯:然后就到了 OpenAI 最近发布的 Agent Kit。

每次 OpenAI 有新动作之后,大家的反应其实都挺有意思的。只要它一发新产品,市场上就会立刻出现一轮「谁又要被杀死了」的讨论。

GPTs 出来时,大家说 Coze 和 Dify 会被杀死;Agent Kit 出来之后,又有人说 n8n 和 Dify 会被杀死。总之会有各种「XX 和 Dify 会被杀死」的排列组合。

但 Dify 不仅从来没有被谁杀死过,反而一直涨得很好。

甚至我记得在 GPTs 那一波,你们还做过一次很好的品牌动作?就是 GPTs 出来之后,很多企业才意识到 AI 原来可以这么用,但他们又没法直接用 GPTs,于是就选择部署 Dify。

路宇:对。OpenAI 的产品定位和效果不一定好,但他们能帮整个行业完成市场教育。我们需要花很大力气去解释自己到底是个什么样的产品,但 OpenAI 只要发一个类似的东西,大家一夜之间就能理解很多事情。

至于「谁会被杀死」这种说法,本身就过于非黑即白,很多也只是自媒体制造出来的噪音。而且说这些话的人,绝大多数其实并没有真正用过这些产品。

从过去两年的实际情况来看,尤其是在 To B 市场里,模型厂商很难直接替代下游产品。这里最难被替代的,是长期建立起来的信任关系,以及我们和客户之间的各种连接。

我对 Agent Kit 这个产品的判断是,它现在还处在比较早期的阶段,至少在未来 6 个月内,不会对其他任何产品构成实质性的威胁。

曲凯:而且现在大家确实比较忌讳只用一家的模型。所以从这个角度看,是不是大厂、或者模型方自己做的产品,反而不如那些模型可选的开源项目?

路宇:开源项目在和云厂商、模型厂商竞争时,确实有天然优势。

我接触过很多企业决策者。他们在选择中间层或开发平台时,都非常谨慎,更像是在做一次「技术投资」,会系统性地评估合规性、开放性,以及长期的可持续性。

几乎没有技术负责人,敢把自己的技术栈完全绑定在一家模型上。

而如果一个平台更像是一个「插座」,可以接入不同的外部工具,那整体风险就会低很多。

我们的产品,正是把这种「热插拔」的体验做得比较完整。

开发者既可以使用我们的原生套件,也可以用自己开发的扩展,而且两者互不影响。无论 Dify 怎么迭代,他们过去写的套件都可以继续使用。

这对开发者来说非常重要。一方面,他们需要不断用上最新的技术,另一方面,也必须保住已有的技术资产。否则外部产品一升级,他们的业务就直接挂掉了。

曲凯:明白。之前大家还有一个质疑,包括现在其实也还有不少人会提到,就是只做中间层,会不会太薄?

路宇:薄和厚这个问题,其实没什么好讨论的。而且这里面存在一个常见误区,就是大家往往认为工程不值钱。

但在我们看来,最值钱的恰恰就是工程。

所谓工程,意味着你要做分层设计,要把用户的业务场景抽象出来,要把可变和不可变的部分拆得非常清楚。这一整套过程极其费脑力,需要你长期和用户、开发者反复磨合,理解现实世界的复杂性,也意味着要不断交学费。

举个例子,在 workflow 产品里,有一个非常关键的概念叫「节点颗粒度」:

颗粒度定得太细,就会很像编程,一般人根本用不起来;颗粒度太粗,又会过于抽象,能力不够。

在不同场景下找到一个最合适的颗粒度,本身就需要大量人工判断和反复试错。而像我们这样的产品,类似的决策有成百上千个。

正是这些看不见的苦工,一点点堆起了产品真正的厚度。

相比之下,我看到有人提到 Agent Kit 背后有 80% 的代码是用 Codex 写出来的。在我看来,这种不重视工程本身的做法,做出来的产品反而才是薄的。

曲凯:那我们再聊聊 workflow。过去半年,很多人都在讨论一个问题:workflow 未来还会不会存在?或者说,还有没有必要?毕竟自动化和 AI Coding 已经变得很强了。

路宇:我认为 workflow 会长期存在,因为人类的生产活动有一个不变的底层逻辑:需要高度的可预测性。

如果 AI 发展到极致,理论上我们当然可以让模型一步到位,完美地帮我们解决问题。这也是为什么有些团队从一开始就选择了「让一个 Bot 包办一切」的 AGI 路线。

但现实情况是,模型的能力还没有强到能让我们可以无脑接受它给出的结果。

现在更常见的情况是:你给模型一个任务,它会返回一个结果,然后你需要判断这个结果够不够好,不行就推倒重来。重复几次之后,用户往往会感到挫败、不可靠、焦虑,甚至产生一种「我是不是又被骗了」的感觉。

那这个问题要怎么解决?

就是在过程中设置检查点,甚至在一些关键环节,让人类能够介入协作。这种工作方式,本质上就是 workflow。

Dify 选择的,正是这样一条技术路线。我们先用 workflow 把稳定性和可靠性做好,再逐步走向更高水平的智能化。

因为真正实现完全的智能化,可能还需要三到五年,甚至更长时间。我们能保证的,是在整个过渡期里,为技术投资者提供一套稳定、可靠、可以真正投入生产的系统。

哪怕底层技术在持续变化,我们也一直在迭代,但我们给用户的体验感受始终是一致的。

你可以把 AGI 和 workflow 这两种路线,理解为技术激进者和技术保守者之间的差异。

但你觉得这个世界上,是激进者更多,还是保守者更多?

曲凯:也就是说,Dify 选择了一条更务实的路径,让用户可以立刻用起来,并且随着模型能力的提升,效果会越来越好。而另一条更前沿的路径,故事可能很好听,但稳定性更差,也意味着需要有人不断去交学费。

但外面这些看起来很 fancy 的故事,甚至是偶尔跑出来的一些非常惊艳的 case,难免会让人怀疑 Dify 是不是有点「落后」。你会因为这些外部的声音感到焦虑吗?

路宇:不太会。因为我们对自己的技术路线非常坚定。

今天几乎所有基于 Transformer 的模型,本质上都可以归类为「神经网络 AI」。但我们从一开始就不认为,Transformer 能解决所有问题。

在 Transformer 出现之前,其实还有一条更古早的路线,叫「符号 AI」。它更强调逻辑、更强调结构。

我们真正相信的技术方向,正是这两条路线的结合:

神经网络负责联想与展开,符号系统负责逻辑与判断。

这个判断来自仿生学和认知科学。

人脑是一个能耗极低、却高度智能的系统,但今天的 LLM,能耗却非常高。

那差距来自哪里?

原因在于,人脑不仅具备神经网络式的联想能力,还内置了一套符号系统。

比如我看到一个人,几乎可以在瞬间判断 Ta 是男是女、是老人还是小朋友。就好像我们的大脑里有一棵内置的二叉树,帮助我们快速完成分类、建立因果,从而以极低的成本和能耗,对他人的行为做出预测。

曲凯:明白。我们之前还探讨过一个话题,前段时间 Sam Altman 他们也在讲,就是未来的 SaaS 是不是会变成一种「快时尚」。

现在的 SaaS 面向的更多是普适场景,那随着 AI 的发展,未来会不会有更多公司,可以直接自己搭建出能完美解决自身问题的产品?比如说,财税是不是可以和技术人员一起,直接做一个 workflow,而不再需要购买外部 SaaS?

路宇:从人机交互的角度来看,这件事是有可能实现的。但我认为这个观点只对了一半。

因为在软件工程里,始终存在一些不变的基础,而在这些不变的部分中,就有 SaaS 的空间。

比如在财税场景中,哪些发票字段需要长期保存,哪些属于敏感数据,都必须由人来定义。这些本质上是数据结构,非常关键,不能随意更改。

所以未来更可能的范式是:人要在「结果」和「结构」的定义上投入大量时间,剩下的部分,再交给 AI 去完成个性化和客制化。

(P.S. 关于「结构」的重要性,在我们前几天发的 Newsletter Part 4 中有一些补充讨论,很推荐大家去阅读:下一代 AI 交互,会长成什么样子?| 42章经 AI Newsletter

曲凯:我记得我们两年前聊的时候,大家用 Dify 做的还主要是 Bot、陪聊、知识库、问答客服这些东西。两年过去了,这点有什么变化吗?

路宇:现在我们有很多客户,已经在用 Dify 去编排非常复杂的流程,做企业级、大规模的智能化改造。

我们见过最复杂的 workflow,有四五百个节点,串联起了企业内部的各种组织关系和数据。

更有甚者,比如我们的客户安克,就用 Dify 搭建了上千个工作流,集成了上万个原子能力。他们已经把 agent 当成一种新的生产资产来看待,甚至是和人力资源平等地去管理。有了新业务之后,他们会先分析这件事需要哪些能力、流程应该怎么设计、哪些节点由人来做、哪些节点交给 agent 去执行。

曲凯:已经这么先进了吗?

路宇:对,而且现在不只是一家企业在这么做,很多企业都在往这个方向走。这个进展速度,其实比我一开始预期的要快很多。

曲凯:那有没有一些更具体、比较有意思的使用场景?比如你刚才提到的安克,他们在什么样的环节会选择用 agent?能做到什么程度?因为很多人一提到企业用 AI,脑子里还是停留在知识库、客服这些层面。

路宇:我们后来抽象出来一个结论:最标准的使用场景,其实就是「不标准」。

我们也曾经想过,要不要总结几个标准场景,但后来发现,用得最好的那些用户,几乎没有一个是按标准用的。

他们真正需要的,是一种「胶水」,把原有业务里的各种流程和能力粘在一起,形成复杂协作。而这套东西在不同组织里,就是完全不同的。

曲凯:那这么看,Dify 在企业里到底是什么?是脚手架、开发工具、胶水,还是最终会变成一种类似操作系统的东西?

路宇:我认为未来会出现一种新的组织协作方式。在企业里,大部分可以被抽象、被标准化的生产活动,都会运行在一个智能化平台之上。这个平台要解决的,是把内部的各种原子能力整合起来,让人和 agent 能够高效协作,以及完成流程的设计与调度。

可能在未来,我每天上班,打开手机看到的就是一个看板,点进去,能看到整个业务的生产全景,也能看到等待我处理的各种任务。有些任务我可以直接提取结果,有些需要我 review,还有一些则需要我判断——是安排人来做,还是交给 agent 去执行。

从这个角度看,它本质上更像是一个操作系统。

曲凯:这让我想起我们最早聊的时候,你提过一个观点:LLM 不应该只给开发者用,真正的使用者也应该能和系统互动、给反馈。

路宇:对。我们的理念一直是,让 LLM 推动技术平权。我之前偶尔也会有些犹豫,但现在我觉得这是必然的,而且很可能在两到三年内就会真正发生。

曲凯:所以如果有人问,现在到底是谁在用 Dify,你会怎么回答?

路宇:今天财富 500 强企业里,大概有 20% 在用 Dify。

曲凯:这完全就是开源带来的优势吗?毕竟你们基本没有做过 GTM,也很少主动销售。

路宇:开源是最关键的决策。如果没有开源,后面的事情其实都很难成立。

因为全球化要解决的是信任问题。想快速传播、推广自己的技术标准,开源无疑是效率最高的方式。

曲凯:但你们在日本市场的成功还是挺神奇的。

路宇:是。虽然我们在 23 年刚上线的时候就做了日语版本,但当时其实没想那么多。结果到了 23 年四五月,日本市场一下子就爆了。现在,Dify 在日本几乎是一个有垄断地位的现象级工具。

也经常有人问我:为什么是日本?我们到底做对了什么?

我们其实什么也没做,如果一定要说,可能就是一部分运气,再加上开源吧。

至于为什么是日本,我觉得最核心的原因,是 Dify 恰好非常适配日本的社会结构和用工方式。

一方面,他们的技术人员非常稀缺;另一方面,企业内部的业务又高度流程化。当他们看到 Dify,可能就像当年还在填纸质财务报表的会计,第一次看到 Excel。

当然,也还有一些次要因素。比如,相比北美团队,我们所在的时区更容易服务日本客户;再比如,我们的 UI 可能更符合东亚用户的审美。

曲凯:那你这两年,对 AI 的理解有什么变化?

路宇:现在的模型,已经可以很好地解决我们遇到的绝大多数问题了,甚至对很多人来说,模型能力已经是「溢出」的状态。

两年前,我们对模型的置信度大概只有 60% 到 70%;而今天,这个数字已经可以达到 95% 以上。

但为什么在这种情况下,很多人依然没办法和模型高效协作?

因为模型的本质,更像是一个巨大的「数据球」。你得先相信答案就在里面,然后再不断和模型磨合,找到一套正确的「密码」,才能把答案抽取出来。而找到这套密码的能力,并不是每个人都具备。

这件事也很难被快速教学,它高度依赖一个人原有的认知框架和提问能力。

我相信,像 Dify 这样的产品,可以提前帮用户设计好这张「找到密码的地图」。当用户要解决某一类问题时,只要沿着地图走,就更容易在模型里找到正确的答案。

在这个过程中,人类更像是模型理解现实世界的传感器,负责为模型提供更充足、更准确的上下文。

曲凯:这里其实可以抽象出一个很好的概念——Dify 就是人类寻找大模型答案的「藏宝图」。

路宇:是。另外,在 B 端场景里,AI 的生产力也还远远没有被真正释放出来。

MIT 前段时间有一份报告提到,95% 的公司在 AI 上的试点最终都失败了。这说明,大多数企业目前的工具体系和学习能力还远远不够。

所以我认为,下一个真正的机会窗口,并不在于继续提升模型的智能,而在于「建桥」。

比如,去搭建能够弥合模型能力与人类使用能力之间鸿沟的基础设施;设计更好的人机交互范式;构建真正能让人和 AI 高效协同的工作流。

这些都是 AI 应用里的「最后一公里」问题,也会是未来几年里最大的机会。

这里我也想反过来问你一个问题:在这样的背景下,未来人类,或者说一个组织的核心竞争力,还剩下什么?

曲凯:我想一下。

路宇:你看,就像阳光、空气和水对所有人都是对称的,模型在某种程度上,也让智力变成了对称资源。那必然还会剩下一些非对称的东西,成为未来真正的竞争力。

曲凯:我会这样回答:如果我们平等地看待 AI 和人,那去找人和 AI 之间的竞争力,其实就是在找人和人之间的竞争力。

为什么有的人更厉害?

核心差别,在于决策能力和注意力机制。

我经常举一个例子:一期一小时的播客,一万人听完之后,提取出来的重点一定都不一样。换成 AI 也是一样。你给它再多的 context,甚至允许它去网上搜更多信息,但它挑出来的重点、以及接下来要做的动作,依然会千差万别。

路宇:不是价值观的差别吗?

曲凯:看你怎么定义价值观。我更倾向于认为,价值观本身也是 context 的一部分。

比如我今天刚和 TikTok 的人聊天,他们说在中东,美女扭屁股是违法的;但在巴西,从流量的角度看,这反而是被鼓励的。

不同文化、不同 context,自然就会导向完全不同的结果。

所以无论 AI 能力再强,不同的人使用 AI,最终得到的结果一定是不一样的。

很多人,尤其是年轻人,都会跟我聊,说担心未来会被 AI 取代。

但我从来没有这种担心。

我后来认真想过,为什么我不担心,结论其实很简单:

如果和其他人相比,我本身就不容易被取代,那 AI 最多也就和别人站在同一水平线上,自然也没什么好担心的。

就像我刚才举的播客那个例子,我非常有信心,在拿到同样的素材时,我就是能总结得比 AI 更好。AI 可能会给你列出 1 到 5 点,而我会直接告诉你:后面 4 点都不重要,我们一起看看,为什么第一点最重要。

路宇:我问你这个问题,是因为我最近在想,Dify 能不能把个体和组织的非对称的能力保留下来,然后让大家都能更好地和模型协同。

曲凯:我明白。你在想的,是怎么让更多人从一开始的 60 分出发,随着模型进步、context 越来越充分、反馈机制不断完善,逐步做到 70 分、80 分。

那我前面讲的是,如果一个人本身就能做到 90 分,甚至 100 分,那 ta 本来就不可能被取代;而只能做到 60 分的人,确实很可能会被取代。

最后想再问你一个问题。好几个投资人都跟我说过,他们没想到 Dify 会发展得这么好。你觉得他们看漏了什么?或者说,你认为走到今天最核心的原因是什么?

路宇:长话短说,就是两个字:耐心。

这个词听上去,可能和现在很多 AI 初创公司的节奏是背道而驰的。但我们一开始就把要做的事情想得很清楚,团队也是围绕最终的目标和标准来搭建的,所以结果必然不会差。

曲凯:其实就是你们更务实、更踏实,所以不是「一波流」,而是会慢慢厚积薄发。

路宇:我倒不太觉得我们是在「精耕细作」或者「厚积薄发」,我们只是用成熟市场的方式在做产品。

在一个成熟市场里,每个产品都会给自己贴上一些长期不变的标签。

比如,丰田代表性价比和可靠性,沃尔沃、斯巴鲁代表安全,特斯拉代表自动驾驶。

而 Dify 之所以成为今天的 Dify,是因为我们在 Day 1 就选定了开篇讲到的那些策略,然后一直坚持到现在。

所以,与其问我们「做对了什么」,不如反过来问,有哪些东西,是我们始终没有变过的。

曲凯:OK。你还有什么想分享的吗?

路宇:作为创始人,一定要快乐。

曲凯:你现在快乐吗?

路宇:非常快乐。

我现在的状态比两年前还要好,原因之一,就是我调整了自己的定位。

传统观念里,CEO 就应该背责任、吃苦、扛压力,但我觉得这是错的。

创始人必须让自己快乐。

人在巨大的压力下,其实很难真正想清楚问题。但当你是快乐的,你的身心状态会更好,也就更容易涌现出最好的想法。

团队管理也是一样。如果你一味照顾所有人的感受,反而会慢慢失去最初那种创作产品的表达状态,也就失去了改变世界的动力。

创业者的使命,是把未来带到现在,而不是负重前行。

曲凯:其实不只是创始人,每个人都应该去做让自己开心的事情。当你在做自己喜欢的事时,哪怕加班,本身也是快乐的。

路宇:是。我在做公司的过程中,一直有两个看起来有点矛盾的观点:我们不喜欢 996,但我也反对严格的 8 小时工作制。

前者让人痛苦,后者也并不符合智力工作者真实的创作状态。

当一个人进入创作状态时,会进入心流,甚至忘记时间,而这本身就和 8 小时工作制是背道而驰的。

曲凯:我不知道你有没有自己的解,但我可以分享一个我最近很深的体会。

规则本质上是用来约束人的,但最好的规则,可能反而是没有规则。

前阵子我在纽约待了一周,有一个特别有意思的观察——那边几乎所有人都会闯红灯。我还跟人开玩笑说,国内都找不到素质这么差的地方(笑)。

但对方跟我说,你仔细看,其实这些人都有自己的判断。如果会影响到来车,他们就不会闯;但如果前面本来就已经堵住了,他们就会往前走。也就是说,当所有人的目标都是最大化整体交通效率时,红绿灯本身反而没那么重要了。

所以,如果大家目标一致、劲往一处使、而且都很开心,那可能才是最好的状态。

最后,就祝大家都能开心吧!

42章经

思考事物本质

阅读原文

跳转微信打开

下一代 AI 交互,会长成什么样子?| 42章经 AI Newsletter

2025-12-11 21:29:00

原创 Celia 2025-12-11 21:29 北京

那些让我眼前一亮的 AI 交互范式

姚顺雨(前 OpenAI 研究员)曾反反复复表达过一个观点,我印象很深:

「创业公司最大的机会,在于设计不同的交互方式。」

于是这期就索性围绕「交互」这个主题展开,分享一下我们最近观察到的一些机会。

目录

  1. 为什么独立的 Vibe Coding 必死,但 Personal Software 会火?

  2. 我们是不是低估了输入法的想象力?

  3. 最近见过最好的 5 个 AI 交互设计

  4. 产品设计的终极形态

(一) 为什么独立的 Vibe Coding 必死,但 Personal Software 会火?

Personalized software (个性化软件) 这个方向最近很火。

蚂蚁的灵光上线后,听说一天内的数据就达到了团队定的年度目标。

Replika 的创始人 Kuyda 最近也再次创业,做了一个叫 Wabi 的产品,定位是 Youtube for Apps,一个 mini app 的集合平台。(类似方向的产品国内还有马卡龙、Youware 等等)

我最近听了她的两期播客,很有意思,摘录一些 insights:

1. 软件的未来将是「应用的 YouTube 化」。

在 Kuyda 看来,软件行业正在经历内容行业当年的变迁。

就像视频从专业制作走向人人可拍,软件开发也将从全球「2000 万开发者」的特权,泛化为「80 亿创作者」的日常媒介。

在这个语境下,未来的软件,更多会像快消品,它不再需要追求 SaaS 的高留存与高 LTV,而只需要在当下那一刻,解决你特定的问题。

她举了个很直观的例子。

有天她女儿想玩猜谜游戏,但条件很刁钻:主角必须是《冰雪奇缘》的 Elsa 和《阿拉丁》的 Jasmine,还得是意大利语。

这种需求,App Store 不可能满足,但 Kuyda 用 Wabi 花了两分钟就做了一个出来。

2. 这就带来一个问题,为什么这种事非得在 Wabi 这样的平台上做?用 Lovable 这种 AI coding 工具自己写不行吗?

Kuyda 认为,独立的 Vibe Coding 必然失败,因为会卡在三个关键问题上:

1)信任和稳定

单点 vibe coding 最大的短板是安全。

她提到一个案例:有人 vibe code 了一个约会 App,结果火了,冲到 App Store 榜首。但因为开发者不专业,最后导致所有用户的超敏感信息全泄露了。

所以她的判断是,未来一定会需要一个平台,来兜住这些风险。

平台能提供一个信任层,统一解决掉安全、隐私和数据持久化等问题(比如你不用担心开发者忘了给服务器续费,导致你的数据全丢了)。

2)集成能力:

Wabi 提供了连接一切的 API,让你的 mini app 可以很方便地调用你的 Apple Health、Gmail、日历,甚至你的银行账户。你可以一键生成一个「根据我最近听歌品味定制手办」的 mini app。

3)分发与协作:

平台会内建社交图谱(点赞、评论、看到朋友在用什么),并支持多人模式(一起用同一个 App,比如共同维护购物清单,或者一起玩个小游戏)。

这样,一个人随手做出来的 mini app,就有机会长成一个小网络,在一群人之间流转起来。

3. Kuyda 提到了一个类比:

iOS 早期:开发者只是把网站硬塞进 App 里。

iOS 成熟期:开发者终于想明白了移动端的超能力是什么——GPS 和永久在线。于是,才诞生了 Uber 和 Tinder 这样的原生巨头。

那么,AI 的超能力是什么?Kuyda 的答案是:深度个性化。

这种个性化有三层:

1)应用层个性化:你可以修改 App 的功能和提示词。

2)平台层个性化:平台知道你的基础信息(年龄、地点、有孩子、有健身目标),并能把这些 context 提供给你所有的 App。

3)跨应用个性化:平台可以打破围墙花园,让你的「营养 mini app」能和你的「健身 mini app」对话,比如根据你最近的增肌计划,修改你的饮食方案。

她认为,未来的个人软件,应该是一个「构建在你的基础信息上的操作系统」。

(不过,这层「个人记忆管家」似乎最应该嵌在 OS 里,而不是由第三方软件做掉?高度怀疑最终操作系统会把散落在不同 App 里的数据收拢成一个统一的「个人画像底库」,再让不同的 AI 应用在上面做组合。这也部分解释了为什么字节、Google 等等都在做自己的 AI 手机。)

聊到这儿,主持人还插了一个扎心的例子:

他自己刚换了新 iPhone,顺手清理了一遍桌面,删掉了 12 个以前下载、甚至还付过费的 App,因为他已经在 Wabi 上做出了更顺手的版本。

当用户可以在 5 分钟里做出一个贴身的 80 分工具时,那些功能叠到 90 分、却越来越臃肿的 App,很可能会慢慢失去意义。

4. 这会催生一个全新的 GTM 模式:软件即内容 (Apps as Content)

这里我们可以想象几个有意思的变化:

  • 新的商业模式

     一个抖音上的健身博主,未来最自然的变现方式,可能不是卖课,而是发 5 个 mini app,每个 app 对应一套训练方案。

  • 新的流量入口

    以前博主会在小红书写一篇「东京只有本地人才知道的 10 家拉面店」,未来他可能直接发布一个「东京拉面杀手」 mini app,里面有一个极简地图,只标这 10 家店。

  • 新的社区形态

    这些 mini app 本身会变成「社区启动器」。

    比如你做了一个「伦敦观鸟指南」app,用的人天然就是同好。

    人聚齐了,线下活动、衍生周边、内容共创,都可以自然而然生长出来。

    以前做社区要靠内容、靠运营,未来可能只需要把一个 mini app 丢到网上,它自己吸人。

7. 所以,Wabi 这类产品的本质是什么?

主持人给了一个精妙的比喻:它是一个 Prompt 容器的平台。

我们现在分享 Prompt 的方式,还停留在石器时代——就是复制粘贴一大段文本。

这种 Prompt 发现机制非常糟糕。

Kuyda 提到,她曾在 Reddit 上看到一个大师级 Prompt,但有一次她把那段 Prompt 搞丢了,再也没找到。

如果这是一个 Wabi 上的 mini app,她可以直接下载,之后随时点开就能用。

Wabi 想做的事,就是给这些到处裸奔的 Prompt 配一个合适的 UI 外壳,再加一个可以保存、复制、分发的沙盒环境。

(某种意义上,这其实是 GPTs 的下一阶段:从「Chatbot」走向「Chat + GUI 结合」的交互形态,只不过这次是更彻底地以「个人应用」为单位来组织。)

8. 最后,我自己对这类产品最大的两个问题还是:

首先,到底有多少人,会有「自己定义一个 mini app」的冲动?

Kuyda 在播客里给了一个避重就轻的回答,她说,真正从零开始原创的人,永远不会超过 10%,但很多的人,都会参与修改和迭代。

围绕这个判断,Wabi 提供了两条路:

  • Remix:直接 Fork 别人的 App,改成自己想要的样子。

  • Request:在评论区 @ 创作者提需求:「能不能帮我把这个地方改成 XXX?」

也就是说,「软件民主化」的实际落地形态,不是人人都是开发者,而是人人都能参与迭代。

但这又引申到了第二个,我觉得也是更本质的问题:到底多少人有消费这些 mini app 的需求场景?

毕竟,GPTs 死掉的一大原因就是发现难、心智重、大多都用不上。

这里我们就没有什么答案了。只能先把这些问题记在这,看未来的市场怎么回答。

Reference:

(二) 我们是不是低估了输入法的想象力?

AI 语音输入法最近也很火。

大厂里,字节、微信、智谱都在搞,创业公司中还有 Typeless,闪电说...... 海外 Wispr 更是在 4 个月内连融 8100 万美金。

(我目前试下来,感觉 Typeless 和智谱的 AI 输入法都很好用,智谱更推荐一些,因为它有些额外的功能点做得很方便!比如,它可以从「打字状态」切换为「问答状态」,一键唤起 AI,在任何输入框里快速回答你的问题,或者直接选中一段文字,让它翻译/改写)

Anyway,我就很好奇:

输入法这门老生意,怎么又突然开始爆火?尤其 Wispr 是在讲一个什么故事?怎么能拿这么多钱?

带着这个问题,我们做了一点研究,也和一些关注这个方向的从业者聊了聊。

聊完之后,我现在的理解是:

输入法未来可能不只是「打字工具」,而是有机会进化成一个「语音操作系统」。(当然,只是有可能。)

Wispr 创始人在播客里,把这个进化过程拆成了三步:

第一步:先把「输入」这件事接管了。

这里我得到的一个有趣的 learning 是:

从「敲键盘」切换为「直接说」,最大的惊喜其实不在「提速」,而在「减负」,也就是:

1. 它能消除你思考时的认知负荷。

打字的时候,人的注意力其实会被拆成两半:一半在思考「我接下来想表达什么」,另一半在检查「我刚刚这句话打得对不对」。这两个过程其实会互相干扰,让你无法进入到一个顺畅的心流状态。

语音输入法的作用,是让你专注于「我想说什么」。你可以把脑子里的想法全部倒出来,把编辑、润色这些活儿都交给 AI。

2. 它天然鼓励用户提供 Context。

大多数人在给 AI 打字时都会本能地偷懒,能少说就少说。但一旦换成说话,大家往往会顺手多带一些背景和细节,于是 AI 的输出质量也会跟着上去。

前几天还听莫子皓老师 (Plaud 中国区 CEO) 说,他们公司的算法研发现在人手一个麦克风,直接通过语音来 vibe code,工作效率大幅提升,而且更容易进入心流。

第二步:从「被动记录」升级为「代你表达」。

当用户习惯了对着它说话,它就可以开始帮你「写作」而不只是「记录」,比如你只要说:「帮我推掉这个工作邀约,但别把话说死」,它立刻就能写出一封得体的邮件。

这里一个自然的问题是:

为什么要通过输入法做,而不是直接用 ChatGPT,或者各种垂类 AI 工具?

核心差别在于:输入法天然存在于每一个输入框中,而且它了解你的一切过往输入。

Wispr 创始人说:「一个真正好用的语音输入产品,不应该是一个孤立的工具,而是一个具备全局上下文的智能层,能够记住你的所有重要输入,连接不同应用中的信息。」

它每天看你怎么说话、说了什么,最终可以比任何一个单点 AI 应用更贴近你的真实表达。

再往下想一步,输入法很快还会学会察言观色。

它不仅能听懂你在说什么,还能通过语速的快慢、语气的急缓,捕捉到你当下的心境,然后自动帮你催人催得更急一点,或者语气改得更欢快一点。

现在领先的 AI 输入法,其实已经开始朝这个方向走了。

比如 Whisper Flow 会根据你所在的 App 自动「变身」:

  • 在 Slack 里,它会把你说的话变得随意、全小写、甚至加个 Emoji;

  • 在 Email 里,则会自动改写成商务邮件的语气和格式。

创始人在播客里还提到,他们下一步要做更细的 context 提取:

同样是在 Slack,你在「公司大群」发言,和在「跟最好朋友的私聊」里说话,语气完全不同。

Whisper Flow 会感知到这个细微差别,并自动匹配你的语气。

第三步:反客为主。

输入法一直是系统权限最高的软件之一。移动端的隐私保护还相对严格,但在 PC 场景下,像 Wispr 之类的应用甚至是拥有读屏权限的,等同于是能同时捕捉到你看到的信息。这让它有机会成为最了解你的产品之一。最终甚至可能能主动跳出来帮你干活,而不是等你发号施令。

打我敲下这行字的时候,我已经开始幻想我的输入法能突然跳出来说:

「我突然想到一个有趣的梗,你这里可以加上」。

此外,上周末在我们组织的一个闭门讨论会上,有一个做二级的投资人朋友还提到了一个很有趣的观点:

输入法的定位有点像前一段时间 Reddit 对于 OpenAI 的意义,很多模型公司都有合作和收购意愿。

原因是,输入法掌握了高价值的一手数据,而这些数据对两件事情格外关键:

1)训练模型对人类偏好和意图的理解

2)让模型跟上人类语言的实时变化,比如最近出了什么流行梗、上了什么爆款电影。

把这些放在一起看,我们会发现,输入法并不是一个简单的效率工具,它有机会成为:

1)你和所有软件之间最高频的交流接口;

2)你和大模型之间最完整的一根数据管道。

但当然,以上只是一个爽文剧情,实际会有很多问题,比如,输入法是寄生在 OS 上的,苹果等系统层随时可能收回权限,自己下场。

又比如,用输入法的数据训练模型虽然会做很多隐私脱敏,但很多用户过不了心理门槛。一个能「读屏」且「听懂语气」的 AI,会让很多人(尤其是企业)感到被监视的恐惧,从而不会放权。

但不管怎样,我觉得输入法都会变成一个很有趣的观察窗口:

它注定要被拉到牌桌中央,参与一轮又一轮讨价还价,然后长成一个和现在完全不同的样子。

Reference:

(三) 最近见过最好的 5 个 AI 交互设计

我听各种海外播客时,经常听到一个类似的判断:

AI 目前最大的瓶颈在交互。我们今天用的 Chatbot,本质上还停留在「MS-DOS 时代」的命令行,还没有迎来真正的 GUI 时刻。

不过,过去一年里,交互这条线已经有了很多探索。

比如,DeepSeek 带火了显性思维链,现在这已经成了 AI Chatbot 的标配,提高信任感;

Manus 带火了虚拟机这种形式,单独给 AI 配置一个电脑,让他自己操作,互不干扰。

我们最近还看到了一些领先的交互范式,可能会成为明年的新共识:

1. 参数滑块 

自然语言在描述「程度」时是无力的。你很难界定「放飞一点点」具体是多少。

所以很多 AI 产品现在都加上了参数滑块,比如 11 Labs 可以调整 Prompt Influence(提示词权重),决定是严格遵循指令,还是让 AI 自由发挥。

未来,「Prompt 负责定性,滑块负责定量」可能成为一个标配设计。

在做一个精细任务时,用户可以直接在旁边创建一个滑块,比如一端是更简洁,一端是更详尽,来回拖一拖,就能快速试出一个满意的区间。

同时,这在心理学层面也很重要,我很喜欢的一个交互设计师 Geoffrey Litt 在播客里讲过一个观点,现在很多 AI 工具都在追求极致的自动化(比如 Agent 一键做出一个完整的作品),但他认为这是非常反人性的,完全由 AI 生成的内容,用户很难产生「这是我的作品」的归属感。

一个形象的比喻是做陶瓷。

如果只是对工匠下指令说「我要个杯子」,这不叫创作,这叫采购。

真正的创作是你手摸着泥巴,根据泥巴的反馈实时调整力度和形状。这种 Feedback Loop(实时反馈回路)才是让用户进入心流,感到满意和快乐的关键。

2. 反向 Onboarding

现在大多数 AI 产品的 Onboarding 流程都很重:

注册 → 验证邮箱 → 填一堆信息(职业、行业、目标…)→ AI 才开始服务。

用户一上来就要付出时间、信任,还不知道值不值得。

但我最近看到了一些很妙的 Onboarding 案例,是把这个逻辑完全反过来。

比如 AdComposer.ai(一个广告文案生成工具),它的首屏极其克制,只有一个输入框:丢下你的公司网址,一键生成几组广告创意。

通过这个过程快速证明:「这是我能做到的,你先感受一下。」

再比如 Co-founder 这个产品,第一步也是让你先输入 Gmail 或者其它 URL,它会立刻根据抓取到的信息,模仿你的语气写一封邮件,或生成一个工作流。

所以我在想,或许未来很多 AI 产品的第一步,都会变成先证明自己,先让用户看到价值,而不是一上来就要求用户先行付出。

也就是我们可以想想,有没有办法把 TTV(Time to Value,价值感知时间)压到接近 0,让用户第一次点进来,就像走进面包店门口,被塞了一块试吃的小饼干?

3. 善用等待时间

现在的 AI 生成往往需要几十秒,用户对着 Loading 动画等待时会变得非常不耐烦。

但 Gamma 和 Perplexity 提供了一个挺好的思路:

等待时间,本质上是一个低成本的「二次交互窗口」。

比如,Gamma 会在你盯着屏幕发呆时,让你选 PPT 的主题风格;Perplexity 在一些情况下会弹窗问你:「是否需要补充更多细节?」

这样,既给了用户事情做,模型的生成结果也更准,还减少了需要迭代的轮次,对公司是实打实的成本优化。

4. 用「命名」控制用户预期

交互设计中,很重要的一个工作其实是「定义语言」。团队选用的名词,决定了用户如何理解产品的边界。

我自己超级喜欢的一个案例是一个画布产品 tldraw,他们尝试让 Agent 在画布上协作时,发现现在的模型还是很笨,经常把东西画错位置,或者不知道自己在干嘛。

那问题来了:要怎么让用户能试用起来,又不对它期待过高呢?

后来,他们搞了一套非常有意思的「叙事降级」策略,把幻觉本身,从产品缺陷,变成了世界观设定。成功是惊喜,翻车是剧情。

首先是改名字。

他们刻意没有把 AI 叫做 Agent、Collaborator 或虚拟员工,因为一旦这么叫,用户下意识就会觉得它应该像同事一样靠谱。

他们考虑的名字是 fairies(小精灵)/ ghosts(小鬼)/ bugs(小虫子)—— 听上去就不像能全权托付的对象。

这些小精灵很小,漂在你的光标旁边,不同的精灵穿着不同的衣服、戴着不同的帽子:

  • 你可以看到它在「思考」(摸下巴);

  • 看到它觉得任务太难了,开始召唤其他小精灵(sub-agent)来一起干活;

其它的技术逻辑也被包装成了童话隐喻:

  • 池塘(Pond)= 文件夹/作用域: 想要管理一个特定的上下文,只需要在画布上画一个魔法池塘。任何被拖进池塘的文件,就会自动成为这个 Agent 的 Context。

  • 礼物(Gifts)= 补充信息:想要给 Agent 额外的文档,可以像给精灵留下礼物一样,把小纸条留给它。

  • 附身(Warging)= 外部工具调用: 当一个小精灵需要通过 MCP 去连接外部工具或数据时,它的眼睛会翻白,像权游里的 warging,表示它正在通灵(所以延迟、卡顿都是合理的施法过程)。

在这套设定下,用户天然会觉得:

它们本来就是有点调皮、不可控的非人生物,所以犯蠢是可以被原谅的。

当一个小精灵把图画歪了,用户更可能想的是:「哎呀它又调皮了」,而不是「这垃圾软件又崩了」。

这里的启发是,叙事设计可以是我们掩盖模型能力不足、提升用户留存一个很高效的手段。

尤其在今天,AI 还有很多幻觉和 bug,你产品的「叙事包装」最好与 AI 呈现出的「智力水平」相匹配,而不是给它一个它撑不起来的广告语。

5. 视角滤镜

我还很喜欢的一个交互设计师是 Linus Lee,之前在 Notion 负责探索 AI 功能的设计。他曾经提出过一个有趣的想法:

每个创意行业大都存在一个资源库。比如字体库、音效库、滤镜库、笔刷库。

但思考和写作还不存在这样的东西。

我们其实可以尝试从模型里,提取出一种可打包、可共享的「思维特征」,把它们变成一种新的资源库,任何人都能随意取用。

一些雏形已经出现了。比如我们现在会跟 AI 说:「用理查德·费曼的语言风格解释一下」,但这还只是原始的版本。往后,也许在写作界面里,我们会看到一个「视角过滤器」菜单栏,和现在在 Word 里选字体一样方便。一个产品经理,可以装载一个「乔布斯思考滤镜」,让 AI 瞬间切换视角给出点评。

同时,大家也可以自己定制滤镜,并在公开市场上交易。 以前的知识付费卖的是内容,未来的知识付费卖的是「脑回路」。

比如,我完全可以想象自己搞一个「曲凯滤镜」:把我老板所有文章、播客、会议纪要、和同事们的微信聊天记录,外加荣格八维之类的人格测试数据统统喂给 AI,且保持联网更新,每周自动抓取他的最新言论,保持和本尊的思维同步。

那我就可以在写所有方案和文章时,都外挂上一个曲凯滤镜,让 AI 先看看他会喷哪几块。

再往外推一步,我猜,未来每家公司可能也都会有一个「品牌滤镜」。

内置创始人人格特质、价值观,公司所有品牌物料...

所有对外邮件、文章、招聘都先跑一遍这个滤镜,检查「是否符合公司气质」。

如果把粒度再做细一点,AI 产品里还可以有一个「思维调音台」。 这里的交互就不是下拉菜单,而是一组推拉杆。

毕竟大家都是打工人,汇报时往往需要端水,就可以设置:

  • CEO 视角占比 50%

  • 产品老大视角占比 20%

  • 法务视角占比 10% ...

我想,只要创造思考中有哪一块是高频 + 可复用 + 创建门槛较高,都可以考虑一键封装,随时调用。

Reference:

(四) 产品设计的终极形态

Cursor 设计负责人 Ryo Lu(也是 Notion 早期非常重要的产品设计师)最近在播客里提到一个观点,对我很有启发。

他很反感人们天天强调 taste 是未来设计师的核心竞争力,在他看来,taste 没有那么重要,真正决定上限的是「系统思维」。

原因在于,未来的 UI 一定是千人千面的,产品最终长成什么样,会更多由用户自己的 taste 决定。

Cursor 的愿景就是:

底下只有一个 Cursor,但上面长出千人千面的工作界面,把所有做软件的人(开发、设计、PM…)都收进同一套操作系统。

也就是说,未来开发、PM、设计师都会直接在 Cursor 里完成工作,只是他们看到的「界面形态」完全不同:有人直接操作画布,有人操作文档,有人操作代码。但这些角色本质都在做同一件事——影响一段代码如何被改动。

在这种情况下,产品设计的核心工作就变成了:设计概念 + 系统级交互。

Notion 就是一个很好的例子。

Notion 的设计核心不是好在圆角多少像素,而是设计了 Block (模块)、Page (页面)、Database (数据库) 这几个核心概念,以及它们如何互相嵌套。

如果从这个视角再往下想,未来的「软件」会越来越像一栋「建筑」。

什么意思?

通常我们认为建筑是「静态」的艺术——一旦竣工剪彩,设计就结束了。

但实际上,竣工只是这栋楼生命的开始。

我很喜欢的一本书是 Stewart Brand 的《How Buildings Learn: What Happens After They're Built》(建筑如何学习:建成之后发生了什么)

里面的核心观点是:建筑是一个随着时间推移不断进化的有机体。优秀的建筑不是设计出来的,而是随着用户的需求生长出来的。

这个进化过程不是一个整体,而是由六个变化速度不同的层级共同构成的:

  • Site(地基):基本不变

  • Structure(空间结构):30–300 年一变

  • Skin(外立面):大约 20 年一变

  • Services(管线):7–15 年一变

  • Space Plan(布局、装修):3–30 年一变

  • Stuff(家具物品):1–30 天一变

很多糟糕的建筑之所以糟糕,是因为把不同寿命的层级粘在了一起。比如,把寿命只有 15 年的管线埋进了寿命 100 年的混凝土结构里。导致后期无法维护,最终只能全部拆除。

往后,产品设计的工作也会更多变成:

1. 定结构:

Ta 要先搭一套清晰、耐用的概念体系(承重结构),再规划一组可插拔的能力接口(管线层),最后给最外层留出足够的空间,让用户自己的 taste 和 workflow 能生长出来。

2. 定属性:

Ta 要看清每一块东西的本质属性(比如一个按钮、一个 workflow、一条用户权限、一种服务能力),然后决定哪些东西是底层共享的,哪些是可以个性化的。

3. 定逻辑:

Ta 要从设计「这个页面长什么样」,到设计「这个系统该如何思考」,比如,「当用户犹豫时,展现出更多的图片来激发灵感」;「当用户急躁时,把广告统统收起来,只留下确认按钮」。

以前设计师的成就感来自「这一版 UI 好好看」。

未来更像是「在我设计的规则下,系统自己长出来的界面,十万个人用起来都顺手,各不相同但没有失控」。

再往深推一步,从建筑到软件,我们一路在讨论的,都是同一件事:

一个系统怎么在时间里变形,又怎么在变形中维持自己。

关于这部分具体的 knowhow,这里就来不及详细展开了。但我很想在文章结尾再推荐一下 Stewart Brand 的作品。他在写完《How Buildings Learn》之后,又把视角拉高了一层。

他意识到,能长期活下来的系统,都有一个共同点:

这些系统从来不是「所有部分一起跑」的。相反,任何一个有韧性的系统,都是由不同速度的层级叠加起来的。

在后来那篇著名的《Pace Layering: How Complex Systems Learn and Keep Learning》(节奏分层:复杂系统如何学习和适应变化?) 里,他把人类文明画成了六个同心转动的齿轮:

  • 最外圈是「时尚」,潮流来了又走;

  • 往里是「商业」,逐利、创新、快速迭代;

  • 再往里是「基础设施」,道路、能源、教育体系,一般会撑几十年;

  • 再往里是「政治制度」,法律、制度、监管,变得更慢;

  • 更深处是「文化」,价值观和集体记忆,以世纪为单位缓慢沉积;

  • 最内圈是「自然」,几乎不以人类意志为转移。

它们并不是互相拖累,而是靠这种错位一起维持系统的韧性——快层负责试错、创新、偶尔造反;

慢层负责记忆、约束、把关,决定哪些变化可以被写进底层系统,哪些就当作一次性的闹剧。

(原文写得很有韵味,我要在这里贴一下:

Fast learns, slow remembers. 

Fast proposes, slow disposes. 

Fast is discontinuous, slow is continuous. 

Fast and small instructs slow and big by accrued innovation and by occasional revolution. 

Slow and big controls small and fast by constraint and constancy. 

Fast gets all our attention, slow has all the power.)

甚至,我们可以把问题再往深里推一步:

这套对不同时间尺度的适应能力,其实不只是文明运作的机制,更是生命体的本能。

物理学家 Freeman Dyson 提出过一个很深刻的角度:

人类的命运,取决于六个不同时间尺度上的博弈。

要想生存,我们必须在这六个尺度的竞争中都常胜不败。

但在这六个时间尺度上,生存的单位是不同的。

  • 在以年为跨度的时空标尺上,单位是个人。

  • 在以五十年为跨度的时空标尺上,单位是家庭。

  • 在以百年为跨度的时空标尺上,单位是国家。

  • 在以千年为跨度的时空标尺上,单位是文化。

  • 在以万年为跨度的时空标尺上,单位是物种。

  • 在以亿年为跨度的时空标尺上,单位是我们星球上的整个生态系统。

我们每个人都是同时适应这六个时空要求的产物,这就是为什么各种相互矛盾的生物天性同时植根于我们的基因之中。

为了生存,我们必须同时忠于我们自己,忠于我们的家庭,忠于我们的部落,忠于我们的文化,忠于我们的物种,忠于我们的星球。

这是为什么我们一方面极其短视、自我,另一方面我们又会为遥远的他者产生近乎不理性的牺牲冲动。

如果说一个人的心理冲动是复杂的,那是因为它是由不同维度上复杂而矛盾的需求共同塑造的。

回到最初的话题,未来的设计究竟在设计什么?

我觉得是在建造一种能够包容矛盾的结构。

软件、建筑、制度、文化,其实都只是同一件事的不同外壳。

它们都是人类为了在多重时间尺度中活下去,而一次次做出的结构性尝试。

Reference:

Image

Image

更多阅读:

把世界拆成最小单元,然后重新拼装 | 42章经 AI Newsletter

为什么说 AI 还没到泡沫?等四篇 | 42章经 AI Newsletter

P.S. 很多朋友反馈希望以邮件的形式订阅,所以我们给 AI Newsletter 的新专栏单独开了一个网站,感兴趣的朋友可以点击 “阅读原文” 通过网页版订阅 (友情提示,打开网页需要一些魔法)。

阅读原文

跳转微信打开

「你觉得 AI 有泡沫吗?」——有|42章经

2025-11-30 21:34:00

原创 曲凯 2025-11-30 21:34 北京

泡沫只是情绪词。

这是莫傑麟第六次做客我们的播客。我们几乎每隔几个月,就会一起复盘一次 AI 市场的最新动向。这一次,我们聊的是近期热度最高的话题之一:AI 泡沫。泡沫只是情绪化的表象,更值得探讨的,是泡沫之下结构性的变化。

本期播客原文约 17000 字,本文经过删减整理后约 6600 字。

曲凯:我问个最直接的问题,你觉得现在的 AI 有泡沫吗?

莫傑麟:有。

曲凯:这么直接?你不分类讨论一下吗(笑)?

莫傑麟:哈哈哈如果把泡沫理解成「预期高于现实」,那肯定是有的。

但有泡沫不一定是坏事,反而能推动行业发展。泡沫也不一定随时会破。

曲凯:但我觉得需要拆开看,把价值和价格分开来说。

从价值来看,我不觉得现在的 AI 有问题。

最近关于泡沫的讨论,大多发生在小红书和 Twitter,但我们身边真正做 AI 的人,几乎没人谈这事。我还特意问了几个人,结果大家都非常鄙视我,说:「AI 哪有什么泡沫?发展得挺好,我们都很兴奋。现在的智能水平也已经够高了。」

所以从价值层面看,没什么泡沫。

但从价格层面看,就得进一步细分,拆成中国、美国、一级、二级来看。

价格体现在一级市场是估值,二级市场是市值。

今年国内一级市场整体还算健康。虽然估值比去年高了好几倍,但对比美国,同样的头部项目,在国内的估值至少会比美国低十倍。

反观美国一级市场,泡沫就比较明显了。那边不少公司的估值明显虚高,比如 Cursor,一直在赔钱做,却仍能拿到接近 100 亿美金的估值。

而二级市场就更明显在高位。二级你更熟,你怎么看?

莫傑麟:这几年已经不是第一次出现泡沫讨论了。但去年最大的争议点是:AI 的市盈率并不算高,可能就 30 倍左右,因为 EPS 一直在涨。

曲凯:对。这波很多人说没有泡沫的核心理由,也是因为这些公司真有收入,从市盈率看还能撑住。

莫傑麟:但不能只看收入,还要考虑两个关键问题。

第一,大家对 AI 的预期差异太大,而预期并不完全体现在价格上。

我们上期节目说过(回顾:硅谷 AI 大转弯与二级市场的牛市|42章经),这一轮大家对 AI 有两个核心预期,一个是 AGI,另一个是降本增效。

那降本增效到底能快到什么程度?这些模型公司建的 data centers,ROI 能做到多少?AGI 又到了什么阶段?

每个人对这些问题的预期水位完全不同,所以价格判断自然不同。

第二,AI 的发展本身是高度结构化的。

一开始行业就被分成了中国 vs 美国、硬件 vs 软件等不同方向。不同板块、不同公司的泡沫程度必然不同。

所以当下一个很重要的问题,是分析 AI 的结构性变化。

我们上一期花了很大篇幅聊这一点。AGI 阶段和降本增效阶段,本质上是两套完全不同的结构。

曲凯:对。我们上一期是从 AGI 和英伟达的角度出发,聊了 AI 叙事的结构变化。

第一阶段的重点是 Pre-Training 的 Scaling Law,所以英伟达一直涨。

去年 o1 出来后,叙事转向 Post-Training 和 RL。到今年 DeepSeek 出来,这个叙事达到顶峰,所以当时英伟达出现了一波大幅下跌。

但现在的问题是,RL 的叙事似乎有些后继乏力,我们没看到特别明显的 RL 的 Scaling Law,DeepSeek 也没有再出特别惊艳的新版本。

你觉得这是打破市场预期、导致泡沫讨论升温的主要原因吗?

莫傑麟:我整理过这波泡沫的论据,发现非常分散。

年初 DeepSeek 在美股砸下深坑的时候,大家集中火力在讲同一个点,就是 DeepSeek 让大家看到了「花小钱办大事」的可能性。

但这一次完全不一样。这次有人讲你刚说的这个点,有人讲模型绝对能力,有人讲应用落地、商业模式、成本,还有人讲中国模型开源……维度非常多。

但我总结下来,所有论据最后都指向同一个问题:

模型公司的 ROI 有问题。

投入太大,而从所有维度看,产出都不够。

曲凯:但这不是新问题。包括你说的这些论据,过去一年一直有人在讲。

我们最近的 Newsletter 总结了 Coatue 的一篇文章(回顾:为什么说 AI 还没到泡沫?等四篇 | 42章经 AI Newsletter),其中的核心观点是:跟 .com 泡沫比,现在这波根本不算什么。我看完那篇文章后去搜了一圈,发现认为有泡沫的那一方,似乎并没有特别新的论据,也没有一个扛大旗、认为一定有泡沫的角色。包括大空头做空英伟达之类的动作,也不是最近才开始。

所以这波讨论还挺奇怪的。

莫傑麟:它其实是有叙事链条的。

这波讨论最早的引发点是 Meta 挖人,后来接连有各种资本动作,比如 OpenAI 和 xAI 加码 data centers,英伟达投资模型公司等等。

这些动作的共同点,就是都在推高 Investment。Investment 越来越大,而 Return 却有收平的趋势,于是市场对 ROI 的焦虑就被不断放大。再叠加过去半年的宏观波动,各种事实因素一起作用,就催生了现在这波泡沫讨论。

曲凯:对。现在还有一个事实,就是美股和英伟达都在跌。

我也想梳理清楚一点:美股最近到底为什么跌?更多是因为地缘政治、美联储降息的风声,还是 AI 本身?

莫傑麟:很难排个准确顺序。但美股现在绝不仅仅是因为 AI 在跌。

今年 DeepSeek 出来的时候,英伟达一度跌到过九十多美元,而这次远没跌到那个程度。

换句话说,如果市场真的确信泡沫要破了,跌幅应该更大。

我能确认的是,现在市场的风险偏好比几个月前明显更低了。

但我同意你说的,这种变化还没有大规模影响到从业者,也没完全反映在市场里。否则我们身边不会有这么多人还在买 Google。

所以当前的风险偏好,只是结构性的、小范围的下降。

曲凯:现在最大的问题似乎是市场情绪太脆弱了。你会隐隐感觉到,市场好像在「合力寻找泡沫」。

有篇文章说得特别好:不管你是看多还是看空 AI,其实都希望它跌。看多的人希望跌完抄底,看空的人是觉得它本来就应该跌。

但现在看来,跌幅还算可控?

莫傑麟:可能只是把之前过度乐观的部分回撤了一点哈哈。

曲凯:是。我觉得现在大家看 AI 的心态也有些变化。你会明显感觉到,好像越来越少人真正期待 AGI 了?

莫傑麟:你说的其实就是一个结构性的变化。

我们上次聊过,现在已经很难用一个统一的 Benchmark 去判断模型好坏了。发展到今天,你会发现我们身边很多 founders 都觉得模型的能力已经够用了。

但这里有个问题,就是那些大的 AI 公司里的人,是不是也这么想?

因为真正推动 AI 往前走的,不是大众,而是全球那十来个关键决策者。只要他们还在坚定投入,市场有没有泡沫,其实都没那么重要。

所以相比讨论泡沫,当下更值得我们思考的是:我们是不是进入了一个新周期?要怎么判断?

也就是说,预训练的大周期是不是已经告一段落?行业的重心是不是要从「继续提升智能」转向「在现有模型上找新场景、新产品路径,做降本增效」?

曲凯:我们上期聊过,现在肉眼可见的是,模型公司在卷应用、卷收入。去年的时候,谁都想不到会有这种变化。

也许站在 Sam Altman 这些关键决策者的视角,他们捕捉到了什么信号,才会选择加码应用和工程。而我们拿不到那个维度的信息,只能从他们的行动反推。

而倒推下来,或许就能回答你前面提到的周期变化那个问题?

莫傑麟:你说的其实恰恰说明了判断周期的难度。如果真想判断周期,我甚至觉得要假设自己什么都不懂。

首先,就像我前面说的,AI 的方向是由极少数人决定的,而这些人的判断本身就很主观。有没有可能 Sam Altman 或 Meta 的团队也知道现在有泡沫,但他们仍然觉得值得下注?

再加上 AI 太烧钱,以致于它的发展速度和路径也很受宏观环境的影响。

而且周期判断没有绝对对错,它受太多变量影响。

比如前几年我们都觉得「不搞 AI 的公司不太行」;但最近大家却开始觉得苹果这种「没有过度投入」的公司反而挺好。

为什么会出现这种反转?

可能就是因为过去的叙事重点是 AGI,所以投入越多越好。但现在大家开始算 ROI,会精算每一块 Investment 和 Return。同时,这个季度 Meta、xAI、OpenAI 的投入都高得夸张,也让市场非常直观地意识到了 ROI 之低。

所以这轮最重要的一个结构性变化,是过去大家不看 ROI,现在所有人都开始看 ROI 了。

这也耦合了我们上期聊的:为什么 OpenAI 从 GPT-5 开始做整合?因为他们可能比所有人都更早意识到 ROI 这件事的重要性。

你怎么看待大家从「期待 AGI」,到开始「算 ROI」的这种变化?

曲凯:大家愿意接受大规模投入的前提,是 Scaling Law 依然有效。

如果 10 倍的投入真能换来 AGI,那还说得过去。但现在最大的问题是,Scaling Law 似乎失效了,后续 RL 也没有补出一个明确的 Scaling 曲线。

在这种情况下,模型公司还要投几万亿,市场当然会开始质疑它的价值和意义。就像你给瑞幸投一大笔钱,希望它一年开两万家店,结果瑞幸说要「从水泥造起」,那市场肯定不会买账。

莫傑麟:但这就是我不同意的地方。

我们调研下来,Scaling Law 不是失效了,而是没法被评估了。

而且把行业重心从提升智能挪开,本身也合理。现在大家普遍觉得模型智能已经够用,更当下的问题是成本、Infra、Agentic Layer、Context。这些地方才是接下来更需要投入的点。从行业角度看,这未必是坏事。

曲凯:对,所以从业者一直不觉得这有什么问题。还是得回到开头那个问题,就是讨论泡沫,得分开看中国、美国、一级、二级市场。

莫傑麟:是。如果模型训练进入平稳期,那美国一定有一些公司存在泡沫。

但我这次最费解的一点,是英伟达本体没怎么跌。跌得最多的,反而是 data centers 相关的标的,比如甲骨文。

这意味着市场的理解是,只要还在建 data centers,就必须继续买卡,所以英伟达依然是确定性最高的受益方。

这个逻辑挺有意思。大家一直期待 AI 从硬件切到软件,也在努力这么做。但从价格表现看,市场显然还没切过去。大家还是默认硬件是最大受益方,因为从算账角度,它确实不像有泡沫。

曲凯:关键还是结果。事实证明,过去几年最赚钱的还是英伟达,而软件就是还没有出现一个跑得特别成功、特别挣钱的案例。

莫傑麟:对。所以泡沫是个特别难讲的议题。

就像我们前面说的,价格不能完全反映预期。你可能心里预期「从硬件切到软件」,但也不会轻易去做空英伟达,因为历史告诉你,这么做大概率是错的。而且 AI 的结构变化太复杂,大多数人离产业较远,宏观本身又波动大,所以很难做出准确判断。

所以泡沫本质上是一种情绪。

它能反映市场对周期的「体感」,就是大家觉得周期可能在切换,价格需要调整。

但历史证明,十次泡沫里,九次都不是真的泡沫。

那这次讨论,到底是不是真能反映周期变化?这是我最近一直在想的问题。

曲凯:我记得 a16z 有个合伙人在播客里说过,现在虽然很多人在聊泡沫,但大家对泡沫的感知其实并不清晰。

他经历过 2000 年 .com 的那波泡沫。他说那时候根本没人讨论泡沫,大家只觉得兴奋。随便什么公司都能上市,甚至不需要收入,上市就涨。出租车司机也都在聊股市。

去年国庆 A 股也出现过类似的情况。我印象特别深,那几天真的是下楼随便碰到个保安都在聊股票,大家都在开户。结果节后马上开始跌。

但现在显然不是那种状态。

我也在想,历史上有没有哪个泡沫,是当时大家都意识到了它是泡沫?如果大家都明白了,那泡沫应该已经反映在价格里了,也就不会真的形成泡沫。

另外你说的周期的问题,我觉得这两年很难判断,还有一个原因是 AI 的变化太快了。AI 不只有日常波动,还有一系列小周期。

我们讲过很多次,AI 是脉冲式发展的。每一波热潮,都是因为模型能力出现了突破。而模型的突破本身就是一波一波来的。

最近最大的问题是,我们确实没有看到新的智能突破,甚至大家已经不再期待这一点。更多人相信,模型能力已经够用,接下来要拼整合、拼 Infra、拼降成本,让模型更可用、更落地。

从从业者角度,这当然是好事,因为这意味着会有更多应用能真正跑起来。

但从行业外部看,没有新的智能突破,就意味着没有「信仰充值」。

除非哪一天再来一个 DeepSeek 时刻,或者出现一个能接班 RL 的新概念,那 AI 才有可能再起一波。

你怎么看待未来的发展?

莫傑麟:我觉得未来会出现严重的分化。

这可能来自肌肉记忆,因为我对互联网中后期最深的感受是:Winner Pattern 特别明显。互联网后期跑出来的 Winners,后来基本都成长成了巨头。

我相信 AI 这波也会出现各个方向的 Winners。这些 Winners 是没有上限的,会持续成长。

那么判断 Winners 就变得非常关键。有可能 Winner 已经出现了,只是我们还没识别出来。

曲凯:对。所以我也想感叹一句,就是无论你怎么复盘、怎么经历周期,当你身处周期内部时,要做出准确判断真的很难。

现在回头看,23 年就是最好的时间点。那时候估值真的便宜,随便投都能赚。

莫傑麟:确实很难判断。

比如 23 年,大家都在谈「卡脖子」,觉得国内模型很难赶上美国。但现在,中国的开源模型已经很有竞争力了。我们跟国内的 founders 吃饭,大家都觉得模型端还有很多可以做的空间。

再比如,你记不记得在 24 年 10 月的时候,有多少人都在怀疑寒武纪?其中不乏行业里最顶尖的专家。但一年过去,情绪完全不同了。

所以我才说,泡沫是情绪词。情绪之下,真正重要的两个问题是:

1)周期。到底是不是哪个周期开始了、哪个周期结束了?

2)Winners。在不同的周期里,真正的赢家是谁?

回头看,很多 Winners 都是超出所有人预期的。23 年被低估的是中国模型,24 年是寒武纪。

而今年被质疑最多的公司是谁?是 OpenAI。一聊到泡沫,大家第一反应都是举 OpenAI 的例子。

曲凯:毕竟 Sam Altman 搞了不少骚操作(笑)。OpenAI 也确实享受了这波泡沫的红利,所以当大家说有泡沫时,他们肯定首当其冲。

莫傑麟:但真正享受最多红利的不是 OpenAI,而是英伟达哈哈。

曲凯:这倒挺典型的。过去这么多年,每一波大的热潮,最后赚钱最多的都是渠道。

比如游戏、教育、新消费这几波浪潮,最后赚钱的都是字节;教育和新消费那波,分众也赚得很舒服;线下连锁那波,赚钱的是商场,因为大家都要花钱抢位置。

而不管是字节、分众还是商场,本质上赚的都是投资人的钱,再往后就是 LP 的钱。

莫傑麟:是。但我想说的是,有没有可能我们对 OpenAI 的判断错了?有没有可能 OpenAI 最终走向的是一个和 Illya 在的时候完全不同的形态,但依然是一个极强的商业公司?

我没有结论。但我认为:

情绪往往和短期结论一致,但和中长期结论相反。

所以比起情绪,更重要的是周期和结构。因为不变的是,在每一个商业周期里,最终都会诞生真正的 Winners。

曲凯:对。所以我现在甚至觉得,一个公司在发展过程中被骂,反而是好事。

比如很多人骂 Manus,我反而替 Manus 开心(笑)。因为如果一个公司数据增长很好,但外界一直说它不行,那可能说明它在一个特别好的位置。

莫傑麟:Kimi 也是典型哈哈。

你说的也让我想到一个点:现在大家的 input 质量真的参差不齐。

比如最近我把所有讨论泡沫的文章都看了一遍,其中有一篇得出了一个非常煽动性的结论——OpenAI 的现金流要断裂。但它引用的数据完全是错的。

曲凯:这也是为什么我想找你聊,因为你跟华尔街的专业投资人接触得更多。

莫傑麟:但现在炒股,其实也不太看专业投资人的观点了。

现在二级市场越来越散户化。散户化之后,二级市场已经从「价值投资」迁移到了「Financial Engineering」的范式。

在这个迁移过程中,大家的关注点,从「绝对 insights + 长期趋势」,变成了「最近情绪是什么、叙事怎么走、哪里能挖 Alpha」。

结果就是,专业投资人也不愿意构建长期、绝对化的观点,因为他们的判断,很可能会和未来两三个月的市场风向完全相反。

相比之下,从业者的信息密度和参考价值反而更高。因为他们不靠二级市场赚钱,他们盯的是行业本身,更愿意从底层去总结真实的 insights 和趋势。

曲凯:确实。我前一阵和一个专业做二级的人聊,我说最近身边很多从业者都在买 Google,但 Ta 听完完全没反应,甚至不太理解为什么要买 Google。

莫傑麟:是。大家现在看到的世界真的非常不一样。我周围那些做二级的朋友,对预期和情绪特别敏感,但对绝对 insights 和相对趋势反而没那么敏感。而我们认识的很多 founders 恰恰相反。

关注预期和情绪本身当然也很重要。比如从这次泡沫来看,可以推导出目前的情绪和风险偏好非常低落,但预期又不低。那结果就是,很可能该跌的还没跌完,也可能因为短期情绪过于悲观,反而会出现强反弹。

但我觉得大家在 insights 和趋势上投入的时间还是不够。

比如我认为 25 年 Q3 真正值得研究的,是巨头的资本动作。

英伟达宣布投 1000 亿美金给 OpenAI,同一周,OpenAI 和 AMD 签了采购条款,没过两天,又和 Broadcom 签了新协议。这三件事连着发生,非常值得研究。

同时,Google 在 TPU 上的投入,也非常关键。

无论是 OpenAI 还是 Google,它们的动作其实都指向了同一个板块:半导体。这几件事加在一起,也标志着一个非常明确的结构性转向,就是上游算力格局正在重新洗牌。

再比如,我这次看了很多硅谷的文章,发现大家提到中国模型时,几乎没人提到字节。但字节明明是一个不可忽视的玩家,因为我们盘点过人才结构,发现字节的人才储备非常强。

所以预期和情绪固然重要,但还是得和 insights、趋势结合起来。

目前我自己的判断是:模型已经从「预训练周期」进入到「落地周期」了,而在这个周期里,会诞生新的 Winners 和 Loser。

曲凯:是。我们现在可能正站在两个周期、两个标准之间的交界处。

应用落地是趋势,所有做 AI 的人都坚信它一定会发生、未来会越来越好,但现在确实还没有特别明确的结果。同时,市场的重心正在从「AGI 的市梦率」切换到「落地结果的市盈率」,而这种切换本身就需要时间。

这也是为什么会出现一些泡沫。

但 AI 这几年一定是有泡沫的。一个高速发展的行业,本来就不可能没有泡沫,因为泡沫会带来更多钱,推动行业往前走。

只是不可避免的是,泡沫破的时候,总有人会成为养料。

但你会发现,每次泡沫破灭之后,都能跑出伟大的公司。

比如 PayPal 就是典型的从泡沫中成长起来的公司。回头复盘,他们最核心做对的一件事,就是始终让自己能造血、有足够好的现金流。

所以如果你是从业者,与其担心泡沫什么时候破,不如想清楚怎么让自己有健康的现金流。

42章经

思考事物本质

阅读原文

跳转微信打开

Ilya 离开 OpenAI 后的首期播客,久违地被人类智慧安慰到了 | 42章经

2025-11-26 13:12:00

原创 Celia 2025-11-26 13:12 北京

Ilya 回归,Taste 依然封神

过年了!早起发现 Dwarkesh Patel 新一期播客采到了 Ilya。

很久没有在一期内容里感受到这种 “被人类智慧安慰” 的体验了。

全程非常 insightful,而且更重要的是,Ilya 对谈的感觉,真的让观看采访的过程无比享受。像一个古希腊哲学家,对世界的本质有天生的好奇,对人又有一种特别真诚的关照。

这里给大家快速摘录一些要点:

1. 关于时代的转向

Ilya 给出了一个非常清晰的时间线划分:

  • 2012 - 2020 年是研究时代:大家都在尝试不同的 AI 想法。

  • 2020 - 2025 年是 Scaling 时代: 自从 GPT-3 出现后,Scaling 成了共识,并吸走了所有的注意力和资源。

  • 2025 开始,Pre-training 的 scaling law 已经失效了 (核心因为数据有限),所以,我们正在重新回到 “研究时代”。之后不会再比谁的 GPU 多,而是看谁能找到新的算法。

2. SSI 的规划

Ilya 创办的 SSI (Safe Superintelligence) 目前的计划是 Straight shot——不发中间产品,直接憋大招做超级智能。

因为他感觉现在的 AI 公司为了市场份额,不得不陷入激烈的竞争,这迫使他们在这个过程中做了很多妥协。所以他不希望在中间过程受到市场干扰。

不过,这不意味着他会憋好几年,然后突然扔出一个神一样的 AI。

他对超级智能的定义更类似一个 “超级学习者”,也就是,在发布的那一刻,它可能更像是一个 “天才少年”。它会被投放到社会中,然后在各个岗位上快速实习、犯错、进步。

Dwarkesh 问他 “这种能像人类一样学习、进而变成超级智能的系统什么时候会出现?”,Ilya 一向很少给出具体的时间预测,不过这次,他出乎意料地给了一个窗口期 —— 5 到 20 年。

此外,外界对他一个常见的 challenge 是 SSI 只融了 30 亿美金,可能比不过大厂。但 Ilya 算了一笔账:大厂融的钱虽多,但大部分要用来服务用户做推理、养庞大的工程和销售团队。SSI 的钱是实打实全部投入到纯粹的研究实验中的,这在 Research 层面上其实非常能打。

3. 关于 Taste

Ilya 是公认的 Research Taste 最好的科学家,Dwarkesh 问他到底是怎么做判断的。

他分享了三个黄金标准:

  • 生物学上的合理性:比如神经元这个概念,虽然大脑很复杂,但 “大量神经元连接” 这个结构看起来是根本性的。

  • 简洁的美感:如果一个方案不够简洁、优雅,那它大概率是错的。

  • Top-down 的信念:当实验数据和你预期不符时,如果你对自己的理论有基于第一性原理的信念感,你会继续坚持坚持,相信只是代码有 Bug。这是平庸研究者和顶级研究者的关键区别,因为这种信念支撑他度过了无数次失败的实验。

4. 关于 Value Function

Pre-training 的红利吃完了,Ilya 认为下一步的重点该是 Value Function (价值函数)。

现在的 RL 还是很笨的。比如做一道长推理题,模型要等到最后一步做完了,才知道自己是对是错。 但我们在下棋时丢了一个子,立刻就知道这局完了,而不需要等到整盘棋下完。

人类的学习过程一向主要来自与环境的互动和内心的感觉,这是一种很高效的无监督学习形式。

Ilya 认为,未来的突破点在于让模型也具备这种直觉性的中途判断能力。如果攻克了这个学习机制,AI 的效率就会有质的飞跃。

对此,Dwarkesh 质疑说 “Value Function 可能很难学,因为推理的路径太复杂、太宽广”.

此时,Ilya 给出了一个非常 Ilya 式的回应:

“你听起来像是对深度学习缺乏信仰”。

Ilya 自己非常笃信,只要信号存在,深度学习就能学到。虽然很难,但没有什么是深度学习做不到的 (echo 前面顶尖 researcher 的信念感)。

但他也有半开玩笑地说:

“Unfortunately, we live in a world where not all ML ideas are discussed freely.”(好像在暗示他有想法但不能公开)

5. 关于 RL 

1)Ilya 有一个非常反直觉的观点:RL 可能是在弄傻模型。

他用了一个非常有美感的形容:预训练数据不仅仅是文字,它是“整个世界被人类投射到文本上的样子”。预训练之所以强,是因为它试图捕捉这个庞大的 “人类思想投影”。而目前的 RL 方法可能实际上是在 “Undoing the conceptual imprint of pre-training” (撤销预训练的概念印记)。

这是为什么经过重度 RL 对齐的模型往往显得更笨或更缺乏创造力。RL 强行让 AI 去讨好人类的某个单一指标,却可能牺牲了它原本宽广的通用智力。(这听起来像极了应试教育...)

2)RL 已经比 Pre-training 更烧钱了

我们现在正处于一个很重要的转向。过去几年,大家以为最烧钱的是 Pre-training(预训练)。但 Ilya 透露,根据行业传闻,现在花在 RL 上的算力已经超过了预训练。

背后的原因是:RL 需要做非常长的 Rollouts,也就是不同的推演,这极其消耗算力,而每做一次推演获得的有效学习信号却很少。

(不过这种低效恰恰说明了 RL 还有巨大的优化空间,下一步要想办法设计出一种更高效的 Post-training 方法,比如更好的 Value Function)

6. 情绪 = 终极的 Value Function

为什么人类能在信息不全的情况下做出正确的常识性决策,而 AI 经常一本正经地胡说八道?

Ilya 提到了一个有趣的神经科学案例:一个因脑损伤失去 “情绪” 的人,虽然智商没变,但却连 “今天穿什么袜子” 都要纠结几个小时,完全无法做决策。

他认为情绪就是人类进化出的最有效的 “压缩算法”,帮我们快速剪枝,知道什么是重要的,什么无关紧要。

而现在的 AI 就像那个失去情绪的病人,它有逻辑,但缺乏那个指引它 “什么是对的” 的内在罗盘。

这也许是通往 AGI 的最后一块拼图。

7. 同理心是理解世界的最佳捷径 

说回来,Ilya 最关心的还是安全和对齐。

而他目前想到的解法是:找到一种编码机制,让 AI 真正关爱有感知力的生命 (sentient Life)。

就像进化论在人类大脑中硬编码了同理心一样,我们需要找到一种方法,把这种对生命的关爱硬编码进超级智能里,这比通过各种规则约束,强行让 AI 听人类的话更靠谱。

而且他真的相信我们有可能实现这一点。

他提到了两点原因:

首先是一个极其硬核的、基于计算效率的理由。

我们之所以能理解别人的痛苦,是因为我们会用 “模拟自己” 的同一套神经回路去 “模拟别人”。

对于大脑(或者未来的 AI)来说,这是一种最高效的建模方式。既然我已经有一套代码来理解 “我的痛苦”,直接复用这套代码去理解 “你的痛苦” 是最省资源的。

也就是说,同理心可能是智能提升过程中的一种涌现属性,因为它是理解世界的最佳捷径。

那这就意味着,如果 AI 追求极致的预测效率和世界模型构建,它可能会涌现出类似的 “移情” 机制。

第二个理由是,人类进化过程中有一个非常神奇的特质,那就是我们进化出了一些很高级的奖励函数,比如 “社会地位”。

可是,要知道,“食物好不好吃” 非常简单,只要给大脑接一个味觉传感器,设定化学反应奖励就行。但 “社会地位” 是一个极其抽象的概念,大脑需要处理无数信息才能理解。基因本身不智能,它怎么知道如何连线神经元,才能让人类产生这种高级情感呢?

既然盲目的进化都能成功地把 “高级价值观” 对齐给人类,那么我们设计超级智能时,一定也存在某种方法,能把 “关爱生命” 这种高级目标硬编码进 AI 的底层——即使我们现在还不知道具体原理。

8. 关于语言对思维的影响

Ilya 提出了一个很有趣的观察:我们使用的语言,会反向塑造行业的研究方向。

比如,AGI 这个词是为了反驳 Narrow AI(弱人工智能)而诞生的。但这导致大家有点过度追求一个全能的基础模型,而忽略了真正的智能其实是动态的学习能力。

又比如,当 Scaling 这个词出现后,它太有力了,以至于所有人都觉得 “只要把模型做大就好”,而很大程度上停止探索了其他的可能性。

(所以,警惕流行词!)

9. 未来的市场格局

关于未来是不是只有一家公司垄断 Superintelligence,Ilya 又给出了一个基于生物进化的判断:不会,竞争喜欢专精(Competition loves specialization)。

即便 AI 再强,未来大概率也会出现分工。比如会有一家公司,不做别的,就专门做 “诉讼”。

很多公司在某个领域投入了巨大的算力和学习成本,形成了极高的壁垒,别的 AI 即使能去抢它的份额,从头学一遍也不划算。这会形成一种类似自然界的生态平衡。

(这对垂直行业创业者是很好的鼓励,只要做得够窄够深,通用大模型就很难降维打击。)

P.S. 采访还有很多精彩内容,推荐大家完整看一遍 Youtube 视频采访,可以点击 “阅读原文” 直接跳转 (友情提示,打开需要一点魔法)

42章经

思考事物本质

阅读原文

跳转微信打开

活动报名:AI 的机会与泡沫|42章经

2025-11-23 20:59:00

原创 曲凯 2025-11-23 20:59 北京

AI 有泡沫吗?Scaling Law 还存在吗?未来一年的 AI 会如何发展?英伟达买还是空?

昨天刚发了和莫傑麟录的一期播客,我们总结了一下 AI 市场现在的状态,大概是:

1)23-24 年的上涨靠的是 scaling law 和 AGI 的共识;25 年以来,RL scaling law 还没有形成统一判断。

2)AI 模型是阶梯式发展,应用是脉冲式跃进,而当下偏向于一个微妙的空白期。

3)智能能否继续提升 in doubt,应用加速落地 for sure。

4)叙事逻辑在变化,之前叙事中涨起来的价格可能有泡沫,但 AI 本身的价值没有。

而在这其中,有相当多的问题还没有讨论完全,未来一年的 AI 会如何发展? 英伟达买还是空?多模态的机会在哪儿?具身的量产和落地是梦想吗?能源和数据中心的故事结束了吗?

所以,我们决定再拉个小型线上讨论会,一起聊聊。

时间定在下周六(11 月 29 日)上午 11:00。 具体报名信息见上方海报。

我们会优先通过回答更认真、与我们背景更匹配的朋友。最终参会资格请以工作人员通知为准。

期待和大家认识&交流!

阅读原文

跳转微信打开

把世界拆成最小单元,然后重新拼装 | 42章经 AI Newsletter

2025-11-23 20:59:00

原创 Celia 2025-11-23 20:59 北京

Unbundle 往往提供了切入市场的机会,rebundle 往往提供了捕获价值的机会,而 rebundle 的权力很多时候取决于价值链中的稀缺资源

Marc Andreessen 常说:"这个世界上赚钱的方式只有两种,要么 bundle(组合) ,要么 unbundle(拆分) 。"

这句话放到 AI 时代,会打开一条非常有意思的分析路径。

所以这期我们想从这个视角出发,集中聊聊我们看到的一些机会。

目录

  1. 一个 “有护城河,但没有城堡” 的产品

  2. 一位硅谷顶尖 CEO 的世界观:万物皆可 Bundle

  3. 读完集装箱的历史,我对 AI 非常乐观

(一) 一个有护城河,但没有城堡的产品

AI 圈最近很大的一个黑天鹅事件,是 Grammarly 的逆袭。

在此之前,我感觉创投圈的私下共识都是:

薄套壳应用很难有未来,功能单一的垂类 SaaS 也非常危险。Grammarly 这种上个时代的语法插件,理应是 ChatGPT 的第一批刀下亡魂。

但让我意外的是,Grammarly 不仅没死,反而活得更好了——年收入超过 7 亿美金,用户量突破 4000 万。今年还反向收购了两家我认为很有新贵气质的公司:Coda(新一代文档独角兽)和 Superhuman(一个口碑非常好的邮箱客户端)。然后,他们做了一个非常大胆的决定:将整个公司改名为 Superhuman,并推举 Coda 创始人 Shishir Mehrotra 出任新集团的 CEO。

我花时间仔细听了 Shishir Mehrotra 最近的两期播客。

听完之后,我有一种久违的兴奋感——这可能是我今年听到的,关于 “老公司如何在 AI 巨头中翻身” 最性感的一个故事。

Shishir 在播客中详细复盘了这场三合一大合并背后的战略决策,以及他对 Agent 的终局思考。

故事的起点很有意思。Shishir 说,Coda 和 Grammarly 最初认识,是因为双方融资 BP 的标题竟然一模一样:“AI-native productivity suite” (AI 原生生产力套件) 。

但他对 Grammarly 的判断是:这是一个 “有护城河,但没有城堡” 的产品。

这里的护城河,是指分发能力。

大家往往误解了 Grammarly,以为它的核心是 “语法修改”。

但实际上,它的核心技术是它构建好了一种能嵌入到 50 万个应用和网站的底层能力,让 AI 能在几乎所有网站、App、桌面应用上无缝读写、标注、修改。

也就是说,Grammarly 过去 16 年的牛逼之处,是构建了一条高速公路,能把 AI 带到你工作的所有角落。

相比之下,语法只是这条高速公路上跑的第一辆车而已。

但问题是,Grammarly 缺少一个核心的目的地。这就像 YouTube 只有 “视频嵌入” 功能,却没有 Youtube 官网一样。

这是他们要收购 Coda 的第一大原因,Coda 强大的文档中心就是 Grammarly 想要的大本营。

类似的逻辑下,Grammarly 又收购了 Superhuman。因为写 Email 其实是 Grammarly 的第一大使用场景。那与其作为一个插件寄生在别人的地表上,不如直接买下这个地皮。这样他们可以把 Agent、文档和邮件彻底打通,给用户一个更好的 AI 体验。

接下来,Grammarly 面临的第二个问题是:

这条高速公路上,过去只跑着一辆车——你的高中语法老师。

集团的新战略,就是把这条路开放出来,变成一个 Agent 平台,让无数车都能跑起来。

因为他们发现了一个很大的痛点:“AI 的最后一公里” 问题。

举个例子,亚利桑那州立大学是他们的早期客户之一 。大学内部开发了 5000 个 AI 应用和聊天机器人,几乎每个课程都有自己的 chatbot。

但结果根本没人用。

因为学生根本不记得要去打开那个 chatbot。

Superhuman 想做的,就是让那个教授 chatbot 直接嵌入到学生写作业的文档里,变成学生的数字孪生教授。

通过 Grammarly 已经造好的高速公路,他们可以成为整个 AI 市场的传送门。

同时,这也引出了他们收购 Coda 的第二个原因,Coda 能给他们带来一支现成的车队。

Coda 已经和绝大部分主流办公应用做了集成,这些应用可以变成无数新的 Agent,跑在这条高速路上。

我们可以想象一个场景:

过去,一个销售在写邮件,Grammarly 就像他的 “高中英语老师” 坐在他肩膀上,随时帮他改正语法错误,而未来,他的肩膀上会坐着一群人:

    CRM Agent:提醒他 “这客户只对 A 产品感兴趣,别推 B”。

    Support Agent:提醒他 “这客户之前投诉过,语气要软一点”。

    Book Agent:他最近看了一本很喜欢的书《Radical Candor》,于是把这本书做成了一个 Agent,以后无论他在邮件还是 Slack 里和他人沟通,作者 Kim Scott 就像坐在他肩膀上,可以在合适的时候引导他把沟通变得更坦诚。

    从第三方 App 的视角来看,他们也有很强的动力合作。

    他给出了一个很生动的例子,试想,如果把 Duolingo 做成一个 Agent,跑在 Grammarly 的分发渠道上,会发生什么?

    场景 1: 它看着你在网上读了三篇西班牙语文章,就自动帮你把今天的 “打卡” 勾上了——因为它知道你真学了。

    场景 2: 它会主动入侵你正在阅读的英文文章,把里面 5% 你应该认识的单词,悄悄替换成西班牙语,这样你能不知不觉完成复习。

    场景 3: 当你晚上再打开 Duolingo App 时,它不会再让你练 “餐厅点餐”,而是说:“我发现你今天在研究怎么买车,那我们今晚来练买车场景的对话吧”。

    这几乎是对 App 这个概念的重塑。它不再是一个需要被动打开的界面,而是一个寄生在所有工作流中、主动服务的精灵。

    以上就大概总结了 Shishir 的战略:Grammarly 提供 “高速公路”,Coda 和 Superhuman 提供 “大本营” 和 “核心车队”,而 Duolingo 这样的第三方就是各式各样的 “非机动车”。

    我觉得他们的策略很有意思。

    市场上一直有一个观点,最终 AI 的终局是 “得 context 者得天下”,而大厂占据了所有重要的用户 context,所以创业公司很难抗衡。

    但实际上有一个问题,用户的 context 是相当分散的。以 Grammarly 为例,他们公司内部就在同时使用 972 个 SaaS 软件,而创业公司的机会就在于它可以构建一个中立的、跨平台的 AI 层把所有应用连接起来。

    比如微软正通过 M365 + Copilot + Teams 的 bundle 建立一个 “封闭的围墙花园”,但微软只致力于让自己的封闭体系变得更好。

    而 Superhuman 能在几乎任何 App、网页和工具中运行,包括 Office、Google Docs 等大厂根据地。

    这是用开放生态的 bundle,对抗封闭生态的 bundle。

    我在想,也许新时代并不存在所谓的 “入口” 之争,因为关键路径就不是 “用户打开 AI 入口”,而是 “AI 主动跑到用户身边去”?

    Reference:

    (二) 一位硅谷顶尖 CEO 的世界观:万物皆可 Bundle

    听完播客,我发现 Shishir Mehrotra 是一个硅谷罕见的,思维 sharp 的播客嘉宾。

    于是我顺藤摸瓜地考古了一下他的经历,之后有点明白了为什么 Grammarly 会把新公司掌门人的位置拱手让给他。

    他可能是全硅谷最懂 “如何把不相关的东西打包卖出去” 的人。

    过去 20 年,他几乎完整经历了所有最成功的 bundle 实践:

    • 6 年微软:见证了 Office 套件的统治力;

    • 6 年 YouTube(产品+工程负责人) :探索了订阅制的捆绑艺术;

    • Spotify 董事:定义了流媒体音乐的打包形式;

    • Coda 创始人:打造了一个加强版的飞书文档,核心逻辑也是把文档、表格、应用全都组合进一个文档界面里。

    在他看来,bundle 是商业中最强大、但最容易被误解的策略之一。

    他对这个模式的思考非常深入和精彩!我翻完了他过去所有的访谈和文章,集合起来,给大家做一个系统的梳理。

    我们先从一个最基础的问题开始:Bundle 的用处到底是什么?

    Shishir 定义了一套很有意思的用户分类标准。

    他认为,对于任何产品,世界上只有三种人:

    • 第一类是刚需用户 (Superfan): 他们必须同时满足两个条件:① 愿意为你的产品付全价 ② 有动力主动来找你

    • 第二类是非刚需用户 (Casual fan): 上面两条至少缺一个(比如嫌贵,或者懒得找)。

    • 第三类是无关用户 (Non-fan): 你的产品对他毫无价值。

    传统的单点付费模式,其实只能赚到 “刚需用户” 的钱,而 bundle 的核心价值在于激活了海量的 “非刚需用户”。

    比如 iTunes vs. Spotify。iTunes 最开始的模式是,用户想听一首歌,就需要花 $0.99 把它买下来,而 Spotify 提供了所有音乐的打包权限,让你能听到那些你 “还算喜欢、但不愿意花钱买” 的歌,这就盘活了很多潜在需求。

    此外,bundle 最大好处是能够高效地平摊用户获取成本。

    我们通常觉得单点付费最公平,买什么付什么,但其实它背后有非常高的隐形成本。

    比如,对于一个小家电来说,它真正的物料成本常常只占零售价的 1/3。

    剩下大部分都是营销和渠道成本。

    换句话说,那个高昂的零售价,大部分是品牌为了 “找到刚需用户” 而付出的代价。

    这就是为什么 “合约机”(手机+话费套餐)的商业模式如此成功,也是为什么亚马逊能把 “免费配送”(一个成本极高的物理服务)和音乐、视频打包在一起。

    Bundle,就是在用 “非刚需用户” 的规模,来摊平高昂的 “刚需用户获取成本”。

    那到底应该怎么制定 bundle 策略,把哪些内容捆绑在一起呢?

    我的第一反应是:应该捆绑相似的产品。

    但 Shishir 说,如果你捆绑的两个产品,用户群体高度重合,那你其实是在亏钱——因为这些刚需用户本来就会全价买这两样东西,这种组合只是在给他们白送折扣。最好的情况是,他们对另一款产品有一点兴趣,但并没有多到愿意全额付款。

    比如 Spotify 的学生包曾经是一个非常成功的组合。它集合了 Spotify(音乐)+ Hulu(视频)+ Showtime(视频)。这乍一看没什么逻辑,但它的利润高得惊人。为什么? 因为调研发现,同时付费订阅这几家的学生非常少。这个包一推,Spotify 的忠实用户觉得免费看看 Hulu 挺好,Hulu 的忠实用户觉得顺便听听 Spotify 也不错。这就成功激活了双方原本不会转化的非刚需用户,双赢。

    所以,总结来说,最好的 bundle 策略,应该是 “刚需用户要尽可能错开,而非刚需用户要尽可能重叠。”

    那接下来的问题是,既然要把不同产品捆在一个包里,那赚到的钱该怎么分?

    我觉得大多数人可能和我的第一直觉一样:按使用量来分,谁被用得多,谁就拿得多。

    但这又是一个常见的迷思。

    他认为正确的分配方式是看 MCC (Marginal Churn Contribution)。它的定义是:如果把这一个产品从包里拿掉,会导致多少用户流失?

    比如,在有线电视套餐里,体育频道和历史频道的观看时长其实差不多。 但体育频道拿到的分成是历史频道的 20 倍。 为什么?因为研究表明,如果从套餐里拿掉体育频道,会导致 20 倍的人立即退订。

    这才是 bundle 的核心:使用量不决定定价,不可替代性才决定定价。

    那使用量和 MCC 之间是个什么关系呢?

    Shishir 画了一个 2x2 矩阵。

    • X 轴: Usage (使用量)

    • Y 轴: MCC (边际流失贡献)

    他认为,任何产品都可以被放入这个矩阵,而它所在的象限,几乎决定了你的商业模式。

    对于右下角的产品 (高 Usage, 低 MCC) 来说,更适合卖广告。比如短视频,用户每天能刷好几个小时,但他大概率不会愿意为每个视频出钱。这种时候就不适合直接向用户收费,更适合把他们的注意力打包卖给广告主。

    对于左上角的产品 (低 Usage, 高 MCC) 来说,更适合直接付费。比如最极端的是例子是健康保险(你希望尽可能用不上,但没它又不行) 。

    这个直接向用户收费的过程,最简单的是单买单卖,但如果能做一定程度的 rebundle,往往有更高的获利空间。

    而且,rebundle 不是一个单一层面的事,而是一个可以层层嵌套、不断演进的战略,万物皆可 rebundle。

    还是以 Spotify 为例,你会发现它的套利空间是通过三层 Bundle 撑起来的:

    第 1 层,它把 iTunes 上 $0.99 的单曲,打包成了 $10/月的曲库。

    第 2 层,它把播客加了进来。把单纯的 “音乐包”,升级为 “音频包”,占据所有和 “听” 相关的场景。

    第 3 层,它开始跨界,把自己和 Hulu、Showtime 甚至电信运营商捆绑,用自己的刚需用户去交换全世界的非刚需用户。

    这其实给我们提供了一个极其开阔的视角:我们现在的业务,能不能在现有的 Bundle 上,再捆绑一个更大的、或者跨界的 Bundle?

    尤其是当我们把目光投向现在,AI 的出现,可能会让 bundle 策略变得前所未有的重要。

    Shishir 把生产力工具分成了三个时代: 最早是 Word、Excel 的数字化时代,然后是 Google Docs、Figma 的协作时代,现在,我们进入了 Agent 时代。

    在过去,捆绑的产品(如 Office 三件套)虽然边际成本为零,但开发成本是很高的,这天然限制了巨头能添加的产品数量。

    但现在,软件的开发成本也在迅速逼近于零。

    这意味着,现在的 AI 产品是 “双重低成本”(开发成本低、边际成本低)的。

    这必然导致一个软件大爆发:

    首先是无数解绑的,小而美的单点 Agents 涌现,紧接着,平台会迅速将这些散乱的 Agent 聚合成套件。

    这对 AI 创始人的启示是:AI 领域 unbundle 的窗口期,或者说单点工具的红利期,将非常短暂。所有小的 AI 工具,如果不能迅速证明自己有独特的竞争力和不可替代性,就必然会被巨头捆绑。

    此外,AI 还会打开的一个可能性是,历史上所有的套件都是标准化的,而 AI 可以使 “千人千面的动态 bundle” 成为可能。

    未来,产品可以实时分析一个用户的个性化数据,为他定制一个 bundle 策略。这个组合里的产品、价格,对你来说是独一无二且最优的。这就直接实现了经济学家梦寐以求的 “一级价格歧视”,对每一个人实现价值榨取的最大化。

    写到这里,我想多说一点。

    Shishir 说他对 bundle 的思考已经到了痴迷的程度,以至于他老婆都受不了 “OMG,他又开始聊 bundle 了”。

    在他眼里,bundle 不仅是一种商业模式,更像是一种世界观。也就是时时刻刻思考 —— 如何把事物拆解成最小单元,然后以最妙的方式把它们重新组合起来。

    比如,医疗保险就是 bundle 理论最极致、最深刻的体现。

    医保的本质,其实是把 “健康的人” 和 “生病的人” 捆绑在了一起。健康的人付费但不使用,生病的人产生巨额花销。如果没有这个 bundle,很多人会因为一次重病立刻破产。

    而这个 bundle 又被进一步 rebundle。

    在美国,它被捆绑在了 “就业” 上(公司福利)。

    在很多其他国家,它被捆绑在了 “国籍” 上(全民医保)。

    所以,很多时候我们争论的所谓 “意识形态” 问题(比如政府是否该管医保),拆解到最后,可能只是一个策略问题:

    为了取得系统最优解,是把医保和 “就业” 捆绑更好,还是和 “国籍” 捆绑更好?

    Reference:

    (一) 读完集装箱的历史,我对 AI 非常乐观

    在技术革命里,我越来越相信一个朴素的规律:

    Unbundle 往往提供了切入市场的机会,rebundle 往往提供了捕获价值的机会,而 rebundle 的权力很多时候取决于价值链中的稀缺资源。

    比如,以内容行业为例,Ben Thompson 有一个经典的拆解,我们可以把内容传播的价值链拆分为 5 个部分:

    人类的每一次传播革命,都会解绑这个价值链上的一个环节。

    在没有文字的远古时代,这五个环节是完全捆绑的。一个想法的诞生、讲述、传递和被听到,是同一个过程。

    第一次解绑,来自文字。

    自此,“消费”这个环节被解绑了。想法可以被记录下来,让不同时空的人去领会。

    但这时,内容还必须靠人一个字一个字地抄写,这极大限制了思想的留存和传播。

    第二次解绑,来自印刷机。

    这解决了 “复制” 的瓶颈,知识第一次能像流水线一样扩散。

    但此时,“分发” 又成了核心的关卡,所以那个年代的报社、电视台是一个集权中心,非常赚钱。

    第三次解绑,来自互联网。 它让分发的成本彻底消失。

    此时,整个价值链上只剩下了最后一个 bundle:产生想法,和将它具象化的过程。

    这也是我常常感到痛苦的地方,我有很多想写的选题,但实际写出来是一个拖延的、费劲的过程,因为我必须把自己网状的思考,用线性的逻辑一个字一个字梳理清楚。

    而 AI 推动了人类传播链上的最后一次解绑。它能帮你自动生成、延展、补全,一个 idea 不必完全由你加工。

    而且,过去,一个创作者的风格很难被模仿,一个人的音容无法脱离她本人而存在。

    但现在,大模型就像是一个互联网内容的 “取色器”。我们可以一键提取一个人的音色,一件衣服的版型,一个学者的视角......并将他们重新组合。

    因为 llm 的原理就是把一切概念打散、向量化、细化到最小的颗粒度进行消化,然后以任意的抽象层级进行提取,所以,比特世界里的任何一个要素都具备了 unbundle & rebundle 的可能。

    也就是说,AI 把比特世界变成了一块可以随意拼拆的乐高。

    写到这里,我脑子里开始思考一个问题:

    “原子世界里,有没有过类似的东西,也曾被拆成一个个可以自由组合的小单元,然后引发了一些有趣的改变?”

    我立刻能想到的例子是集装箱。

    集装箱听起来很无聊,但它做的事情和 AI 在某些方面很像:

    集装箱重塑了实体经济的供应链,让货物可以在世界范围内相对自由地运输和流转。

    而 AI 重塑了知识供应链,让过去无法流转的 “隐性知识” 和 “非结构化数据” 得以在全球任意一个角落被调取和重组。

    于是,我又去翻了一些资料,读完发现,集装箱以一种我从未预料到的方式,影响了这个世界的走向。

    在集装箱出现之前,卡车、火车、轮船各有各的标准,长途运输极度不可靠且昂贵,所以企业必须选择 “垂直整合”。福特当年甚至自己种橡胶树、自己炼钢,就是因为不敢依赖外部供应链。

    集装箱和它背后的标准化协议,带来了前所未有的便利性和可靠性。

    它的一阶效应所有人都能想到:物流的效率大大增强了。

    但更重要的是它的二阶效应:

    制造业被解绑,工厂不需要再建在一起,而是可以去中国生产、去越南组装。

    当企业开始在全球范围内寻找供应商,这种竞争就迫使供应商在各自的细分领域细分领域卷到极致。你不能只是个 “还行的制造商”,你必须是 “全球做显卡最好的专家”。

    而当每一个零部件都变得高度专业化、模块化时,类似个人电脑这种复杂的产业诞生了。这是之前任何一家公司自己绝对做不出来的。

    而且,更进一步的是,集装箱彻底改变了经济增长的形状。

    GDP 不再是线性增长,而是 “分形式增长”。

    所谓 “分形”,就像是一片雪花——你放大每一个微小的局部,都会发现它有着和整体相似的结构,能无限分叉。

    过去,因为什么都自己干,企业没办法在每一个零部件上都做到世界顶尖,创新被锁死在一个公司的内部能力上限里。但如今,集装箱带来了 “局部创新”。不需要任何一家公司从头到尾重新设计整个系统,做硬盘的厂商只需要专心把硬盘做得更快、更小,而不需要去管显示器怎么造。增长开始发生在每一个微小的分叉末端。整个行业的创新速度被指数级放大了。

    很多经济学家后来回溯数据发现:

    全球 GDP 曲线在 1960 年代之后突然加速了一整个数量级。

    原本一个公司干所有零件,后来每家公司卷自己的 1 平方厘米,而每 1 平方厘米的创新,都能被整个行业捕获。

    局部创新 × 模块化 × 全球拼接 = 一个全新的增长曲线。

    想到这里,我突然会觉得 AI 的未来恐怕比我预想得要更加乐观。

    如果集装箱让 “制造” 在全球流动,那么 AI 正在让 “能力” 本身在全球流动。

    以前,一个优秀的文案、一个天才程序员,他们的能力被锁在自己的大脑里。你想调用这些能力,必须雇佣这个人,并经过复杂的沟通与磨合;在 LLM 出现之前,软件与软件之间也是不互通的。要让软件 A 处理软件 B 的数据输入,往往需要复杂的 API 开发或者人工搬运。这些都类似于集装箱出现前不可靠的长途运输。

    而 LLM 的出现,可以说创造了一种智能集装箱,所有的认知劳动都可以用高维空间中的向量运算统一表示,这些问题都可以得到解决。

    那么,接下来会发生什么?

    如果遵循集装箱的历史,我们大概可以做出这样一些推演:

    1. 未来的竞争将分化为两极:

    一端是极致的组件专家,他们把某一个细分领域(比如专门做金融风险建模的 AI)卷到世界第一;

    另一端是极致的整合大师,他们利用对人性和商业的深刻理解,将这些智能模块 rebundle 起来,构建出前所未有的新物种。就像集装箱最终成就的不是船运公司,而是苹果、戴尔、宜家这样的 “系统整合型公司”。

    2. 创新速度会呈现 “局部创新 × 指数叠加” 的爆炸式增长。 

    每一个 AI 组件每提升 10%,会让依赖它的所有业务同步提升。

    每个业务提升一点点,公司就会多腾出很多人力,这些人力又反向推动更多创新。

    我们有可能迎来一个指数进步的新世界。

    有人担心未来会没有事做,但我完全不这么想。

    当创作、开发、生产成本无限降低的时候,长尾市场不再是 “没人愿意做的小众需求”,而是一个巨型的新经济带。

    过去长尾供给为零,是因为做个性化服务的边际成本太高。

    但 AI 时代,生产成本可以大幅下降,分发精准度可以大幅提升,于是,小众需求终于可以在经济上闭环了。

    今天 Spotify、Netflix 已经证明 “长尾内容贡献了主要的观看时长”,但这还只是内容领域。

    未来我们可能会有:

    • 长尾宠物心理师 (只教授 “如何养育有轻微分离焦虑的英短猫”这种超窄主题)

    • 长尾健康方案(根据你的心率、昨晚睡眠深度和今天要开会的对象,自动调配咖啡因毫克数)

    • 长尾餐厅 (专门复刻爆款剧目里 “最让观众想吃的一道菜”)

      ....

    到时候,长尾的总和将比头部更大。

    3. 我觉得职业的分类方式会发生非常根本的改变。

    今天我们还把 “工程师”,“律师” 视为一个整体职业,

    但在 AI 的拆解下,这些职业会被分解成几十种可租用的能力。

    你不需要雇一个全能的工程师,你只需要按需调度一串能力链。

    纳瓦尔之前也讲过一个类似观点:我们认为理所应当的全职工作,其实只是历史长河中的一段特例。

    在 AI 时代,因为企业需要的能力模型变化太快,而寻找外部人才的交易成本又在急剧降低,所以未来的白领工作会逐渐走向 “好莱坞模式”,也就是大部分人只以项目制的形式合作,而不会加入一家公司。

    大家像拍电影一样,为了一个项目迅速集结。导演、灯光、场务,各司其职。项目结束,剧组原地解散,所有人各自寻找下一个剧组。

    未来,人可能并没有一个固定的职业,而是一个综合的 “向量”。

    能力 × 经验 × 兴趣 × 价值观 = 一个人的职业 embedding

    AI 会基于你的所有微小特征,帮你寻找到最合适的一份工作。

    这是我觉得未来最 exciting 的地方。

    最后,回到开头的那句话:"这个世界上赚钱的方式只有两种,要么 unbundle,要么 rebundle"

    从古至今,unbundle 是技术的宿命,而 rebundle 是商业的使命。

    技术总是倾向于把东西拆得更细、更碎、更专业。

    • 蒸汽机让体力变成了可调用的模块

    • 云计算让算力变成了可调用的模块

    • 集装箱让商品变成了可调用的模块

    • AI 让智能变成了可调用的模块...

    但价值总是在于商业如何把这些碎片,用一种独特的逻辑重新组合起来,去解决一个新的问题。

    这或许是我们这一代人的最大红利:

    在一个能力被极度 unbundle 的世界里,能够通过 rebundle 解决复杂问题的人,将拥有前所未有的杠杆。

    Reference:

    Image

    Image

    更多阅读:

    Figma 如何战胜 Adobe 等六篇 | 42章经 AI Newsletter

    为什么说 AI 还没到泡沫?等四篇 | 42章经 AI Newsletter

    P.S. 很多朋友反馈希望以邮件的形式订阅,所以我们给 AI Newsletter 的新专栏单独开了一个网站,感兴趣的朋友可以点击 “阅读原文” 通过网页版订阅 (友情提示,打开网页需要一些魔法)。

    阅读原文

    跳转微信打开