2025-04-13 20:02:00
原创 曲凯 2025-04-13 20:02 北京
其实人生也是一个强化学习的过程
曲凯:今天我们请来了国内强化学习 (RL) 领域的专家吴翼,吴翼目前是清华大学交叉信息研究院助理教授,他曾经在 OpenAI 工作过,算是国内最早研究强化学习的人之一,我们今天就争取一起把 RL 这个话题给大家聊透。
首先吴翼能不能简单解释一下,到底什么是 RL?
吴翼:RL 是机器学习这个大概念下一类比较特殊的问题。
传统机器学习的本质是记住大量标注过正确答案的数据对。
举个例子,如果你想让机器学习能分辨一张图片是猫还是狗,就要先收集 10000 张猫的照片和 10000 张狗的照片,并且给每一张都做好标注,让模型背下来。
上一波人工智能四小龙的浪潮其实都以这套框架为基础,主要应用就是人脸识别、指纹识别、图像识别等分类问题。
这类问题有两个特点,一是单一步骤,比如只要完成图片分辨就结束了;二是有明确的标准答案。
但 RL 很不一样。
RL 最早是用来打游戏的,而游戏的特点和分类问题有两大区别。
第一,游戏过程中有非常多的动作和决策。比如我们玩一个打乒乓球的游戏,发球、接球、回球,每一个动作都是非标的,而且不同的选择会直接影响最终的结果。
第二,赢得一场游戏的方式可能有上万种,并没有唯一的标准答案。
所以 RL 是一套用于解决多步决策问题的算法框架。它要解决的问题没有标准答案,每一步的具体决策也不受约束,但当完成所有决策后,会有一个反馈机制来评判它最终做得好还是不好。
因此,RL 其实更通用一些,它的逻辑和我们在真实生活中解决问题的逻辑非常接近。比如我要去美国出差,只要最后能顺利往返,中间怎么去机场、选什么航司、具体坐哪个航班都是开放的。
其实人生也是一个强化学习的过程,因为你有很多种选择,但没人告诉你通往成功的路具体要怎么走。
曲凯:这个点很有意思!不过对于强化学习来说,最终的产出是有一个明确的判定标准的,但人生却没有一个明确的好坏判断,对吧?
吴翼:这两者确实有一点差别,RL 的前提是你知道奖励函数到底是什么,比如打游戏,赢了就是好,但人生并没有这样的标尺。
所以我觉得人生有一个很好玩的地方是,你需要花很多时间先探索自己的奖励函数是什么,很多人可能努力了很长时间,最后却发现找错了奖励函数。
曲凯:是。另外我记得 RL 是 10 年前就被讨论过的概念,为什么现在又火了起来?RL 和 LLM 是怎么结合起来的?
吴翼:最初,RL 和 LLM 并没有什么关联。LLM 的本质是 next token prediction,每次只预测下一个词是什么。当我们给 LLM 看过足够多的数据后,它可能就具备了通用性和泛化能力,可以从中找到规律,预测一句话后面要接什么。用一句俗话来说,就是「熟读唐诗三百首,不会作诗也会吟」。
但这种训练方式有一个缺陷,就是 LLM 不会遵从指令。
这也是为什么 GPT-3 刚发布时,很多人觉得它不好用。举个例子,如果你对 GPT-3 说「解释登月」,你期待它给你介绍一下阿波罗计划、嫦娥计划等等。但可能它见过的数据都长成「解释登月是什么」这样,所以它会回你一个「是什么」。
曲凯:对,我们一直说 LLM 的本质是个概率模型。
吴翼:所以为了解决「指令遵从」的问题,OpenAI 第一次在 InstructGPT 中将 RL 和 LLM 结合了起来,然后发现效果还不错。
我们知道 RL 需要一个明确的任务,一些可用的决策动作,和一个 reward。还用刚刚的例子,OpenAI 的做法是把 RL 的任务定义成「解释登月」这个指令,决策是模型看到这个指令之后所说的每一个词,reward 就是模型最后给出的答案是不是和指令的需求一致。
曲凯:要怎么定义「一致」?
吴翼:这是一个非常好的问题。大家发现没法定义,还是需要人来判断模型输出的答案哪个更好,或者写一些好的答案作为范本。最后是用人为定义的这些数据训练出了一个 reward model,也就衍生出了 RLHF (Reinforcement Learning from Human Feedback)的概念。
曲凯:去年 RLHF 这个词非常火,但有人会说 RLHF 的本质是对齐,而不是 RL。那么大家今天讲的 RL 和 RLHF 到底有什么区别呢?
吴翼:这两者确实不太一样。RLHF 到去年为止的主要价值在于让 LLM 好用,好比让一个聪明的清北学生经过实习之后能变成一个很能打的员工。
它不存在 scaling law,也不能让 LLM 本身更聪明,但是 RL 可以。
这是怎么实现的呢?就是模型能遵从指令后,大家又在寻找除了预训练之外,能让模型变得更聪明的第二曲线。最后 Ilya 想到,LLM 在收到一个指令后会立马输出答案,但实际上人类在处理复杂问题之前往往会先思考。那如果能让 LLM 学会「慢思考」,是不是就能变得更聪明?
实现这一点的方法有很多,最终 OpenAI 发现了一种简单有效的方法,就是让模型「多吐点字」。收到指令后没必要着急给出答案,可以先吐 10000 个字再作答。这个吐字的过程就相当于思考,思考时间越长,答案就越准确。
这个过程就叫 inference time scaling。
曲凯:为啥 LLM 吐的字越多就越聪明?
吴翼:这件事到今天为止还没有一个理论能解释。所以从有「慢思考」的想法到真正实现它,OpenAI 其实花了一年半到两年的时间,这个过程需要极大的坚持。
总之 OpenAI 摸索出这个范式之后,问题就变成了要怎么训练一个能吐那么多话的模型。
这时又轮到 RL 登场了,因为吐字的这套逻辑和打游戏的逻辑非常像,我们只期待模型最后能输出正确答案,中间它吐的那几万个字是什么无所谓。
那新的问题又来了,要怎么评估模型慢思考的过程中产生的这些数据?因为和 RLHF 不同,RLHF 的输出可能只有几百个字,所以我们可以人为标注和排序。但是 RL 的探索过程非常开放,在慢思考时可能会输出几十万个 token,人工标注是做不过来的。
最后 OpenAI 用了一种非常简单的方式来解决这个问题,就是只用有标准答案的问题去训练模型的推理能力。比如解方程,如果正解是 x=3,那模型写 x=3 就正确,写 x=4 就不对。至于它是怎么推出的这个答案,我们不管。
曲凯:那如果只看最后的答案对不对,思考过程还会有做得好与不好的区别吗?
吴翼:有区别。我觉得 Anthropic 就做得特别好。
因为我们很难限制模型的思考过程,所以模型经常在一些很简单的问题上也要思考很久。比如有人会抱怨,问 DeepSeek「1 + 1 等于几」这么简单的一个问题,它也要想半天。
相比之下,Anthropic 在这件事上就处理得比较好。你问 Claude「1 + 1」它就直接出答案,你问它一个复杂点的问题,比如说算个 24 点,它才想上个 10 秒。
但正是因为我们对模型的思考过程不做限制,所以模型也会衍生出一些很有意思的泛化能力。比如我们问 R1 一个没有标准答案的哲学问题,它想一想也能讲得头头是道。
曲凯:这是怎么做到的?
吴翼:首先模型训练时本身就会产生一定的泛化能力,但这还不太够。所以当我们用大量有标准答案的理科问题训完模型之后,还会用一些文科训练把它往回掰一掰,不然这个模型就太理性了。
曲凯:就有点 Nerdy (笑)。
吴翼:是哈哈,所以你看 DeepSeek 的那篇 paper,其实他们最后是把一个 Nerd 模型和一个具备人文属性的 base 模型合了起来,又做了 SFT 和 RLHF,最终才有了比较平衡的 R1。
曲凯:那 R1 之后,现在整个行业对 RL+LLM 的最优路径形成共识了吗?
吴翼:国内一些做得比较好的团队,比如豆包和 DeepSeek,肯定还在探索各种新的可能性。其它团队还处在一个追赶的阶段,虽然他们可能也有自己的思考。
而海外的很多团队都有不同的 belief。拿 OpenAI 来说,他们的 RL 已经从纯推理进化到 Agent 范式了。
也就是从 InstructGPT 时传统的单轮交互,跃迁到多轮交互,而且能自由上网,与虚拟世界互动,这是一个非常大的进步。
曲凯:Agent 这个概念,我记得 23 年初就有了,也出现了 AutoGPT 等等,但如果我们现在回头来看,是不是那个时候还不具备 Agent 的基础?Agent 是从 RL 起来之后才可以开始做了吗?
吴翼:Agent 最核心的能力在于对文本之外的世界产生影响。当年的 AutoGPT 和 LangChain 等产品其实已经具备这种能力,但它们实现这一能力主要依赖 Prompt Engineering,你必须把每一步拆解清楚,让它按部就班地照做。而现在有了 RL 之后,像 Operator,Deep research 就可以自主探索,端到端自己完成任务了。
曲凯:如果 RL 已经能很好地完成复杂决策了,那能不能抛开 LLM,只用 RL 来做呢?
吴翼:OpenAI 很早就试过这么干,但屡试屡败。
第一次是 16 年的一个叫 World of Bits 的项目,他们试图通过 RL 来完成在网页上订机票的任务,失败了。
第二次是在 20 年,他们的机器人团队想通过图像输入来控制机器人整理桌面,又失败了。但这次失败后,另一个团队在 RL 中引入了一个预训练模块,就把这件事给做成了。
于是大家发现,仅仅通过 RL 很难训练出一个通用模型,虽然 RL 有很强的决策能力,但它的理解能力不足,需要有一个经过预训练的模型提供一些基础的理解能力、记忆能力等等。
所以 LLM 和 RL 之间是乘法关系,二者相乘才能实现最后的智能,缺一不可。
曲凯:这样捋下来其实很多东西就串起来了,之所以 OpenAI 能把 RL 先做起来,是因为他们一开始就在做 RL,后面把 LLM 和 RL 结合起来是一件很自然的事情。
那如果理解能力是交给了大语言模型或者多模态模型负责,生成能力呢?这个和 RL 有关系吗?
吴翼:RL 和生成之间也没有太大关系。另外我一直认为生成容易,理解难。
曲凯:我前段时间听到过一个非常反常识的说法:理解一张图片所需的 token 其实比生成要高。
吴翼:对,需要的 token 多正是因为理解是一件更难的事情。
举个例子,如果你收到了一个俄文指令,但你根本不会俄文,那你可能自己悟一辈子也悟不会。而如果你已经懂俄文了,那再用俄文培训你做任何事情,用俄文写诗,买票,都不会那么困难。
曲凯:所以相当于 LLM 负责理解跟记忆,RL 进来之后给 LLM 加上了长程思维能力,并且负责决策跟执行。那能不能说 RL 和 LLM 放到一起就已经完整了呢?
吴翼:我只能说我们现在看到的最好的 Agent 模型确实是这样整合出来的,但我觉得这个范式和 RL 算法都还有很大的发展空间,因为这个路径才刚刚起步,RL 的 scaling law 也才刚刚开始。
曲凯:具体会怎么发展?现在大家都觉得预训练的 scaling law 已经不太 work 了,RL 会有多大的发展空间?
吴翼:这里要稍微更正一下,预训练的 scaling law 并不是不 work 了,只是收益变小了。
现在预训练还有两个重要的方向,一个是数据,比如如果要强化多模态的理解能力,那就需要大量的图文混合数据,而且图文间需要有比较好的逻辑关系。这类高质量数据网上是远远不够的,所以就需要发展合成数据。
另一个方向是把模型做小,尽量蒸馏出一个更小规模、但具备同等能力的模型。因为 RL 模块已经足够复杂,在如此高的复杂度上,LLM 规模越大,训练的不稳定性就越高。很多人总说蒸馏可耻,但实际上如果能做到像 o3-mini 那样的程度,不仅不可耻,反而非常厉害。
对于强化学习来说,首先它的 scaling law 还处于初始阶段,斜率足够高,决策能力还会持续提升。
其次,不同的大模型公司在 RL+LLM 的路径上走向深水区之后,方向上也会出现分化。目前主要有三个大的分支:
1) 编程,典型代表是 Anthropic。
2) Agent,典型代表是 OpenAI。
3) 通用的泛化能力 (比如泛化到哲学、文学等领域),典型代表是 DeepSeek。
曲凯:强化学习做得好与不好,在用户侧的感知主要是什么?
吴翼:首先可以判断准确率。不管是做数学题,还是写分析报告,或者是在网站上完成一些操作,准确率都是可以验证的,只不过有的可以通过 benchmark 来验证,有的还是要看人的体感。
此外,多轮交互的体验也特别重要。举个例子,当我们让模型协助 debug 时,它通常会直接开搞。但 Claude 就很不一样,它会问问题,比如你装的环境包是什么之类的,用户体验就非常好。
曲凯:那这个训练过程是怎么实现的呢?我感觉预训练的训练过程比较好理解,无非是喂更多的数据,或者做些算法调优,RL 需要做什么?
吴翼:对于强化学习来说,基建最最重要,其次是数据,再其次才是算法。
基建可以理解为强化学习的框架,它决定了你的迭代效率。比如我们之前做过一版框架,以前训练 7B 模型需要一周,而迭代了框架版本之后,只需要两天就能把模型训一遍,这样一周就多了三次迭代试错的机会。
数据的作用很好理解,就好比学数学,差的老师只会让学生狂刷小学题,刷了一堆也没用,而好的老师则会针对性地出题,可能只需要两道题,就能让学生掌握某个知识点。
最终的效果是各种因素耦合的结果,而且也存在很大的不确定性。
强化学习很像炼丹,它是一门玄学,你经常会发现,它一直涨势很好,但是某一刻莫名其妙就不涨了,或者说一开始不涨,突然开始猛增。
曲凯:大模型现在主要是两条主线,一条是 LLM 加强理解能力,一条是 RL 加强决策能力。那对于大模型团队来说,该怎么设计相应的组织架构呢?
吴翼:最好的情况就是这两条线别分得太开,因为 RL+LLM 的范式非常复杂,需要团队中的每个人都有破圈意识,最好什么都懂一点,才不容易出问题。举个例子,一个做 RL 后训练的人,也得懂一些预训练的知识,否则 Ta 没办法判断拿到的预训练模型缺什么能力、少什么数据。
但确实不同范式之间差别比较大,所以可能至少要有一个预训练团队和一个后训练团队。再往下分工,我觉得大致可以通过目标来区分,比如可以有多模态、RLHF 分支等等。
曲凯:现在很多做 Agent 的公司都想配一个懂 RL 的人,你觉得这是必要的吗?
吴翼:我觉得很 make sense。虽然现在 RL 的门槛还很高,但一两年内总会降下来,未来很可能大家都需要用 RL 做一些简单的微调,先储备一些人才总是没错的。
曲凯:但未来大家真的需要自己做 RL 吗?你看前两年大家都在讨论应用公司到底要不要自己做预训练,现在基本上大家都默认使用开源模型就足够了。那如果过两年开源模型的 RL 水平也跟上来,大家是不是也可以直接用现成的?
吴翼:这就是创业公司自己需要思考的问题了。
且不说这件事的答案到底是怎样的,我认为有一点是比较明确的,创业公司不该有终局思维。
相反,创业公司的机会恰恰在终局到来之前。Manus 就是一个特别好的例子,在市场上还没有太多类似产品的时候,他们以最快的速度做出了一个可用的产品,抓住了机会。
现在 AI 发展得这么快,如果你真的去考虑终局,很可能会陷入一种无意义感,觉得世界上没有你的机会。如果你一定要追求笑到最后,那还不如趁早投奔字节(笑)。
曲凯:是。那从 Alpha Go 到现在,大家讲 RL 已经快 10 年了,为什么相关的人才还是这么稀缺?
吴翼:主要还是门槛太高了。你去看论文引用数,研究 RL 的,会比研究 NLP (自然语言处理)、CV (计算机视觉) 的,少一个数量级。要想把 RL 环境配好、跑完、能复现结果,就会筛掉一大批人,而且 RL 的数学也更麻烦些。
另外相比 NLP、CV 来说,RL 在工业界大规模使用的机会比较少,大家只能在学校里做,没有一个工业级的人才池,所以人才体量也会小很多。
最后就是强化学习对工程的要求非常非常高,所以导致大家也没有好的基建条件去做强化学习。
所以其实我回国之后做了很多开源的工作,就是希望能让更多的人把 RL 用起来。
曲凯:你们最近就联合蚂蚁研究院新发了一个强化学习的开源框架 AReaL-boba。
吴翼:对。前面提到过,框架其实就是基建,是 RL 训练和迭代的基础。但开源的 RL 框架本就不多,用起来可能也不太顺手,所以我们就自己搞了一个。
我们的这个框架用起来比较稳定,速度也比较快,把 7B 的模型做到了 SOTA 标准。
曲凯:也欢迎大家去 GitHub 上关注这个项目。
那如果国内的公司现在想招或者培养一个 RL 人才,该怎么做?
吴翼:这很难讲,因为每个团队的风格和所处阶段都不太一样。如果非要给一条建议,我会觉得「动手能力」和「不给自己设限」这两点很重要,现在开源的项目和相关的资料信息非常多,所以关键还是要看这个人是不是发自内心地想学习,愿不愿意动手去实践。
曲凯:最后,我想再回到开头你提到的「人生就是一场强化学习」这个点。你研究了这么多年 RL,是不是在自己做决策时也能获得一些参考?有没有什么可以泛化到人生中的经验?
吴翼:我有一系列围绕 Diversity-driven RL 的工作,还蛮有参照意义的。
传统的 RL 只在乎结果,所以一旦发现能稳赢的策略之后,就会无限重复这个套路。
但人类不是这样思考的。人虽然也想赢,但会想换个赢法。就比如踢足球,虽然我知道带球单刀特别好进球,但总这么踢我会觉得无聊,就想换头球试一试。
人之所以为人,是因为人都是 Diversity-driven 的,所以才有了截然不同的经历和多姿多彩的人生。
曲凯:我们之前录过一期德扑主题的播客也聊过类似的一点,就是顶尖的牌手越来越趋同,一个比一个像 AI,然后这个游戏就变得没意思了。
吴翼:对。所以我们试着给 AI 强化学习的过程加了一个限制条件,不仅要求结果的质量,还要求结果的多样性——每次都要找到一个新的解决路径。结果模型自然而然地发现了一些很好玩的东西。
映射到人生中,我发现现在很多人都倾向于选择风险最低的路径。我跟学生聊天的时候就发现,很多同学在做升学决策时,考虑问题的角度往往是为了「求稳」,比如有的同学觉得去美国可能会有签证风险,于是就会选择国内保研。
但我觉得人还是要追求「熵值最大化」的生活方式。
曲凯:不过强化学习是可以无限试错的,而人生总有一种滋味叫「后悔」。
吴翼:是有这个差别,但我觉得还是要勇敢一点,很多人觉得人生只有一次,我觉得不是,人生怎么着也能试错个三四次,尤其 20 岁的年纪,你做任何事情都是对的。
前提是你要敢于选择,多跳出去看看,不要老局限在 local optimum (局部最优解) 里。比如我当年在伯克利读书的时候,如果不是我自己主动地去敲了隔壁另一个导师的门,我可能最终不会拐上强化学习这条路。
曲凯:是。最后我还想和你探讨一下奖励函数这件事。你开头说人很可能奋斗了一段时间,却发现最终的 reward 并不是自己想要的。那在 RL 里会遇到类似的问题吗?有可能中途改变奖励函数吗?
吴翼:在传统 RL 里不大行,但因为我研究多智能体强化学习和人机交互,经常要面对没有标准问题和清晰目标的情况,所以就需要训练 AI 主动搜集信息、探索正确的奖励函数的能力。
比如我们做过一个能和人一起玩 Overcooked(一个厨房经营游戏)的 AI,在人机合作的过程中,这个 AI 需要猜出人想干嘛,然后和人一起打配合。那在这个过程中 AI 就必须大胆尝试,在尝试中得到各种信号,然后揣摩出人的意图,也就是自己的 reward 到底什么。
人生也是一样,要想找到自己的奖励函数,首先需要多主动探索,先和世界交手个三百回合。
2025-03-30 22:26:00
原创 曲凯 2025-03-30 22:26 北京
「做时间的朋友」不再是唯一的答案?
曲凯:最近我又来美国了,发现市场真是变化太快,这边突然有人开始提到一个所谓「东升西落」的叙事。
莫傑麟:对,二级市场今年 1 月以来一直在演绎这个剧本,但其实 24 年就已经在为这个叙事做铺垫了。
24 年美国的宏观环境和各项经济数据都比较好。他们一方面非常重视 AI,在所有前沿创新上也一直绝对领先,另一方面又凭借美元的强势吸引着全球的投资。
但今年 Trump 上台之后,情况发生了变化。
Trump 在关税、财政支出上都做了很多调整,一套大刀阔斧去杠杆的动作下来,大家关注的重点从 AI 转向了宏观问题,也对未来多了很多不确定性。
又因为过去几年,美国股市一直走高,投资人的预期已经被拉得很满。所以大家现在极度厌恶风险,股市就会出现剧烈的震荡。
而今年的中国刚好是美国的镜像。
其实国内的股价从 24 年开始就有回升,但并不明显,直到今年 DeepSeek 的发酵才彻底引爆。
归根结底,还是因为大家之前对于中国科技行业和宏观环境的预期都太低了。
曲凯:对,我觉得「东升西落」本质上是一种价值评判的回归,之前大家确实过于低估国内 AI 了,而 DeepSeek 就是一个典型代表。
所以虽然 DeepSeek 发布已经有一阵了,我还是很想听听你对它的看法。
莫傑麟:我觉得 DeepSeek 非常能说明一个问题,就是中美对 AI 的关注重点完全不同。
美国从 22 年 Q4 至今的核心叙事一直是 scaling law,是 AGI,只不过前缀从 pre-train 变成了 post-train,最近又变成了 compute time。
但中国一上来的重点就是应用。我们关注的是 PMF,是投入产出比。像字节很长一段时间都还是会关注豆包的日活、月活这些指标。
那 DeepSeek 出来之后,最核心的亮点就是通过工程优化极大地降低了成本,而成本对应的就是 PMF。成本越低,就越容易在市场上得到应用和推广。
曲凯:对。美国一直在讲的就是堆更多的卡、灌更多的数据、花更多的钱,从而获得更好的结果,不过实际上过去一年他们模型能力的提升似乎是不及预期的。
而当美国市场还想继续讲堆高成本的故事时,DeepSeek 直接用极低的成本,交付出了更好的结果。
莫傑麟:对。说来也很妙,大家一直都在期待 GPT-5,但 OpenAI 并没有如期在 24 年年中交付出来。大家对中国 AI 一直没什么预期,反而出了 DeepSeek。
曲凯:是。那除了 DeepSeek,最近「东升」叙事里还有一个热点就是 Manus。
Manus 刚出来的时候爆火,很多人都在夸,但后面又很快变成很多人在骂。你对这件事是什么感受?
莫傑麟:我最大的感受还是中美的 AI 叙事千差万别。
与美国不同的是,中国「应用叙事」中很重要的一点就是怎么能覆盖到更多的用户,而 Manus 团队就是按照这个思路去做事的一个典型,比如他们的联创之一 hidecloud (张涛) 在硅谷做分享的时候,主要讲的一点就是「AI 能不能做给从来没有用过 AI 产品的人」。
所以这个团队其实每天考虑的问题都不在硅谷主流的 scaling law 叙事之内,甚至也没考虑过把 intelligence 作为产品的重点,而是在想办法让更多的人更好地用上 AI。
从这个角度看,其实这个团队在硅谷非常稀缺,我也很欣赏他们。
曲凯:是。我也可以讲下我的视角。
其实不止 Manus 一夜爆火,从去年开始,全球 AI 产品都有一种脉冲式增长的势头。经常是出来一个东西大家就疯狂转发,然后很快收获大量用户,像 Cursor、Devin、Windsurf,包括 DeepSeek 等很多产品都经历了这样的过程。
比如 Cursor 前几天还在讲,他们到目前为止都是 0 投放,团队也仍然是小几十个人,但却用非常低的市场成本做出了非常高的 ARR 收入。Manus 其实也在这个路径上,我相信今年后面几个月也持续会有这样的产品出来。
这种脉冲式发展背后主要有两个原因。
第一,大家不约而同地选择了 Prosumer 这个人群。这群人既具备 C 端的属性,又具备一定的付费能力,而且能够在各个平台上通过分享转发来把一件事带火。
第二,AI 的热度太高,但真正好用的 AI 产品却太少。所以只要有一个还不错的产品出来,很快就会被网友们推上去。
Manus 就是一个典型的被推上去的案例。
但后来,有些人我觉得夸的有些用力过猛,把 Manus 架到了 OpenAI 的对立面。
此前承担这个角色的一直是 DeepSeek,但如果要说 Manus 是中国的下一个 DeepSeek、是中国的 OpenAI,这个坐标系就有些错乱,因为 Manus 本身就没有 AGI 的梦想,他们的梦想是做出一个更好的产品,让 AI 发挥出更大的效用。
莫傑麟:对。我发现后面一些人攻击 Manus 时会强调两点,第一它不是 AGI,第二它的影响力不如 DeepSeek。
但其实 Manus 和 DeepSeek 根本就是不同的物种,没有可比性。
曲凯:对。我还想补充一个有意思的观察。
我发现 DeepSeek 能在国内火起来,一个很重要的原因是一些海外大 KOL 都在讨论它,而很多人批评 Manus 时则是会说「海外没人讨论,那它肯定不行」,就感觉国内目前依然没有摆脱「被海外认可就是牛、没被海外认可就不行」的思维。
所以 Manus 事件可能会造成的一个影响是,未来如果有国内团队要推一个新产品,很可能会选择在海外先立住,然后再打回国内。就有点像早年消费品的逻辑,大家要想在国内卖得好,就得先出海做个假洋牌子,但这并不一定是件好事。
曲凯:讲完这两个标志性的产品,我们再聊聊「东升西落」在二级市场的表现吧。当下的二级市场具体呈现了一个怎样的趋势?
莫傑麟:二级市场由两部分组成,一是预期,二是实际的趋势。
先说预期。我们开头有说过,这波 DeepSeek 之所以对美国市场的冲击这么大,主要就是预期在作祟。美国投资人一度把 AGI 的预期拔得非常的高,体现在市场上就是股价非常高。
那现在大家对中国市场的预期有没有被拔得很高呢?
如果直接从股价上来看,大家对中国市场的预期并不低,但还是没有美国积累了两三年的预期高。我觉得一个准确的表述是,大家对中国的预期在经历一个从 0 到逐渐填平的过程。
曲凯:那当下大家对于国内市场的预期具体是什么?
莫傑麟:海外的长线投资人对中国的预期还是我们处在一个后地产时代。他们更多还是关注我们的化债问题、消费问题,AI 只是其中的一个子命题,即使他们看 AI,关注的重点也是 AI 能不能带来产业趋势、能不能创造更多的就业和消费、能不能让经济逐步变好。
本土以及全世界主要看科技的投资人,对于中国资产、尤其是互联网和 AI 相关的资产的预期,则是我们现在是不是相当于 2023 年的美国。我们 1 月发布 DeepSeek 的这个节点,刚好对应着美国当初的 ChatGPT 时刻。
ChatGPT 发布之后,迅速引起了美国核心互联网公司对于算力的 FOMO,导致一批头部大厂带着一部分的创业公司展开了 Capex 和人才的投入,进而对美国经济也产生了实际的影响。
所以现在这批投资人会很关心 DeepSeek 出来之后国内头部大厂的反应。
曲凯:按照国内 A 股的逻辑来讲,如果一家公司要提高前期投入的成本,却无法立刻带来明显受益,那一般股价好像会跌才对,但阿里云刚说要加大对 AI 的 Capex 投入,股价就马上大涨。
这是不是也说明大家对国内 AI 的预期发生了变化?
莫傑麟:你说的这个点非常准确,这就说明国内的预期在经历一个从坏到好的转折。
曲凯:就是大家觉得大厂敢投入了,至少是一件好事?
莫傑麟:对。其实像阿里、腾讯这样的公司,在一段时间之内我们都已经把它们当成价值股了,意思是我们会要求分红、会要求看现金流,但是我们可能不会特别要求它们有很宏大的战略和业务创新的目标。
曲凯:对,之前大家就开玩笑说国内都开始把互联网当作传统产业了,但其实美国的那些互联网公司还在屡创新高。
莫傑麟:所以 DeepSeek 发布之后让全国人民和这些互联网公司都过了一个好年,因为它把 AI 从战略投入直接拔到了产业趋势的高度。
曲凯:是。然后还有一件事也挺有意思,就是过去两年一直缺位的腾讯突然开始发力了。
莫傑麟:腾讯在 DeepSeek 这波中可能是一个最大的赢家。
原来头部的互联网公司想入局 AI,都要经历一个 6 到 12 个月的模型军备竞赛,得花时间组团队、搭集群、训模型。但因为 DeepSeek 是开源模型,所以腾讯直接跨过了这个阶段,一步迈向应用,然后再回过头来在 DeepSeek 的基础上去训自己的模型。
曲凯:对,这次 DeepSeek 出来,好像给腾讯在内的一批公司,集体送了一张跳级卡,让他们能直接在 DeepSeek 的基础上从第二关开始搞。
那关于预期我想最后再讨论一个问题。美国 AI 已经经过了两年的预期和验证,也付出了超多的成本,但目前为止并没有见到大规模的收益和回报。在这样的参照下,现在大家对国内市场到底还在预期什么?还会有多少耐心?
莫傑麟:国内现阶段其实非常像 23-24 年的美国。
23 年为什么美国的互联网大厂涨得很好?
因为只有大厂才能搞 AI。当时美国的利率很高,所以宏观环境并不支持创业公司去做战略性投入,但是大厂却有很大的优势。
首先大厂有很强的用户的基础和业务场景,能讲清楚自己为什么要投入 AI,而且 AI 还能反过来促进它们原有业务的发展,比如 AI 对 Meta 的广告和搜推就起到了很好的作用。另外 Meta 拥抱开源、微软拥抱 OpenAI、亚马逊拥抱 Anthropic 这些故事,也能帮这些大厂在这波 AI 中抢占身位。
我们把这些基于现有业务场景和财务能力就能做的事情叫做简单题。25 年国内最重要的预期就是让大厂先把这些简单题做完。
曲凯:就是说国内还处在一个补课的阶段。
另外我想问,经过国内硬科技这几年来的发展,以及 DeepSeek 带来的性能和研发能力的提升,未来国内芯片「卡脖子」的问题还会是问题吗?
莫傑麟:我觉得现在中美在模型上的分工是有区别的。
中国可能更多会承担起主动探索商业化的作用。这条路径对卡的需求主要在于推理,所以「卡脖子」的问题不会太严重。
首先,国内的推理卡确实有非常大的进展,大家去看寒武纪的股价就能看出来。今年也会上市很多新的推理卡,可以说国内现在呈现出了一种「百卡齐放」的局面。
虽然这些卡的性能短时间可能还是不如英伟达,但至少是可用的。因为推理和预训练对卡的要求不一样。预训练需要有大集群,所以互联通信技术就很重要,而英伟达在这方面确实有垄断。
但推理不需要做互联,所以哪怕卡的性能差一些,也不会有那么大的影响。
当然如果我们也要追求 AGI,可能暂时就还是得依赖英伟达来建大集群。
曲凯:明白。所以这是预期的部分。
你前面说二级市场除了预期,另一个核心就是趋势。那这方面能不能再给大家拆解一下?
莫傑麟:趋势又包括产业趋势和宏观趋势。
也就是我们 23 年底那期播客里讲过的明线跟暗线,前者指的是产业趋势,是能拉起经济走势的新兴的发展机会;后者指的是像房地产、债务、经济周期这些和宏观环境相关的问题。
国内的宏观趋势和 23 年底相比还是有蛮大的变化。23 年底的时候,国内面临着地产转型之后的冲击,一方面居民的消费信心在减弱,另一方面,当地产不再成为主要的经济支柱后,地方债务和创收也成了很大的问题。当时我们提出的解法是说要重新锚定和解决更长期的问题。
什么是长期的问题?一是人口,二是要找到新的经济转型突破口和产业结构。
当时我们的预期是这些问题很难在短时间内得到解决,但现在我们其实已经解决了一部分,比如居民的消费信心在改善,比如出了 DeepSeek 这样一个好到完全出乎我们意料的模型,再比如上海的房价也已经创下这几年的新高。
所以目前从宏观趋势上来看,国内 24 年 1 月份可能就是信心的谷底,之后一直在缓慢匀速地提升,直到 25 年 1 月份被 DeepSeek 点燃。
然后我觉得更值得讨论的是产业趋势。
其实不止是互联网和 AI,部分「专精特新」的公司,比如一些储能公司、轴承公司,以及很多消费公司都呈现出了一种顺周期的趋势。顺周期指的就是这些公司爬出了谷底,并且通过出海或者是技术突破等方式,在自己的上升周期中确立了行业的领先地位,其中一个典型代表就是宁德时代。
所以无论是从宏观趋势还是产业趋势来看,可能我们无法直接得到「西落」的结论,但确实能看到「东升」的势头。
曲凯:那今年 A 股还会不会继续涨、美股会不会继续跌?
莫傑麟:很多人现在会把 AI 及互联网的发展情况和市场趋势划等号,但我个人的感受是,AI 我们虽然很看好,但它对中国资产的重要性没有美国那么高,包括前面也提到过,我们和很多海外长线投资人聊的时候,发现他们更多关注的还是中国的消费、就业、经济是不是真的能立得住等等这些问题。
从这个角度上看,我们还是得回到暗线的问题上。
解决暗线问题的一种方式是「放水」,也就是用加杠杆的方式来迅速地提振经济,而这个周期里没有采取这种「大水漫灌」的经济政策,也就意味着这个周期相对来说时间会比较长,所以大家还是需要更有耐心。
另外有一个值得关注的现象是,这些年板块轮动的速度在变得越来越快。
投资人可利用的工具在变多,大家关注新闻的速度更快、渠道更广,对信息的处理也更深,导致大家达成共识和演绎的速度越来越快。
曲凯:但如果市场对于一件事的反馈过快,会不会变相地激励一种蹭热点、讲故事的经营方式?
莫傑麟:一定会。股价毕竟是一个很重要的信号,讲好故事,股价上升,对企业经营就可能带来一些利好。
比如在高利率的周期里,你如果能被投资人认可,那你就能更容易地利用这个窗口期来做一些收并购。如果公司的股价足够高,那员工的信心也会更高,用期权来吸引人才时就更有优势,资金成本也更低。
曲凯:我最近还有个很大的感受,这种「东升西落」的叙事真是来得猝不及防。过去两年大家都非常悲观,结果春节过完一下子就彻底翻转了。
大家看待世界的变化频率已经变得这么快了?这是未来的常态吗?
莫傑麟:频率就是加快了。
但我们要尊重一个现实是,市场最终还是取决于一线的企业能不能真的做出产业趋势。
曲凯:是,我们今天一个核心的结论就是未来会持续有高频率的波动,但是波动最终到底是向上还是向下,还是取决于每家公司最后做出来的东西。
但这就又引出了一个问题,当把时间线拉到足够长以后,有没有可能这些小波动就是可以抹平的?
莫傑麟:不排除这种可能性。
但是今天我们说的高波动不仅来自于交易行为,还来自于世界的变化,比如美国跟俄罗斯的关系去年还很糟糕,今年突然就变好了。
所以现在越来越多的人不再把「做时间的朋友」看成那个唯一的答案。
曲凯:对于 25 年资产走势,你还有哪些可以分享的建议或看法吗?
莫傑麟:我觉得可以分为 AI 和非 AI 来看。
AI 确实是走到了一个值得大家投入更多精力去研究的阶段,因为现在硅谷、纽约、中国在讲的 AI 叙事,可能是三个不同的叙事,大家关注的点非常不一样,这就会呈现出很大的波动,而波动背后就是机会。
我个人今年会主要关注三个问题:
(1)模型在产业链中的价值。很多人,包括我在内,第一反应都是闭源模型的定价权在减弱。但事实会往哪个方向发展还有待观察,因为一个客观情况是,现在还能持续投入资源去训模型的公司越来越少,也就是说大模型的竞争格局在慢慢收敛。
(2)原生应用。除了 Devin、Operator、Manus 这类 Agent 应用,最近 Google 也默默出了很多工具和产品,包括海外的声音模型也进展很快。我会很关注这些产品今年会呈现出什么样的趋势。
(3)垂直应用。Ilya 之前就提到过,他会特别关注 AI 在生物制药里的应用。今年我也会 follow 医疗、金融、保险等行业会出现哪些垂直 AI 产品。
另外非 AI 领域其实也有很多值得研究的公司,比如美国生物医药行业、航空航天业的公司,国内出现在民营企业家座谈会上的公司等等。
曲凯:我还想和你讨论一个问题,这波 AI 里很多人都在说最赚钱的方式是炒股,确实很多价值的驱动和最终的呈现也都落在了那些上市的互联网大厂上。你怎么看这个问题?
莫傑麟:我对这点的感受非常直接。
之前很多 CEO 不知道该在哪个点上卖自己的股票,但是这几年我听到的故事恰恰相反。我发现这波 AI 从业者很知道自己该怎么做投资。
举个例子,24 年初的时候,专业的投资机构还没关注到光模块,但一些云厂商的 CXO 已经意识到了光模块在英伟达下一代技术中的重要性,所以开始大举买入相关的公司。再比如 hidecloud 曾经反复表达过他对算力很悲观,但他自己做了 Manus 之后,发现 agent 对 token 的调用量呈几何级增加,对算力的看法就发生了变化。
所以你会发现这波从业者对产业的判断更有体感,而且因为很多投资人会找他们聊,他们对投资人的预期也更有把握。
曲凯:明白。最后一个问题,因为过去几年有一些一级市场的基金合伙人最大的收入是来自于炒股,像你刚刚说的,很多创始人现在也都会去买股票,专业炒股的人也越来越多。
所以是不是二级市场真的是所有人最终的归宿?对此你有什么建议吗?
莫傑麟:我觉得这些人去炒股非常正常,因为他们本身有很高的信息密度和认知密度,只是可能不知道怎么把自己的认知转换为一个对应的价格。
但转化这一步本身是一个可被学习的技巧,我的一个建议就是可以多跟二级市场取得过结果的同学取取经。
然后相比于实际经营一家公司,二级市场肯定还是一个比较舒服的归宿,它舒服的点就在于路径会简单很多,无外乎是你要有信息源,有对信息比较好的加工能力,可以做出胜率比较高的预判。
但二级市场会是最终的归宿吗?
不一定。
很可能你全职炒股之后,对事物的认知密度也就消失了。
2025-03-09 20:54:00
曲凯 2025-03-09 20:54 北京
这是一份和最优秀的人打交道的工作
2025-03-09 20:54:00
原创 曲凯 2025-03-09 20:54 北京
如何三个月增长十倍到千万美金年收入?
曲凯:你们只用了 3 个月的时间就把收入翻了 10 倍,其中一个重要的契机是你们去年 9 月参加了美国顶尖的孵化器 HF0。
我想好奇先问下,英语水平会限制你们的表达和造成一些问题吗?
Joe:肯定会有这样的情况。但我觉得沟通中的很多问题,本质上可能并不是语言的问题。
举个例子,如果我们和另外一个中国公司合作,他们不懂我们的技术,我们也不懂他们的技术,但双方去讨论怎么整合 API,必然会出现的一个情况是:前半小时你觉得对方是个傻子,对方也觉得你是个傻子。
我是觉得在沟通深入到一定程度之前,大家就是很难相互理解。只不过当我们用英语跟别人交流的时候,往往会把所有的问题都归结于自己英语不好,然后就不自信了。
曲凯:所以你的经验就是硬讲。
Joe:是的。
曲凯:明白。美国有很多孵化器,甚至很多基金都在搞孵化。
如果有国内的创始人有兴趣去美国的孵化器,根据你自己的体验,你觉得他们该去吗?又该怎么选?
Joe:我是觉得 HF0 跟其他孵化器都不一样。
HF0 一直说自己不是一个 accelerator,而是一个 residency。
它非常强调一个名词叫「container」,就是我给你提供的是一个容器,你进到我这个容器的 12 周里,所有日常生活都会被关停。
曲凯:就是只有工作,没有生活。
Joe:简单讲可以这么理解,但不只是这样。
HF0 会给你塑造一个氛围,而且非常强调做减法。
他们会让你觉得在这 12 周里,时间是扭曲的,空间也是扭曲的,所有的事情都是扭曲的,有且仅有一件事情重要,就是去增长你的公司。
曲凯:他们是怎么做到扭曲时间和空间的?
Joe:这就是一个很好的问题了,因为我们确实在其中涨了十倍,所以我也不断地在反思这到底是为什么、我们能否重复这样的体验。
这背后的因素有很多,但其中最重要的一条是他们给我们植入了信念感。
不知道大家有没有看过一个电影叫《太空大灌篮》,主要剧情是乔丹带着一群卡通人物打篮球大战外星人。上半场他们被外星人吊打,但是中场休息的时候,乔丹给了每个队友一杯“兴奋剂”,大家喝完之后发现自己的能力一下增强了 100 倍,下半场直接横扫外星人,赢得了比赛,拯救了世界。
比赛结束之后乔丹才跟大家说,那杯所谓的兴奋剂,其实就是一杯水。
HF0 对我们来说就是这杯水。
其实他们并没有教我们怎么做业务,而且如果你做业务还需要加速器或者投资人来教的话,那你这业务干脆也别搞了。
曲凯:我觉得你这个说法还挺好的,因为过去几个月里,国内也有很多人想做孵化,我跟很多人都在讲,如果一个创始人需要你帮他想方向、帮他搞业务、帮他组团队,肯定是有问题的。
Joe:是的。我们在讲具体技术层面怎么涨十倍之前,也可以先做一个思想实验:
如果今天有人要和你签一个对赌协议,三个月内能涨十倍就给你一个亿,否则就枪毙你,有多少人敢签这个协议?你有多大程度上相信自己能涨十倍?
这不是简单地喊句「我相信」就能搞定的,真要做到,你需要一个非常沉浸的氛围。
HF0 提供的就是这样一个氛围。
它用最严苛的筛选标准,把最好的一批创业者聚集在了这个世界上增长最快的中心硅谷,让大家看到身边所有人都在快速地增长,也用各种最新的方法论和最先进的案例不断地启发你、告诉你每个人都能在这个过程中涨很多倍。至于具体是方法是什么,你自己去弄清楚。
这可能是看似没有意义,但实际上最关键的第一步。
好比做算法,为什么第一个人把 LLM 搞出来了,后面的人就能搞了?后面的人并没有偷第一个人的代码,Ta 只是看到了这件事确实能做到,而这恰恰就是关键所在。
当然,HF0 不止营造了这样一个氛围,还做了很多其他的动作来打造我们的信念感。你自己多大程度上相信这个氛围,且让整个团队都相信这个氛围,是至关重要的。
但是我发现很多时候信念感不太能自我激发。
如果你问我,回到去年 9 月份,我们自己去硅谷租个 house,每周给自己做汇报、问自己一些非常尖锐的问题,然后持续 12 周,我们能不能像在 HF0 里一样涨十倍?
我觉得不能,这里面会有大量的阻力。
团队会觉得:去硅谷不也是在电脑前办公吗?这不是又折腾又烧钱吗?每周做汇报是不是不太合理,因为我们可能一周连一个 feature 都做不出来……种种这些问题,其实每句话都合理,但正是这一句句合理的观点会摧毁我们的信念感,因为在这个世界上,合理的事情是没办法进行突破的。
但如果此时有一个 HF0 这样的第三方介入,和大家说:恭喜,你们已经被硅谷最严苛最顶级的孵化器选中了,你们将在世界的科技之巅硅谷进行一场改变你人生的旅程——这个时候很多事情就不用我多说了,大家会开始自我洗脑,会很兴奋地准备去实现在硅谷创业的梦想。
但其实最后所有涨十倍的动作都是我们自己想出来的。
曲凯:但如果 HF0 不教你们做业务,那他们还做了哪些事情?
Joe:很多,其中最重要的就是每周一的 demo dinner 和每周二的 weekly check-in。
在 demo dinner 上,每个团队都需要做 2 分钟的分享,公开给所有人讲你这周做了什么、实现了什么具体的结果。他们不鼓励你讲这周开发了哪三个 feature,而是鼓励你讲这周实现了百分之多少的增长。
在 weekly check-in 上,每个团队都要和 HF0 的合伙人聊半个小时。他们会帮你细致地梳理你 12 周后应该达成什么 KPI,而且他们非常强调要把这个事情讲到极度简单。你的 KPI 应该就是一个数字,然后每周观测它。
曲凯:那大多数人选择的 KPI 应该都是跟数据增长挂钩的。
Joe:是,非常量化。包括我们在内的绝大多数团队甚至连用户数都不看了,只看收入。
曲凯:明白。我听起来周一的那个 demo dinner 有点像周会,区别是有外人参加,所以你会有一定的社交压力,想努力做得比别人好一点?
Joe:是,有非常大的 peer pressure,以至于 demo dinner 最后都成了我们最大的动力和最大的恐惧了(苦笑)。后面我已经不想自己的业务目标是啥、要开发什么 feature 了,每天在想的就是下周 demo dinner 上要讲啥、怎么讲才能不丢脸。
你可以代入一下我的视角感受一下:我们一开始是 8w 刀的月收入,旁边有个团队是 2w 刀。前五周我眼看着人家每周增长 30%,但我们基本上就没怎么涨,所以到了第五周的时候,他们的收入就跟我们差不多了。你想那个时候我得有多大的心理压力…
但幸运的是我们从第六周开始就每周 double 了。
曲凯:这是不是也跟前几周的社交压力很相关?
Joe:我觉得是的。最终你会发现 HF0 所做的一切,本质上都是在改变你想问题的方式。
比如在这种压力之下,你就不得不开始思考该怎么用更快速的方式来解决问题并且迭代。
HF0 有一个文化叫「data by dinner」,讲的是你今天早上有一个想法,上午就该把它实现,晚上就要看到结果,这样你才能快速地试 1000 招,从而快速地从中找到真正有效的那一招。
曲凯:国内也经常讲迭代要快,不过感觉 HF0 推崇的是更极致的快。
但感觉这件事还挺难做到的,好像会受限于很多客观因素?比如你和渠道的沟通,或者产品、技术上的改变等等,本身就是要花时间的。
Joe:是,但 HF0 本质上还是在影响你的思维模式。
曲凯:我以为你要说信念感,因为当我说这个事很难做到的时候,我就是完全没有信念感(笑)。
Joe:也包括信念感。其实从逻辑推理的角度,你觉得这事很难做到也很正常,我们之前也觉得做不到。
但是去到 HF0 之后,我们的观念就转变了。
第一,既然我们身边这么多人都能做到快速增长,他们又没比我们多长一个脑子、每天多 24 个小时,那只能说明我们的某个方法没搞对。
第二,当每个人都在你身边蹭蹭地涨的时候,你会有一种强烈的压力,然后生发出一种「要么疯涨,要么慢性死亡」的心态,从而抛开所有的包袱,不顾一切地去拼。
曲凯:而且如果我是你的话,我还会升起一个华人的责任感。
Joe:没错!我们也是。我们特别希望向他们证明选择我们非常正确,就怕他们事后总结的时候得出一个老中团队不太行、比较傻的结论。
所以当我们前五周不涨的时候,我甚至希望我们同期的另外两个华人团队涨得快一点,这样至少能证明不是华人不行,只是我们不行哈哈。
曲凯:笑死。那除了 demo dinner 和 weekly check-in,还有什么别的吗?
Joe:还有大量的 office hour。HF0 会请来很多硅谷大佬,每个团队都可以和他们约 45 分钟左右的聊天。
比如他们请过一个哥们叫 Blake Anderson,二十几岁就和一个高中生合伙做了一个叫 Cal AI 的独立 App,靠增长做了 100w 美金的月收入。他特别擅长做 influencer 营销,在这件事情上给了我很多启发,后面也会讲到。
曲凯:国内邀请大佬一般都是面向所有人做个分享,你们是每个团队都能一对一地去聊?
Joe:对。然后每周五还会有一个 family dinner,有点像是 party,可以邀请外人来。我们事后才发现,其实周五来过很多从 HF0 出去的优秀的团队,比如 ComfyUI、Story.com 等等。
但如果让我排序的话,我觉得 HF0 最重要的还是这个容器的氛围,而这个氛围最主要的建构者就是每周一的 demo dinner 和每周二的 weekly check-in。
说白了,他们会通过这两个活动来督促你每周都要呈现具体的结果、达成自己的目标。如果你没结果,就得承担相应的压力。而且你也要把握好拿结果和厚积薄发之间的平衡,你不能一直憋大招却永远不爆发。
曲凯:就没有人真的选择憋个大招、想着憋出些跟大家不一样的东西吗?
Joe:我不能说憋大招完全行不通,但至少在我的认知范围内,我见过的所有创业中这样做事的,本质上都是在给自己找借口,因为 Ta 没有建立起从市场上拿反馈、拿到反馈之后迭代、迭代之后再拿更大的反馈的这个循环。
事实上哪怕你要做一件很宏大的事情,也完全能找到一些更前期的指标来作为结果,而不是一味地说自己就是要花很多时间、就是交不出东西。
曲凯:很认同。我还特别好奇,你们离开 HF0 的那个氛围之后,还能保持在其中的状态吗?
Joe:没保持啊,因为大家在里面太累了(笑)。
HF0 对我们整个团队的思想有非常深远的改变,我们现在也在不断地在反思和应用这样的思想。
但我觉得那种体验不能天天搞,因为公司在不同的阶段有不同的节奏,一个长期有效的方案可能是有节奏地去搞,比如未来可能我们每年会搞一次研发的加速周期和一次增长的加速周期。
曲凯:听说你们马上要去惠州搞一个是吧?
Joe:对,我们在惠州租了一个海景大 house,会把我们几个核心的开发拉过去,希望能端出下一代我们自己的 AI 歌声模型和音乐大模型。
曲凯:但你自己搞的话,也要复刻 HF0 的 peer pressure 吗?
Joe:我觉得 peer pressure 并不是 HF0 的精髓,只是客观上被实现了而已。
本质上讲,HF0 是让你通过定目标、交结果,来意识到自己和目标之间的差距。
同时,他们会让你觉得自己好像进入了一个完全不同的新世界,我发现只要能营造出这种感觉,都会发生些魔幻的事情,像火人节之类的不也是这样吗。
曲凯:是,其实我每次去湾区也是这种感觉。那你们当时一天要工作多久?
Joe:一天 15 个小时,一周 7 天。
曲凯:其他团队也都这么卷吗?
Joe:我们应该是最肝的。其他人稍微好一点,但也是一周 80 个小时这种量级的。
可能有些老美需要回家照顾下老婆孩子,但即便如此,他们也只是周末回一下家,平时还是扎在这里。
曲凯:所以你们第六周为什么突然开始涨了?
最后当晚我们使了一招,结果第二天早上睁眼,日收入直接 double。
曲凯:很戏剧化啊!
Joe:对。其实还是在 HF0 里受到了启发。他们邀请过很多硅谷大佬来演讲,有一次请来的是 Quora 的 cofounder,给我们讲了这么一个故事:
Quora 当年陷入了增长瓶颈,所有人也都认为这家公司不可能再涨了。当时他们就穷举了 20 个增长的方案,然后从高概率的选项开始一个一个地去试,在试到第 11 个方案的时候,终于又形成了爆炸式的增长。
那个方案是什么不重要,放到现在也不具备参考性,但这个故事给我们的启发是:
如果你不刻意地穷举、然后真的一招一招地试到最后,你就没理由告诉自己不能涨了。
所以我们那天也用了同样的方法,只不过我们比较幸运,第一个高概率的招试下去就成了。
曲凯:这个好,但这里我想插一句,如果你们试了概率最高的一招就涨了,那是不是说明你们之前做得很差?
Joe:从结果上来讲,确实我们之前做得不对,但我觉得不能单纯用做得好还是做得差来评判,因为我们是在前五周不断的耳濡目染之下,到了那个晚上终于开窍了,思维模式有了跃迁。
我们意识到做增长和增加产品价值可能是可以并行的,二者就像正方形的两个边,共同构成了你的价值面积。如果光做产品价值,做到天也就是一根线,但其实这个时候只需要做一点点增长,价值面积一下子就能扩大很多。
但在前五周的时候,我们完全不是这么思考问题的。前五周我们想的是,我们得先花一两周开发 10 个更符合欧美审美的 AI 歌手,然后再用一两周约 influencer 做视频推广。其实我们已经很勤奋了,速度也很快了,但是我们不可能用这样的手段在第二天直接 double。
所以到底怎么用一招就让公司一夜之间收入翻倍?
答案其实简单。
我们把会员费涨了一倍。
曲凯:…我觉得很多人看到现在肯定很无语哈哈。
Joe:我知道这看上去很搞笑,但这真的是一个很本质的事情,背后体现了硅谷的方法论。
第一,所有的事情你都要做实验,否则你无法知道自己做的到底对不对。
第二,不是只有你的 feature 才是你的产品,你的定价方式、增长系统、联系 influencer 的速度……这所有的一切,共同构成了你的商业模式。
曲凯:是。而且我在想,如果你只是价格翻倍,日收入就能翻倍,那其实你的转化率并没有变化,说明你之前的定价就是低了。
Joe:对。咱们今天也可以随便抓 100 个初创公司来问,我相信 98 个团队都没有测试过自己的定价到底是不是最优解。
曲凯:我还真的帮人研究过怎么定价,这事就是很难,也没什么标准。
Joe:对,但是没有标准的东西,并不代表它不能被优化。
当然改定价只是我们的第一招,给我们打开了一个思路。从那开始我们大概每 1.5 周就能有一次 double,到最后就涨了十倍。
曲凯:我好奇你们是怎么把定价这件事提出来的?能想到这点就已经赢了一半了。
Joe:其实还是在硅谷的那几个月受到了启发。
最开始之所以会注意到价格这件事,是因为我们参加 office hour 的时候,所有人第一句话都是问你的 pricing model。这和国内很不一样。国内我们灵性产品经理这一路,讲究的是分析用户的人性和社交关系,基本不会在定价上花太多功夫,都是照猫画虎地随便挂一个。但我发现硅谷这边非常重视 pricing model,这就给了我第一个提示。
此外,很多人看到我们的 pricing model 后,第一反应都是觉得定低了。而且当时还有个事情也刺激到了我:我到了旧金山想租个自行车,结果发现自行车的年费都比我们高…但我们可是专业的 SaaS 工具啊!
所以我们就开始认真地思考是不是真的定低了。
曲凯:那你们后来有继续涨价吗?
Joe:我们试过三组价格,现在的定价是最后找到的一个 sweet point。
在价格模型上,我们也不光做了改定价这一件事,还取消了试用、取消了月卡等等,这些改变共同构成了最终至少三四倍的增长。
除此之外,我们做增长的任督二脉也被打通了。
当时对我们来讲,最好的增长的方式就是找 KOL 去做视频,但这件事工作量极大,不是长期可持续的,何况一条视频发出去,也并不一定有效果。
那要怎么让 KOL 推广这件事成为一个稳定的流量来源呢?
在我之前的认知里,这件事根本不可能。但我和 Blake Anderson 聊过之后,受到了极大的启发。
当时他问了我一个关键问题:你一周能联系多少个 influencer?
我说大概一个月才能联系几十个到上百个。
他却说,我一天就能联系 100 个,而且因为我一天能联系 100 个,所以我能总结出转化率:
15% 的人会回复,
5%-10% 的人会真正形成合作,
最后只有 1%-2% 的投放是有效的,
但这有效的 1%-2% 能 cover 我所有的成本。
我最受启发的不是他具体是怎么联系 influencer 的,而是我发现原来我们之前做这件事情就没做对。当我能意识到我一天要联系 100 个 influencer 才叫做对了,那我就会重新思考我到底该怎么做。
所以我就开始和运营负责人讨论,后面也打造出了一个 SOP,并迭代了好几个版本。迭代到最后,我们甚至有 20 个邮件模板,这个邮件模板用来联系非裔、那个邮件模板用来联系拉美裔,而且能把每个模板的转化率都测算出来。
最后这也成了我们增长的第二个核心支柱。
曲凯:明白。还有其他的吗?
Joe:我们还会把转化率高的 influencer 的视频,再在付费广告里投放一遍。现在我们能把付费广告的 ROI 做到 2 倍。
曲凯:有点像广告贴片。
Joe:对。另外我们还做了好几个比较有突破性的产品功能的升级,每次升级之后也会给所有付过费、但是流失了的老用户发一个邮件,挖掘一下老用户的价值。这样做下来,收入又能冒一个尖儿。
曲凯:这一切凑巧都是在六周以后慢慢地开始见效?
Joe:是。前六周我们还在搞基础设施,这些是省不掉的。
就拿付费广告来说吧,你得做技术管理架构、得追踪数据、得在各个平台开户、开完户还得优化……有太多东西要搞了。
而且我们自己的思维和实力本身也在逐渐增长。
所以哪怕我们在第一天就有了第六周的想法,大概也只能把涨势提前一两周。
曲凯:然后你们的这个增长势头基本上保持到了第 12 周,到最后是有个 demo day?
Joe:对,他们请了很多美国的投资人来,每个团队可以讲两分钟的 pitch。
曲凯:那因为你之前在国内的融资经验也很丰富,我也想问你实际体验下来,觉得美国投资人和中国投资人提的问题或者是工作方法有什么区别?
Joe:我觉得最大的区别是美国这边非常强调你要把事情做得简单,导致他们所有的安排都非常流程化。
比如 pitch 就是两分钟,所以你说话一定要 sharp,让大家能快速知道你的亮点是什么,且对你产生好奇心。
至于提的问题,其实和国内大同小异,无非就是关心天花板、你们人怎么样,怎么会想到做这件事情、怎么看待当前的竞争环境、会不会被大公司干掉之类的。
曲凯:问题确实都差不多。
那你实际感受下来,觉得中国团队在美国的境遇到底怎么样?因为国内有些人会有点妖魔化这件事,觉得中国人在美国会受歧视,或者至少美国机构很不喜欢国内团队什么的。
Joe:我觉得这是一个综合效应。
客观来说,美国机构投中国团队要确认的风险太多了,他们得花大量的时间去了解你这个主体有没有问题、符不符合美国的法律、投完能不能长期在美国运营、未来地缘政治会有怎样的影响……
除非你是下一个 TikTok,否则很多美国机构可能都会觉得没必要。
这个心态或许是我们这种华人创业者会遇到的最大阻力之一。
曲凯:所以他们可能并不是歧视华人,就是嫌麻烦。
Joe:对。这也是为什么我很鼓励大家最后人要过去。你得不断地出现在旧金山的那些 party 上,时间长了他们就知道有你这么一号人、有你这么一个项目,到那时他们也会更容易信任你。
曲凯:就是要让他们知道你是我圈子里的一个人。
Joe:没错。
曲凯:最后我们再聊一点 AI 吧。今天我们一直没太聊产品,因为上一期里已经聊过很多了。
但是我想知道,过去这半年多,尤其是你在美国待了小半年,你对 AI 的理解跟去年 5 月相比有什么变化吗?
Joe:我现在越来越坚信,AI 产品化大有可为。
之前大家都会说 AI 是一种「模法」,觉得模型本身的体验就是产品的体验、努力搞产品没什么太大意义,因为只要模型一升级,你所有产品化的设计都会被淹没。
我以前还觉得这种观点在对与不对之间,现在是越来越不认同了。我认为简单朴素的产品化会越来越回归主流。
举个例子,视频模型刚出来的时候,大家都觉得这个东西很强大,但到最后你会发现,视频模型本质上只能生成一些很漂亮的镜头,而用户每天消费的内容其实还是镜头背后的人的表达,跟这个镜头好不好看并不直接相关。
所以即便视频模型再强大,还是需要有一个创作者在一个功能强大的界面里把内容编撰好,那这不还是得做一个视频编辑工具产品吗?只不过这个产品有了 AI 的加持。
换个思路,我们也可以看看今天涨得最快的 AI 产品是什么。今天增长最快的无疑是 Cursor 和 Perplexity,而它们都是很典型的把产品化做到极致的应用。
我记得 Perplexity 的 pitch deck 里有一页写了几句话,一句是说「细节见真章」,一句是说「不要低估套壳」。
曲凯:这两句话分别看感觉都是 cliche,但合起来很妙啊。
Joe:是的,所以我当时看到这两句话产生了深深的共鸣。
很多投资人都会问你的壁垒是什么,其实每次我都想回答同一句话:
我的壁垒就是我的人日。
一人日就是一个人一天的工作量,我多一些人日,就能多花一些心思在这些产品化的细节里,攒一些外人不知道的 secret sauce。我每天做的并不是革命性的大技术,而是非常工程化的小技术。比如大家都是做同一个功能,那我就会想办法比别人做得好一点点。
但日积月累,这些微小的细节最后就会形成我们的壁垒。
想 copy 我?没问题,那你就先花个三五年去追赶我日拱一卒做出来的这些东西吧。
所以也希望大家不要丧失信心,产品化依然蕴藏着很多机会。
如果你对 Joe 参加孵化器的经验,或者对去美国参加类似的组织感兴趣,可以添加我的微信 qukai42,42章经今年也会组织更多中美连接的活动和事情,欢迎你用各种方式加入进来。
42章经
思考事物本质
2025-01-05 22:42:00
原创 曲凯 2025-01-05 22:42 北京
23、24 快速回顾、25 展望、Prosumer 赛道解析、Agent 与多模态拆解、AI native 的答案
2024-12-29 21:42:00
原创 曲凯 2024-12-29 21:42 上海
2025 年再见