MoreRSS

site iconKaiQu | 曲凯 | 42 章经修改

公众号:42章经。由xlab生成。
请复制 RSS 到你的阅读器,或快速订阅到 :

Inoreader Feedly Follow Feedbin Local Reader

KaiQu | 曲凯 | 42 章经的 RSS 预览

组织能力才是 AI 公司真正的壁垒|42章经

2025-09-26 16:31:00

原创 曲凯 2025-09-26 16:31 北京

我们默认所有事都由 AI 完成,而人类是为 AI 提效

本期播客前半部分是任川的单人分享,后半部分是现场交流,原文约 14500 字,本文经过删减整理后约 5600 字。

任川单人分享

我们公司成立于去年 4 月,一开始就采用了 AI Native 的组织形式,两三个月后,就把 AI 深度嵌入了研发的各个环节,这一年多实践下来,效率和效果都很好。

今天我就会从工作流、人才、组织三个维度,分享我们打造 AI Native 工程团队的经验。

先说第一部分:如何用 AI 重构研发工作流,把效率提升 10 倍。

所谓「10 倍提效」只是保守说法,实际体感远不止于此。拿 Code Review 举例,这件事即使在效率优化到极致的 Google,平均也要一两天,而我们只需 10 分钟。

我们是怎么做到的呢?

很简单:只让 AI 来做 Review。

AI 不仅能提效,还有一个意想不到的好处,就是减少摩擦。人工 Review 很容易让人觉得是在「挑刺」,但如果是 AI 指出问题,工程师反而会感谢它帮自己排雷。所以在我们团队里,大家都会相互推荐好用的 AI Review 工具。这种「好用」很难用量化指标衡量,更多取决于工程师的主观体验。

目前我们觉得最好用的工具是 CodeRabbit。只要它批准,我们就直接合并代码。

当然,即便 AI Review 的效果已经很好了,还是有可能会漏掉 bug。这听起来有点危险,因为在传统工作流里,上线后再发现 bug 很麻烦,但 AI Review 的速度极快,所以哪怕出现问题,我们也可以立刻回滚或线上修复。

通过这个例子,我想和大家分享我们用 AI 重构工作流的三条经验。

首先,我们默认由 AI 来承担所有研发工作。

这并不是说要无脑地把一切都交给 AI,而是要转变思维模式。

在传统工作流里,我们通常会默认所有事都由人类完成,只有偶尔发现 AI 能帮上忙时,才会让它介入。但这样可能会错过很多 AI 提效的机会。

我们的逻辑正好相反:我们默认所有事都由 AI 完成,只有当 AI 遇到确实解决不了的问题时,再由人类来补位。

这样思考下来,AI 其实可以直接完成很多工作,重构我们的工作流。

它不止能写代码,还可以写文档、写测试、写设计文档、做 Review、上线和监控等等。和大家分享几个场景和工具:

在 Coding 环节,我们会用 Linear 管理任务,用 Devin 生成代码。我们可能会一次性在 Linear 中创建 10 个任务,然后由 Linear 将任务自动分配给 Devin,再由 Devin 批量生成代码。整个过程中,我们甚至都不需要打开 IDE。现在,我们大约 90% 的代码都是通过这种方式生成的。

在生产监控中,我们会用 incident.io。它会收集我们的工作日志,自动分析和预警,甚至在出现问题时给出初步诊断,目前这已经能覆盖我们近一半的监控需求。现在我们已经不需要专职的运维人员了,只靠工程师配合 incident.io 就足够。

此外,我们最近还发现了一个 AI 可以重塑的工作流,就是 go-to-market。传统销售流程很长,一个客户可能从头到尾要接触四五个人,但有了 AI,整个链条将被大幅压缩,或许一个人就能 end-to-end 地完成全部工作。现在硅谷很多公司都在做 GTM 自动化,我也觉得这里面大有可为,很值得关注。

虽然 AI 现在还不能完全替代人力,比如 Infra 层还是比较依赖人工,但在前端、产品等环节,AI 的表现已经非常好了。随着 AI 的效果越来越好,我相信未来需要人类参与的部分也会越来越少。

第二条经验,就是我非常推荐大家使用 Claude Code。

这点现在讲起来有点尴尬,因为 Anthropic 最近限制了国内访问…但我们用下来,它确实还是最好用的,一是 Claude Code 能力本身就很强;二是它有 SDK,可以做大量二次开发。

而且 Calude Code 能做的事远不止写代码。Claude Code 「全球第一人」刘小排(他用 200 美元的套餐消耗掉了价值 5 万美元的 token)就说过:只要有 SOP,就没有 Claude Code 执行不了的任务。

第三条经验有点反直觉。

大家通常觉得开会、对齐很重要。但在 AI Native 的工作流里,人与人之间的交流很容易变成瓶颈。

所以我们的做法是:让每个人从头到尾独立完成工作,尽量减少对齐。如果必须要对齐,那大家就把原则和想法写进 codebase,让人和人、人和 AI 在代码里自动对齐。

讲到这里,其实大家能感受到,AI Native 的工作方式和传统的工作方式很不一样,这也对人才提出了新的要求。

那么 AI Native 的工程团队最需要什么样的人才呢?

第一,人需要成为 AI 的「Context Provider」。

我们使用 AI 有个原则,就是「人 + AI」的产出必须大于「AI 单独工作」的产出。

这听上去非常合理,但在实践中,很多时候人类的介入反而会拖慢效率。

很多人只把 AI 当提效工具,但其实大家应该转变思路:让人类为 AI 提效。这样或许反而能取得更好的效果。

因为今天模型的能力已经很强了,AI 产出效果不够好,更多是因为 Context Engineering 不够好,或者是人类没有为 AI 提供足够的上下文

所以在 AI Native 的团队里,人类很重要的价值,就是成为 Context Provider,为 AI 打造更好的上下文,提供它不具备的知识。

比如我们的产品主要是用 AI 帮餐饮行业提效,让 AI 帮忙接电话、预约、下单等等。要做好这些工作,需要对餐饮行业有很深的理解,而 AI 本身不具备这些知识。但我们有同事暑假常在餐厅端盘子,ta 所积累下来的对餐饮流程的理解,就是对 AI 极有价值的 Context。

第二,人应该做「Fast Learner」,快速掌握最少必要知识,从而与 AI 高效沟通。

现在一个人遇到新问题,已经不太可能在短时间内学得比 AI 还强了。所以在面试和日常工作中,我们不太在乎一个人已有多少技能,更在乎 ta 能否快速掌握基本知识,把目标和问题定义清楚,然后激发 AI 的潜力,用 AI 的力量去解决问题。

第三,每个人都应该是「Hands-on Builder」。哪怕一个人只负责产品中的一小部分,也要对全流程和最终结果负责。

举个例子,如果你只做前期研究,却不 Build、也不对结果负责,那你就需要和上下游反复传递 Context。而只要出现这种传递,团队效率就会显著下降。

讲完人才,最后,我们再讲讲 AI Native 工程团队的组织形式和分工模式。

首先,我们实践下来,发现更合理的方式是「按结果分工」,而不是「按流程分工」。

什么叫「按结果分工」呢?

举个例子,我们有一个对商家需求负责的小组,还有一个对消费者体验负责的小组。其实后者的日常工作更偏前端,但我们不会把它定义成前端组,而是要求这个小组具备前后端、运维等全链路能力。只要消费者体验出了问题,不管在哪个环节,都由这个小组直接解决。

甚至我们的工程师也要参与产品设计、GTM 等环节。我也非常鼓励我们的工程师自己去跑客户,获取一手反馈,而不是像在传统团队里那样,由销售去见客户、把客户的需求转达给 PM、再由 PM 转达给工程团队,因为这样层层转述下来,一来工程团队未必能实现,还要再反复沟通,二来客户的需求可能已经走样了。

「按结果分工」不一定是最佳模式,但我相信即便未来继续演变,也不会再回到工业时代、互联网时代那种「按流程分工」的模式。

原因很简单:过去需要在每个环节安排不同的人,而在 AI 时代,可能 98% 的工作都能由 AI 完成,人类只需在 AI 做不了的地方补位。到那时,还按流程来分工明显就很不合理。

第二,我们的组织以工程团队为核心,因为工程团队最容易为结果负责。

比如我们要上线一个功能时,工程团队会第一时间利用各种各样的工具,完成包括研发、产品、设计在内的基础工作,先做出一个 60 分的版本,快速上线。而其他团队,比如专业的设计师,会再在这个 60 分版本的基础上优化。

过去大家总说「talk is cheap, show me the code」,但上线一个新功能的成本很高,所以大家要开很多会,让所有人全部拉通对齐,得出一个很完善的方案再付诸行动。

但现在「talk is cheap, but code is cheaper」,生成代码的成本极低,所以我们完全可以追求「速度优先」,先上线一个 60 分的东西,大家再一起努力把它做到 100 分。

正是这种方式,让我们在一年内就能搭起一个复杂系统。

第三,未来的组织形态,可能是「少量核心合伙人 + 大量灵活合同工」。

在传统互联网公司里,每个岗位都会有 back up 员工。但在 AI Native 的组织中,每个人都按结果分工、为结果负责,所以一个人的价值和不可替代性很高。一旦一个员工离开,就会对公司产生很大的影响。

那为了留住这些人才,就需要给这些员工提供类似于合伙人的待遇。

但如果所有的员工都享受合伙人级别的待遇,成本又很高,所以全职的核心员工数量不会特别多,需要大量的灵活合同工来作为补充。这些合同工往往在某个领域有很丰富的经验,他们也更愿意和多个组织合作,而不是全职绑定在一家企业。

我们这套模式在硅谷算是比较先锋,但绝不小众,更不是最激进的。湾区初创公司各有各的做法,不过大家的思路基本都在往这个方向发展。

Q&A 精选

(活动的另一位嘉宾是上期Mercor 高速增长的秘诀与其中的聪明人|42章经的虞快,所以 Q&A 部分也有一些虞快的补充)

Q1:为什么大厂不效仿你们这种 AI Native 的组织形式?是不是这种方案只适合初创公司,一旦公司规模大起来,就很难行得通?

任川:我在 Google 的时候,内部一些小团队也会这么做,但要推行到整个公司确实非常困难,因为大厂想调整组织架构,要考虑的不只是效率,还有很多额外因素。比如微软 CEO 最近就公开道歉,说之前裁员过猛,需要重建员工信心。

不过现在很多明星 AI 公司规模都不大,甚至有人在讨论会不会出现「一人独角兽」。如果未来几个人就能做出惊人的产品,那可能也不需要 Google 这样十万人的公司了。

Q2:在你们这种组织模式下,团队的一天是怎样的?

任川:我们的工作节奏表面上可能和传统公司差不多,但实际产出效率差别很大。

我们每天会把会议集中在中间的 3–4 个小时,其他时间尽量不排会,大家分头去做事。像我最开始提到的 Code Review,每个人每天都会收到 3-5 个这种请求,然后会各自完成写代码、AI review、merge 的全流程,效率非常高。

Q3:有些代码可能已经迭代了十年,非常复杂,人类工程师都未必能完全掌握。这种情况下,AI 介入的可行性有多大?是不是 AI 更适合从 0 到 1,而不太适合从 1 到 100 的场景?

任川:这个问题特别好。你所提到的,就是典型的需要人来给 AI 做 Context Provider 的场景。

就像你说的,大模型不具备这么多年的经验积累。在这种情况下,AI Coding 的效果,很大程度上取决于人类所提供的 Context 的准确性和信噪比。如果 AI 跑出来的效果不够好,并不是因为模型能力不行,而是因为我们提供的上下文不够好。

要解决这个问题,要么就是等模型更强大,强大到上下文不够也没关系;要么就是人类想办法给 AI 提供更好的上下文。前者成本很高,也很难预期,但后者是公司和个人都可以努力的方向 。从个人角度来看,学会为 AI 提供更好的 Context,将是未来 AI 工程师非常核心的技能和价值。

Q4:PM 在你们内部是什么样的角色?

任川:我们团队现在差不多 20 个人,没有全职的 PM,基本上工程师就把 PM 的工作做了,这样工程师也可以直接拿到客户反馈,比中间隔着一层 PM 的效率更高。

而且其实对于创业公司来说,CEO 或者工程负责人就是最重要的 PM。

虞快有什么补充吗?

虞快:我觉得公司早期没有 PM 很正常。Mercor 到现在已经有大约 150 人,也只有 2 个 PM。

很多时候不是工程师做不了 PM 的事,而是他们知道有 PM 的存在后,就容易丧失 ownership,倾向于把难题推给别人。可 PM 在做决定时,又必须回过头来找工程师确认,来回沟通一大圈,最后这个决定往往还是工程师和 PM 一起下的。

所以其实只要你招的人足够聪明、善于解决问题,ta 没理由只能做工程决策、做不了产品或商业决策。

Q5:大家对工程师的固有印象可能是特别擅长写代码,但不善与人沟通,而 PM 则是懂用户、会沟通、能提炼需求。如果让工程师兼做 PM,是不是对工程师的要求特别高?这样的人好招吗?

任川:这样的人确实不太好招。现在能快速学习 AI、用好 AI 工具的工程师本就不多,还兼备产品能力的更少。

但其实现在软件工程师岗位,已经不是只有懂代码的人才能胜任了。我认识一些 PM,他们不会写代码,但现在用各种强大的 AI Coding 工具,也能独立做出产品。

所以我觉得未来可能不会再有「PM」和「工程师」的严格区分,大家都是 Builder。只要能 Build 出东西、对结果负责就可以。

Q6:怎么筛选出真正会用 AI 的人?

任川:我们有两种方式。

首先,我们不做传统的一小时面对面的面试,而是会直接给候选人一个 take-home 的任务。

比如我们会让你在两天时间内 Build 一个产品,而这个产品比较复杂,没有 AI 基本做不出来。如果你能在两天内做出这个产品,那你肯定很会用 AI 工具。如果你手搓了一个产品出来,那说明你更是技术大牛(笑)。

两天后,我们再约着聊半小时,请你讲讲过程中的思路和细节。这样我们也可以进一步判断你能不能用好 AI。

当然,有些背景很强的人可能不愿意花时间来做这个任务,那这本身也是一种双向筛选。我们可能会因此错过一些人,但这种方式整体来看效率比较高,最后也能帮我们招到想要的人。

另外,我们最近也在尝试一些新的办法。比如我们会给你一个写好的大型 project,其中埋了很多雷,然后要求你在一小时内优化它。这个项目很复杂,时间又很紧迫,你大概率只能靠 AI 来快速理解和解决问题。

Q7:该如何打造一个 AI Native 的团队?

任川:我们比较幸运,公司很新,没有历史包袱,所以一开始就在用全新的 AI Native 的方式来组建团队。

在我看来,经验在这个时代未必是优势,很多时候甚至会成为负担。

比如有一些比较 senior 的人,已经习惯了传统的工具和工作流,连 Cursor 都不愿意用,就很难适应新的组织方式。相比之下,一些刚毕业、学习能力和求知欲都很强的年轻人,反倒是更适应 AI Native 的团队。他们在读书时就已经离不开 AI,用 AI 工作对他们来说非常自然。这样的人虽然不好招,但我相信未来一定会越来越多。

Q8:公司在 10 人、50 人、100 人的规模下,分别需要设立哪些岗位?

任川:我们现在只有 20 人,所以我不敢断言 50 人、100 人的公司会怎样。但我们的底层原则始终是「按结果分工」,也就是每个人都要为某个目标或问题负责。至于怎么实现,我认为没必要通过分工设太多的限制,可以让大家自由发挥。

这里可以请虞快补充下,Mercor 扩张到 150 人之后,出现了什么新岗位?

虞快:我们一上来就是每个人负责一个 feature,公司渐渐变大了之后,开始招负责安全、QA、测试的人,后面随着平台扩张,也会需要平台工程师。

Q9:该怎么招到和留住优秀的人才?

任川:前面我有提到过一点,就是未来需要给核心员工合伙人级别的待遇。

另外,我很认同一位朋友说过的一句话:与其费劲招人,不如先提升自己。

有时候你招来两三个人帮忙,可能比你一个人干还要忙。但如果你能用好 AI 工具,那你一个人也有可能完成原本需要两三个人才能完成的工作,效率反而更高。

虞快:我补充一点。

在招人时,我发现越是强的人,越要给 ta 上面试难度。因为强者往往有天然的好奇心和挑战欲,如果你的公司名不见经传,面试流程却很特别、很有挑战,ta 可能更愿意加入。

42章经

思考事物本质

阅读原文

跳转微信打开

Mercor 高速增长的秘诀与其中的聪明人|42章经

2025-09-14 20:38:00

原创 曲凯 2025-09-14 20:38 上海

未来十年,是金融更可能涨 100 倍,还是 AI?

这次去美国,我的一大收获就是认识了 Mercor 的首位中国工程师(节目录制时也是全司唯一的中国员工)虞快。他是前金融科技独角兽工程总监,Google、Two Sigma、Citadel 工程师,也是我这次硅谷行遇到的最聪明的人之一。

本期播客对谈原文约 16000 字,本文经过删减整理后约 8000 字。

曲凯:Mercor 今年很火,国内也有不少分析和报道。我发现大家对你们的认知大致经历了两个阶段:

一开始很多人觉得你们是 AI 招聘公司,但后来发现,你们本质上是在做数据标注。

在你看来,Mercor 到底是一家什么公司?

虞快:我们的核心业务,是帮顶尖 AI 公司招各行各业的专家。

大家可能对数据标注有刻板印象,觉得就是从欠发达地区找廉价劳动力做些基础活。

但现在完全不同了。

AI Labs 需要的是医生、律师、投行顾问,甚至细分到专门写 Swift 的工程师、俄罗斯的生物学家。

因为模型已经进化到了只有专家才能标注的地步。大多数人会的题,它早就会了。再想提升模型智能,就必须请特定专家提供系统性反馈,告诉模型什么是好答案、什么是差答案。

曲凯:那这些 AI Labs 拿到你们的专家标准后,还需要再去找 Scale AI、Surge 这样的平台做人工标注吗?

虞快:不需要。某种程度上讲,我们已经完全替代了传统的数据标注平台,因为模型可以直接基于我们提供的评估标准做强化学习。

曲凯:也就是说,随着模型变强,过去的标注方式不够用了,出现了市场空白,而你们正好抓住了这个机会。

那你们是一开始就这么定位的,还是在过程中逐渐调整出来的?

虞快:我们的目标一直没变,就是「帮客户找到他们需要的任何人」。

只是我们发现,眼下最急迫、最愿意花钱的客户,正是 AI Labs。虽然 AI Labs 没有那么多,但是他们的预算很高,因为对他们来说,这笔投入非常划算:

算法的突破要靠顶级研究员,但这些人很贵,而且随时可能被竞对挖走;算力的竞争更残酷,OpenAI 也未必能打过 Google。那要让模型真正进步,数据依然是一大突破口。而为数据花的钱和模型能带来的回报相比,几乎不值一提。

曲凯:明白。那你们帮客户找到人之后,他们是自己去和这些专家谈薪资之类的吗?会不会出现飞单的问题?

虞快:客户会把钱给我们,再由我们支付给专家。

目前我们没遇到过飞单的情况。因为这件事的难点不只是「找到人」,更在于后续的管理。一个项目可能需要上百个分布全球的工程师,怎么和这些人沟通?怎么评估他们的产出?怎么结算?出了问题怎么协调?

这些琐事,AI Labs 并不想自己操心,都需要我们来帮忙打理。

曲凯:听起来你们有点像一家大型第三方人力外包公司?

虞快:其实不是。先不谈使命和愿景,单从业务层面来看,我们和外包商就有很大差别:

我们能评估人才质量。

比如一家公司要招工程师,可能会收到一万份简历。我们能用更科学的方法,帮客户筛出最优秀的那一小撮。

曲凯:这里正好可以捋一下你们的业务流程。比如你说可能会有一万人来申请,这些人都是主动来的吗?

虞快:对。我们业务流程的第一步是获客,主要方式有熟人推荐、广告投放、AI 自动发私信等。我们内部也有一个团队,会去主动搜罗一些特别难找的人。

目前我们平台上超过一半的专家都是靠熟人推荐来的。推荐人可以拿推荐费,所以甚至有人会全职在我们平台上帮忙找人,赚的还挺多的。

曲凯:相当于这些人来你们这做猎头了(笑)。

虞快:是的哈哈。专家被吸引到 Mercor 后,会上传简历、选择岗位并投递申请。过程中我们也会用一些自动化流程,规避简历造假等问题。

简历过了的人,就会进入 AI 视频面试环节。面试问题都是由 AI 基于简历和 JD 自动生成的,比如要招一个数学 PhD,AI 就会问研究方向、论文细节等问题。

面试过程也可以人工干预。像我自己在用 Mercor 招人时,就会告诉 AI 我想重点问什么,并设定评分标准,让它帮我执行。

每场面试大概 20–30 分钟,结束后会生成一份带转录文本的视频。用人方可以直接看文本,也可以点击文字跳到对应的片段,查看更多文本捕捉不到的细节。

曲凯:那如果有很多人面试,我要把每个视频都看完吗?

虞快:不用。创建岗位时,我们会请你先定义好目标和要求,相当于一套评分标准。面试结束后,AI 会根据候选人的表现自动打分并排序,方便你快速筛选。

曲凯:那把人招来之后,你们怎么评估他们的标注结果?如果有人乱做标注怎么办?

虞快:这很容易分辨。同一套题我们可能会问 50 个专家,如果有一个人的解法每次都和别人不一样,那这个项目做到一半 ta 就会被开掉。

曲凯:合理。那结算呢?你们平台上的报酬区间大概是怎样的?

虞快:我们按时薪结算,各种岗位的平均时薪超过 90 刀,但不同职业差别很大。我们会根据找人的难度、紧急程度等因素,与甲方协商定价。

比如英文语音训练的时薪大约是 21 刀,因为几乎所有英语母语者都能做。软件工程师的时薪一般在 100-200 刀之间。最夸张的一个案例,是我们招过时薪 400 刀、推荐费 5000 刀的皮肤科医生,因为人真的很难找。

曲凯:你们这真是个太好的生意了…我都想上去接单了哈哈。

那 AI Labs 会同时把需求发给很多平台吗?不同平台最后拼的是什么?

虞快:如果我是 AI Lab 的决策者,最多只会找两三家合作。只找一家风险太大,比如 Scale AI 被收购后,他们的客户就很被动;但找太多家又很麻烦,因为每家的流程都不同,结算起来很复杂,出了问题还很难归因和追责。

而不同平台最后拼的,就是谁能又快又好地找到合适的专家、赢得客户的信任。如果你找来的人靠谱,AI Labs 就更愿意与你长期合作。

曲凯:说到 Scale AI,听说他们被收购之后,业务下滑得很厉害?

虞快:对。其实在被收购之前,Scale AI 就遇到了问题。他们靠给 OpenAI 做标注起家,但随着模型能力提升,他们原来找的标注员的水平不够用了,OpenAI 的反馈也变差了。

收购之后,大家又觉得它成了 Meta 的一部分,不太敢继续跟它合作。

曲凯:所以 Meta 这次收购真就是「人才收购」?花了这么多钱,结果业务还跌了。

虞快:我个人猜测,扎克伯格主要是为了收编 Alex Wang。

Alex 很有抱负,两三年后大概率还会再创业。如果只是给他高薪,很难把他挖来,因为他很难向团队和投资人交代,等他未来再创业时,融资和组团队都会遇阻。Windsurf 创始人的经历就是前车之鉴。

所以扎克伯格干脆花 150 亿,把 Alex 的团队和投资人都安顿好,替他解决了后顾之忧。

曲凯:所以现在 Scale AI 对你们已经没什么威胁了?虽然这么说有点奇怪,毕竟他们体量还是比你们大。

虞快:从增长来看,我不觉得 Scale AI 是我们的对手,反而是 Surge 更值得警惕。

曲凯:那市场对 Mercor 的理解形成共识了吗?大家是不是普遍把你们看成数据标注公司?

虞快:我不觉得我们是数据标注公司,而是一家 Eval Provider。

其实我们核心交付给 AI Labs 的东西,就是 Evaluation 和 Benchmark 的标准,或者说是一份模型的 PRD。

我们的专家会帮模型公司设定目标,让研究员去推动模型实现那些暂时还不具备的能力。

曲凯:理解。

但我觉得 Mercor 一开始在讲的是一个很性感的平台型故事。虽然现在数据标注这条线从赚钱角度看可能更性感,增长也快,但相比之下,平台故事的想象空间是不是更大?你们现在做的,会不会只是阶段性的事情?

虞快:其实 Mercor 一直在坚持同一个愿景,就是我们相信随着 AI 能力提升,未来的工作形态会改变:

全职岗位会减少,项目制会成为主流。

所以我们现在看似是在阶段性地满足 AI Labs 的需求,本质上是在押注未来的工作方式。

未来,「用 AI 来衡量一个人」不只适用于面试,还能拓展到更多场景。比如我是 VC,要和上千个创业者交流,我也可以先设几个问题,定义什么是好答案、什么是差答案,然后让 AI 帮我去问。

曲凯:所以 Mercor 这套模式未来可以推广到更多行业?

虞快:可以复用到所有行业,因为任何行业最终都离不开「挑选」这个环节。

曲凯:明白了。也就是说,Mercor 并不是中途转型成数据标注公司,而是一直在讲同一个故事、做同一件事。只是你们在做的过程中,发现了最有钱的客户和他们最痛点的需求,然后先把资源集中到了这个方向,跑起来后,未来可以再慢慢扩展。

那你觉得国内能复制出一个 Mercor 吗?

虞快:关键要看国内的 AI 公司愿不愿意在数据上花钱。只要有预算,就一定有人能把这件事做出来,而且可以做得很成功。

曲凯:但国内外还是有差距。

比如国内的模型公司估值可能也就三四十亿美金,而美国这边已经到三四千亿美金了。

曲凯:那在你看来,数据标注的市场规模有多大?

虞快:现在看,大概有 50 - 100 亿美金。

只要 OpenAI、Anthropic 这些公司还在,这个市场就会继续扩大,因为他们会持续砸钱来换取模型的领先地位。而只要他们投入,那 Google、Meta 这些不差钱的大厂也会跟进,所以市场还会进一步扩大。

曲凯:确实。如果 Meta 在一个人身上都能花 1 亿美金,在数据上肯定更舍得花钱。

那你当时为什么选择加入 Mercor?

虞快:原因很多。

第一,我觉得好的创始人至少要在某个领域特别强,而 Mercor 的三位创始人有个共同特长:辩论(笑)。他们是全美顶尖高中辩论队的队友,反应快、说服力强。

会辩论其实很有价值。比如几个月前,我们招人时还没什么筹码,全靠创始人把 vision 卖出去,说服大家加入。再比如我要是自己做产品,也会想让他们去帮我卖,因为我相信无论客户问什么,他们都能讲到对方信服。

第二,Mercor 的增长势头实在是太好了。从 100 万到 1 亿美金 Run Rate,Mercor 只用了 11 个月,比 Cursor 12 个月的纪录还短。而公司跑得越快,就越能吸引好的人才;好的人才来了,效率更高,增长也会更快。

第三,我认为在这个时代,有特点、有话题性的创业公司更容易成功,或者更容易拿到溢价,而 Mercor 的三位创始人就很有话题性:他们都是拿到 Thiel Fellowship(Peter Thiel 创办的项目,非常难获得,其中一个条件就是必须退学)的 college dropouts,二十出头就创立了 Mercor。

其实我们团队整体都很年轻,平均年龄只有 22 岁,很多人都是 dropouts,一半的人之前都创过业。

曲凯:这里我很想和你探讨一个问题,就是中美年轻人创业的区别。

在国内,现在很多人不太看好年轻人创业。大家会觉得这波 AI 是移动互联网的延续,所以经验丰富的人更懂怎么避坑,也有更多的资源。而年轻人需要不断试错,就算拿到融资,也可能不敢花、不会花,很难做出结果。

那在你看来,为什么 Mercor 能在平均年龄这么小的情况下,跑出这么快的增长?

虞快:我觉得中美创业氛围的差别很大。归根结底,这是个 sample size 的问题。

在中国,创业失败对一个人职业生涯的打击远比在美国大,所以愿意尝试的人本身就少,成功案例就更少。而因为大家看不到太多成功的故事,所以就更不愿意选择这条路。

而硅谷有很多「创二代」。很多人从小就听着父母辈的创业故事长大,所以他们甚至会把创业当成是毕业之后的默认选项。

曲凯:确实。而且这边很多人很小就在街边卖柠檬水,上大学后也经常做 presentation,所以他们讲故事和 pitch 的能力,甚至可能强过国内一些很 senior 的创始人和高管。

虞快:是。在美国,sales 和 marketing 是非常核心的能力,而且大家也很愿意去提升这些技能,比如在美国亚马逊畅销榜上,就常年有一本叫《How to Win Friends and Influence People》的书。

曲凯:那总结下来,你觉得 Mercor 增速这么快,最核心原因是什么?

虞快:首先我们在对的时间,选中了一个特别好的赛道。而且我们一上来就从 Scale AI 招了一些核心人才,帮我们少走了很多弯路。

除此之外,最关键的一点就是快。

我们的决策速度和执行速度都很快。

曲凯:「决策快」是不是意味着,你们必须有更高效的评估和反馈机制?

虞快:对。创始人最在意的就是「what's working & what's not」。

曲凯:但你们快速做出的决策,很多时候真的是对的吗?

虞快:对错没那么重要,只要不是大错就行。

Mercor 并不是特别 data-driven,很多时候都依赖创始人和管理层的直觉。因为市场变化太快,我们没时间做特别科学的判断,所以关键是快速行动。

就算错了,能及时意识到问题、立刻修正就行。

曲凯:也就是你说的「执行快」?

虞快:对。这是我们最核心的竞争力,别人很难复制。

最直观的体现,就是我们能「说到做到」。我们一旦定下一个目标,就一定能按时交付。而且整个团队都是这样,所以大家彼此信任,也敢对客户做出承诺。

曲凯:你们是怎么做到的?我觉得很重要的一点,是你们可能比其他硅谷公司要卷。

虞快:确实很卷(笑)。我们团队里绝大多数人都是每天 7 点半上班,凌晨 1 点下班。

但工作时长不是关键,关键是我们真的在乎自己做的事,所以都是心甘情愿地在拼。

在一家每月营收都能涨 50% 的公司里,你根本不会纠结那些有的没的,只会越做越有劲。

曲凯:所以增长就是最大的激励。

那像你们这样勤奋的公司,在硅谷 AI 创业圈里大概有多少?

虞快:十几人的团队很多都是这种状态,等团队扩张到一百人,还能保持这种强度的就不多了。

曲凯:但这可能已经超出很多国内公司对硅谷努力程度的预期了。国内很多人以为美国公司很悠闲,但其实这边的很多团队也很拼。所以大家还是不能小看硅谷公司。

那你现在在 Mercor 负责 Engineer Management,也在招人,能不能讲讲你招人的一些标准?

虞快:首先技术肯定要强。

比如我们招 PM 时,也很看重候选人的技术能力,经常会问「你最近 build 过什么」,哪怕是个网站也可以,只要你能讲清楚过程中你的一些思考就行。现在 AI 工具这么多,如果一个候选人什么都没 build 过,就是个 huge red flag。

另外,我个人更看重的一个品质是 Agency。

曲凯:这个词在美国很火,有点像是「主动性」的意思,就是你能不能克服一切困难,拿到最终的结果。

虞快:对。如果我要把一个任务事无巨细地拆解给你、还要给你设定每天的工作量,那我就会觉得你没有足够高的 Agency。团队里可以有一两个只会埋头干活的人,但前提是他们的沟通和学习能力也要过硬,否则就会拖慢整个团队。

另外,我特别看重一个人是不是足够聪明。

怎么判断呢?

我常用的方法是:先抛一个新概念,然后看这个人能多快理解并融会贯通。

学习有不同层次,最基础的是机械背诵,再高一层是能理解原理,但没有内化、讲不清楚。

更高级且轻巧的思维方式,是能拿熟悉的东西去类比。举个例子,你不知道 MCP 是什么,但你很懂 API,能立刻看出 MCP 和 API 的相似点与不同点,那你就能通过类比的方式,快速消化新概念,而且理解得会比较深刻。

曲凯:其实好的哲学家、诗人都有这种能力。他们很擅长解构,然后在底层找到不同事物之间的联系。

不过你举的 MCP 的例子还挺有趣的,因为大多数人学新概念可能就是看介绍、读文章,而你的第一反应是去找类比?

虞快:对。我会在 Google 里输入「MCP vs」,看自动补全是什么。

曲凯:如果只是想粗浅地了解 MCP,用你这种方法可能只需要 1 秒钟。因为大家只要能看到自动补全的「MCP vs API」的词条、认知到 MCP 可以类比 API,那就已经很够用了。

虞快:是。另外,对我来说,学习新东西最有效的方式是看别人的评价。比如搜完「MCP vs API」,我会优先去看 Reddit 上的帖子。再比如我想快速了解 A 产品,我也不会先看官网,而是会想它的竞品是谁,然后搜索「A vs B」,看大家对这两个产品的评价。

曲凯:你的学习方法有个前提,就是脑子里得有一套结构化的框架,这样遇到新概念时,才知道该放在哪一块。不然就算能想到做类比,脑子里的知识也是一盘散沙。

然后你刚才说面试会用新概念来考察一个人聪不聪明,能举个例子吗?

虞快:比如我可能会介绍一个概念,叫「parking function」:

假设有三个人要停车,只有 3 个车位,如果这三个人都能停到自己想停的位置,就算满足条件;而只要有一辆车停不下,就不满足。

举几个例子:

如果三个人分别想停在 1、2、3 号位,显然都能停下,所以「123」是一个满足条件的 parking sequence;

如果三个人都选 1 号位,那后面的人看到 1 号位被占之后,可以向后顺延、停进后面的车位,所以「111」也满足条件;

但如果三个人都想停 3 号位,且车不能后退时,那第一个人占了 3 号位之后,后面的人既不能退回到 1、2 号位,也没有 4 号位可选。所以「333」不是一个 parking sequence。

讲完定义,我会给候选人一个数组,让 Ta 判断这个数组是不是 parking sequence。

比如我给出的数组是「231」,大多数人都会老老实实按照定义去模拟:第一辆车去 2 号位能停下,第二辆车去 3 号位也能停,而第三辆车本来就想去 1 号位,所以大家都能停下,因此这个数组是对的。

曲凯:大多数人可能这会儿已经晕了(笑)。

虞快:哈哈,而且这种列举的方式很慢。更好的做法是 take a step back,思考「在什么情况下会有人停不下」。

曲凯:稍等啊,给我几秒钟。

(大家也可以一起停下来想一想 :P)

……

我在想,如果后面的车想停下,前面的车位必须先被占满。

虞快:对,这是一个很好的观察。所以你希望大家优先选择停在靠前的车位。那么如果没有人选择 1 号位呢?

曲凯:那车位的数量就一定要大于车的数量,否则就必须得有人选 1 号位。

虞快:那需不需要一定有人选 2 号位?

曲凯:不需要,因为可以有两个人选 1 号位。

虞快:对。所以要么得有两个人选 1 号位,要么得有一个选 1 号、另一个人选 2 号。

这里还有一个观察,就是数组的顺序其实无所谓,比如「321」和「123」,最后结果是一样的。

所以最后能推出的规律就是:一个数组从小到大排序之后,第一个数必须 ≤ 1,第二个数必须 ≤ 2,第三个数必须 ≤ 3。只要满足这个条件,就是一个 parking sequence。

但很多人不会这样思考问题,而是会花很多时间去硬生生地模拟。这时我也会给大家一个 hint,比如:如果我给你一个随机数组,你觉得它大概率能不能满足条件?

曲凯:很有意思。有没有更简单的题?

虞快:我面试其实也会问一些很简单的题,但往往能从细节里看出很多问题。

比如我会给候选人「123」和「456」这两个字符串,然后让 ta 写段代码,把这两个字符串相乘的规则表示出来。有的人会卡半个小时,最后说「我忘了乘法怎么算了」。

其实忘记乘法没关系,毕竟大家现在都会用计算器。但我介意的是:你不记得规则,为什么还要在那硬耗半个小时?这半小时你在做什么?既然你不会,那为什么不直接问?

不过有时候我自己也不知道某道题的答案是什么。这种情况,我会一边听候选人推理,一边在心里想「如果是我,我会怎么做」,然后和候选人的答案做对比。如果 Ta 答得太离谱,那我可能就会直接拒掉。

曲凯:明白。前面你聊到的这些框架和思路,是什么时候开始形成的?

虞快:其实是做管理之后才开始形成的。我大概做了四五年管理,很多想法都是和我在 Two Sigma 的老板学的。

另外说起来,让我快速成长的,是在 Google 的那段时间。

我刚参加工作的第二个月,需要做一个项目,涉及到一项全新的技术。我对那个技术一无所知,所以就有点沮丧,觉得自己对团队没有贡献。但我的 Tech Lead 和我说了一番话,让我茅塞顿开,他说:

如果真有人知道该怎么做,这个项目早就做完了。所以第一,别把别人想得太强,不要以为 senior 的人一看就能搞定,其实大家都要摸索;第二,你的工作之一就是主动去搞明白这件事到底该怎么做,如果你能啃下来,那你就是组里第一个会做的人,还能去教别人。

这件事对我影响很大。在那之前,我会觉得自己只是 L3,而组里全是 L5、L6,所以自己就是不如别人。但其实很多时候不是这样的。

曲凯:所以从 Google、Two Sigma、Citadel,再到初创公司,你在各种类型的公司都待过。你感受到的核心区别是什么?

虞快:我觉得公司类型不重要,重要的是赛道。

我当时去金融公司,是因为发现周围厉害的人都在做金融。而现在,很多厉害的人都会优先去搞 AI。

你想想,未来十年,是金融更可能涨 100 倍,还是 AI?

答案显然是 AI。

所以真正值得思考的问题不是要选大厂还是创业公司,而是你要不要做 AI。

曲凯:最后,你觉得未来 AI 公司的组织形态会是什么样?PM 和工程师的角色会发生什么变化?

虞快:随着 AI Coding 能力提升,写代码会越来越省时间。比如我现在在通勤路上想到一个点子,就会把需求丢给 Cursor,等到家时,它可能已经生成了一个初版。

所以未来,工程师更重要的能力不是写代码,而是要想清楚该做什么、方向对不对。这种判断往往来自客户反馈,所以工程师也应该重视和客户的交流。

反映到组织架构上,就是工程师和 PM 的边界会越来越模糊,组织也会趋向扁平化。

这就要求公司有健康的激励机制,管理层也要有识人能力,能看出谁真的在为公司思考。

42章经

思考事物本质

阅读原文

跳转微信打开

硅谷 AI 大转弯与二级市场的牛市|42章经

2025-08-31 20:33:00

原创 曲凯 2025-08-31 20:33 北京

散户崛起!

莫傑麟已经是第五次做客我们的播客了。从 23 年底到现在,我们差不多保持着每半年一次的频率,定期复盘中美 AI 的发展趋势。最近我又来了硅谷,也再次和傑麟聊了聊今年美国的 AI 进展,以及近期二级市场的牛市。

本期播客对谈原文约 30000 字,本文经过删减整理后约 10000 字。

曲凯:今年硅谷有什么新趋势?

莫傑麟:今年大家达成了一个新共识:AI 又进入了一个高速发展的阶段。

但硅谷出现了一个大转弯,就是 AI 的核心衡量指标,从「Scaling Law」变成了「Token 消耗量」。

今年最核心的叙事,就是 Token 消耗量在持续增长,而且增速惊人,比如七月就比六月增长了 20% 以上。这非常像移动互联网高速发展那几年里,流量、留存等指标的增长曲线。

在 Token 消耗加速的背景下,从最底层的 GPU,到模型,再到最上层的应用,整个行业都有新的发展。

目前消耗 Token 最多的,还是 OpenAI、Anthropic、xAI 等几家核心 AI Labs。再细分来看,增速最快的是这些 Labs 自有的应用,比如 ChatGPT 的日活、使用时长都在上涨,其次是很多 ToC 的生产力工具。

曲凯:所以大家现在会越来越多地用大模型。但今年美国的模型并没有明显变聪明,GPT-5 的评价甚至还褒贬不一,为什么它还是有不错的增长?

莫傑麟:这背后有一个很重要的认知迭代,就是大家对 AI 的预期发生了变化。

为什么大家从 24 年开始就一直很期待 GPT-5?

因为过去大家期待模型会不断突破智能上限,实现 AGI。

但从今年 1 月开始,大家更期待的是能在日常生活中用好现有智能,因为现有智能已经解锁了很多应用场景,而且大家的需求也很强烈。B 端希望 AI 可以解放生产力、降本增效,C 端则希望 AI 可以替代搜索、辅助工作等等。

所以无论是 AI Labs、Infra 公司还是应用公司,都在想办法让现有智能更可用,释放更多需求,衡量指标自然也就从 Scaling Law 转向了 Token。

不过不同公司关注的截面不一样,比如应用端主要看 Token 的消耗量,Infra 端更关注 Token 的利用率和成本。

其实你每期播客我都有听哈哈,我看你今年请了很多做 Infra 的创业者,他们做的事情就是让 Token 响应更快、更稳定、更精细化,甚至是把成本降下来。

GPT-5 本质上也在走这条路。它没有试图证明自己更聪明,而是把很多之前分散的模型能力、信息和前端界面都整合了起来,从而追求更好的可用性和易用性。

曲凯:所以 AI 已经进入应用阶段了?

莫傑麟:我觉得已经过了应用阶段,到了逐步产业化、加快工业化的新阶段了。

AI 完整进入应用阶段的标志是 Chatbot,最后一个关键更新是 Agent。

Agent 特别像移动互联网时代的 App,以前每个产品都需要一个 App,现在每个场景可能都要有一个 Agent。

但目前 Agent 的 Token 利用效率还不够高。比如我们用 Manus,经常发现 credit 很快就用完了。

那为了让 Agent 的使用体验更好,就需要去优化 Infra,让智能更好地落地。

曲凯:那如果大家不再讲 Scaling Law,是不是意味着 AGI 不重要了,或者说实现不了了?

莫傑麟:这点很有意思。今年大家对模型和应用的分工也形成了一个新共识。

模型的地位依然很强势。并不是说模型智能不重要了,而是它必须被封装进商业环境,或者和 Infra 结合,成为一体化的解决方案,真正提供商业价值和产品价值。

在应用层面,过去大家常常争论套壳有没有价值。但随着 RL 范式的发展,大家逐渐发现目前可被验证的使用场景并不多,所以现阶段更实际的做法是先通过产品让用户把模型用起来。比如 Manus 提出的 Context Engineering,就是一个从产品层面找到的切口。越来越多的人也认识到,context layer、agentic layer 本身也很有价值。

所以今年不同位置的玩家都会以 Token 消耗量为主轴去做事,各有分工。模型公司要让 Token 本身更有价值,Infra 公司要让 Token 的使用更快、更好、更省,而应用公司则会想办法让消耗出去的 Token 换回更多的数据反馈。

曲凯:但如果模型公司不再把精力放在 AGI 上,而转向整合和应用,这是不是一种不太健康的趋势?

一方面,应用端已经卷得厉害了。就拿 AI Coding 来说,美国甚至卷得比国内还狠。如果模型公司也下场,岂不是更卷?不过可能有 PMF 的事情还是太少了,大家看到一个能跑通的事情,不去做也不太现实。

另一方面,之前 OpenAI 之类的公司专注于提升智能,每次智能有突破,就会解锁更多能力,催生一批新的套壳公司。但如果今天模型公司不再追求智能提升,而是把有 PMF 的事情顺手做掉,那好像模型和应用之间的分工反而变模糊了?

莫傑麟:我觉得这反映了一个很有趣的变化,就是今天的公司和过去的公司不太一样。

以前我们习惯用一句话来定义一家公司,比如字节就是「App 工厂」。到了 AI 这波,大家也有这种惯性,想用一句话去定义各种公司,比如 Google 就是「有很强的技术人才储备」。

但在 AI 时代,技术和产品是可以逐步融合的,可能就没必要把分工划得特别清楚。

能融合到什么程度还不好说,但从逻辑上来说,应用可以提供一部分数据给模型,所以一些有企图心的公司一定会尝试既做模型,也做产品,甚至顺带做一些 Infra,把整个链条端到端地打通。

我们也确实能看到,今年 OpenAI 招了不少创业公司的 founder 进来做产品,Google 在应用端的发力也越来越快;Manus 本身就在做一些技术工作,Cursor 也开始训练自己的模型。

所以说,今年不同 AI 公司之间的边界变得很模糊。

曲凯:如果模型和应用公司能够互相促进,形成平衡,长期看当然是好事,但前提还是要看模型本身的能力能发展到什么程度。

比如 GPT-3.5 解锁了聊天能力,才有了 C.AI 这类产品;模型具备了 RL 推理能力,就出现了一大批 Agent 公司。这也是为什么我们最近在看多模态,因为如果多模态模型解锁了新的能力,未来就可能涌现出多模态时代的 C.AI 和 Manus。

不过现在回看,其实当时 o1 出来之后,大家都觉得模型好像没变得更聪明。

最近 GPT-5 发布,似乎大家也觉得它没解锁什么新能力。在你看来,GPT-5 有没有什么被低估的地方?

莫傑麟:我觉得很有。

首先评估模型智能水平这件事的重要性已经降低了。

今年 OpenAI、DeepMind 的模型已经拿下了 IMO 金银牌,说明我们其实已经没有太多合适的工具去评估模型的好坏了。

而且现在 AI 已经进入工业化和产业化的新阶段,在这个阶段,最关键的评估指标就不是智能水平,而是成本,因为在性能差不多的情况下,只有足够便宜,产业化才能加速。

另外,我觉得大家对模型的预期经常和模型本身的能力有偏差。

比如当时大家对 o1 的预期是它一下子能解决很多问题,但回头看,大家当时并不知道它解锁了什么能力,也不知道该怎么准确评估。后来大家才慢慢意识到,RL 范式在产品上最直观的体现,是模型更懂你、情商更高,降低了用户写 prompt 的门槛。

那么我个人认为,GPT-5 是一个非常重要的转折点。它标志着大家对 AGI 的预期被大幅修正,接下来拼的就是全栈能力和效率。

GPT-5 依然是一个不错的可用的模型,更关键的是它把模型拆分成了 Instant、Thinking 等不同模式,从而能够分开计价。从商业模式上看,GPT-5 已经明显进入了加速产业化的阶段。

曲凯:但这岂不是进入了国内创业者的舒适区?假设大家都开始拼整合、拼 Infra、拼工程,那 DeepSeek 不会比 ChatGPT 差,甚至可能更好。

莫傑麟:逻辑上是这样。

因为模型确实进入了一个瓶颈期。除非 Thinking Machines 能带来新的架构创新,否则大家基本已经接受模型架构就是这样了,智能提升主要来自各个环节挤出来的增量。

不过各个环节的增量叠加起来,依然有几十个百分点的提升空间,也还有围绕 Infra 的创新余地,所以今年几家 AI Labs 在 ASIC 上的研发速度都加快了,都在围绕 Infra 下功夫。

曲凯:对,我们刚跟亦博录完一期 Infra 主题的播客,和他聊完我才意识到,原来现在 Infra 这么重要、对模型的影响这么大。

比如之前大家都在讨论 DeepSeek 为什么这么强,亦博给出了一个特别好的答案,就是因为 DeepSeek 的 Infra 足够强、梁文锋本人也特别懂 Infra。

莫傑麟:我听了那期播客,我觉得亦博讲得非常好。Infra 的作用其实很直观,但做 Infra 优化的人还不多。

在我的理解里,Infra 优化可以拆成四层:

第一层是模型和 GPU 之间的优化,也就是怎么把卡用好。我理解 DeepSeek 就是在这一层做得特别好。

第二层是模型和应用之间的优化,现在主要体现为推理加速。以前模型公司会顺手把这件事做了,但今年有了一些初创公司的机会。因为 Anthropic 不再给 Windsurf 提供 API 之后,很多应用公司不想只绑定一家模型,而是会去找 Together AI 和 Fireworks 这样的中间商,然后顺便让它们帮忙做推理优化。不过推理加速的技术壁垒不高,很多东西还是开源的,所以这一层的毛利空间还存在争议。

第三层是纯应用层的 Agentic Infra。像 Sheet0 创始人文锋雷磊在你们播客里提到过的就属于这一层。这一层做得好不好,会直接决定用户体验。比如你给 Manus 一个任务,它是只能跟你对话,还是能在前端直接调动一个优化好的模型帮你做事,用户感知差别会很大,消耗的 Token 也会完全不同。

第四层就是 context 层的 Infra。Manus CTO Peak 提到的 Context Engineering,讲的就是这一层的事。

曲凯:明白。所以未来一段时间里,模型会把更多东西整合起来,既包括已经验证过 PMF 的应用,也包括能优化 Token 消耗的 Infra。

在这个前提下,我自然会有个疑问:

为什么英伟达和一些 AI 公司还能涨得这么好?尤其是英伟达,它上一波大涨主要是靠 Scaling Law,现在大家都不讲 Scaling Law 了,为什么它还在涨?

莫傑麟:英伟达涨得好的核心原因,就是 Token 消耗量一直在增长。

英伟达的需求主要分两部分。一部分来自模型训练,尤其是 pre-training。这类需求有周期性,当模型或架构稳定后,训练用卡需求会下降。另一部分则是推理需求,来自用户的使用过程。这两种需求此消彼长,前者对应 Scaling Law 的逻辑,后者则对应 Token 消耗的逻辑。

现在 Token 的消耗越来越多,大家看到 RL 的进展、Meta 大规模招人后,对 pre-training 的需求也在回升。再加上英伟达在软件和售后服务上的优势,很多公司更愿意一站式地用他们的 GPU。各种利好因素叠加,英伟达自然还是会有不错的涨势。

但今年一些 ASIC 厂商,包括 AMD 的股价也表现亮眼。

这说明什么呢?

说明虽然英伟达依然强势,但市场和公司已经在思考怎么「节流」了。比如一些大公司会考虑在推理环节用 ASIC 或 AMD 来降低成本。而国内因为长期有卡脖子的问题,更是早已有不少替代方案。

这里面其实有一个赚钱的密码,就是大家只要解锁了 Infra 的变化趋势,可能就会在其中找到机会。今年很多英伟达产业链公司的涨幅甚至超过英伟达本身,就是因为它们是在 Infra 层做优化。

曲凯:你前面讲过 Infra 优化有四层,现在最核心的是哪一层?

莫傑麟:最核心的还是最底层,因为卡的价格依旧决定了所有事情的走向。但英伟达实在做得太好了,所以这一层的优化会是一个长期趋势,不会特别快。

曲凯:但像你说的,国外 AMD 等公司,国内的寒武纪、光模块企业也都涨得很好。那这个涨势能延续多久?

莫傑麟:逻辑上的延续性很强。大家都希望降本,也希望英伟达多几个竞争对手,至少在推理端有更多替代方案。

但关键还是要看个体公司能不能真的交付出东西来。硬件需要订单、预期和交付能力同时到位。在没到这个合力点之前,就算需求和预期再高也没用。

Infra 层还有一个很有意思的看点,就是推理加速这种事情,到底是第三方公司的机会,还是模型公司、应用公司自己就能做掉。

曲凯:但这个短期内应该很难看出来,相当长一段时间可能都会并行。

莫傑麟:是。不过这其中有一个转折点,就是现在该出现的 Infra 公司基本都出现了。所以我们也在观察这批公司里会不会长出下一个 Snowflake,或者出现一个嵌在 Palantir 里的 Snowflake。

曲凯:明白。你们今年还有看到什么比较有意思的应用吗?

莫傑麟:今年有两个点让我印象很深。

第一,RL 范式出来之后出现了一些变化。

一方面大家逐渐认识到,能给出准确 reward 的场景其实很有限,所以都争相去做 Coding、数学这些能明确验证效果的场景。

另一方面,大家也意识到很多场景依然需要人的介入,所以一些垂类公司发展得还不错,比如法律领域的 Harvey AI 就做到了很高的 ARR,医疗、金融、保险等领域也都出现了找到 PMF 的团队。这些团队借助模型去解决了一些行业 workflow、专用语言和使用环境等问题,真的把智能用了起来。

第二个亮点来自国内创业者。今年有一些国内团队解决了一部分模型和 context 之间的 Infra 问题,并且率先找到了场景,让消费者直接感受到了智能。比较有代表性的产品包括 Manus 、Genspark、Fellou 等等。

曲凯:今年美国二级市场上还有一些挺有意思的公司,比如 Meta 最近就超级火。你们最关注的几个点是什么?

莫傑麟: Google 和 Meta 这两家公司很值得研究。

Google 最值得研究的课题,是组织模式和技术储备等要素,究竟哪一个对 AI 发展来说更关键。因为大家一直认为 Google 有很强的全栈技术能力,但协作效率有问题。然而,Google 今年在文字模型、视频模型和机器人上都有所进展,依然能稳居行业前二。

这个课题很难回答,或许更适合国内的企业家去思考。因为他们经历过类似的大规模竞争,更容易理解什么才是决定性因素。他们也可以判断,如果 Google 真的能够改变组织模式,是不是有机会创造出更厉害的新东西?

Google 的问题和 Meta 也有所呼应。

Meta 当下争议最大的课题,就是砸钱招人到底有没有用。一部分人认为临时拼凑的团队缺少统一愿景,很难做出下一代模型。但另一部分人会觉得,Meta 招的人几乎都是各个 Lab 的顶尖专家,而且很多人都拥有丰富的一线工程经验。

曲凯:甚至很多人还有上镜经验,比如上过 OpenAI 的发布会(笑)。

莫傑麟:是的哈哈。所以这两个课题都非常有意思。

把它们放在一起看,可以看出一个趋势,就是大家今年的 FOMO 情绪不仅没有减弱,反而更强了。折射到行动上,就是各个公司从 23 年的「抢卡」,演变成了今年的「抢人」。

曲凯:但我觉得大家本来还好,好像是 Meta 靠一己之力把 FOMO 又带了起来。

莫傑麟:但是国内腾讯也在做类似的事。美国除了 Meta、Google,这半年里微软,甚至 ServiceNow 这样的公司,招聘动作也都很夸张。

至于为什么会这样,不同的人有不同的视角。

曲凯:所以你的视角是什么?

莫傑麟:我觉得是因为 AI 真的离产业化越来越近了。

我经常开玩笑说,现在的 AI 很像当年的移动互联网地推。过去靠地推把线下用户拉到线上,今天则靠 AI 把用户带进全新的场景。

所以那些有场景、有能力的公司,会更真切地感受到 AI 不是遥不可及的 AGI,而是能和自己的商业场景结合、贴近产业化的实在创新,那他们就会更坚定地去做判断和动作。

曲凯:明白。前面我们聊到,Token 消耗的叙事仍然带动了很多二级市场股票的增长。在我们录音的这两天里,国内也进入了一波牛市。那你觉得未来一段时间,二级市场的反馈会有什么变化?

莫傑麟:中美二级市场目前表面走势类似,但驱动逻辑完全不同。

AI 对美国整体景气度的影响占到三分之二以上,因为它决定了美国能不能在科技生产力上继续保持领先,进而影响各个产业的落地。

所以美股的走势相对更好判断,本质上取决于大家对 AI 发展的预期。过程中当然会有各种干扰和颠簸,但只要市场相信美国 AI 能持续领先,产业化、工业化在不断加速,那美股整体还是一个偏向上的局面。

中国这边则更复杂。

AI 对中国也很重要,但没有美国那样的决定性地位,因为中国宏观经济和二级市场情绪,受居民存款、投资意愿、风险偏好、制造业周期等多重因素影响,所以 A 股的表现更多反映的是大家心理预期和风险偏好的变化。

曲凯:我们先讲美国。我记得你提过一句话,说「AI 是美国所有资产里唯一的泡沫」。

莫傑麟:我现在依然这么认为。但这里的「泡沫」不是贬义,不是说 AI 是骗局、没有发展前景,而是说它的估值确实偏高。

曲凯:那比如之前英伟达到 3 万亿市值时,大家核心在验证的是模型能力能不能持续提升、Scaling Law 是否依旧有效。

现在有没有类似的待验证点,一旦被证伪,就会让市场的泡沫破掉?

莫傑麟:有两件事特别关键。

第一,Meta 为什么在这个时间点花这么多资源组建这样一个团队,以及他们能不能在 6 到 12 个月内做出更好的模型。

第二,会不会出现一些能稳定消耗 Token 的应用或场景。

美国现在有个词叫 Vibe Revenue,意思是用户知道 AI 有用,但并不清楚到底能用它干什么,所以现在很多产品的收入其实来自于用户过高的预期,甚至是跟风。

曲凯:所以你觉得以英伟达为代表的这些 AI 的 Beta,在美国二级市场会继续涨吗?

莫傑麟:会有波动。但在 Meta 推出新模型,或者发现 AI 没有真需求(如果那一天真会到来)之前,大趋势还是顺的。

曲凯:但国内二级市场的 AI 表达,更多还停留在芯片、Infra 上,比如寒武纪、英伟达的产业链公司等等。国内好像就没有 Meta、Google、微软这样的标的。

莫傑麟:其实有。

一开始大家认为最原生的 AI 公司是 DeepSeek 和字节,但这两家都没上市。今年大家找到的新标的是腾讯,过程中一度是阿里,但因为今年腾讯在 AI 上的努力程度和战略高度都强了很多,所以腾讯今年的股价也很顺。

曲凯:其实就还是大厂逻辑。只要一个大厂花钱了、让大家感觉到它在努力了,就会被列入到这类故事里面。

莫傑麟:也要看它有没有实质性进展。

其实这波 AI 的估值逻辑和移动互联网完全不同。移动互联网时代大家看的是 PMF、市场占有率和留存率这些指标。

但现在大家的商业和投研能力强了很多,不再只盯着现成的数据,而是会预判这项技术重不重要、这些人的执行力和视野是不是对的、这家公司是不是在正确的路径上等等。只要你的业务基础是健康的,市场就愿意给你希望。

这套逻辑今年在 Meta 和腾讯身上都得到了验证。

曲凯:所以这波 A 股到底是不是牛市?该怎么判断?

莫傑麟:这件事我相信谁讲都容易被打脸(笑)。

二级市场本质上是预期的投射。比如科技在美国市场之所以特别关键,是因为它代表着一种长存的预期,而且科技的毛利率也很高。

我记得 24 年初,我们录过一期关于乐观的播客。当时市场环境很悲观,但我们身边的创业者和大厂负责人并没有躺平,而是在积极向上、扎扎实实地做事。

到了今年,这批人真的找到了能比全球同行做得更好的事情,比如泡泡玛特、生物医药等等。

所以,从 24 年初到现在,我观察到的最大变化,就是 AI 已经从少数人相信的愿景,变成了真正落地的好产品,比如 DeepSeek、Manus、Genspark 等等。

那么牛市需要两个要素,一是要有一批优质公司能持续输出业绩,这一点从去年开始中国市场就具备了。二是市场的风险偏好在提高。要具备这一点,就需要市场能有正反馈,也就是大家能真正赚到钱。

曲凯:你发给我的那张有人拄着拐也要开户的照片,其实就印证了第二点哈哈。

飞书文档 - 图片

莫傑麟:是的。其实这波波动里一个很重要的群体就是散户。

现在的散户和过去相比,手里有更好的投研工具,也能接触到更优质的信息。不论他们的判断对不对,研究散户本身也很有价值。

美国最优秀的投资机构是平台型资产,靠高周转获取收益。如果市场里全是高周转资金,或者全是跟随型量化,要形成牛市反而更难,因为资金都在博弈。

相比之下,散户往往更团结,尤其是高知散户,对一家公司会有更坚定的认知。比如特斯拉和 Palantir 就是典型的由散户推动起来的公司。

曲凯:但这跟很多人的认知是反的。很多人说国内市场波动大,正是因为散户占比太高,缺少长线资金,而美股机构资金占比高,所以更稳定。

莫傑麟:但这两年的二级市场和以前已经完全不同了。

确实,美国的长线资金占比很高,但这类资金周转非常慢,不会引发 6 到 12 个月周期的剧烈波动。现在市场的波动,通常是由机构、量化资金加上散户共同引起的。

不过,就像我前面说的,机构和量化资金大多是跟随型、博弈型,其中六七成都不够团结。他们会紧盯别人的预期,一旦判断这个预期有误,就会立刻进行反向交易。

而散户通常不会有太多博弈性动作。而且在美股这种「熊短牛长」的环境里,散户更容易形成自己的投研体系,并通过正反馈不断完善。比如,有人因为看好英伟达或特斯拉而赚到钱,就会逐渐形成一套自己的投资方法论。

所以这些散户对股票的选择很有借鉴价值。

以 Palantir 为例,我们一开始看好它只是因为订单充足,但如今它已经被推到了百倍以上的估值。这背后既有基本面的支撑,也有散户的贡献。

再回到 A 股是不是真牛市这个问题。我个人相对偏乐观,但这其中有一个重要的变量,就是中国的个人投资者,尤其是那些平均股龄二十年的老股民会怎么做。

A 股的牛市相对较短,熊市更长,散户很难建立稳定的反馈系统,往往刚做对一些事,市场就转向了。但老股民们即使不炒美股,可能也从美股中学到了不少东西。如果他们能把这些经验移植到 A 股,或许会带来很有意思的变化。

曲凯:这段很有意思。确实,A 股没有长牛,所以很难形成真正的正反馈闭环,大家更多还是一种猥琐发育或竞合关系的循环。

然后过去两年,美股 AI 板块表现最好的,基本还是那几只大票。你觉得未来会有什么变化?

莫傑麟:我们把模型和算力统称为 Infra。过去一段时间,市场一直在尝试从 Infra 切换到软件。因为大家的肌肉记忆是当 Infra 成熟之后,软件应用里应该会跑出一个大牛股。

但过去两年市场一直没太切过去,因为大家发现还是 Infra 公司手里有数据、有 demo、有顶尖人才,所以大部分交易热情还是集中在 Infra 上。最多是大家看完英伟达,再去看看它的产业链、投资标的,或者更便宜的芯片替代方案。

不过今年出现了一些值得关注的应用公司。

第一个是 Reddit。它有点像美国版的知乎 + 小红书 + B 站,而且没有被过度商业化,社区数据质量很高。现在 ChatGPT 就在高频使用 Reddit 的数据。我最近也经常在想,如果知乎或小红书本身也有很强的 AI 团队,会做出什么样的产品?

第二个是 ServiceNow。这家公司会帮企业梳理 Workflow,然后把能固化的部分做成软件交付。虽然起步慢,但他们凭借着强大的交付能力和工程能力,逐渐占领了用户心智,还拓展了一些 500 强客户,拿到的软件需求越来越多,现在的增长速度也快了起来。我很推荐想做美国 ToB 业务的创业者去研究一下 ServiceNow 的路径。

第三个值得关注的公司是 Figma。当年国内研究 SaaS 时,大家都很有热情地分析过一些 PLG 公司,比如 Figma、Notion 等等。这批公司如今几乎都是 AI 的赢家,而且它们的打法也契合华人团队在增长上的优势。

不过,大家对 Figma 的评价非常两极。一种声音认为它只是设计软件,技术不够先进,容易被原生 AI 产品替代。

但在我看来,设计本身离 AGI 就还比较远,所以 Figma 最大的优势在于它的协作场景。实际上,用户使用 Figma 的一大需求,是他们的设计师可能不在同一地点工作,所以需要通过 Figma 完成协作,甚至是制作一些模版。

另外,Figma 作为一个中生代公司,既有成熟的场景和资源,也有几百亿美元的市值作为人才和资本的保障。如果它能把 AI 真正融入协作场景,或许也能给其他几百亿、几十亿美元规模的公司提供一个参照。

曲凯:明白。二级市场我们已经聊得很全了,美国一级市场有什么值得关注的吗?

莫傑麟:今年美国一级市场最明显的现象,就是模型公司的估值越来越夸张。

像 Thinking Machines,一上来就是上百亿美元的估值,全明星团队加持。再比如 Scale AI 的收购,也进一步强化了大家对模型产业的信心。

当然,这些市场变动背后的过程很复杂,不能只看结果。但它们反映出了一个大趋势,就是 AI 的个体性极强,可能只有那 1% 最特别的团队,能拿到最多的钱。

而且确实有不少人通过二手份额,从 Scale AI、OpenAI 这样的公司上赚到了钱,这种正反馈又进一步加剧了市场对顶尖 AI 公司的追捧。

在我十几年的从业生涯里,从没见过第一梯队和第二梯队之间有这么大的估值差距。

我也很好奇,国内今年的融资环境也是接近美国这种局面吗?

曲凯:有类似的趋势,也有不同点。

美国的一级市场的一个优势就是它有一个非常好的生态,也就是一个健康的闭环。而国内一级市场缺乏这种生态,所以更多是单点击破,最终只有少数几家公司拿到最多的钱、赚到最多的钱,以及投中这几家公司的少数机构,也会赚到最多的钱。

然后最近一两年,国内一级市场有两个明显的变化。

第一,不可否认的是整个市场在往下走。虽然中间有起伏,但拉长时间线看,过去两三年和过去五年、十年相比,整体还是下行的。而且国内一级市场越来越像一个偏职能型的部门。它不再是驱动增长、带来大增量的引擎,而是一种必备的基础配置。

第二,两极分化越来越严重。因为 DeepSeek 和 Manus 的大火,今年 AI 的热度可能是去年的十倍,但从实际投资数量看,和往年差别不大,绝对没有十倍那么多,不过被投中的公司可能真的能拿到十倍的资金。结果就是大家仍然想投最好的团队和公司,而且这种两极分化的趋势目前看起来还会继续。

莫傑麟:最近美国一级市场还有一个很火的概念叫 Vibe Coding。Coding 成本越来越低,个体在早期验证 PMF 变得更容易、更便宜,所以很多原本做 VC 的人开始转去做孵化器或加速器,去支持各种「一人公司」。国内有类似的趋势吗?

曲凯:国内有人在做类似的事,也有人在支持独立开发者。

但我的看法可能和大多数人不太一样。

AI 的确会让未来公司的效率更高,需要的人更少,但这并不意味着会普遍出现「一人公司」。如果两个人能把事做得更好,为什么一定要一个人?关键还是要看组织结构和人效比,而不是执着于概念。

另外,大家经常会看到新闻说美国某个独立开发者一年能赚几百万美金,但国内这样的例子很少。我觉得一方面是因为美国生态更完善,能变现的钱更多,另一方面是国内很多独立开发者工程和代码能力很强,但在商业化和产品运营上的经验相对不足。

莫傑麟:我还有个好奇的问题。你接触张月光、曹越、小红他们这些创业者这么久,你觉得国内创业者怎么看 AI?他们遇到的最大困难是什么?

曲凯:我们接触的创业者状态差不多,都是越来越相信 AI 的前景。

至于困难,首先模型的竞合始终是个问题,就是怎么能更好地利用模型去做更好的产品,但又不会被模型的迭代吃掉。

第二是市场选择。很多公司现在首选出海,因为大家觉得 AI 成本太高,只有付费能力和意愿更强的市场才能覆盖成本。

但我觉得很多人对国内市场的悲观都是感性判断。如果你真正去拆解逻辑,会发现国内市场完全可做。因为长远来看,国内 Token 成本有可能降到接近零。到那个时候,大家完全可以重走移动互联网的路径,比如做大 DAU 的产品,靠广告赚钱,或者做社交产品等等。

所以中长期来看,我认为国内市场仍然有机会。

莫傑麟:我还有最后一个问题。我发现今年视频消耗 Token 的增速非常快,不仅增速远高于文字,绝对数量也很高。我们一直在研究,到底是哪些应用在拉动这波消耗。你有看到什么有意思的应用吗?

曲凯:我们今年年初发过一篇总结与展望,其中的各种预测都在逐步被验证。

我们在文章中提到过,今年的两大重点就是 Agent 和多模态。Agent 那波已经过去,接下来就是多模态,而多模态里最突出的就是视频。

不过,目前大多数 AI 视频产品还停留在特效、剪辑,或者图片转视频阶段。这些方向虽然可能会消耗很多 Token,但还称不上是真正的多模态原生应用。

我们真正期待的,是当像 Veo3 这样的模型变得更好、更便宜时,会不会出现类似 Manus 的现象级产品。它也许是一个多模态原生的内容社区,也许是一个多模态推理产品,甚至可能是类似世界模型的探索性应用。

一旦这样的产品出现,可能就又会带动一波长达半年甚至更久的浪潮。

【莫傑麟 @ 42章经文字稿 & 播客回顾】

2025.3《世界怎么就「东升西落」了?聊聊二级市场与 DeepSeek+Manus 的热潮》 (推送文字稿传送门

2024.7《上半年 AI 市场有多差?为什么机构出手这么少?》(推送文字稿传送门

2024.3《英伟达、Sora 与 AI 的三种核心叙事逻辑》(播客传送门:https://www.xiaoyuzhoufm.com/episode/65e34a65da891a9cd9bf90f2

2023.12《为什么我们开始乐观?关于经济发展的明线暗线、AI 与最佳实践》(播客传送门: https://www.xiaoyuzhoufm.com/episode/656aeffd0500be931c4eb099

最后,莫傑麟团队最近在做一个叫 WhatIf 的项目,希望把更多投研经验与 AI 实践结合起来。他们定期组织商业和投资的 Panel 讨论,如果你对中国和美国 AI 基础设施和应用公司研究有持续稳定的视角,且对宏观/二级市场策略感兴趣,可以在公众号「WhatIf Ideas」中提交注册信息,通过后加入讨论日历名单。

42章经

思考事物本质

阅读原文

跳转微信打开

活动报名:AI 视频的模型、产品与增长实战|42章经

2025-08-10 22:02:00

原创 曲凯 2025-08-10 22:02 北京

Agent 之后,多模态能否成为下一个风口?

在 Agent 热潮之后,我们认为多模态,尤其是视频生成领域将出现下一个风口。

那么,AI 视频如今究竟发展到了什么程度?底层模型能力有哪些新突破,未来又可能出现哪些变化?与此同时,随着赛道竞争日益激烈,新入局或者想入局的人,在产品和增长上又该如何决策?

带着这些问题,我们将在下周六(8 月 16 日)上午 10:30 举办一场线上交流活动,Luma AI 模型产品 Lead 戴高乐、爱诗科技联合创始人谢旭璋、前 OpusClip 增长产品负责人谢君陶,会从模型、产品、增长三个关键维度,分享他们在 AI 视频一线的实战经验与思考。

具体报名信息请见上方海报。本次线上活动限 100 人(非投资行业),我们会优先通过回答更认真、与我们背景更匹配的朋友。最终参会资格以工作人员通知为准。

期待和大家见面!

阅读原文

跳转微信打开

关于 AI Infra 的一切 | 42章经

2025-08-10 22:02:00

原创 曲凯 2025-08-10 22:02 北京

内含 Deepseek 成功的真正答案

本文嘉宾朱亦博可以说是国内最了解 AI Infra 的人之一,从微软、字节 AI Infra 负责人到谷歌、再到阶跃联创,他的职业经历几乎和 AI Infra 的发展并行。

本期播客对谈原文约 19000 字,本文经过删减整理后约 7000 字。

Image

曲凯:从你的视角来看,怎么理解 AI Infra?

亦博:AI Infra 包括硬件和软件两部分。

硬件是指 AI 芯片、GPU、交换机等设备。软件层面我喜欢用云计算来类比,可以分为三层:

最底层类似 IaaS,解决的是最基础的计算、通信和存储问题。

中间一层类似 PaaS,包含资源调度、资源管理等平台。MaaS(Model-as-a-Service)就归属这一层。

最上层近似 SaaS 应用层,但在 AI Infra 领域,我更倾向于把这一层理解为训练及推理框架的优化层。

曲凯:可以说你的职业生涯跟 AI Infra 的发展基本是同步的吗?

亦博:是,但我其实是第二批 AI Infra 人,第一批是贾扬清、李沐、陈天奇这些有算法背景的人。他们当时要做先进的算法,需要充分利用 GPU,于是就做了 AI Infra。

曲凯:所以是第一批人从无到有把这件事做了出来?

亦博:可以这么理解。我们这第二批人干的更多是上规模的事情,让 AI Infra 在工业界得到应用。

曲凯:那大模型这两年的兴起,对 Infra 从业者来说应该是一个特别好的机会吧?因为 AI Infra 一下子进入了主舞台。

亦博:确实如此,这也是为什么我觉得一定要出来创业。

过去 Infra 人才很难参与到一个公司的初创过程中,因为 Infra 服务于上层应用和数据处理,只有当业务规模足够大时,对 Infra 的需求才会凸显。

但是大模型确实带来了一个非常好的机会。

上一次类似的节点,是搜索引擎刚刚兴起的时候。比如 Google 当年面对的是规模空前的互联网数据,而要处理这些数据,它就需要世界一流的 Infra。所以从某种程度上讲, Google 本质是一家 Infra 公司,它的成功从一开始就离不开它强大的 Infra。

而如今,大模型一上来就对算力和数据提出了前所未有的要求,所以我认为现在是 Infra 从业者真正进入核心舞台的少有机会。这样的窗口,可能十年、二十年才会出现一次。

曲凯:那移动互联网的 Infra 和 AI Infra 有哪些异同?

亦博:它们的底层目标是一致的,就是要高效稳定地整合计算、通信和存储资源。

但在实操层面,它们对硬件、网络互联、存储方式的要求都完全不同。比如,AI Infra 的绝对核心是 GPU,而传统 Infra 的核心是 CPU。

在 Infra 的世界里,太阳底下没有太多的新鲜事,但 AI Infra 在很多方面要做到更极致、更贴合 AI 的特殊需求。

曲凯:那在这样的背景下,未来做 AI Infra 的人,更多会是新一批成长起来的工程师,还是由传统 Infra 人转型而来的?

亦博:我觉得都会有。这方面 Infra 和算法很不一样。

算法非常依赖年轻人。甚至我有做算法的朋友说过,算法人只有两年的保质期,两年后 Ta 把自己的聪明才智发挥完了,就会陷入思维定势,反而跟不上后面的新东西了。

但 Infra 相对来说更强调积累。

曲凯:那你们关注的核心指标有哪些?

亦博:比如在线上服务侧,我们会看模型响应的首字延迟、后面吐字是不是稳定顺畅、整体的成本能不能降低等等。在训练侧,我们主要看每张 GPU 能处理的数据量和训练效率。

曲凯:听起来是不是只有规模很大的公司才需要用到 AI Infra?

亦博:其实所有的产品都依赖 Infra,区别在于你要不要投入成本去做自己的 Infra,以及这种投入对你的业务来说值不值得。

这笔账其实很好算。

假设你有 1 万张 GPU,每月租金 1 个亿。如果你雇了一批 Infra 工程师,能把 GPU 利用率提升 10%,那你每月就能节省 1000 万,或者说多赚 1000 万。

那你愿意为了这 1000 万投入多少人力成本?

无论是在前司还是现司,我们优化 Infra 之后省下的钱,都可以很轻松地 cover 这部分的人力成本。从这个角度来说,投入 Infra 是可以帮公司挣钱的,而且这件事的确定性很高。

对于一些较小的公司来说,也可以用同样的逻辑进行计算:你值不值得雇 10 个人来优化百分之多少的性能?

你可以对比一下,要做到同样的优化效果,云厂商的标准化方案需要多少钱。如果你自己做不到更低的成本,那就说明用 MaaS 或公有云服务更划算。

这也是现在这些服务商的价值锚点:帮助规模较小的公司节省 Infra 优化的成本。

曲凯:那按理说,Infra 这件事应该是云厂商和模型方做到极致了才对,为什么还有一些第三方公司在做?

亦博:短期来看,第三方的价值,是为客户提供一个「API 集贸市场」,让他们自由选择不同的 API,因为模型厂商的 Infra 主要服务于自家的模型或 API。虽然有些公有云也在提供类似的服务,但还是有第三方的空间。

不过长远来看,如果第三方公司没有独特的价值,确实很容易被云厂商或模型公司吃掉。

那突破口在哪里?我是这么思考的:

AI Infra 的底层是硬件,上层是模型。当硬件和模型都逐渐趋于开放和普及时,只做中间那一层 Infra 的价值确实会很有限,而且会非常卷。因为说白了,没人能在 Infra 这一层拉开特别大的技术差距,也很难形成长期壁垒。你今天领先一点,几个月后可能就被赶上了。

所以我认为,第三方想做出壁垒,就得和硬件或者模型去做垂直整合。

以 MaaS 的生意为例。MaaS 可以看作是一个 API 的分发平台,除了标准 API 之外,真正能留住用户的,是那些别人没有的东西。

就像你为什么要买 PS5?是因为这个游戏机上有一些独占的游戏。

同理,有的 MaaS 服务商与特定的硬件厂商有深度合作,能以更低成本获得算力资源,同时它还有对硬件的独到见解,那这些就是它的差异化优势。

所以这里可以给从业者一个建议,就是不要做夹在模型和硬件中间的那个人。

我现在选择站在模型这一侧,你也可以选择站在硬件那一端。

这是因为 AI Infra 有个非常独特的背景,就是当前是硬件和模型都在追求极致的时刻。如果有人想做出像 DeepSeek 那样在硬件上跑得非常有效率和性价比的模型,就需要既懂硬件又懂模型。而这种「两头通」的能力,恰恰是 Infra 人的特长。

所以,如果你愿意迈出这一步,往上和模型做深度整合,或往下与硬件做 co-design,就有很多机会。但如果你固步自封,只在中间做优化,那确实就把路走窄了。

曲凯:但和模型或者硬件绑定之后,万一最后发现选错了怎么办?

亦博:所以关键在于你必须是主动的参与者,而不是被动搭便车的人。

如果你比硬件厂商更懂模型,那你就可以影响硬件的设计方向。如果你比模型团队更懂硬件,也可以反向影响模型架构的设计。

当你具备了这种影响力,成功了当然是共赢,即使失败,那也是你主动做出的判断和选择。

曲凯:明白。

我们前面讲的主要是 Infra 降本增效的事情,那实际上它对模型最终的训练效果到底有多大的影响?该怎么评判?

亦博:Infra 水平确实会影响模型的效果,这也是为什么 Infra 对大模型公司而言非常重要。

其实各家公司都在参与同一场比赛,就是「给定算力,怎么训出最好的模型」。

假设大家都拿 5000 张卡,在其他条件相同的前提下,如果我的 Infra 优化得更好,效率高出 20%,那在同样的时间里,我就能多学 20% 的数据,训练出的模型自然也会有更好的效果。

曲凯:所以 Infra 是有标准化的性能指标的?

亦博:对,比如 MFU 就是一个比较常见的指标。它衡量的是硬件利用率,分子是实际完成的浮点运算次数,分母是理论最大算力,MFU 越高,说明硬件被用得越充分。

曲凯:我记得当时 DeepSeek 公开了他们的 MFU?

亦博:实际上 DeepSeek 的 MFU 是偏低的,但你也不能说他们的 Infra 做得不好。

衡量 Infra 的性能其实很复杂,仅靠单一指标很难判断 Infra 的优劣。Infra 的性能和硬件、模型,还有优化目标都密切相关。

其实 DeepSeek 之所以能冲出来,一大原因是选对了优化目标。

当时 DeepSeek 的优化目标和其他所有人都不一样。比如我们当时的优化目标是「给定训练算力,怎么训出最好的模型」,而 DeepSeek 的目标是「给定推理的成本,怎么训出最好的模型」。

至少在 24 年上半年时,DeepSeek 的基模并不比大家强。

那这个局面什么时候扭转了呢?

就是在 24 年 9 月 o1 发布之后。

o1 让大家看到,如果在推理阶段让模型多思考一会,模型最终输出的效果会更好。这种训练方式,正是强化学习的典型机制。而因为 DeepSeek 的优化目标更符合强化学习的需求,所以他们能以更低的推理成本、更快的速度去输出结果和训练模型。于是他们率先完成了 R1,一下子甩开了其他团队。

你可以说 DeepSeek 的成功有一些运气因素。他们最初在设定优化目标时,大概率也没料到 Test-Time Scaling 会在 24 年下半年变成关键趋势。但很多事情的成功,靠的就是天时地利人和。

所以说回来,Infra 确实有各种性能指标,但如果想取得好的结果,最重要的是你要想清楚,哪一个指标的优先级最高。这个指标不仅要符合你的产品需求,也要顺应整个行业的发展方向和未来技术趋势。

不同团队的技术水平固然有高低之分,但真正拉开差距的,往往是有没有选对努力方向。

曲凯:所以当下有比较通用的第一指标吗?

亦博:这件事还有很多非共识。

其实从 o1、 R1 验证了强化学习的路径之后,我认为当前最重要的指标就是 decoding 的速度。

推理分为输入和输出两部分。输入的关键指标是模型处理长文本的速度,输出的关键指标则是模型吐字的速度。我认为现在最重要的指标是后者。它决定了线上业务的成本,也直接决定了强化学习的效率。因为如果你输出很慢,那你获得 reward 的速度就比其他模型要慢。

但现在还有人很看重 MFU 之类的老指标。在我看来,还特别关注这类指标的人,对当下技术的认知是有问题的。

曲凯:你前面有提到,Infra 人是既懂硬件又懂模型的人,那算法人是什么样的?二者该怎么合作?

亦博:最理想也最简单的合作方式,就是大家像一个团队一样,为共同目标协作。

很多事情都有 trade-off,比如有时损伤系统性能,但能换来算法上的提升,有时候则是反过来。遇到这些情况,最好是两边能一起讨论该谁来让步。

不过这是小团队的优势。在很多大厂里,很难实现这一点。

在大厂,Infra 总被视为支持性的角色。很多时候是算法人给 Infra 人提需求,但是 Infra 人没有反向的影响力。

曲凯:对,而且在很多人眼里,Infra 的核心就是「降本」,但「降本」通常不是一个最优先的目标。

亦博:这正是我认为需要被纠正的观念。前面提到过,Infra 实际上是可以对模型效果有正向影响的,而不仅仅是只能降本。

曲凯:听起来就是要 Infra 人发挥主观能动性?

亦博:还不够。比如你带一个 Infra 团队,另一个人带算法团队,大家向同一个 leader 汇报,但这个 leader 只懂算法,那你猜会发生什么?

所以很多问题到最后都是组织架构的问题。

模型其实由算法、Infra 和数据这个铁三角决定。三者缺一不可,必须协同。

但很多人对模型的理解存在偏差。比如,一个模型的算法效果往往取决于数据,而不是算法;一个模型的效率成本主要由 Infra 决定,也不是算法。

所以实际上比较合理的组织架构是,让 Infra 人去设计模型结构,因为 Infra 人最知道该怎么提高效率、节省成本,让数据的人去负责刷模型的点数和 benchmark 分数,因为他们最懂怎么喂模型,而算法人应该主要负责训练的范式革新。

曲凯:听起来很合理啊,现在很多团队不是这样的吗?

亦博:不是。现在在很多团队中,基本都是算法人在设计模型结构、刷模型点数。但实际上算法人不一定最适合做这些事。

曲凯:所以阶跃从一开始就在用最正确的方法吗?还是也踩过一些坑?

亦博:当然也踩过坑哈哈。比如我们一开始对自己的算力和能力都过于自信,所以干了一个比 Llama 还大的模型。虽然我们把它训出来了,但是这个巨大的模型有一些问题,过程中我们也犯了一些错误。

但我觉得这也没什么。你赌的所有事情就是可能会错,踩过坑之后再爬起来往前走呗。这一局输了,那下一局我再干回来。

曲凯:还有什么业内真实的踩坑案例吗?

亦博:比如最近有家公司开源了一个模型,声称自己虽然参数量不大,但因为算法做得好,所以效果可以越级媲美更大的模型。

但这个模型因为架构设计的问题,实际运行效率非常低,甚至还不如那些大模型快。

这背后反映的问题是,其实很多做算法的人并不真正懂硬件,也不了解模型在 Infra 层是怎么运行的。

算法人员做模型架构研究的时候,可能会画一张图,横轴是模型的尺寸或激活量,纵轴是某些算法效果指标。然后他们会试图在这张图上找到一个 sweet point,能让模型在尺寸不大的情况下,算法效果还不错,然后就丢给 Infra 人去做优化了。

即便 Infra 人能满足算法人的需求,模型实际运行起来也会出问题。

如果真要画图,横轴应该是模型的实际运行成本或运行效率,纵轴是模型效果。你得跑大量实验,才能在这张图上画出各种点,然后在其中找到那个真正可落地的最优点。

而这件事情只有在拉通所有团队之后,才有可能完成。

曲凯:是。模型这边上一个 Aha Moment 仍然是年初的 DeepSeek。虽然最近一直有传言说 GPT-5 要发布了,但到底什么时候发、表现怎么样,还没人说得准。而且很多人一直在说 scaling law 撞墙了、数据不够了等问题。

那你怎么看未来模型的发展?

亦博:模型范式的革新不会那么快,但多模态还是有一些突破的可能性的,尤其是多模态生成和理解的统一。

现在多模态的状态,其实挺像 20 年的 bert 模型,就是具备了理解能力,但还没有真正做通理解和生成。

做通的标志,是同一个模型在理解任务上能超越专门做理解的模型,在生成任务上也能击败专门做生成的模型。就像 GPT-3.5 出来之后,直接让很多做翻译之类的专用模型退休了一样。

曲凯:Google Veo 3 的效果看起来已经很不错了。

亦博:但 Veo 3 还是偏上一代的模型,核心是做生成。只不过它的工程做得比较好,把配乐之类的各种功能都很好地融合了起来。

其实技术突破和产品效果并不是线性相关的。Veo 3 确实把上一代的技术发挥到了非常强的水平,但它本身并没有带来太多范式上的创新。

曲凯:明白。那你觉得对于初创或者第三方的 AI Infra 公司来讲,机会在哪?

亦博:我个人觉得训练侧的商业模式不太成立。因为现在训模型的人都非常懂行,所以你很难挣到这些人的钱。而且他们也不太愿意把训练过程中的研发细节交给第三方,否则就泄露了自己的核心竞争力。

排除训练之后,推理侧还是有一些机会的,比如推理加速、推理优化。

曲凯:那开源模型对 AI Infra 市场来讲会有什么影响吗?

亦博:整体而言,开源模型对 AI Infra 的发展是有促进作用的。因为一个开源模型火起来,大家就会去研究怎么把它跑得更好,这个过程其实就促进了 AI Infra 的进步。

但所有事情都有两面性。如果某个开源模型太火,然后大家都花很多精力去优化它,可能反而会影响创新。比如 DeepSeek 出来之前,很多人都在优化 Llama,结果 DeepSeek 的新范式一出,之前大家在 Llama 上的很多积累就废掉了。

这里我还想再补充一点。现在的 Infra 基本都是围绕英伟达卡来做优化的,虽然也有团队尝试用国产芯片替代英伟达,但很多时候国产卡不是跑不动,而是性价比不如英伟达。

举个例子,当 DeepSeek 这样非常好用的开源模型出现之后,一些做一体机的公司会发现,他们用英伟达卡跑 DeepSeek 就是比用国产卡更有性价比,所以他们就更愿意选择英伟达的卡。

但我们非常希望国产卡在技术层面也能具备竞争力。比如,是不是可以根据国产卡的特性去专门设计模型结构,让它在国产卡上也能高效运行,并达到 SOTA 水平?

我们最近开源的 Step 3,就是在这个方向上的一次实践。Step 3 是国内首个支持第三方商用的、数百 B 规模的视觉推理模型,并且能跑出 SOTA 水平。

曲凯:怎么理解视觉推理?

亦博:视觉推理就是模型可以根据图片、视频抽帧等视觉信息,直接完成推理任务。

比如,你让机器人去柜子里拿一个东西,但那个目标物品被杂物遮挡住了。这时机器人要完成这个任务,就要进行视觉推理,来进行任务的拆解和决策。

对于机器人或者手机、汽车等智能设备来说,它们天然就有视觉这个模态。那么根据周边的环境、看到的东西去决定怎么完成复杂任务的过程,就是典型的视觉推理模型做的事情。

视觉推理模型还有一个更常见的应用场景,就是拍照解题。

曲凯:这件事之前也有一些模型可以做到,它们应该就是把图片转成文字,再去做文字推理。

亦博:但我认为这种方式不是真正的视觉推理。我们现在不需要中间那段转文字的过程,而是让模型好似真的能看懂图片,然后直接看图推理。

还是举刚才那个让机器人拿东西的例子。如果你要拿的那个目标物品周围有很多遮挡,你其实很难用文字把它们在物理世界中的位置关系描述清楚,也会丢掉很多信息。

但如果模型直接看图,就能很直观地知道应该先把这个东西拿开,再把那个东西拿开,最后拿到目标物品。

曲凯:明白。那你们为什么选择开源?

亦博:我们希望做到全国上下产业都获益。

我们决定给所有国产芯片一份免费商用的授权,开放模型权重,并且尽量帮他们做好模型适配。同时我们也把 Step 3 在国产卡上的推理成本压到了一个很低的水平,提高了国产卡在性价比上的竞争力。

通过开源,我们希望能够帮助国产芯片构建商业竞争力,也希望他们能推广我们的模型,最后实现共赢。

曲凯:我突然想到一个问题,就是多模态模型的成本未来到底会以什么速度下降到什么程度?因为现在多模态还是太贵了。

亦博:多模态理解现在已经不算贵了,不过生成还是挺贵的,尤其是视频生成。

但我对成本降低还是蛮乐观的。我觉得一年后,应该能下降很多,能不能到十分之一不好说,但几分之一没问题。

曲凯: 你觉得现在做 Infra 的人在很多公司里,是不是还是容易被低估?

亦博:在大模型时代,这种情况已经好很多了。现在 Infra 已经是模型能力的核心组成部分之一。

之前也有人说过,DeepSeek 做得好就是因为梁文锋是 Infra 人。

曲凯:这怎么讲?

亦博:因为梁文锋是做量化出身的,而量化很强调低延迟,所以他需要对 Infra 有研究。在算法、数据和 Infra 之间,他可能最擅长的就是 Infra。这在业界也算是共识。

而且据我所知,DeepSeek 的 Infra 工程师数量比算法工程师要多。

但在很多大公司里,这个情况是反过来的。这可能也是在过去一段时间里,一些大厂比较挣扎的原因之一。

其实在大模型快速发展的阶段,就是需要有大量的 Infra 人,来把硬件设计和模型优化做到极致,并且做好垂直整合。但在大厂里,他们的人才结构是错配的,不符合做好 AI 的本质需求。

曲凯:明白。最后,你会给正在做或者想转行做 AI Infra 的人什么建议?

亦博:前面有提到过,我的建议就是靠近模型,或者靠近硬件。

另外,希望你还是打心底对 Infra 感兴趣,有足够的主观能动性去做各种各样的 co-design。

最后我想再补充一点。我最喜欢的一篇文章就是 Richard Sutton 的《The Bitter Lesson》。文中的核心观点是,从长期来看,胜出的永远是那些能最大程度利用计算资源的方法。短期内各种奇技淫巧可能有效,但都不能本质地解决问题。

虽然这篇文章是从算法视角写的,但对 Infra 人也同样有很重大的指导意义。因为我们最根本的任务,就是设计出能发挥硬件全部性能的模型和系统软件,让模型能充分利用这些资源。

当然,我最希望的是也许有朝一日,我们还能反过来影响硬件,换取摩尔定律的不断延续。

42章经

思考事物本质


阅读原文

跳转微信打开

我不给人做产品,给 Agent 做 | 42章经

2025-06-29 22:49:00

原创 曲凯 2025-06-29 22:49 北京

Agent Infra 这个赛道才刚刚开始,遍地是黄金

本文来自 Grasp 创始人雷磊的播客及分享,有删减。

曲凯:Agent 今年这波热潮其实是 Manus 带起来的,到现在为止,各种 Agent 大家已经投得不少了。那下一个热点可能在哪里?

我们觉得可能是 Agent Infra。

正好雷磊现在做的 Grasp 就是一个给 Agent 用的浏览器。你是怎么想到要做Agent Infra 的?

雷磊:首先,我相信未来 Agent 的数量会不断增加,至少会达到现在 SaaS 数量的几千倍。

而且 Agent 能直接交付结果,因此它其实就是一个数字员工,我们应该把它视为像人类一样的终端用户。但因为 Agent 与人类的形态截然不同,所以当下互联网的很多基础设施都是不适合 AI 使用的,都需要为 Agent 重构一遍。

那基于这两点,Agent Infra 就是一个非常大的市场机会。

曲凯:那未来 Agent 和人类到底会怎么协作?你提到说 Agent 和人类完全不同,具体有哪些体现?

雷磊:现阶段大家普遍认为 Agent 是为人类服务的,但在我看来,未来应该是人类为 Agent 服务,因为 Agent 拥有更高的带宽,能够接触到比人类更多的知识和信号。(当然,人类和 Agent 并不完全对立。)

在这个服务主体转移的过程中,人类和 AI 的行为模式确实存在区别。

第一个区别在于交互方式。

人类的交互主要依赖视觉,因此为人类设计的产品需要一个前端界面,而 Agent 则可以通过文本和多模态在后端实现交互。

第二,人类和 Agent 的学习方式也不同。

人类无法同时「做事情」和「学东西」,因为这两者涉及到大脑的不同区域。但 Agent 却可以通过强化学习,在执行任务的同时进行学习。因此,为 Agent 设计产品时,至关重要的是设计一套奖励机制。

举个例子,当你使用浏览器时,系统不会频繁弹出窗口来评价你的操作是否正确。但如果是为 Agent 设计的浏览器,就需要时时提供 +1 或 -1 的反馈,只有这样,Agent 才能不断提升操作能力。

第三个区别是单线程 VS 多线程。

人的工作模式是按照 workflow 逐一完成,而 AI 可以在多个节点同时跑很多任务。

在计算机领域,有一个类似的对比:人类的工作模式很像「贪婪算法」,总是关注局部最优,而 AI 的模式则很像「动态规划」,始终追求全局最优。

不过这也引发了一个问题:当 Agent 并发执行任务时,该怎么保持不同任务的状态?

对于人类来说,上一个任务的结束就是下一个任务的开始,因此天然不需要去保持状态。

然而,Agent 在一个节点上可能同时执行 100 个任务,这些任务的执行速度各异,有些快,有些慢,甚至有些可能需要人工干预,所以需要设计一种新的机制保证 Agent 能高效稳定地在不同任务间切换和协调。

第四个区别是责任界定的问题。

人可以为自己的行为负责,但谁来为 AI 的行为负责呢?这也就引申出一个问题,就是怎么划分 Agent 所处环境的安全边界。

比如你手里有一段代码,如果这段代码是你自己写的,你当然可以接受这段代码直接在你的电脑上运行,因为出了问题你可以负责。

但如果这段代码是 AI 生成的呢?如果运行之后,你的文件全丢了,谁来负责?

为了解决这个问题,AI 执行任务时最基本的要求就是要有一个「安全围栏」(类似于大家都在讲的沙盒),来把 AI 所产生的影响控制在一定范围内。

这个安全围栏并不是要一刀切地限制住 Agent 的能力,而是要动态判断哪些任务和信息可以交由 Agent 处理,而哪些不能。

一个典型的例子就是 E2B。

曲凯:对,E2B 这个产品现在在美国很火,但我估计国内很多人可能还不太知道它。能不能给大家再介绍一下,E2B 到底是啥?

雷磊:其实 E2B 的火爆,很大程度上是靠 Manus 带起来的。

简单来说,E2B 就是给代码运行提供了一个安全又快速的沙盒环境。

曲凯:那如果未来 Agent 的运行环境都在云端,到时候是不是云厂商的股票能涨得更好?

雷磊:单凭这点来说是的。因为云厂商的机会来自于大家对资源的需求,如果我们未来会消耗更多的资源、产生更多的数据,那云厂商就是会更值钱。

但很关键的一点是这些云厂商得顺应时代潮流,否则很可能会被赶超,以至于被历史淘汰。

曲凯:所以你甚至会觉得 AI 时代有个新的云厂商的机会吗?

雷磊:对,在我看来 AI 环境这件事就是一个 AWS 级别的机会。

曲凯:但我听下来,E2B 本身好像也没做太多事情,那 E2B 和云厂商的关系未来会是怎样的?

雷磊:云厂商更多扮演的是基础设施的角色,比如说我们构建一座房子,云厂商有点像提供水电资源的地产商,而 E2B 则是负责将这些资源交付给住户的装修商。底层肯定还是由云厂商提供最基础的算力,而中间这一层像 E2B 这样的 Infra,提供的就是能让 Agent 真正运行的环境。

曲凯:这个例子很妙。但很多地产商后来都开始拼装修好的商品房了,那是不是未来一些云厂商也会自己做 Agent Infra 的这些事情?或者至少 E2B 是一个很好的被收购标的。

雷磊:这是一个很有意思的问题。在什么情况下地产商会去卷商品房呢?

就是当市场容量不足,仅交付毛坯房的竞争力不够时。

但 AI 市场的增长空间很大,所以我觉得在这个阶段云厂商和 Agent Infra 公司应该合作,想办法把蛋糕做大,而不是过早地去考虑怎么分蛋糕。

包括 Agent Infra 公司之间也应该如此。因为这个市场足够大,所以能容纳很多家公司、去提供不同的解决方案。

举个例子。E2B 有一个竞对叫 ForeverVM。E2B 主打的是「安全」,ForeverVM 主打的则是「状态」,也就是确保 Agent 在执行多个任务时,即使反复横跳,也不会丢失之前的进度。

曲凯:明白。其实最近美国那边给 Agent 做的产品有两个典型,一个是 E2B,另一个是 Browserbase。讲完 E2B,我们再讲讲 Browserbase 吧,正好你们现在在做的也是与 Browser Use 相关的事情。

雷磊:Browserbase 也算是现在的一个当红明星了,从融资额也能看出,它的估值在一年内涨到了 3 亿美金。

它做的本质就是给 AI 用的浏览器。但与传统浏览器的区别在于,首先它将浏览器云端化了,其次针对 AI 使用浏览器的场景进行了优化。

我当时在字节的时候,特别喜欢一鸣的一个说法,叫做「务实的浪漫」。意思是除了「仰望星空」地眺望未来,也要「脚踏实地」地发现并解决眼下一些具体的问题。

那眼下有什么问题呢?

数据表明,现在互联网上已经有 40% 的流量来自机器人。但机器和人使用浏览器的方式有很大差别,怎么能让这些机器人更高效地使用浏览器,就是一个值得重新设计的问题。

比如,AI 需要 RAG 功能,所以 Browserbase 就设计了类似的功能,可以帮助 AI 自动获取网站上的一些信息,作为上下文来辅助后续操作。

曲凯:那「给 AI 用的浏览器」和「给人用的浏览器」具体有哪些区别?

雷磊:首先,给 AI 用的浏览器一定是运行在云端的,因为 AI 不需要休息,可以持续工作。

其次,人类需要先看到浏览器页面上的信息,然后才能用鼠标操作,而 AI 完全不需要前端界面,它可以直接在后端运行。

第三,我们在给 AI 设计浏览器的时候会考虑怎么设计反馈循环,因为我们相信未来 AI 要能自主收集反馈、自主迭代。

第四点与安全相关。这里可以问大家一个问题:你愿意把账号密码交给大模型吗?

你大概率不愿意。

但你在使用 Agent 的时候,可能也不希望它跑了半天却没法完成任务,每次遇到登录问题时还要来烦你。

所以最佳情况是在确保密码不泄露的前提下,能让 Agent 有一定的自主性。

针对这个问题,我们开发了一个功能,就是当某个网站需要账号密码时,Agent 会自动判断情况,并以一种纯本地的方式填入你的账号密码,甚至是验证码。整个过程完全不需要人为干预,并且绝不会将你的任何信息传递给大模型。

第五点,就是在为 Agent 配置浏览器时,也需要考虑 Agent 多线程工作的连续性和成本。

因为大模型在操作浏览器时,往往涉及许多步骤,而且步骤之间可能存在间隔。比如,如果我们希望 Agent 在航司网站上购买一张机票,那么当 Agent 进入下单页面后,可能需要先去携程搜索比对各种机票信息,然后将这些信息带到另一个系统中进行推理。整个过程可能还需要人的介入,最终决定购买哪张机票后,再返回航司网站继续操作。

此时,我们肯定希望航司网站的页面仍然停留在下单页,而不是重新加载。但由于中间步骤太多、各步骤耗时也较长,可能过程中就会导致云端资源的浪费。

曲凯:明白。那在 Browser Use 这个赛道里,Browserbase 已经做得挺不错了,为什么你们还要做?Grasp 和 Browserbase 有什么区别?

雷磊:要做一个具备 Browser Use 功能的 Agent,技术架构可以分为三层。

最底层叫 Runtime,有点类似于云端的引擎。你可以将它理解为传统的浏览器内核,主要解决拉取网页信息、执行浏览器脚本、渲染图片等问题。

但随着 AI 的到来,中间新增了一个 Agentic 层。这一层负责控制 AI 与网页的交互,包括怎么从网页获取信息、怎么生成一些信息来影响网页,以及如何进行推理等等,最终再形成具体指令。

最上面一层是 Knowledge 层,也就是垂直领域的 knowhow。这一层是所有 Agent builder 需要重点关注的,因为它决定了你该怎么设计反馈机制,从而优化最终交付给终端用户的结果。

无论是 Browserbase,还是传统的 Playwright、Chromium,本质上都属于 Runtime 层。

而我们所做的是 Runtime 层 + Agentic 层。这两层一方面工程量非常大,另一方面有许多需要解决的通用问题。因此,如果我们将这些工程和问题都解决,就能够为开发者提供一个封装好的 Agentic Browser。开发者只需结合自身的行业认知,就可能构建出自己的 Manus 或者 Fellou。

曲凯:假设今天 Google 想做一个 Browserbase,是不是可以很快就做出来?

雷磊:确实,只做 Runtime 没有足够大的壁垒。

曲凯:所以 Runtime 层和 Agentic 层必须一起做才行?

雷磊:是的,否则很多你想实现的功能就是无法实现。

曲凯:那么在 Agent Infra 中,除了像 E2B 这样的代码云环境和 Browserbase 这样的 Browser Use 产品,还有其他机会吗?

雷磊:Agent Infra 大体可以分为环境和工具两种。

环境最主要的就是 Coding 和 Browser。Coding 赋予了 Agent 执行一个逻辑的能力,而 Browser 则让 Agent 拥有了与网页信息交互的能力。

不过中间会有非常多的细分领域,比如 Browser 可以有不同的浏览方式、Coding 可以分解释性语言和编译性语言等等,而针对不同的痛点,自然会有不同的解决方案和公司出现。

此外可能还会有一些抽象的环境,比如运行数学公式的环境,以及与物理世界接触的环境,比如传感器、具身智能,包括像李飞飞团队关注的空间智能等。

对于工具来说,如果把 Agent 看作终端用户,那么人类软件史上曾经出现过的工具都有机会重写一遍,比如 Agent 要不要有自己的身份?需不需要自己的电话去接收短信?是不是得有支付能力?

这里也和大家分享一个思考框架,就是通过场景去找切入点。

举几个例子。

一个旅游 Agent,在规划行程和导览的场景里,常用的工具就包括 CRM 查询,网络搜索、购票支付以及身份认证等等,所以这些工具你都可以重做一遍。另外,这个 Agent 很可能会在浏览器环境里运行,然后通过接口或者网页背后的 HTML 来执行任务,所以你也可以给它做一个专门的浏览器。

以此类推,你也可以为一个解题 Agent 去做定理检索、绘图,以及 LaTeX 等工具,也可以为它去写一个新的公式执行器或者代码执行器。

如果未来硬件有了突破,对于一个类似 Jarvis 的 Agent 来说,它需要的则是能够帮助它与现实世界进行交互的工具,以及传感器之类的感知环境。

这些还只是为单个 Agent 开发产品时需要考虑的因素。随着未来 Multi Agent 的成熟,可能会有多个 Agent 一起协作和沟通,共同解决问题。到那时,我们还需要考虑怎么去管控这些 Agent、怎么促进它们之间的协作,以及如果某个 Agent 挂了该怎么应对等等。

曲凯:我记得你之前提到过一句话,你说今天的 Browser Use 有点像 22 年的 AI Coding,能不能解释一下?

雷磊:22 年的时候,大家对 AI Coding 还有很多怀疑,不确定它到底会发展成什么样子,但到了今天,基本上已经没有人质疑它了。

这是因为大模型是不是能稳定地解决某类问题有一个很简单的公式:

某问题的样本集 × 模型的成功率 = 该问题的成功数量。

如果某类问题的成功数量能够满足人类的需求,那它就会被人们认可、逐渐成为主流。

对于 AI Coding 来说,自从 22 年 GPT 3.5 推出后,它的成功数量就突破了一个关键阈值,从而消除了人们的疑虑。

回到今天的 Browser Use,其实它的样本数量比 Coding 还要大,只是目前模型的能力还不足,所以现在还有很多人认为 Browser Use 不够实用。

但随着大模型能力的不断突破,当 Browser Use 的成功数量能够满足人们的需求时,人们对 Browser Use 的态度就会像今天对 AI Coding 一样,而且这个过程会比 AI Coding 来得更快。

曲凯:那 AI Coding 现在全球有几百家公司在做,也有很多估值很高的公司了,你觉得未来 Browser Use 也会是这样吗?

雷磊:其实哪怕是 AI Coding,我觉得仍然处于市场早期。因为如果从商业层面来看,全球软件开发的总市值大概有 3 - 4 万亿美金。只要 AI 能够在其中提升 5% 的效率,那就是一个 1500 亿美金的市场。但是今天 AI Coding 可能也就是一个小 100 亿美金的市场,还有很大的增长空间。

Browser Use 也是同样的道理。假如我们通过互联网进行的销售、招聘、获客等活动,能够通过 AI 提升 5% 的效率,那就是一个非常有潜力的大市场。

曲凯:那现在大家对于给 Agent 做产品这件事情,有什么很强的非共识吗?

雷磊:大家对于「给 Agent 做的产品到底最关键的是什么」这一点看法不太一样。有人认为是上下文,有人认为是更好的数据,或者更强大的模型。

但在我看来,最关键的是怎么设计一个好的反馈循环,让 AI 能够自我迭代。

我觉得人类最大的一个偏见,就是我们非常相信人类的先验知识对大模型来说很重要,所以我们不停地把我们的知识灌输给大模型,觉得这样它会越来越聪明。

但有没有可能人类的知识对大模型来说其实毫无必要呢?

举个例子。DeepMind 团队做了一个解奥数题的产品,叫 AlphaProof。他们团队只设计了一些基本的奖励信号,做对了题目 Reward + 1,做错了 Reward - 1,然后就开始让 AlphaProof 自己做题。AlphaProof 不参考任何人类解题的思路,就是从 0 开始通过强化学习的方式自主探索、自主迭代。但靠着这种方式,它去年已经摘取了国际奥数大赛的银牌。

曲凯:就像 AlphaZero 一样,对吧?最后大家发现人类的棋谱对它来说其实根本没有用。

雷磊:对,所以我觉得未来最重要的范式转变,就是让 AI 通过 Coding 和 Browser 之类的环境,自己去体验世界、获取真实的反馈,并通过这些反馈自主迭代,而不是一味依赖人类数据。

强化学习之父 Richard Sutton 和 David Silver 最近合作撰写的论文《The Era of Experience》里面核心也是在讲这件事。

曲凯:最后我想问,我们今天聊的很多东西的基础就是「未来 Agent 真的会起来」,那 Agent 到底什么时候会起来?

雷磊:与其思考 Agent 什么时候会起来,我觉得更重要的是思考在 Agent 崛起的那一天,我们能够提前为 Agent 做些什么、提供什么样的价值。

最后补一个现场活动的问答彩蛋:

Q: 不同的 Agent Infra 产品要怎么做差异化?

A:Agent Infra 这个赛道才刚刚开始,遍地是黄金,所以现在的关键在于找到差异化的场景,然后把自己的产品做深做厚,而不必考虑别人在干什么。这里可以分享一个具体的数据。有公司统计过,今天互联网上有 63% 的网站都已经被 AI 访问过了,但是来自大模型的流量在整体流量的占比只有 0.1%。

未来,AI 访问网站的流量可能会比人多 10 倍,所以 Browser Use 之后可能会有 10 万倍的涨幅。

那么在这个时候,我们就不该想着怎么去抢别人在 0.1% 里面占的那 0.01%,而是要思考怎么在剩下的 99.9% 里面去做出 10% 的市场。

42章经

思考事物本质

阅读原文

跳转微信打开