MoreRSS

site iconKaiQu | 曲凯 | 42 章经修改

公众号:42章经。由xlab生成。
请复制 RSS 到你的阅读器,或快速订阅到 :

Inoreader Feedly Follow Feedbin Local Reader

KaiQu | 曲凯 | 42 章经的 RSS 预览

活动报名:AI 视频的模型、产品与增长实战|42章经

2025-08-10 22:02:00

原创 曲凯 2025-08-10 22:02 北京

Agent 之后,多模态能否成为下一个风口?

在 Agent 热潮之后,我们认为多模态,尤其是视频生成领域将出现下一个风口。

那么,AI 视频如今究竟发展到了什么程度?底层模型能力有哪些新突破,未来又可能出现哪些变化?与此同时,随着赛道竞争日益激烈,新入局或者想入局的人,在产品和增长上又该如何决策?

带着这些问题,我们将在下周六(8 月 16 日)上午 10:30 举办一场线上交流活动,Luma AI 模型产品 Lead 戴高乐、爱诗科技联合创始人谢旭璋、前 OpusClip 增长产品负责人谢君陶,会从模型、产品、增长三个关键维度,分享他们在 AI 视频一线的实战经验与思考。

具体报名信息请见上方海报。本次线上活动限 100 人(非投资行业),我们会优先通过回答更认真、与我们背景更匹配的朋友。最终参会资格以工作人员通知为准。

期待和大家见面!

阅读原文

跳转微信打开

关于 AI Infra 的一切 | 42章经

2025-08-10 22:02:00

原创 曲凯 2025-08-10 22:02 北京

内含 Deepseek 成功的真正答案

本文嘉宾朱亦博可以说是国内最了解 AI Infra 的人之一,从微软、字节 AI Infra 负责人到谷歌、再到阶跃联创,他的职业经历几乎和 AI Infra 的发展并行。

本期播客对谈原文约 19000 字,本文经过删减整理后约 7000 字。

Image

曲凯:从你的视角来看,怎么理解 AI Infra?

亦博:AI Infra 包括硬件和软件两部分。

硬件是指 AI 芯片、GPU、交换机等设备。软件层面我喜欢用云计算来类比,可以分为三层:

最底层类似 IaaS,解决的是最基础的计算、通信和存储问题。

中间一层类似 PaaS,包含资源调度、资源管理等平台。MaaS(Model-as-a-Service)就归属这一层。

最上层近似 SaaS 应用层,但在 AI Infra 领域,我更倾向于把这一层理解为训练及推理框架的优化层。

曲凯:可以说你的职业生涯跟 AI Infra 的发展基本是同步的吗?

亦博:是,但我其实是第二批 AI Infra 人,第一批是贾扬清、李沐、陈天奇这些有算法背景的人。他们当时要做先进的算法,需要充分利用 GPU,于是就做了 AI Infra。

曲凯:所以是第一批人从无到有把这件事做了出来?

亦博:可以这么理解。我们这第二批人干的更多是上规模的事情,让 AI Infra 在工业界得到应用。

曲凯:那大模型这两年的兴起,对 Infra 从业者来说应该是一个特别好的机会吧?因为 AI Infra 一下子进入了主舞台。

亦博:确实如此,这也是为什么我觉得一定要出来创业。

过去 Infra 人才很难参与到一个公司的初创过程中,因为 Infra 服务于上层应用和数据处理,只有当业务规模足够大时,对 Infra 的需求才会凸显。

但是大模型确实带来了一个非常好的机会。

上一次类似的节点,是搜索引擎刚刚兴起的时候。比如 Google 当年面对的是规模空前的互联网数据,而要处理这些数据,它就需要世界一流的 Infra。所以从某种程度上讲, Google 本质是一家 Infra 公司,它的成功从一开始就离不开它强大的 Infra。

而如今,大模型一上来就对算力和数据提出了前所未有的要求,所以我认为现在是 Infra 从业者真正进入核心舞台的少有机会。这样的窗口,可能十年、二十年才会出现一次。

曲凯:那移动互联网的 Infra 和 AI Infra 有哪些异同?

亦博:它们的底层目标是一致的,就是要高效稳定地整合计算、通信和存储资源。

但在实操层面,它们对硬件、网络互联、存储方式的要求都完全不同。比如,AI Infra 的绝对核心是 GPU,而传统 Infra 的核心是 CPU。

在 Infra 的世界里,太阳底下没有太多的新鲜事,但 AI Infra 在很多方面要做到更极致、更贴合 AI 的特殊需求。

曲凯:那在这样的背景下,未来做 AI Infra 的人,更多会是新一批成长起来的工程师,还是由传统 Infra 人转型而来的?

亦博:我觉得都会有。这方面 Infra 和算法很不一样。

算法非常依赖年轻人。甚至我有做算法的朋友说过,算法人只有两年的保质期,两年后 Ta 把自己的聪明才智发挥完了,就会陷入思维定势,反而跟不上后面的新东西了。

但 Infra 相对来说更强调积累。

曲凯:那你们关注的核心指标有哪些?

亦博:比如在线上服务侧,我们会看模型响应的首字延迟、后面吐字是不是稳定顺畅、整体的成本能不能降低等等。在训练侧,我们主要看每张 GPU 能处理的数据量和训练效率。

曲凯:听起来是不是只有规模很大的公司才需要用到 AI Infra?

亦博:其实所有的产品都依赖 Infra,区别在于你要不要投入成本去做自己的 Infra,以及这种投入对你的业务来说值不值得。

这笔账其实很好算。

假设你有 1 万张 GPU,每月租金 1 个亿。如果你雇了一批 Infra 工程师,能把 GPU 利用率提升 10%,那你每月就能节省 1000 万,或者说多赚 1000 万。

那你愿意为了这 1000 万投入多少人力成本?

无论是在前司还是现司,我们优化 Infra 之后省下的钱,都可以很轻松地 cover 这部分的人力成本。从这个角度来说,投入 Infra 是可以帮公司挣钱的,而且这件事的确定性很高。

对于一些较小的公司来说,也可以用同样的逻辑进行计算:你值不值得雇 10 个人来优化百分之多少的性能?

你可以对比一下,要做到同样的优化效果,云厂商的标准化方案需要多少钱。如果你自己做不到更低的成本,那就说明用 MaaS 或公有云服务更划算。

这也是现在这些服务商的价值锚点:帮助规模较小的公司节省 Infra 优化的成本。

曲凯:那按理说,Infra 这件事应该是云厂商和模型方做到极致了才对,为什么还有一些第三方公司在做?

亦博:短期来看,第三方的价值,是为客户提供一个「API 集贸市场」,让他们自由选择不同的 API,因为模型厂商的 Infra 主要服务于自家的模型或 API。虽然有些公有云也在提供类似的服务,但还是有第三方的空间。

不过长远来看,如果第三方公司没有独特的价值,确实很容易被云厂商或模型公司吃掉。

那突破口在哪里?我是这么思考的:

AI Infra 的底层是硬件,上层是模型。当硬件和模型都逐渐趋于开放和普及时,只做中间那一层 Infra 的价值确实会很有限,而且会非常卷。因为说白了,没人能在 Infra 这一层拉开特别大的技术差距,也很难形成长期壁垒。你今天领先一点,几个月后可能就被赶上了。

所以我认为,第三方想做出壁垒,就得和硬件或者模型去做垂直整合。

以 MaaS 的生意为例。MaaS 可以看作是一个 API 的分发平台,除了标准 API 之外,真正能留住用户的,是那些别人没有的东西。

就像你为什么要买 PS5?是因为这个游戏机上有一些独占的游戏。

同理,有的 MaaS 服务商与特定的硬件厂商有深度合作,能以更低成本获得算力资源,同时它还有对硬件的独到见解,那这些就是它的差异化优势。

所以这里可以给从业者一个建议,就是不要做夹在模型和硬件中间的那个人。

我现在选择站在模型这一侧,你也可以选择站在硬件那一端。

这是因为 AI Infra 有个非常独特的背景,就是当前是硬件和模型都在追求极致的时刻。如果有人想做出像 DeepSeek 那样在硬件上跑得非常有效率和性价比的模型,就需要既懂硬件又懂模型。而这种「两头通」的能力,恰恰是 Infra 人的特长。

所以,如果你愿意迈出这一步,往上和模型做深度整合,或往下与硬件做 co-design,就有很多机会。但如果你固步自封,只在中间做优化,那确实就把路走窄了。

曲凯:但和模型或者硬件绑定之后,万一最后发现选错了怎么办?

亦博:所以关键在于你必须是主动的参与者,而不是被动搭便车的人。

如果你比硬件厂商更懂模型,那你就可以影响硬件的设计方向。如果你比模型团队更懂硬件,也可以反向影响模型架构的设计。

当你具备了这种影响力,成功了当然是共赢,即使失败,那也是你主动做出的判断和选择。

曲凯:明白。

我们前面讲的主要是 Infra 降本增效的事情,那实际上它对模型最终的训练效果到底有多大的影响?该怎么评判?

亦博:Infra 水平确实会影响模型的效果,这也是为什么 Infra 对大模型公司而言非常重要。

其实各家公司都在参与同一场比赛,就是「给定算力,怎么训出最好的模型」。

假设大家都拿 5000 张卡,在其他条件相同的前提下,如果我的 Infra 优化得更好,效率高出 20%,那在同样的时间里,我就能多学 20% 的数据,训练出的模型自然也会有更好的效果。

曲凯:所以 Infra 是有标准化的性能指标的?

亦博:对,比如 MFU 就是一个比较常见的指标。它衡量的是硬件利用率,分子是实际完成的浮点运算次数,分母是理论最大算力,MFU 越高,说明硬件被用得越充分。

曲凯:我记得当时 DeepSeek 公开了他们的 MFU?

亦博:实际上 DeepSeek 的 MFU 是偏低的,但你也不能说他们的 Infra 做得不好。

衡量 Infra 的性能其实很复杂,仅靠单一指标很难判断 Infra 的优劣。Infra 的性能和硬件、模型,还有优化目标都密切相关。

其实 DeepSeek 之所以能冲出来,一大原因是选对了优化目标。

当时 DeepSeek 的优化目标和其他所有人都不一样。比如我们当时的优化目标是「给定训练算力,怎么训出最好的模型」,而 DeepSeek 的目标是「给定推理的成本,怎么训出最好的模型」。

至少在 24 年上半年时,DeepSeek 的基模并不比大家强。

那这个局面什么时候扭转了呢?

就是在 24 年 9 月 o1 发布之后。

o1 让大家看到,如果在推理阶段让模型多思考一会,模型最终输出的效果会更好。这种训练方式,正是强化学习的典型机制。而因为 DeepSeek 的优化目标更符合强化学习的需求,所以他们能以更低的推理成本、更快的速度去输出结果和训练模型。于是他们率先完成了 R1,一下子甩开了其他团队。

你可以说 DeepSeek 的成功有一些运气因素。他们最初在设定优化目标时,大概率也没料到 Test-Time Scaling 会在 24 年下半年变成关键趋势。但很多事情的成功,靠的就是天时地利人和。

所以说回来,Infra 确实有各种性能指标,但如果想取得好的结果,最重要的是你要想清楚,哪一个指标的优先级最高。这个指标不仅要符合你的产品需求,也要顺应整个行业的发展方向和未来技术趋势。

不同团队的技术水平固然有高低之分,但真正拉开差距的,往往是有没有选对努力方向。

曲凯:所以当下有比较通用的第一指标吗?

亦博:这件事还有很多非共识。

其实从 o1、 R1 验证了强化学习的路径之后,我认为当前最重要的指标就是 decoding 的速度。

推理分为输入和输出两部分。输入的关键指标是模型处理长文本的速度,输出的关键指标则是模型吐字的速度。我认为现在最重要的指标是后者。它决定了线上业务的成本,也直接决定了强化学习的效率。因为如果你输出很慢,那你获得 reward 的速度就比其他模型要慢。

但现在还有人很看重 MFU 之类的老指标。在我看来,还特别关注这类指标的人,对当下技术的认知是有问题的。

曲凯:你前面有提到,Infra 人是既懂硬件又懂模型的人,那算法人是什么样的?二者该怎么合作?

亦博:最理想也最简单的合作方式,就是大家像一个团队一样,为共同目标协作。

很多事情都有 trade-off,比如有时损伤系统性能,但能换来算法上的提升,有时候则是反过来。遇到这些情况,最好是两边能一起讨论该谁来让步。

不过这是小团队的优势。在很多大厂里,很难实现这一点。

在大厂,Infra 总被视为支持性的角色。很多时候是算法人给 Infra 人提需求,但是 Infra 人没有反向的影响力。

曲凯:对,而且在很多人眼里,Infra 的核心就是「降本」,但「降本」通常不是一个最优先的目标。

亦博:这正是我认为需要被纠正的观念。前面提到过,Infra 实际上是可以对模型效果有正向影响的,而不仅仅是只能降本。

曲凯:听起来就是要 Infra 人发挥主观能动性?

亦博:还不够。比如你带一个 Infra 团队,另一个人带算法团队,大家向同一个 leader 汇报,但这个 leader 只懂算法,那你猜会发生什么?

所以很多问题到最后都是组织架构的问题。

模型其实由算法、Infra 和数据这个铁三角决定。三者缺一不可,必须协同。

但很多人对模型的理解存在偏差。比如,一个模型的算法效果往往取决于数据,而不是算法;一个模型的效率成本主要由 Infra 决定,也不是算法。

所以实际上比较合理的组织架构是,让 Infra 人去设计模型结构,因为 Infra 人最知道该怎么提高效率、节省成本,让数据的人去负责刷模型的点数和 benchmark 分数,因为他们最懂怎么喂模型,而算法人应该主要负责训练的范式革新。

曲凯:听起来很合理啊,现在很多团队不是这样的吗?

亦博:不是。现在在很多团队中,基本都是算法人在设计模型结构、刷模型点数。但实际上算法人不一定最适合做这些事。

曲凯:所以阶跃从一开始就在用最正确的方法吗?还是也踩过一些坑?

亦博:当然也踩过坑哈哈。比如我们一开始对自己的算力和能力都过于自信,所以干了一个比 Llama 还大的模型。虽然我们把它训出来了,但是这个巨大的模型有一些问题,过程中我们也犯了一些错误。

但我觉得这也没什么。你赌的所有事情就是可能会错,踩过坑之后再爬起来往前走呗。这一局输了,那下一局我再干回来。

曲凯:还有什么业内真实的踩坑案例吗?

亦博:比如最近有家公司开源了一个模型,声称自己虽然参数量不大,但因为算法做得好,所以效果可以越级媲美更大的模型。

但这个模型因为架构设计的问题,实际运行效率非常低,甚至还不如那些大模型快。

这背后反映的问题是,其实很多做算法的人并不真正懂硬件,也不了解模型在 Infra 层是怎么运行的。

算法人员做模型架构研究的时候,可能会画一张图,横轴是模型的尺寸或激活量,纵轴是某些算法效果指标。然后他们会试图在这张图上找到一个 sweet point,能让模型在尺寸不大的情况下,算法效果还不错,然后就丢给 Infra 人去做优化了。

即便 Infra 人能满足算法人的需求,模型实际运行起来也会出问题。

如果真要画图,横轴应该是模型的实际运行成本或运行效率,纵轴是模型效果。你得跑大量实验,才能在这张图上画出各种点,然后在其中找到那个真正可落地的最优点。

而这件事情只有在拉通所有团队之后,才有可能完成。

曲凯:是。模型这边上一个 Aha Moment 仍然是年初的 DeepSeek。虽然最近一直有传言说 GPT-5 要发布了,但到底什么时候发、表现怎么样,还没人说得准。而且很多人一直在说 scaling law 撞墙了、数据不够了等问题。

那你怎么看未来模型的发展?

亦博:模型范式的革新不会那么快,但多模态还是有一些突破的可能性的,尤其是多模态生成和理解的统一。

现在多模态的状态,其实挺像 20 年的 bert 模型,就是具备了理解能力,但还没有真正做通理解和生成。

做通的标志,是同一个模型在理解任务上能超越专门做理解的模型,在生成任务上也能击败专门做生成的模型。就像 GPT-3.5 出来之后,直接让很多做翻译之类的专用模型退休了一样。

曲凯:Google Veo 3 的效果看起来已经很不错了。

亦博:但 Veo 3 还是偏上一代的模型,核心是做生成。只不过它的工程做得比较好,把配乐之类的各种功能都很好地融合了起来。

其实技术突破和产品效果并不是线性相关的。Veo 3 确实把上一代的技术发挥到了非常强的水平,但它本身并没有带来太多范式上的创新。

曲凯:明白。那你觉得对于初创或者第三方的 AI Infra 公司来讲,机会在哪?

亦博:我个人觉得训练侧的商业模式不太成立。因为现在训模型的人都非常懂行,所以你很难挣到这些人的钱。而且他们也不太愿意把训练过程中的研发细节交给第三方,否则就泄露了自己的核心竞争力。

排除训练之后,推理侧还是有一些机会的,比如推理加速、推理优化。

曲凯:那开源模型对 AI Infra 市场来讲会有什么影响吗?

亦博:整体而言,开源模型对 AI Infra 的发展是有促进作用的。因为一个开源模型火起来,大家就会去研究怎么把它跑得更好,这个过程其实就促进了 AI Infra 的进步。

但所有事情都有两面性。如果某个开源模型太火,然后大家都花很多精力去优化它,可能反而会影响创新。比如 DeepSeek 出来之前,很多人都在优化 Llama,结果 DeepSeek 的新范式一出,之前大家在 Llama 上的很多积累就废掉了。

这里我还想再补充一点。现在的 Infra 基本都是围绕英伟达卡来做优化的,虽然也有团队尝试用国产芯片替代英伟达,但很多时候国产卡不是跑不动,而是性价比不如英伟达。

举个例子,当 DeepSeek 这样非常好用的开源模型出现之后,一些做一体机的公司会发现,他们用英伟达卡跑 DeepSeek 就是比用国产卡更有性价比,所以他们就更愿意选择英伟达的卡。

但我们非常希望国产卡在技术层面也能具备竞争力。比如,是不是可以根据国产卡的特性去专门设计模型结构,让它在国产卡上也能高效运行,并达到 SOTA 水平?

我们最近开源的 Step 3,就是在这个方向上的一次实践。Step 3 是国内首个支持第三方商用的、数百 B 规模的视觉推理模型,并且能跑出 SOTA 水平。

曲凯:怎么理解视觉推理?

亦博:视觉推理就是模型可以根据图片、视频抽帧等视觉信息,直接完成推理任务。

比如,你让机器人去柜子里拿一个东西,但那个目标物品被杂物遮挡住了。这时机器人要完成这个任务,就要进行视觉推理,来进行任务的拆解和决策。

对于机器人或者手机、汽车等智能设备来说,它们天然就有视觉这个模态。那么根据周边的环境、看到的东西去决定怎么完成复杂任务的过程,就是典型的视觉推理模型做的事情。

视觉推理模型还有一个更常见的应用场景,就是拍照解题。

曲凯:这件事之前也有一些模型可以做到,它们应该就是把图片转成文字,再去做文字推理。

亦博:但我认为这种方式不是真正的视觉推理。我们现在不需要中间那段转文字的过程,而是让模型好似真的能看懂图片,然后直接看图推理。

还是举刚才那个让机器人拿东西的例子。如果你要拿的那个目标物品周围有很多遮挡,你其实很难用文字把它们在物理世界中的位置关系描述清楚,也会丢掉很多信息。

但如果模型直接看图,就能很直观地知道应该先把这个东西拿开,再把那个东西拿开,最后拿到目标物品。

曲凯:明白。那你们为什么选择开源?

亦博:我们希望做到全国上下产业都获益。

我们决定给所有国产芯片一份免费商用的授权,开放模型权重,并且尽量帮他们做好模型适配。同时我们也把 Step 3 在国产卡上的推理成本压到了一个很低的水平,提高了国产卡在性价比上的竞争力。

通过开源,我们希望能够帮助国产芯片构建商业竞争力,也希望他们能推广我们的模型,最后实现共赢。

曲凯:我突然想到一个问题,就是多模态模型的成本未来到底会以什么速度下降到什么程度?因为现在多模态还是太贵了。

亦博:多模态理解现在已经不算贵了,不过生成还是挺贵的,尤其是视频生成。

但我对成本降低还是蛮乐观的。我觉得一年后,应该能下降很多,能不能到十分之一不好说,但几分之一没问题。

曲凯: 你觉得现在做 Infra 的人在很多公司里,是不是还是容易被低估?

亦博:在大模型时代,这种情况已经好很多了。现在 Infra 已经是模型能力的核心组成部分之一。

之前也有人说过,DeepSeek 做得好就是因为梁文锋是 Infra 人。

曲凯:这怎么讲?

亦博:因为梁文锋是做量化出身的,而量化很强调低延迟,所以他需要对 Infra 有研究。在算法、数据和 Infra 之间,他可能最擅长的就是 Infra。这在业界也算是共识。

而且据我所知,DeepSeek 的 Infra 工程师数量比算法工程师要多。

但在很多大公司里,这个情况是反过来的。这可能也是在过去一段时间里,一些大厂比较挣扎的原因之一。

其实在大模型快速发展的阶段,就是需要有大量的 Infra 人,来把硬件设计和模型优化做到极致,并且做好垂直整合。但在大厂里,他们的人才结构是错配的,不符合做好 AI 的本质需求。

曲凯:明白。最后,你会给正在做或者想转行做 AI Infra 的人什么建议?

亦博:前面有提到过,我的建议就是靠近模型,或者靠近硬件。

另外,希望你还是打心底对 Infra 感兴趣,有足够的主观能动性去做各种各样的 co-design。

最后我想再补充一点。我最喜欢的一篇文章就是 Richard Sutton 的《The Bitter Lesson》。文中的核心观点是,从长期来看,胜出的永远是那些能最大程度利用计算资源的方法。短期内各种奇技淫巧可能有效,但都不能本质地解决问题。

虽然这篇文章是从算法视角写的,但对 Infra 人也同样有很重大的指导意义。因为我们最根本的任务,就是设计出能发挥硬件全部性能的模型和系统软件,让模型能充分利用这些资源。

当然,我最希望的是也许有朝一日,我们还能反过来影响硬件,换取摩尔定律的不断延续。

42章经

思考事物本质


阅读原文

跳转微信打开

我不给人做产品,给 Agent 做 | 42章经

2025-06-29 22:49:00

原创 曲凯 2025-06-29 22:49 北京

Agent Infra 这个赛道才刚刚开始,遍地是黄金

本文来自 Grasp 创始人雷磊的播客及分享,有删减。

曲凯:Agent 今年这波热潮其实是 Manus 带起来的,到现在为止,各种 Agent 大家已经投得不少了。那下一个热点可能在哪里?

我们觉得可能是 Agent Infra。

正好雷磊现在做的 Grasp 就是一个给 Agent 用的浏览器。你是怎么想到要做Agent Infra 的?

雷磊:首先,我相信未来 Agent 的数量会不断增加,至少会达到现在 SaaS 数量的几千倍。

而且 Agent 能直接交付结果,因此它其实就是一个数字员工,我们应该把它视为像人类一样的终端用户。但因为 Agent 与人类的形态截然不同,所以当下互联网的很多基础设施都是不适合 AI 使用的,都需要为 Agent 重构一遍。

那基于这两点,Agent Infra 就是一个非常大的市场机会。

曲凯:那未来 Agent 和人类到底会怎么协作?你提到说 Agent 和人类完全不同,具体有哪些体现?

雷磊:现阶段大家普遍认为 Agent 是为人类服务的,但在我看来,未来应该是人类为 Agent 服务,因为 Agent 拥有更高的带宽,能够接触到比人类更多的知识和信号。(当然,人类和 Agent 并不完全对立。)

在这个服务主体转移的过程中,人类和 AI 的行为模式确实存在区别。

第一个区别在于交互方式。

人类的交互主要依赖视觉,因此为人类设计的产品需要一个前端界面,而 Agent 则可以通过文本和多模态在后端实现交互。

第二,人类和 Agent 的学习方式也不同。

人类无法同时「做事情」和「学东西」,因为这两者涉及到大脑的不同区域。但 Agent 却可以通过强化学习,在执行任务的同时进行学习。因此,为 Agent 设计产品时,至关重要的是设计一套奖励机制。

举个例子,当你使用浏览器时,系统不会频繁弹出窗口来评价你的操作是否正确。但如果是为 Agent 设计的浏览器,就需要时时提供 +1 或 -1 的反馈,只有这样,Agent 才能不断提升操作能力。

第三个区别是单线程 VS 多线程。

人的工作模式是按照 workflow 逐一完成,而 AI 可以在多个节点同时跑很多任务。

在计算机领域,有一个类似的对比:人类的工作模式很像「贪婪算法」,总是关注局部最优,而 AI 的模式则很像「动态规划」,始终追求全局最优。

不过这也引发了一个问题:当 Agent 并发执行任务时,该怎么保持不同任务的状态?

对于人类来说,上一个任务的结束就是下一个任务的开始,因此天然不需要去保持状态。

然而,Agent 在一个节点上可能同时执行 100 个任务,这些任务的执行速度各异,有些快,有些慢,甚至有些可能需要人工干预,所以需要设计一种新的机制保证 Agent 能高效稳定地在不同任务间切换和协调。

第四个区别是责任界定的问题。

人可以为自己的行为负责,但谁来为 AI 的行为负责呢?这也就引申出一个问题,就是怎么划分 Agent 所处环境的安全边界。

比如你手里有一段代码,如果这段代码是你自己写的,你当然可以接受这段代码直接在你的电脑上运行,因为出了问题你可以负责。

但如果这段代码是 AI 生成的呢?如果运行之后,你的文件全丢了,谁来负责?

为了解决这个问题,AI 执行任务时最基本的要求就是要有一个「安全围栏」(类似于大家都在讲的沙盒),来把 AI 所产生的影响控制在一定范围内。

这个安全围栏并不是要一刀切地限制住 Agent 的能力,而是要动态判断哪些任务和信息可以交由 Agent 处理,而哪些不能。

一个典型的例子就是 E2B。

曲凯:对,E2B 这个产品现在在美国很火,但我估计国内很多人可能还不太知道它。能不能给大家再介绍一下,E2B 到底是啥?

雷磊:其实 E2B 的火爆,很大程度上是靠 Manus 带起来的。

简单来说,E2B 就是给代码运行提供了一个安全又快速的沙盒环境。

曲凯:那如果未来 Agent 的运行环境都在云端,到时候是不是云厂商的股票能涨得更好?

雷磊:单凭这点来说是的。因为云厂商的机会来自于大家对资源的需求,如果我们未来会消耗更多的资源、产生更多的数据,那云厂商就是会更值钱。

但很关键的一点是这些云厂商得顺应时代潮流,否则很可能会被赶超,以至于被历史淘汰。

曲凯:所以你甚至会觉得 AI 时代有个新的云厂商的机会吗?

雷磊:对,在我看来 AI 环境这件事就是一个 AWS 级别的机会。

曲凯:但我听下来,E2B 本身好像也没做太多事情,那 E2B 和云厂商的关系未来会是怎样的?

雷磊:云厂商更多扮演的是基础设施的角色,比如说我们构建一座房子,云厂商有点像提供水电资源的地产商,而 E2B 则是负责将这些资源交付给住户的装修商。底层肯定还是由云厂商提供最基础的算力,而中间这一层像 E2B 这样的 Infra,提供的就是能让 Agent 真正运行的环境。

曲凯:这个例子很妙。但很多地产商后来都开始拼装修好的商品房了,那是不是未来一些云厂商也会自己做 Agent Infra 的这些事情?或者至少 E2B 是一个很好的被收购标的。

雷磊:这是一个很有意思的问题。在什么情况下地产商会去卷商品房呢?

就是当市场容量不足,仅交付毛坯房的竞争力不够时。

但 AI 市场的增长空间很大,所以我觉得在这个阶段云厂商和 Agent Infra 公司应该合作,想办法把蛋糕做大,而不是过早地去考虑怎么分蛋糕。

包括 Agent Infra 公司之间也应该如此。因为这个市场足够大,所以能容纳很多家公司、去提供不同的解决方案。

举个例子。E2B 有一个竞对叫 ForeverVM。E2B 主打的是「安全」,ForeverVM 主打的则是「状态」,也就是确保 Agent 在执行多个任务时,即使反复横跳,也不会丢失之前的进度。

曲凯:明白。其实最近美国那边给 Agent 做的产品有两个典型,一个是 E2B,另一个是 Browserbase。讲完 E2B,我们再讲讲 Browserbase 吧,正好你们现在在做的也是与 Browser Use 相关的事情。

雷磊:Browserbase 也算是现在的一个当红明星了,从融资额也能看出,它的估值在一年内涨到了 3 亿美金。

它做的本质就是给 AI 用的浏览器。但与传统浏览器的区别在于,首先它将浏览器云端化了,其次针对 AI 使用浏览器的场景进行了优化。

我当时在字节的时候,特别喜欢一鸣的一个说法,叫做「务实的浪漫」。意思是除了「仰望星空」地眺望未来,也要「脚踏实地」地发现并解决眼下一些具体的问题。

那眼下有什么问题呢?

数据表明,现在互联网上已经有 40% 的流量来自机器人。但机器和人使用浏览器的方式有很大差别,怎么能让这些机器人更高效地使用浏览器,就是一个值得重新设计的问题。

比如,AI 需要 RAG 功能,所以 Browserbase 就设计了类似的功能,可以帮助 AI 自动获取网站上的一些信息,作为上下文来辅助后续操作。

曲凯:那「给 AI 用的浏览器」和「给人用的浏览器」具体有哪些区别?

雷磊:首先,给 AI 用的浏览器一定是运行在云端的,因为 AI 不需要休息,可以持续工作。

其次,人类需要先看到浏览器页面上的信息,然后才能用鼠标操作,而 AI 完全不需要前端界面,它可以直接在后端运行。

第三,我们在给 AI 设计浏览器的时候会考虑怎么设计反馈循环,因为我们相信未来 AI 要能自主收集反馈、自主迭代。

第四点与安全相关。这里可以问大家一个问题:你愿意把账号密码交给大模型吗?

你大概率不愿意。

但你在使用 Agent 的时候,可能也不希望它跑了半天却没法完成任务,每次遇到登录问题时还要来烦你。

所以最佳情况是在确保密码不泄露的前提下,能让 Agent 有一定的自主性。

针对这个问题,我们开发了一个功能,就是当某个网站需要账号密码时,Agent 会自动判断情况,并以一种纯本地的方式填入你的账号密码,甚至是验证码。整个过程完全不需要人为干预,并且绝不会将你的任何信息传递给大模型。

第五点,就是在为 Agent 配置浏览器时,也需要考虑 Agent 多线程工作的连续性和成本。

因为大模型在操作浏览器时,往往涉及许多步骤,而且步骤之间可能存在间隔。比如,如果我们希望 Agent 在航司网站上购买一张机票,那么当 Agent 进入下单页面后,可能需要先去携程搜索比对各种机票信息,然后将这些信息带到另一个系统中进行推理。整个过程可能还需要人的介入,最终决定购买哪张机票后,再返回航司网站继续操作。

此时,我们肯定希望航司网站的页面仍然停留在下单页,而不是重新加载。但由于中间步骤太多、各步骤耗时也较长,可能过程中就会导致云端资源的浪费。

曲凯:明白。那在 Browser Use 这个赛道里,Browserbase 已经做得挺不错了,为什么你们还要做?Grasp 和 Browserbase 有什么区别?

雷磊:要做一个具备 Browser Use 功能的 Agent,技术架构可以分为三层。

最底层叫 Runtime,有点类似于云端的引擎。你可以将它理解为传统的浏览器内核,主要解决拉取网页信息、执行浏览器脚本、渲染图片等问题。

但随着 AI 的到来,中间新增了一个 Agentic 层。这一层负责控制 AI 与网页的交互,包括怎么从网页获取信息、怎么生成一些信息来影响网页,以及如何进行推理等等,最终再形成具体指令。

最上面一层是 Knowledge 层,也就是垂直领域的 knowhow。这一层是所有 Agent builder 需要重点关注的,因为它决定了你该怎么设计反馈机制,从而优化最终交付给终端用户的结果。

无论是 Browserbase,还是传统的 Playwright、Chromium,本质上都属于 Runtime 层。

而我们所做的是 Runtime 层 + Agentic 层。这两层一方面工程量非常大,另一方面有许多需要解决的通用问题。因此,如果我们将这些工程和问题都解决,就能够为开发者提供一个封装好的 Agentic Browser。开发者只需结合自身的行业认知,就可能构建出自己的 Manus 或者 Fellou。

曲凯:假设今天 Google 想做一个 Browserbase,是不是可以很快就做出来?

雷磊:确实,只做 Runtime 没有足够大的壁垒。

曲凯:所以 Runtime 层和 Agentic 层必须一起做才行?

雷磊:是的,否则很多你想实现的功能就是无法实现。

曲凯:那么在 Agent Infra 中,除了像 E2B 这样的代码云环境和 Browserbase 这样的 Browser Use 产品,还有其他机会吗?

雷磊:Agent Infra 大体可以分为环境和工具两种。

环境最主要的就是 Coding 和 Browser。Coding 赋予了 Agent 执行一个逻辑的能力,而 Browser 则让 Agent 拥有了与网页信息交互的能力。

不过中间会有非常多的细分领域,比如 Browser 可以有不同的浏览方式、Coding 可以分解释性语言和编译性语言等等,而针对不同的痛点,自然会有不同的解决方案和公司出现。

此外可能还会有一些抽象的环境,比如运行数学公式的环境,以及与物理世界接触的环境,比如传感器、具身智能,包括像李飞飞团队关注的空间智能等。

对于工具来说,如果把 Agent 看作终端用户,那么人类软件史上曾经出现过的工具都有机会重写一遍,比如 Agent 要不要有自己的身份?需不需要自己的电话去接收短信?是不是得有支付能力?

这里也和大家分享一个思考框架,就是通过场景去找切入点。

举几个例子。

一个旅游 Agent,在规划行程和导览的场景里,常用的工具就包括 CRM 查询,网络搜索、购票支付以及身份认证等等,所以这些工具你都可以重做一遍。另外,这个 Agent 很可能会在浏览器环境里运行,然后通过接口或者网页背后的 HTML 来执行任务,所以你也可以给它做一个专门的浏览器。

以此类推,你也可以为一个解题 Agent 去做定理检索、绘图,以及 LaTeX 等工具,也可以为它去写一个新的公式执行器或者代码执行器。

如果未来硬件有了突破,对于一个类似 Jarvis 的 Agent 来说,它需要的则是能够帮助它与现实世界进行交互的工具,以及传感器之类的感知环境。

这些还只是为单个 Agent 开发产品时需要考虑的因素。随着未来 Multi Agent 的成熟,可能会有多个 Agent 一起协作和沟通,共同解决问题。到那时,我们还需要考虑怎么去管控这些 Agent、怎么促进它们之间的协作,以及如果某个 Agent 挂了该怎么应对等等。

曲凯:我记得你之前提到过一句话,你说今天的 Browser Use 有点像 22 年的 AI Coding,能不能解释一下?

雷磊:22 年的时候,大家对 AI Coding 还有很多怀疑,不确定它到底会发展成什么样子,但到了今天,基本上已经没有人质疑它了。

这是因为大模型是不是能稳定地解决某类问题有一个很简单的公式:

某问题的样本集 × 模型的成功率 = 该问题的成功数量。

如果某类问题的成功数量能够满足人类的需求,那它就会被人们认可、逐渐成为主流。

对于 AI Coding 来说,自从 22 年 GPT 3.5 推出后,它的成功数量就突破了一个关键阈值,从而消除了人们的疑虑。

回到今天的 Browser Use,其实它的样本数量比 Coding 还要大,只是目前模型的能力还不足,所以现在还有很多人认为 Browser Use 不够实用。

但随着大模型能力的不断突破,当 Browser Use 的成功数量能够满足人们的需求时,人们对 Browser Use 的态度就会像今天对 AI Coding 一样,而且这个过程会比 AI Coding 来得更快。

曲凯:那 AI Coding 现在全球有几百家公司在做,也有很多估值很高的公司了,你觉得未来 Browser Use 也会是这样吗?

雷磊:其实哪怕是 AI Coding,我觉得仍然处于市场早期。因为如果从商业层面来看,全球软件开发的总市值大概有 3 - 4 万亿美金。只要 AI 能够在其中提升 5% 的效率,那就是一个 1500 亿美金的市场。但是今天 AI Coding 可能也就是一个小 100 亿美金的市场,还有很大的增长空间。

Browser Use 也是同样的道理。假如我们通过互联网进行的销售、招聘、获客等活动,能够通过 AI 提升 5% 的效率,那就是一个非常有潜力的大市场。

曲凯:那现在大家对于给 Agent 做产品这件事情,有什么很强的非共识吗?

雷磊:大家对于「给 Agent 做的产品到底最关键的是什么」这一点看法不太一样。有人认为是上下文,有人认为是更好的数据,或者更强大的模型。

但在我看来,最关键的是怎么设计一个好的反馈循环,让 AI 能够自我迭代。

我觉得人类最大的一个偏见,就是我们非常相信人类的先验知识对大模型来说很重要,所以我们不停地把我们的知识灌输给大模型,觉得这样它会越来越聪明。

但有没有可能人类的知识对大模型来说其实毫无必要呢?

举个例子。DeepMind 团队做了一个解奥数题的产品,叫 AlphaProof。他们团队只设计了一些基本的奖励信号,做对了题目 Reward + 1,做错了 Reward - 1,然后就开始让 AlphaProof 自己做题。AlphaProof 不参考任何人类解题的思路,就是从 0 开始通过强化学习的方式自主探索、自主迭代。但靠着这种方式,它去年已经摘取了国际奥数大赛的银牌。

曲凯:就像 AlphaZero 一样,对吧?最后大家发现人类的棋谱对它来说其实根本没有用。

雷磊:对,所以我觉得未来最重要的范式转变,就是让 AI 通过 Coding 和 Browser 之类的环境,自己去体验世界、获取真实的反馈,并通过这些反馈自主迭代,而不是一味依赖人类数据。

强化学习之父 Richard Sutton 和 David Silver 最近合作撰写的论文《The Era of Experience》里面核心也是在讲这件事。

曲凯:最后我想问,我们今天聊的很多东西的基础就是「未来 Agent 真的会起来」,那 Agent 到底什么时候会起来?

雷磊:与其思考 Agent 什么时候会起来,我觉得更重要的是思考在 Agent 崛起的那一天,我们能够提前为 Agent 做些什么、提供什么样的价值。

最后补一个现场活动的问答彩蛋:

Q: 不同的 Agent Infra 产品要怎么做差异化?

A:Agent Infra 这个赛道才刚刚开始,遍地是黄金,所以现在的关键在于找到差异化的场景,然后把自己的产品做深做厚,而不必考虑别人在干什么。这里可以分享一个具体的数据。有公司统计过,今天互联网上有 63% 的网站都已经被 AI 访问过了,但是来自大模型的流量在整体流量的占比只有 0.1%。

未来,AI 访问网站的流量可能会比人多 10 倍,所以 Browser Use 之后可能会有 10 万倍的涨幅。

那么在这个时候,我们就不该想着怎么去抢别人在 0.1% 里面占的那 0.01%,而是要思考怎么在剩下的 99.9% 里面去做出 10% 的市场。

42章经

思考事物本质

阅读原文

跳转微信打开

活动报名:Agent Infra 领域里的下一个大机会 | 42章经

2025-06-15 21:57:00

原创 曲凯 2025-06-15 21:57 北京

Agent 之后,Infra 崛起


自今年年初以来,Agent 赛道的热度持续了好几个月。有非常多各种方向和概念的 Agent 项目已经拿到融资,而很多人也已经开始思考:

下一波机会,会出现在哪里?

我们看到的新机会之一,就是 Agent Infra。

这次我们请来了 Grasp(一款给 Agent 用的浏览器) 创始人雷磊,请他在播客中分享了很多有关 Agent Infra 的观察与思考,比如为什么 Agent Infra 中有大机会、具体有哪些机会,以及硅谷当红炸子鸡 E2B & Browserbase 到底是啥等等。

不过雷磊对于「给 Agent 做产品」这件事,还有很多播客节目中承载不下的观察和思考。

所以下周六(6/21)下午,我们会在北京组织一场线下活动,邀请到包括雷磊在内的两位长期在第一线实践的创业者朋友,带来他们对 Agent Infra 的深入观察和方法论。

活动中,我们会展开讲讲从「给人做产品」到「给 Agent 做产品」的演化路线、Agent Infra 有哪些值得重写一遍的机会、为什么 Agent 需要自己的 browser、做 browser use 的实践和方法论,以及 Agent 长期记忆问题的解决方案和进展等话题。

具体报名信息请见下方海报。为保证小型、私密的活动交流氛围,本次活动限 50 人(非投资行业),我们会优先通过回答更认真、跟我们背景更匹配的朋友,具体通过情况请以工作人员通知为准。

期待和大家见面!


阅读原文

跳转微信打开

抱着“不做就会死”的决心,才能真正做好全球化 | 42章经

2025-06-15 21:57:00

原创 黄东旭 2025-06-15 21:57 北京

全球化业务发展的宝典

本文来自 PingCAP 联合创始人兼 CTO 东旭的内部分享,有删减


大多数人以为战争是由拼搏组成的,其实不是,是由等待和煎熬组成的。—— 王兴

我们创业这一路上没有那么多惊心动魄,可能最重要的就是那么几个决定,以及,有些事情就不要决定。

那做海外市场,最重要的是什么?

就是创始人心态的转变。

要看它对你来说是一个战略还是第二曲线的尝试,而战略的最好定义就是「不做就会死」。只有当你觉得这件事不做会死的时候,才能把海外市场真的做好。

在尝试全球化的时候,我们踩了很多坑,回头复盘,核心原因就是那几年在国内太舒服了——客户收入不错、经济环境不错、也拿了很多融资。

就是因为国内的业务很好,所以就没想过失败了怎么办,就每次去美国都当是出差,转两圈就回来了。

所以现在回头来看,当时犯的第一个错误就是没有把全球化当做一个「不做就会死」的事。

第二个错误,就是说我们要「出海」。

「全球化」和「出海」这两个词听起来差不多,但其中的区别真的大了去了。

在 2017 年的时候,我们说要做「出海」。

出海这件事情映射到 PingCAP 的组织上,就是中间划出了一个出海部门。

但我们执行了一两年,发现状态不太对。为什么?因为世界上没有任何一个国家叫「出海」,所以出海的团队就像无头苍蝇一样,没有任何重点,很难在一个市场里边打深打透。

所以,在刚刚开始做全球化业务的时候,因为能投入的资源都是有限的,我们就更要从 day 1 开始就聚焦到一个具体的地区去突破,然后再慢慢扩张。

那这个地区的选择就很关键,就是它必须得能够带动其他地区。

就好比我今天只有三杆枪,这三杆枪要想发挥最大的威力,就应该集中打一个山头。打下来之后,再以它为中心去攻克其他的山头。这样做其实会更简单,因为你最开始的成功是有辐射效应的。

所以按照这个标准来看我们的业务,我们当时得出了一个结论,就是要先打东南亚和日本这两个市场。因为这两个市场看起来很简单,地处相近的时区,没有像美国那样的贸易战,出差距离也近。而且相比于老美,亚洲人多少还是更好说话。

但是事实上这个结论是有问题的。

因为日本和东南亚市场没办法辐射价值最高的美国市场。

就算你日本市场做得再好,你的日本客户案例对老美来说也完全没有信服力,因为他们可能根本就没听说过那些日本公司。东南亚就更不用说了。

但是反过来,如果我们先在美国做出点成绩,那再拿着这些案例去日本和东南亚都是完全有说服力的。

所以当时我们意识到,全球有两个企业软件高峰,一个叫中国,一个叫美国(硅谷)。这两个地方的案例都有各自的辐射效应。比如我们现在在做泰国的一个银行,人家一看我们把国内这么大的银行都服务得很好,那服务好他们更是不在话下,所以就很愿意和我们合作。

美国市场还有一个特别的好处,就是天花板确实非常高。美国的很多公司比其他单一市场的公司有钱太多了。

比如我们有一个客户,如果我们的系统挂了五分钟,是一定会影响到他们的实时股价的,假设会跌个一两个点,这些亏损也比给我们的钱要多了去了。

还有个客户,我曾经问过 Ta 有没有成本上的顾虑,对方直接三连怼,和我说:

第一,你千万不要把时间花在节省成本这种事情上(言下之意就是老子也不缺钱)

第二,你要知道我光是测试你们这个系统,每年花的钱就是百万美金级

第三,你知道假如你们的系统挂了五分钟,我们会损失多少钱吗?

所以如果一个软件能真正给他们带来很重要的价值,他们是很愿意付费的。


然后还有一个很有意思的地方,就是日本市场。

1)我们发现日本市场和其他国家的做法都完全不同

2)我们的日本团队都是纯本地化,完全不说英文也不说中文

3)日本市场的业务极度可预测

极度可预测是什么意思?

就是当你过了从 0 到 1 的阶段之后,你会发现你能很准确地预测每一年的增长和营收。

我举个例子,比如去年我跟日本的 GM 开会,我问他:

我给你 double 投入,你能不能给我 double 产出?他说不行。我说更高呢?他说还是不行。

这确实跟日本做企业服务的节奏有关,就是你再 push 客户,他们也快不起来。

不过日本的企业客户有个好处,就是言出必行。

比如有个日本客户,本来和我们约定了一个年度预算,却因为项目延期没有达成。结果他们说,既然当时答应了要达到这个数,那就还是按照约定的金额来结算。所以很多日本企业都非常重视契约精神。

我们犯过的第三个错误,就是一度在用「出差心态」来做全球化业务。但实际上这样做是成不了气候的。

举个特别简单的例子,如果你抱着出差一周的心态去美国谈业务,和客户见面聊得很开心,然后客户想约你两周后再一起喝个咖啡,你怎么办?这时候你肯定不好意思说:抱歉,那时候我早就回国了。另外,因为你抱着出差心态,所以每次来肯定都希望把客户拜访安排得密集一些,不然时间真的不够用。但显然,这并不是一种做长期业务的心态。

事实上,只有当你的肉身常驻海外之后,你才能对业务、客户以及产品机会有更深刻的认知,从而有机会拿成果。因为你的身体在哪里,你的注意力就会在哪里。

那团队是应该从本地招,还是应该从国内派遣呢?

我们实践下来,发现这两种方式都不对。前者的问题在于本地团队与企业文化的融合过程非常漫长,而后者的问题在于你的团队永远无法真正深入了解当地市场,因为派来的同事往往也会抱有出差心态。

而最好的做法就是具体岗位具体分析。

比如我们的售前销售、解决方案、售后这些岗位都是从本地招人,因为这些岗位往往会涉及到地区合规、客户关系的问题,而客户天然地更信任本地人。像一些研发产品的职能,在我们还没有本地团队时,则可以从国内派遣。不过我花了两三年的时间,现在也已经把很多负责产品和研发的 Leader 换成美国本地的负责人了。

对于肉身出海,很多人还会有一些顾虑。

比如英语不好会不会是很大的障碍?

从我们自己的体验来看,语言是最小的问题,只要你敢开口,剩下的都不是事。

不过一个确实存在的问题是,每当我们进入一个新的地区时,都要一穷二白地从 0 开始,和本土企业相比有很大的劣势。

这种情况下,我们拿什么和别人竞争?

其实中国团队有三个独特的优势。

第一,技术。国内的工程能力,即使放在老美这边也是相当强的,最典型的例子就是 DeepSeek。

第二,供应链。这方面中国真的太强了,尤其是在硬件和消费品等与制造相关的产业。

第三,贴身服务的苦工。这也是我们在美国破冰阶段最大的优势之一。

我们在美国的第一个客户本来在 PingCAP 和另一家美国本土的数据库团队之间犹豫不决,最后他们还是选择了我们。我当时问他们原因,他们半开玩笑地说:you guys never sleep。

做企业软件,服务也是产品价值中很重要的一部分。用户在做选择的时候,不仅要选择谁的性能最好,还要看万一出了点问题,谁背锅和搞定问题的速度最快。事实上每一次出现问题,我们确实都能在 15 分钟之内上线、回复、解决。

PingCAP 还有一点也非常有意思,就是我们从来不看竞争对手在做啥,只专注于做自己想做的事情。

为什么?

因为你比较关注的这些竞争对手,基本上都是和你体量差不多的公司。但美国市场水大鱼小,所以就算你们这几条小鱼看似竞争得非常凶,实际上做客户的时候也根本不会正面交锋。真正会和我们抢客户的,反而是那些最老牌的云厂商和一些传统的软件公司。

除此之外,大家可能还会担心地缘政治问题。这确实是一个问题,但并不是当前阻碍你发展的最关键的问题。如果你的年收入不到十亿美金,也不是一家美股上市公司,那就暂时不用过多地考虑它。

那当我们做了全球化业务后,在从 0 到 1 的破冰阶段,我还想给创始人几条建议。

第一,首先可以招聘一位本地销售人员,然后创始人也需要亲自与这位销售一起拜访客户。这对快速了解当地市场、融入当地圈子非常有帮助。而且优秀的销售人员通常具备较强的目标驱动和销售管理能力,这与技术背景的创始人形成了很好的互补。

实际上,现在我们各地区的一号位基本都是销售背景出身。销售背景的负责人会直接用收入成果向你汇报,相比其他背景的人的产出结果更好衡量。

当时我们招聘销售的过程其实也非常艰难,花了不少冤枉钱。最终能招到优秀的销售人员,也是对公司产品 go to market 效果的一种验证。如果销售人员感觉这个产品卖不掉,就根本不会选择加入我们。

第二,如果你想认真做海外市场,尤其是做 To B 业务,就得给自己留 300w 美金的预算,这是你逃不过的学费。

大家至少要做好前三年每年投入百万美金,却一毛钱产出都没有的心理准备。如果你觉得无法接受,那不好意思,你还是别做了。PingCAP 能做到今天这个程度,至少犯过一个价值 5000w 美金的错误。

第三,你要把你的注意力投入到全球化这件事上。刚开始做海外跟重新创业没什么区别,需要 CEO 能够以创业公司的方式去快速调动资源,使公司能够迅速在海外运转起来。

再往下,我们来讲讲具体执行层面的坑和 Tips。

首先从产品层面来说,中国很多公司,尤其做企业服务的公司,经常会犯几个错误。

第一个错误是,大家把「安全合规」的优先级定得太低了,总是优先卷产品性能。但在海外,「安全合规」才是最应该优先投入的,因为它能让你赚大钱,而产品性能其实做到够用就行。

比如,如果你去看海外的产品,就会发现它们都会把安全性作为一个重要的宣传点。

再比如,在美国,金融行业的客户一定会要求你提供 SOC 1 和 SOC 2 的合规证明,保险和医疗相关的客户一定会要求你提供 HIPAA 的合规证明,而这些证明没有一年半载是办不下来的。如果你临门一脚拿不出这些证明,那这些客户就不会和你合作。

所以我建议大家去了解一下自己的产品会不会涉及安全合规的问题,如果会,就要提前投入。

第二个错误是,很多人会认为海内外产品就是同一产品的多语言版本,但我们一次次被现实打脸之后,想告诉大家一个惨痛的真相:海内外的产品完全是两个不同的产品。

以我们自己为例,在国内,我们现在还是以私有化部署为主,卖的是软件和创新。但在海外,我们只提供云服务。而软件和云服务完全是两套逻辑,有着不同的 PMF,甚至很难用同一个产品团队来完成这两件事情。

不过我们还是找到了一个最大公约数,就是开源。海内外产品的研发团队共享我们的开源内核,并且都可以继续为它添砖加瓦。

第三个高频问题是,大家在国内市场总是卷一些莫名其妙的指标,不停地陷入各种 benchmark 的陷阱。但在海外,客户只关注你的服务能为他们的业务带来什么样的价值。

因此,现在我们公司研发团队最关注的指标不是产品性能,而是能否实现「客户成功」。

第四点,中国团队对 UI/UE 的重视程度不够。然而,把官网和产品的 UI/UE 做好,是一件 ROI 非常高的事情。

这一点我们之前也做得很不好,总以为把产品做得扎实就万事大吉了。但美国团队普遍非常擅长 Storytelling,而官网和产品界面就是极佳的讲故事的地方。如果你的 UI/UE 做得不好看,客户对你的第一印象就会大打折扣。

还有一个 ROI 很高的事情就是用 AI。

AI 是现阶段提升企业运转效率的最大杠杆,怎么重视都不为过。建议大家可以多上手实践、感受 AI 的能力边界,就像费曼说的:“What I cannot create, I do not understand.”

聊完产品,我想再分享几条有关商业化的建议。

第一,谨慎选择你的客户,而不是被客户挑选。

因为我们的产品能为客户带来很高的价值,所以我们一直是这么做的,而且我们只选择大企业或者知名企业合作(虽然这听起来可能有些凡尔赛…

这里有个小 tips,就是一定要找到你所在行业最头部客户的清单。尤其是在去海外的初期,最好的策略可能是「name account」,就是给每个销售分配明确的任务,比如要求某人一定要拿下索尼、另一个人一定要拿下任天堂,而不是让大家胡乱地去聊。

而且 PingCAP 一直以来的战略就是专注于大客户。

那怎么定义「大客户」呢?就是一年能为我们贡献 100w 美金以上的客户。

底层逻辑其实就是看 LTV(生命周期价值,也就是客户在使用你的产品期间为你带来的总收益)。

100w 美金看似很高,但我的体感是,很多华人创始人经常低估一个客户的 LTV。

大家也可以停下来思考一下,你会如何定义大客户的标准?

在你拍脑袋想出来的数值基础上,再乘上三到五倍,这可能才是一个真实的北美客户的 LTV。

另外,我们接客户时也会考虑客户的潜力模型。

每当销售谈一个新客户,我都会听他们讲这个客户的 LTV 是多少、他们为什么做出这样的判断。

如果这个客户的公司状况良好、长期数据量非常大,且在数据上一年的消耗能达到几千万甚至上亿美金,那么即使他们的第一单只有 10w 美金,我们也愿意合作。但如果某个客户是一个不知名的小公司,即使他们愿意一单掏 50w 美金,我们也未必愿意接。

LTV 除了对于判断客户潜力很有帮助,对于判断公司的发展重心也有重要的参考价值。

另外,以前我很纠结到底要选 PLG 还是 SLG,但现在我觉得这两个模式的核心都与 LTV 相关:

如果你们用户的 LTV 不太长,也就是用户接受产品的速度很快、使用周期较短,那么你们就是 PLG,因为对你们来说,重点是快速迭代产品,然后让用户用得满意、愿意迅速付费。

反之,如果你们用户的 LTV 较长,那么你们自然更偏向于 SLG,因为你们要花时间总结沉淀商业的这些 Knowhow、想办法让交付实施更可靠。这个过程一定是更长的,但一分耕耘一分收获,一旦成功拿下一个客户,可能就是 100w 美金的订单。

所以根本不用纠结 PLG 和 SLG,因为你的产品 DNA 和商业模式已经决定了你要走的方向。你真正应该选择的是 Value-LG。

第二条建议,是提升自己的 Storytelling 能力。会讲故事非常关键,但这恰恰是华人创始人普遍欠缺的一项能力。

第三条建议,是把 Marketing 后置。Marketing 应该是一件锦上添花的事情,而不应该反过来先布道、再期盼产品起势。

产品最好的 Momentum 来自于客户的口口相传,所以冷启动阶段最重要的就是前几个客户。你得想办法让早期客户替你把产品故事讲出来,这样后面你也能有做 Marketing 的素材。

不过我们比较幸运,因为我们的第一个企业客户中有一位五六十岁的美国技术高管,Ta 把我们的产品介绍给了湾区的其他公司,而那些公司最后都成为了我们的客户。这里也可以给大家一个 tips,就是你要时刻记住,你要接触的目标一定是硅谷最上层的那一小部分 C-level 和 VP 们。

最终,如果你想检验自己团队的国际化水平,有两个很好的里程碑。

第一,全英文办公。比如在 PingCAP,我们开高管会时,就算参会的都是中国人,还是会用英文,因为团队后面可能会有外国人加入,如果 Ta 想回头看会议记录,是看不懂中文的。

第二,公司内部使用真正国际化的工具。不是所有支持英文的企业协作工具都是国际化的工具,正确的标准是要看海外同事是否用得习惯。

最后想分享一点,就是我宁愿我们最早在国内没有收入,这样当时反而能更坚定地 all in 全球化。

其实 2017 年刚做全球化的时候,我们在国内大概就有几千万人民币的收入了,说多不多,说少不少,又一直在增长,所以我们在国内的组织就变得越来越厚重,拖慢了我们推进全球化的进度。

回过头用全球化的视角去思考,会发现在中国做企业服务,老实讲还是太难了。如果真的看利润率,我们现在在其他地区都在赚钱,只有在中国还在亏钱。

所以,如果现在有公司想做全球化,我最后的建议是:

坚决一些。


42章经

思考事物本质



阅读原文

跳转微信打开

张津剑:投资中的频率与频谱 | 42章经

2025-06-08 22:01:00

原创 张津剑 2025-06-08 22:01 中国香港

AI 与人类注意力机制

自从那篇著名的论文《Attention is All You Need》问世以来,Transformer 架构不仅首次赋予了机器 Attention、推动了 AI 技术的飞跃,也进一步促进了人类对注意力机制的研究,促使我们以全新的视角重新审视自身对信息的感知与理解。

有趣的是,人工智能正通过不断演进的注意力机制,变得更专注、更目标导向、更具长期思维;而人类却在汹涌的生成式内容中愈发迷失,变得迷茫、割裂,碎片化。

之所以会出现这种差异,本质上是因为 AI 和人类的注意力机制截然不同。

信息越密集,对注意力的要求就越高,能耗也越大。然而,AI 消耗的是算力,可以通过增加计算单元做加法;人类消耗的则是心力,只能靠聚焦与克制做减法。

前者容易,后者难。

特别是随着世界运转速度的加快,保持专注和收拢注意力变得越来越困难。我们的注意力机制正在逐渐失效,甚至崩溃,导致许多人失去了独立判断的能力。

结果是,世界的分化程度日益加剧。

这种分化在社会的各个层面都有所体现,包括宏观的地缘政治、中观的贫富差距,以及微观的夫妻关系。

过去,人们能够在面对波动时进行独立判断,之后形成共识,然后携手共渡难关,形成「你好我也好,你差我也差」的局面。然而,现在「你差我好」或「我差你好」的情况却愈加普遍。

因此,可以说,当今世界许多问题的根源在于我们的注意力失控了

为了更好地说明这一点,我们可以尝试从信号处理的角度,先来理解一下注意力机制。

任何一个信号系统,基本结构都可以简化为「输入——处理——输出」。

人类也不例外。眼、耳、鼻、舌等感官器官就像传感器,负责将外界的信息传递到我们的大脑中。这些信息在进入大脑后会被加工处理,最终以某种形式转化为行动输出。我们输出的行动可以是看得见的动作、语言或表情,也可以是看不见的想法、判断或偏好。

所以人类也可以被进一步概括为一个「感知——处理——行动」的信号系统。

但人类的这三项能力之间存在巨大的鸿沟。

人的视网膜每秒接收到的信息量约为 10^9 比特,相当于一段两分钟的 480P 视频;大脑每秒能处理的信息量,只有 10^6 比特,约等于一本小说的容量;而最终真正能转化为行动的输出带宽更低,仅有 10^1 比特,也就是一条指令的水平。

所以我们的感知能力远大于处理能力,处理能力又远大于输出能力。

那怎么办呢?

在信号处理中,为了解决这类问题,我们会引入滤波器来「去噪」,也就是过滤出信号、剔除掉噪声。

对于人类而言,为了解决信息过载的问题,我们也进化出了一种主动过滤器——注意力机制。这个机制能够帮助我们在信息洪流中忽略大量无关的噪音,并能根据我们目标的变化灵活调整,确保我们始终能专注于最关键的信息。

例如,当我们聚焦于某一个人时,眼中几乎只剩下这个人,周围的一切声音和画面都会自然消失。这,就是注意力滤波器在起作用。

一个真正专注的人,能够在不同情况下过滤出最重要的信号。这些信号就是我们常说的主要矛盾,也就是事物演化过程中的关键变量。

相反,一个不够专注的人则很容易被信息裹挟,或者被他人的节奏带走,变得人云亦云。

这是因为当我们的注意力机制崩溃时,我们会放弃主动感知世界,转而去处理高刺激信息,或者直接依赖他人的行为来进行判断。

于是,「抱团取暖」的现象也就变得越来越普遍。比如现在火的赛道特别火,哪怕是已经明显出现泡沫的领域,依然有大批人争先恐后地往里挤,而凉的赛道则完全无人问津。再比如凉的赛道可能突然就火了、火的赛道也可能突然就凉了。

这就像信号学里的「拉尔森效应」,它指的是,当信息输入和输出端口距离太近时,因信号循环而产生的啸叫现象。

比如当你把麦克风靠近音箱时,麦克风拾取的信号会传入音箱,而音箱发出的信号又会被麦克风拾取,如此反复,就导致信号不断自我增强,从而产生啸叫。

其实,今天的世界,每时每刻、各行各业都在啸叫。

在这样的世界中,「专注」会变得越来越有价值。

而且「专注」对于现在的创始人来说也愈发重要。人之所以会感到越来越心累,正是因为注意力分散造成了高能耗,而优秀的创始人往往清楚自己应该在什么时间将注意力集中在哪里。

当大多数人把注意力放到别人身上、跟风行动时,如果你能够静下心来管理自己的注意力,专注感知这个世界,你会发现这个时代的机会恰恰在变多,而不是变少。

比如 2023 年,我们关注到具身智能时,市场上还没有这个专有名词,我们内部对这个赛道也有质疑的声音。为了求证具身智能的市场空间,我们组织了一个小组出去调研了一圈,得到的市场反馈大多也是负面的。当时甚至有朋友跟我们说,他们在 15 年投的机器人项目一直都没能退出,劝我们千万不要进入这个天坑(笑)。

但这样的市场反馈反而让我们认定了这个方向是有机会的。因为很多事情其实早已在暗中发生了根本性的变化,只是因为没人关注,所以还没有得到应有的估值。

如果你能赶在别人前面注意到这样的领域,那恭喜你,你就找到了属于你的机会。

就像我认识的一位非常优秀的创始人,他本硕博连读于某领域最顶尖的学府。毕业后,出乎很多人意料的是,他选择了一个极其冷门的底层研发方向去创业。

当时我非常意外,问他为什么要做这个方向?

他说:“因为我的起步条件不算好,所以要找到一个不受关注、不需要跟别人卷资源、但未来 5-10 年有机会重大突破的领域。关注这个方向的人越少越好,因为只有这样,才有属于我的时间和机会。”

我又追问:“但你知道吗?你选择的这个方向还受政策限制,国家都没有发放过相关牌照。”

他回答:“我知道。但就是因为没人做,所以科技没有突破,国家不发牌照。我赌我做了之后,国家早晚会发牌照。”

于是,这位创始人和不到十个人的团队,埋头研发了整整 7 年。

到了 2023 年,国家终于发放了第一批牌照,全球仅有四张,其中就有他的一张,且他们的成本大幅低于全球其他公司。

所以,大部分人类的博弈,归根结底都是注意力的博弈。

今天无论是创业者还是投资者,如果想拿到想要的结果,一件非常重要的事情就是管理自己的注意力。你的注意力在哪里,你的世界就会在哪里显化。因为世界并非一个客观存在的实体,而是我们在感知和处理信息之后所渲染出来的结果。换句话说,没有所谓的客观世界,只有被我们所感知到的世界。

那具体要怎么拿结果呢?

很简单,就是要明确自己的需求。滤波器是一种目标越清晰、能耗越低的装置,所以你的需求越明确、你的注意力越专注,实现需求也就越容易。

进一步来讲,就是要认识自己、做自己。

这说起来很简单,但大家真的做起来往往会遇到两个问题:

第一,很多人其实并不了解自己,只是一味地在用他人的评价或者市场反馈来给自己贴标签。他们根本不清楚自己到底喜欢什么,或者总觉得自己喜欢的东西估值不够高、不符合世俗意义上的成功,所以不够高级。但其实你喜欢什么,什么就是高级的。

第二,很多人认识自己之后却不敢做自己,因为不相信这样做真的会有好的结果,于是更希望改变自己,向主流叙事、向他人的长板看齐。

回到 AI,就像开头所说,人类一直在利用技术帮助 AI 构建注意力机制,使其具备抓住重点和专注于重点的能力。

引入注意力机制后,AI 的能力确实实现了飞跃,它能够胜任的工作范围也在不断扩大。我们相信,AI 还将持续取得突破。人工智能在几乎所有工作中超越人类只是时间问题,而且这个过程不会太久。

因为人类实际上是非常局限的。这种局限性不仅仅体现在大脑的处理能力上,也体现在我们感知世界的能力上。

大家知道,眼睛可以看到图像,耳朵可以听到声音,皮肤可以感受到压力、温度和湿度。

毫无疑问,人类是一个多模态的大模型。

那么,是否存在一个维度能够统一图像、声音、气味、温度等不同模态输入的信息呢?

我们可以换个视角来讨论这个问题。假设信息是一个函数,我们在《投资中的高频与低频》中分享过,任何函数都可以通过傅里叶变换分解为不同正弦波的叠加,而每一个正弦波都对应着一个稳定的频率。例如,吉他的每根弦对应着一个频率,也对应着一个声音信息。当我们对弦施加不同的压力时,频率会发生改变,声音信息也随之改变。

所以频率可以简单理解为一个正弦波每秒变化的次数,例如,心脏在一分钟内跳动 60 次,那么它的频率就是 1Hz;而运动后,心跳变为 120 次/分钟,此时心脏的频率就是 2Hz。

不同的信息都可以在频率这个维度上进行统一。例如,可见光的频率大约是 10^15Hz,而声音和气味的频率则不超过 10^4Hz。

频率跨度从低到高范围很广,我们把这个范围称为频谱。

而不同生物的感知频谱是不一样的。例如狗的嗅觉频谱就比人的更宽,因此它们可以获取更多的气味信息。

其实,人和人之间的感知频谱也存在很大差异。有些人天然频谱更宽或者感知颗粒度更高,也就是我们所说的更敏感。所以我们也不要妄加评判另一个人,特别是不应该评判那些高敏感个体,因为他们的世界可能是我们完全无法感受到的。

那我们将常见的频谱画出来,就可以看到,人类能够感知的部分其实是非常有限的。

图中横向的坐标轴表示人类已知的电磁波频谱,彩色标注的部分是人类能够感知到的感官和模态。后者仅占前者的1/10^9。

正是由于这种有限,我们也一直在努力拓展对频谱的感知和存储能力。

我们发明了核磁共振、X光机、气象雷达、引力波探测器等工具,以辅助我们感知那些远超人类生理极限的信息频段。同时,我们还通过跨模态的方式记录不同模态的信息。比如,我们发明了乐谱,用图像存储声音信息,实现跨模态的信息存储。

然而,这些方法本质上都是对信息的影射,也就是将其他频段的信息转化为我们能够感知的信息。在这个过程中存在大量的信息损耗,因此也具有很大的局限性。

这时我们再来看 Agent,你们不觉得 Agent 强的可怕吗?

因为理论上来说,Agent 可感知的频谱是无限的。

今天我们讲的多模态大模型,其实也才刚刚起步。现在我们只有语言模型、语音模型、图像模型和视频模型等,但未来完全有可能出现触觉模型、温度模型、气味模型等全频谱模型。

从这个角度出发,我们不认同「数据不够了」这种观点。有人认为我们已经用尽了互联网上所有可用的图文、音频、视频数据,但这些数据仅仅是人类能够感知并记录下来的三种模态。X 光的数据我们用过吗?伽马射线呢?大脑中的 α 波呢?

这个世界每天都以各种方式产生大量数据,只是很多数据我们无法感知,因此未能很好地加以利用,甚至还没有创业者思考如何使用它们。

再往后发展,我们相信未来会迎来一波传感器的爆发。各种各样的传感器将被制造出来,用来帮助 Agent 感知从伽马射线、X 光到红外线等所有人类无法感知的频段。然后,Agent 会凭借它的全频谱处理能力解读这些数据,并通过语言模型将不同模态的信息整合起来,最后通过具身智能付诸行动。

最终,我们相信未来的 AI 将是「传感器 + Agent + 具身智能」三位一体的系统。它所能感知的世界将超出我们的想象。而这个系统应该运行在区块链、而非传统的互联网上。换句话说,区块链未来将是 Agent 的互联网。

基于这种相信,今天很多创业项目的方向可能就不对。

很多项目现在依然是「以人为中心」来组织工作。无论是 copilot 还是 deep research,都是试图通过各种方式让 AI 来赋能人类。

但面对一个可能具备全频谱的感知、处理,和行动能力的信号系统,我们应该思考的是如何「以 AI 为中心」来组织工作。

我们不应该把重点放在「如何把 AI 融入我们的工作流」上,而应该反过来思考「我们能怎么融入 AI 的工作流」,以及「我们能为 AI 提供什么」。

那讲到这里,大家可能会有一个问题:如果 Agent 知道得比我多、算得也比我快,那人类在未来是不是就毫无用处了?

不是。人类有两个独特的价值。

第一,提出需求。

如果说工业革命是「谁创造供给、谁就创造价值」,那么人工智能时代将是「谁创造需求、谁就创造价值」,因为人工智能时代的供给将趋近于无限。所以我们今后要更多地认识自己、探索自己、了解自己,明确自己要解决哪些问题。

第二,审美。

审美首先是我们为了节约大脑算力而进化出的一种预测算法。我们通常会对新信息进行预判,然后仅对「变化」——也就是与我们预判不一致的部分进行计算,而不会对全局信息进行计算。

我们常说有些科学家很有技术审美,指的就是他们能够在技术路径尚不明确时,凭借「感觉」找到正确的方向。这种能力其实是长期实践与积累的结果。

然而,这种节能机制也有副作用。尤其是在创业者中,很多人都有一种被称为「Wishful Thinking」的思维方式,美其名曰「理想主义」。但实际上,「Wishful Thinking」是一种懒惰,是你的大脑发现「变化」时,本该重新计算、却不愿意重新计算一遍,进而渲染出的偏执错觉。从这个角度来看,「实事求是」就是一种勤奋。

另外,审美不仅仅是一种算法,它还是超越单一模态的处理结果。比如,你遇到一个合伙人,Ta 和你聊得很好,Ta 的思维也非常缜密,但你就是感觉哪里不对。这种「感觉不对」可能并非来自于意识层面的分析,而是你整合了触觉、嗅觉等多模态信息后形成的一种综合感受。

如果某样事物能令我们产生「美」的感受,通常意味着它会带来正反馈,反之则可能意味着危险。比如,我们觉得笑容很美,是因为笑容往往代表善意与接纳。而我们下意识地躲避一个面相凶残的人,则是因为我们会直觉性地察觉到对方的暴力倾向。

人类之所以会发展出审美,正是因为我们的感知和处理能力有限,因此需要审美来帮助我们趋利避害。而这种审美可能超越了多模态的处理结果,甚至超越了二元对立,成为某种一体性的影射。

而 AI 却因为它的无限性,所以不具备审美。这也意味着,在 AI 时代,审美将成为人类所能拥有的核心价值。

所以每一个人都应该思考:你对什么事物的审美明显高于他人?这个事物可以是任何形式,比如艺术、代码、机械结构。只要你对某个事物的美有着超越平均水平的判断和表达,那么你就拥有了在 AI 时代最稀缺的能力。

今天我们聊了很多关于人的「有限」和 AI 的「无限」,看似人在面对 AI 时有诸多劣势,但实际上,恰恰是人类的有限性,促使我们进化出了注意力、主观预判、审美这些独特的能力,也让我们有动力将有限的人生活出无限的精彩。

你可以想象一下,如果你拥有无限的资源和资金,你还会想要创业吗?大概率不会了。你可能会拍拍合伙人的肩膀说:「去玩吧,我们什么都不缺」。就好比如果你打游戏时开了外挂,那么这个游戏一下子就会变得索然无味。

所以,在 AI 时代,我们要做好两件事。

首先是保护好自己的「心力」。心力的强弱直接决定了我们注意力的表现。如果说工业革命让人类的核心价值从体力转变为智力,那么我们相信,AI 会让人类的核心能力从智力转变为心力。

其次是回归审美。这个回归的过程,本质上就是一个去除噪声的过程,也是人类展现个体的独特价值的过程。我们需要把注意力重新放到自己身上,相信自己的直觉和判断,而不是依赖他人的信息和行动。

这些年,我们聊了很多创业者,最后发现,真正优秀的创始人未必比他人更聪明或更勤奋,但他们总能在最艰难的时刻选择坚持,在最辉煌的时刻保持平和、克己,在最进退维谷的时刻展现出勇气与坚韧。

以上,和大家共勉,愿我们都能在 AI 时代保持自己的生命力,不断进化,成为一个有审美、有定力的个体。

P.S. 绿洲资本最近也发布了他们自己的播客《信号与噪声》,希望在这个信息纷杂的社会中,和充满生命力的个体一起去除噪声,回归纯粹,感兴趣的也欢迎关注。


【张津剑 | 信号与噪声系列文章回顾】

投资中的高频与低频 2024.6.2

投资中的节奏与结构 2023.6.18

投资中的周期与载波 2021.3.14

投资决策中的信噪比 2020.2.23

投资中的信号与噪声 2018.12.2


42章经

思考事物本质



阅读原文

跳转微信打开