KaiQu | 曲凯 | 42 章经的 RSS 预览

活动报名：AI 视频的模型、产品与增长实战｜42章经

2025-08-10 22:02:00

原创曲凯 2025-08-10 22:02 北京

Agent 之后，多模态能否成为下一个风口？

在 Agent 热潮之后，我们认为多模态，尤其是视频生成领域将出现下一个风口。

那么，AI 视频如今究竟发展到了什么程度？底层模型能力有哪些新突破，未来又可能出现哪些变化？与此同时，随着赛道竞争日益激烈，新入局或者想入局的人，在产品和增长上又该如何决策？

带着这些问题，我们将在下周六（8 月 16 日）上午 10:30 举办一场线上交流活动，Luma AI 模型产品 Lead 戴高乐、爱诗科技联合创始人谢旭璋、前 OpusClip 增长产品负责人谢君陶，会从模型、产品、增长三个关键维度，分享他们在 AI 视频一线的实战经验与思考。

具体报名信息请见上方海报。本次线上活动限 100 人（非投资行业），我们会优先通过回答更认真、与我们背景更匹配的朋友。最终参会资格以工作人员通知为准。

期待和大家见面！

阅读原文

跳转微信打开

关于 AI Infra 的一切 | 42章经

2025-08-10 22:02:00

原创曲凯 2025-08-10 22:02 北京

内含 Deepseek 成功的真正答案

本文嘉宾朱亦博可以说是国内最了解 AI Infra 的人之一，从微软、字节 AI Infra 负责人到谷歌、再到阶跃联创，他的职业经历几乎和 AI Infra 的发展并行。

本期播客对谈原文约 19000 字，本文经过删减整理后约 7000 字。

曲凯：从你的视角来看，怎么理解 AI Infra？

亦博：AI Infra 包括硬件和软件两部分。

硬件是指 AI 芯片、GPU、交换机等设备。软件层面我喜欢用云计算来类比，可以分为三层：

最底层类似 IaaS，解决的是最基础的计算、通信和存储问题。

中间一层类似 PaaS，包含资源调度、资源管理等平台。MaaS（Model-as-a-Service）就归属这一层。

最上层近似 SaaS 应用层，但在 AI Infra 领域，我更倾向于把这一层理解为训练及推理框架的优化层。

曲凯：可以说你的职业生涯跟 AI Infra 的发展基本是同步的吗？

亦博：是，但我其实是第二批 AI Infra 人，第一批是贾扬清、李沐、陈天奇这些有算法背景的人。他们当时要做先进的算法，需要充分利用 GPU，于是就做了 AI Infra。

曲凯：所以是第一批人从无到有把这件事做了出来？

亦博：可以这么理解。我们这第二批人干的更多是上规模的事情，让 AI Infra 在工业界得到应用。

曲凯：那大模型这两年的兴起，对 Infra 从业者来说应该是一个特别好的机会吧？因为 AI Infra 一下子进入了主舞台。

亦博：确实如此，这也是为什么我觉得一定要出来创业。

过去 Infra 人才很难参与到一个公司的初创过程中，因为 Infra 服务于上层应用和数据处理，只有当业务规模足够大时，对 Infra 的需求才会凸显。

但是大模型确实带来了一个非常好的机会。

上一次类似的节点，是搜索引擎刚刚兴起的时候。比如 Google 当年面对的是规模空前的互联网数据，而要处理这些数据，它就需要世界一流的 Infra。所以从某种程度上讲， Google 本质是一家 Infra 公司，它的成功从一开始就离不开它强大的 Infra。

而如今，大模型一上来就对算力和数据提出了前所未有的要求，所以我认为现在是 Infra 从业者真正进入核心舞台的少有机会。这样的窗口，可能十年、二十年才会出现一次。

曲凯：那移动互联网的 Infra 和 AI Infra 有哪些异同？

亦博：它们的底层目标是一致的，就是要高效稳定地整合计算、通信和存储资源。

但在实操层面，它们对硬件、网络互联、存储方式的要求都完全不同。比如，AI Infra 的绝对核心是 GPU，而传统 Infra 的核心是 CPU。

在 Infra 的世界里，太阳底下没有太多的新鲜事，但 AI Infra 在很多方面要做到更极致、更贴合 AI 的特殊需求。

曲凯：那在这样的背景下，未来做 AI Infra 的人，更多会是新一批成长起来的工程师，还是由传统 Infra 人转型而来的？

亦博：我觉得都会有。这方面 Infra 和算法很不一样。

算法非常依赖年轻人。甚至我有做算法的朋友说过，算法人只有两年的保质期，两年后 Ta 把自己的聪明才智发挥完了，就会陷入思维定势，反而跟不上后面的新东西了。

但 Infra 相对来说更强调积累。

曲凯：那你们关注的核心指标有哪些？

亦博：比如在线上服务侧，我们会看模型响应的首字延迟、后面吐字是不是稳定顺畅、整体的成本能不能降低等等。在训练侧，我们主要看每张 GPU 能处理的数据量和训练效率。

曲凯：听起来是不是只有规模很大的公司才需要用到 AI Infra？

亦博：其实所有的产品都依赖 Infra，区别在于你要不要投入成本去做自己的 Infra，以及这种投入对你的业务来说值不值得。

这笔账其实很好算。

假设你有 1 万张 GPU，每月租金 1 个亿。如果你雇了一批 Infra 工程师，能把 GPU 利用率提升 10%，那你每月就能节省 1000 万，或者说多赚 1000 万。

那你愿意为了这 1000 万投入多少人力成本？

无论是在前司还是现司，我们优化 Infra 之后省下的钱，都可以很轻松地 cover 这部分的人力成本。从这个角度来说，投入 Infra 是可以帮公司挣钱的，而且这件事的确定性很高。

对于一些较小的公司来说，也可以用同样的逻辑进行计算：你值不值得雇 10 个人来优化百分之多少的性能？

你可以对比一下，要做到同样的优化效果，云厂商的标准化方案需要多少钱。如果你自己做不到更低的成本，那就说明用 MaaS 或公有云服务更划算。

这也是现在这些服务商的价值锚点：帮助规模较小的公司节省 Infra 优化的成本。

曲凯：那按理说，Infra 这件事应该是云厂商和模型方做到极致了才对，为什么还有一些第三方公司在做？

亦博：短期来看，第三方的价值，是为客户提供一个「API 集贸市场」，让他们自由选择不同的 API，因为模型厂商的 Infra 主要服务于自家的模型或 API。虽然有些公有云也在提供类似的服务，但还是有第三方的空间。

不过长远来看，如果第三方公司没有独特的价值，确实很容易被云厂商或模型公司吃掉。

那突破口在哪里？我是这么思考的：

AI Infra 的底层是硬件，上层是模型。当硬件和模型都逐渐趋于开放和普及时，只做中间那一层 Infra 的价值确实会很有限，而且会非常卷。因为说白了，没人能在 Infra 这一层拉开特别大的技术差距，也很难形成长期壁垒。你今天领先一点，几个月后可能就被赶上了。

所以我认为，第三方想做出壁垒，就得和硬件或者模型去做垂直整合。

以 MaaS 的生意为例。MaaS 可以看作是一个 API 的分发平台，除了标准 API 之外，真正能留住用户的，是那些别人没有的东西。

就像你为什么要买 PS5？是因为这个游戏机上有一些独占的游戏。

同理，有的 MaaS 服务商与特定的硬件厂商有深度合作，能以更低成本获得算力资源，同时它还有对硬件的独到见解，那这些就是它的差异化优势。

所以这里可以给从业者一个建议，就是不要做夹在模型和硬件中间的那个人。

我现在选择站在模型这一侧，你也可以选择站在硬件那一端。

这是因为 AI Infra 有个非常独特的背景，就是当前是硬件和模型都在追求极致的时刻。如果有人想做出像 DeepSeek 那样在硬件上跑得非常有效率和性价比的模型，就需要既懂硬件又懂模型。而这种「两头通」的能力，恰恰是 Infra 人的特长。

所以，如果你愿意迈出这一步，往上和模型做深度整合，或往下与硬件做 co-design，就有很多机会。但如果你固步自封，只在中间做优化，那确实就把路走窄了。

曲凯：但和模型或者硬件绑定之后，万一最后发现选错了怎么办？

亦博：所以关键在于你必须是主动的参与者，而不是被动搭便车的人。

如果你比硬件厂商更懂模型，那你就可以影响硬件的设计方向。如果你比模型团队更懂硬件，也可以反向影响模型架构的设计。

当你具备了这种影响力，成功了当然是共赢，即使失败，那也是你主动做出的判断和选择。

曲凯：明白。

我们前面讲的主要是 Infra 降本增效的事情，那实际上它对模型最终的训练效果到底有多大的影响？该怎么评判？

亦博：Infra 水平确实会影响模型的效果，这也是为什么 Infra 对大模型公司而言非常重要。

其实各家公司都在参与同一场比赛，就是「给定算力，怎么训出最好的模型」。

假设大家都拿 5000 张卡，在其他条件相同的前提下，如果我的 Infra 优化得更好，效率高出 20%，那在同样的时间里，我就能多学 20% 的数据，训练出的模型自然也会有更好的效果。

曲凯：所以 Infra 是有标准化的性能指标的？

亦博：对，比如 MFU 就是一个比较常见的指标。它衡量的是硬件利用率，分子是实际完成的浮点运算次数，分母是理论最大算力，MFU 越高，说明硬件被用得越充分。

曲凯：我记得当时 DeepSeek 公开了他们的 MFU？

亦博：实际上 DeepSeek 的 MFU 是偏低的，但你也不能说他们的 Infra 做得不好。

衡量 Infra 的性能其实很复杂，仅靠单一指标很难判断 Infra 的优劣。Infra 的性能和硬件、模型，还有优化目标都密切相关。

其实 DeepSeek 之所以能冲出来，一大原因是选对了优化目标。

当时 DeepSeek 的优化目标和其他所有人都不一样。比如我们当时的优化目标是「给定训练算力，怎么训出最好的模型」，而 DeepSeek 的目标是「给定推理的成本，怎么训出最好的模型」。

至少在 24 年上半年时，DeepSeek 的基模并不比大家强。

那这个局面什么时候扭转了呢？

就是在 24 年 9 月 o1 发布之后。

o1 让大家看到，如果在推理阶段让模型多思考一会，模型最终输出的效果会更好。这种训练方式，正是强化学习的典型机制。而因为 DeepSeek 的优化目标更符合强化学习的需求，所以他们能以更低的推理成本、更快的速度去输出结果和训练模型。于是他们率先完成了 R1，一下子甩开了其他团队。

你可以说 DeepSeek 的成功有一些运气因素。他们最初在设定优化目标时，大概率也没料到 Test-Time Scaling 会在 24 年下半年变成关键趋势。但很多事情的成功，靠的就是天时地利人和。

所以说回来，Infra 确实有各种性能指标，但如果想取得好的结果，最重要的是你要想清楚，哪一个指标的优先级最高。这个指标不仅要符合你的产品需求，也要顺应整个行业的发展方向和未来技术趋势。

不同团队的技术水平固然有高低之分，但真正拉开差距的，往往是有没有选对努力方向。

曲凯：所以当下有比较通用的第一指标吗？

亦博：这件事还有很多非共识。

其实从 o1、 R1 验证了强化学习的路径之后，我认为当前最重要的指标就是 decoding 的速度。

推理分为输入和输出两部分。输入的关键指标是模型处理长文本的速度，输出的关键指标则是模型吐字的速度。我认为现在最重要的指标是后者。它决定了线上业务的成本，也直接决定了强化学习的效率。因为如果你输出很慢，那你获得 reward 的速度就比其他模型要慢。

但现在还有人很看重 MFU 之类的老指标。在我看来，还特别关注这类指标的人，对当下技术的认知是有问题的。

曲凯：你前面有提到，Infra 人是既懂硬件又懂模型的人，那算法人是什么样的？二者该怎么合作？

亦博：最理想也最简单的合作方式，就是大家像一个团队一样，为共同目标协作。

很多事情都有 trade-off，比如有时损伤系统性能，但能换来算法上的提升，有时候则是反过来。遇到这些情况，最好是两边能一起讨论该谁来让步。

不过这是小团队的优势。在很多大厂里，很难实现这一点。

在大厂，Infra 总被视为支持性的角色。很多时候是算法人给 Infra 人提需求，但是 Infra 人没有反向的影响力。

曲凯：对，而且在很多人眼里，Infra 的核心就是「降本」，但「降本」通常不是一个最优先的目标。

亦博：这正是我认为需要被纠正的观念。前面提到过，Infra 实际上是可以对模型效果有正向影响的，而不仅仅是只能降本。

曲凯：听起来就是要 Infra 人发挥主观能动性？

亦博：还不够。比如你带一个 Infra 团队，另一个人带算法团队，大家向同一个 leader 汇报，但这个 leader 只懂算法，那你猜会发生什么？

所以很多问题到最后都是组织架构的问题。

模型其实由算法、Infra 和数据这个铁三角决定。三者缺一不可，必须协同。

但很多人对模型的理解存在偏差。比如，一个模型的算法效果往往取决于数据，而不是算法；一个模型的效率成本主要由 Infra 决定，也不是算法。

所以实际上比较合理的组织架构是，让 Infra 人去设计模型结构，因为 Infra 人最知道该怎么提高效率、节省成本，让数据的人去负责刷模型的点数和 benchmark 分数，因为他们最懂怎么喂模型，而算法人应该主要负责训练的范式革新。

曲凯：听起来很合理啊，现在很多团队不是这样的吗？

亦博：不是。现在在很多团队中，基本都是算法人在设计模型结构、刷模型点数。但实际上算法人不一定最适合做这些事。

曲凯：所以阶跃从一开始就在用最正确的方法吗？还是也踩过一些坑？

亦博：当然也踩过坑哈哈。比如我们一开始对自己的算力和能力都过于自信，所以干了一个比 Llama 还大的模型。虽然我们把它训出来了，但是这个巨大的模型有一些问题，过程中我们也犯了一些错误。

但我觉得这也没什么。你赌的所有事情就是可能会错，踩过坑之后再爬起来往前走呗。这一局输了，那下一局我再干回来。

曲凯：还有什么业内真实的踩坑案例吗？

亦博：比如最近有家公司开源了一个模型，声称自己虽然参数量不大，但因为算法做得好，所以效果可以越级媲美更大的模型。

但这个模型因为架构设计的问题，实际运行效率非常低，甚至还不如那些大模型快。

这背后反映的问题是，其实很多做算法的人并不真正懂硬件，也不了解模型在 Infra 层是怎么运行的。

算法人员做模型架构研究的时候，可能会画一张图，横轴是模型的尺寸或激活量，纵轴是某些算法效果指标。然后他们会试图在这张图上找到一个 sweet point，能让模型在尺寸不大的情况下，算法效果还不错，然后就丢给 Infra 人去做优化了。

即便 Infra 人能满足算法人的需求，模型实际运行起来也会出问题。

如果真要画图，横轴应该是模型的实际运行成本或运行效率，纵轴是模型效果。你得跑大量实验，才能在这张图上画出各种点，然后在其中找到那个真正可落地的最优点。

而这件事情只有在拉通所有团队之后，才有可能完成。

曲凯：是。模型这边上一个 Aha Moment 仍然是年初的 DeepSeek。虽然最近一直有传言说 GPT-5 要发布了，但到底什么时候发、表现怎么样，还没人说得准。而且很多人一直在说 scaling law 撞墙了、数据不够了等问题。

那你怎么看未来模型的发展？

亦博：模型范式的革新不会那么快，但多模态还是有一些突破的可能性的，尤其是多模态生成和理解的统一。

现在多模态的状态，其实挺像 20 年的 bert 模型，就是具备了理解能力，但还没有真正做通理解和生成。

做通的标志，是同一个模型在理解任务上能超越专门做理解的模型，在生成任务上也能击败专门做生成的模型。就像 GPT-3.5 出来之后，直接让很多做翻译之类的专用模型退休了一样。

曲凯：Google Veo 3 的效果看起来已经很不错了。

亦博：但 Veo 3 还是偏上一代的模型，核心是做生成。只不过它的工程做得比较好，把配乐之类的各种功能都很好地融合了起来。

其实技术突破和产品效果并不是线性相关的。Veo 3 确实把上一代的技术发挥到了非常强的水平，但它本身并没有带来太多范式上的创新。

曲凯：明白。那你觉得对于初创或者第三方的 AI Infra 公司来讲，机会在哪？

亦博：我个人觉得训练侧的商业模式不太成立。因为现在训模型的人都非常懂行，所以你很难挣到这些人的钱。而且他们也不太愿意把训练过程中的研发细节交给第三方，否则就泄露了自己的核心竞争力。

排除训练之后，推理侧还是有一些机会的，比如推理加速、推理优化。

曲凯：那开源模型对 AI Infra 市场来讲会有什么影响吗？

亦博：整体而言，开源模型对 AI Infra 的发展是有促进作用的。因为一个开源模型火起来，大家就会去研究怎么把它跑得更好，这个过程其实就促进了 AI Infra 的进步。

但所有事情都有两面性。如果某个开源模型太火，然后大家都花很多精力去优化它，可能反而会影响创新。比如 DeepSeek 出来之前，很多人都在优化 Llama，结果 DeepSeek 的新范式一出，之前大家在 Llama 上的很多积累就废掉了。

这里我还想再补充一点。现在的 Infra 基本都是围绕英伟达卡来做优化的，虽然也有团队尝试用国产芯片替代英伟达，但很多时候国产卡不是跑不动，而是性价比不如英伟达。

举个例子，当 DeepSeek 这样非常好用的开源模型出现之后，一些做一体机的公司会发现，他们用英伟达卡跑 DeepSeek 就是比用国产卡更有性价比，所以他们就更愿意选择英伟达的卡。

但我们非常希望国产卡在技术层面也能具备竞争力。比如，是不是可以根据国产卡的特性去专门设计模型结构，让它在国产卡上也能高效运行，并达到 SOTA 水平？

我们最近开源的 Step 3，就是在这个方向上的一次实践。Step 3 是国内首个支持第三方商用的、数百 B 规模的视觉推理模型，并且能跑出 SOTA 水平。

曲凯：怎么理解视觉推理？

亦博：视觉推理就是模型可以根据图片、视频抽帧等视觉信息，直接完成推理任务。

比如，你让机器人去柜子里拿一个东西，但那个目标物品被杂物遮挡住了。这时机器人要完成这个任务，就要进行视觉推理，来进行任务的拆解和决策。

对于机器人或者手机、汽车等智能设备来说，它们天然就有视觉这个模态。那么根据周边的环境、看到的东西去决定怎么完成复杂任务的过程，就是典型的视觉推理模型做的事情。

视觉推理模型还有一个更常见的应用场景，就是拍照解题。

曲凯：这件事之前也有一些模型可以做到，它们应该就是把图片转成文字，再去做文字推理。

亦博：但我认为这种方式不是真正的视觉推理。我们现在不需要中间那段转文字的过程，而是让模型好似真的能看懂图片，然后直接看图推理。

还是举刚才那个让机器人拿东西的例子。如果你要拿的那个目标物品周围有很多遮挡，你其实很难用文字把它们在物理世界中的位置关系描述清楚，也会丢掉很多信息。

但如果模型直接看图，就能很直观地知道应该先把这个东西拿开，再把那个东西拿开，最后拿到目标物品。

曲凯：明白。那你们为什么选择开源？

亦博：我们希望做到全国上下产业都获益。

我们决定给所有国产芯片一份免费商用的授权，开放模型权重，并且尽量帮他们做好模型适配。同时我们也把 Step 3 在国产卡上的推理成本压到了一个很低的水平，提高了国产卡在性价比上的竞争力。

通过开源，我们希望能够帮助国产芯片构建商业竞争力，也希望他们能推广我们的模型，最后实现共赢。

曲凯：我突然想到一个问题，就是多模态模型的成本未来到底会以什么速度下降到什么程度？因为现在多模态还是太贵了。

亦博：多模态理解现在已经不算贵了，不过生成还是挺贵的，尤其是视频生成。

但我对成本降低还是蛮乐观的。我觉得一年后，应该能下降很多，能不能到十分之一不好说，但几分之一没问题。

曲凯： 你觉得现在做 Infra 的人在很多公司里，是不是还是容易被低估?

亦博：在大模型时代，这种情况已经好很多了。现在 Infra 已经是模型能力的核心组成部分之一。

之前也有人说过，DeepSeek 做得好就是因为梁文锋是 Infra 人。

曲凯：这怎么讲？

亦博：因为梁文锋是做量化出身的，而量化很强调低延迟，所以他需要对 Infra 有研究。在算法、数据和 Infra 之间，他可能最擅长的就是 Infra。这在业界也算是共识。

而且据我所知，DeepSeek 的 Infra 工程师数量比算法工程师要多。

但在很多大公司里，这个情况是反过来的。这可能也是在过去一段时间里，一些大厂比较挣扎的原因之一。

其实在大模型快速发展的阶段，就是需要有大量的 Infra 人，来把硬件设计和模型优化做到极致，并且做好垂直整合。但在大厂里，他们的人才结构是错配的，不符合做好 AI 的本质需求。

曲凯：明白。最后，你会给正在做或者想转行做 AI Infra 的人什么建议？

亦博：前面有提到过，我的建议就是靠近模型，或者靠近硬件。

另外，希望你还是打心底对 Infra 感兴趣，有足够的主观能动性去做各种各样的 co-design。

最后我想再补充一点。我最喜欢的一篇文章就是 Richard Sutton 的《The Bitter Lesson》。文中的核心观点是，从长期来看，胜出的永远是那些能最大程度利用计算资源的方法。短期内各种奇技淫巧可能有效，但都不能本质地解决问题。

虽然这篇文章是从算法视角写的，但对 Infra 人也同样有很重大的指导意义。因为我们最根本的任务，就是设计出能发挥硬件全部性能的模型和系统软件，让模型能充分利用这些资源。

当然，我最希望的是也许有朝一日，我们还能反过来影响硬件，换取摩尔定律的不断延续。

42章经

思考事物本质

阅读原文

跳转微信打开

我不给人做产品，给 Agent 做 | 42章经

2025-06-29 22:49:00

原创曲凯 2025-06-29 22:49 北京

Agent Infra 这个赛道才刚刚开始，遍地是黄金

本文来自 Grasp 创始人雷磊的播客及分享，有删减。

曲凯：Agent 今年这波热潮其实是 Manus 带起来的，到现在为止，各种 Agent 大家已经投得不少了。那下一个热点可能在哪里？

我们觉得可能是 Agent Infra。

正好雷磊现在做的 Grasp 就是一个给 Agent 用的浏览器。你是怎么想到要做Agent Infra 的？

雷磊：首先，我相信未来 Agent 的数量会不断增加，至少会达到现在 SaaS 数量的几千倍。

而且 Agent 能直接交付结果，因此它其实就是一个数字员工，我们应该把它视为像人类一样的终端用户。但因为 Agent 与人类的形态截然不同，所以当下互联网的很多基础设施都是不适合 AI 使用的，都需要为 Agent 重构一遍。

那基于这两点，Agent Infra 就是一个非常大的市场机会。

曲凯：那未来 Agent 和人类到底会怎么协作？你提到说 Agent 和人类完全不同，具体有哪些体现？

雷磊：现阶段大家普遍认为 Agent 是为人类服务的，但在我看来，未来应该是人类为 Agent 服务，因为 Agent 拥有更高的带宽，能够接触到比人类更多的知识和信号。(当然，人类和 Agent 并不完全对立。)

在这个服务主体转移的过程中，人类和 AI 的行为模式确实存在区别。

第一个区别在于交互方式。

人类的交互主要依赖视觉，因此为人类设计的产品需要一个前端界面，而 Agent 则可以通过文本和多模态在后端实现交互。

第二，人类和 Agent 的学习方式也不同。

人类无法同时「做事情」和「学东西」，因为这两者涉及到大脑的不同区域。但 Agent 却可以通过强化学习，在执行任务的同时进行学习。因此，为 Agent 设计产品时，至关重要的是设计一套奖励机制。

举个例子，当你使用浏览器时，系统不会频繁弹出窗口来评价你的操作是否正确。但如果是为 Agent 设计的浏览器，就需要时时提供 +1 或 -1 的反馈，只有这样，Agent 才能不断提升操作能力。

第三个区别是单线程 VS 多线程。

人的工作模式是按照 workflow 逐一完成，而 AI 可以在多个节点同时跑很多任务。

在计算机领域，有一个类似的对比：人类的工作模式很像「贪婪算法」，总是关注局部最优，而 AI 的模式则很像「动态规划」，始终追求全局最优。

不过这也引发了一个问题：当 Agent 并发执行任务时，该怎么保持不同任务的状态？

对于人类来说，上一个任务的结束就是下一个任务的开始，因此天然不需要去保持状态。

然而，Agent 在一个节点上可能同时执行 100 个任务，这些任务的执行速度各异，有些快，有些慢，甚至有些可能需要人工干预，所以需要设计一种新的机制保证 Agent 能高效稳定地在不同任务间切换和协调。

第四个区别是责任界定的问题。

人可以为自己的行为负责，但谁来为 AI 的行为负责呢？这也就引申出一个问题，就是怎么划分 Agent 所处环境的安全边界。

比如你手里有一段代码，如果这段代码是你自己写的，你当然可以接受这段代码直接在你的电脑上运行，因为出了问题你可以负责。

但如果这段代码是 AI 生成的呢？如果运行之后，你的文件全丢了，谁来负责？

为了解决这个问题，AI 执行任务时最基本的要求就是要有一个「安全围栏」（类似于大家都在讲的沙盒），来把 AI 所产生的影响控制在一定范围内。

这个安全围栏并不是要一刀切地限制住 Agent 的能力，而是要动态判断哪些任务和信息可以交由 Agent 处理，而哪些不能。

一个典型的例子就是 E2B。

曲凯：对，E2B 这个产品现在在美国很火，但我估计国内很多人可能还不太知道它。能不能给大家再介绍一下，E2B 到底是啥？

雷磊：其实 E2B 的火爆，很大程度上是靠 Manus 带起来的。

简单来说，E2B 就是给代码运行提供了一个安全又快速的沙盒环境。

曲凯：那如果未来 Agent 的运行环境都在云端，到时候是不是云厂商的股票能涨得更好？

雷磊：单凭这点来说是的。因为云厂商的机会来自于大家对资源的需求，如果我们未来会消耗更多的资源、产生更多的数据，那云厂商就是会更值钱。

但很关键的一点是这些云厂商得顺应时代潮流，否则很可能会被赶超，以至于被历史淘汰。

曲凯：所以你甚至会觉得 AI 时代有个新的云厂商的机会吗？

雷磊：对，在我看来 AI 环境这件事就是一个 AWS 级别的机会。

曲凯：但我听下来，E2B 本身好像也没做太多事情，那 E2B 和云厂商的关系未来会是怎样的？

雷磊：云厂商更多扮演的是基础设施的角色，比如说我们构建一座房子，云厂商有点像提供水电资源的地产商，而 E2B 则是负责将这些资源交付给住户的装修商。底层肯定还是由云厂商提供最基础的算力，而中间这一层像 E2B 这样的 Infra，提供的就是能让 Agent 真正运行的环境。

曲凯：这个例子很妙。但很多地产商后来都开始拼装修好的商品房了，那是不是未来一些云厂商也会自己做 Agent Infra 的这些事情？或者至少 E2B 是一个很好的被收购标的。

雷磊：这是一个很有意思的问题。在什么情况下地产商会去卷商品房呢？

就是当市场容量不足，仅交付毛坯房的竞争力不够时。

但 AI 市场的增长空间很大，所以我觉得在这个阶段云厂商和 Agent Infra 公司应该合作，想办法把蛋糕做大，而不是过早地去考虑怎么分蛋糕。

包括 Agent Infra 公司之间也应该如此。因为这个市场足够大，所以能容纳很多家公司、去提供不同的解决方案。

举个例子。E2B 有一个竞对叫 ForeverVM。E2B 主打的是「安全」，ForeverVM 主打的则是「状态」，也就是确保 Agent 在执行多个任务时，即使反复横跳，也不会丢失之前的进度。

曲凯：明白。其实最近美国那边给 Agent 做的产品有两个典型，一个是 E2B，另一个是 Browserbase。讲完 E2B，我们再讲讲 Browserbase 吧，正好你们现在在做的也是与 Browser Use 相关的事情。

雷磊：Browserbase 也算是现在的一个当红明星了，从融资额也能看出，它的估值在一年内涨到了 3 亿美金。

它做的本质就是给 AI 用的浏览器。但与传统浏览器的区别在于，首先它将浏览器云端化了，其次针对 AI 使用浏览器的场景进行了优化。

我当时在字节的时候，特别喜欢一鸣的一个说法，叫做「务实的浪漫」。意思是除了「仰望星空」地眺望未来，也要「脚踏实地」地发现并解决眼下一些具体的问题。

那眼下有什么问题呢？

数据表明，现在互联网上已经有 40% 的流量来自机器人。但机器和人使用浏览器的方式有很大差别，怎么能让这些机器人更高效地使用浏览器，就是一个值得重新设计的问题。

比如，AI 需要 RAG 功能，所以 Browserbase 就设计了类似的功能，可以帮助 AI 自动获取网站上的一些信息，作为上下文来辅助后续操作。

曲凯：那「给 AI 用的浏览器」和「给人用的浏览器」具体有哪些区别？

雷磊：首先，给 AI 用的浏览器一定是运行在云端的，因为 AI 不需要休息，可以持续工作。

其次，人类需要先看到浏览器页面上的信息，然后才能用鼠标操作，而 AI 完全不需要前端界面，它可以直接在后端运行。

第三，我们在给 AI 设计浏览器的时候会考虑怎么设计反馈循环，因为我们相信未来 AI 要能自主收集反馈、自主迭代。

第四点与安全相关。这里可以问大家一个问题：你愿意把账号密码交给大模型吗？

你大概率不愿意。

但你在使用 Agent 的时候，可能也不希望它跑了半天却没法完成任务，每次遇到登录问题时还要来烦你。

所以最佳情况是在确保密码不泄露的前提下，能让 Agent 有一定的自主性。

针对这个问题，我们开发了一个功能，就是当某个网站需要账号密码时，Agent 会自动判断情况，并以一种纯本地的方式填入你的账号密码，甚至是验证码。整个过程完全不需要人为干预，并且绝不会将你的任何信息传递给大模型。

第五点，就是在为 Agent 配置浏览器时，也需要考虑 Agent 多线程工作的连续性和成本。

因为大模型在操作浏览器时，往往涉及许多步骤，而且步骤之间可能存在间隔。比如，如果我们希望 Agent 在航司网站上购买一张机票，那么当 Agent 进入下单页面后，可能需要先去携程搜索比对各种机票信息，然后将这些信息带到另一个系统中进行推理。整个过程可能还需要人的介入，最终决定购买哪张机票后，再返回航司网站继续操作。

此时，我们肯定希望航司网站的页面仍然停留在下单页，而不是重新加载。但由于中间步骤太多、各步骤耗时也较长，可能过程中就会导致云端资源的浪费。

曲凯：明白。那在 Browser Use 这个赛道里，Browserbase 已经做得挺不错了，为什么你们还要做？Grasp 和 Browserbase 有什么区别？

雷磊：要做一个具备 Browser Use 功能的 Agent，技术架构可以分为三层。

最底层叫 Runtime，有点类似于云端的引擎。你可以将它理解为传统的浏览器内核，主要解决拉取网页信息、执行浏览器脚本、渲染图片等问题。

但随着 AI 的到来，中间新增了一个 Agentic 层。这一层负责控制 AI 与网页的交互，包括怎么从网页获取信息、怎么生成一些信息来影响网页，以及如何进行推理等等，最终再形成具体指令。

最上面一层是 Knowledge 层，也就是垂直领域的 knowhow。这一层是所有 Agent builder 需要重点关注的，因为它决定了你该怎么设计反馈机制，从而优化最终交付给终端用户的结果。

无论是 Browserbase，还是传统的 Playwright、Chromium，本质上都属于 Runtime 层。

而我们所做的是 Runtime 层 + Agentic 层。这两层一方面工程量非常大，另一方面有许多需要解决的通用问题。因此，如果我们将这些工程和问题都解决，就能够为开发者提供一个封装好的 Agentic Browser。开发者只需结合自身的行业认知，就可能构建出自己的 Manus 或者 Fellou。

曲凯：假设今天 Google 想做一个 Browserbase，是不是可以很快就做出来？

雷磊：确实，只做 Runtime 没有足够大的壁垒。

曲凯：所以 Runtime 层和 Agentic 层必须一起做才行？

雷磊：是的，否则很多你想实现的功能就是无法实现。

曲凯：那么在 Agent Infra 中，除了像 E2B 这样的代码云环境和 Browserbase 这样的 Browser Use 产品，还有其他机会吗？

雷磊：Agent Infra 大体可以分为环境和工具两种。

环境最主要的就是 Coding 和 Browser。Coding 赋予了 Agent 执行一个逻辑的能力，而 Browser 则让 Agent 拥有了与网页信息交互的能力。

不过中间会有非常多的细分领域，比如 Browser 可以有不同的浏览方式、Coding 可以分解释性语言和编译性语言等等，而针对不同的痛点，自然会有不同的解决方案和公司出现。

此外可能还会有一些抽象的环境，比如运行数学公式的环境，以及与物理世界接触的环境，比如传感器、具身智能，包括像李飞飞团队关注的空间智能等。

对于工具来说，如果把 Agent 看作终端用户，那么人类软件史上曾经出现过的工具都有机会重写一遍，比如 Agent 要不要有自己的身份？需不需要自己的电话去接收短信？是不是得有支付能力？

这里也和大家分享一个思考框架，就是通过场景去找切入点。

举几个例子。

一个旅游 Agent，在规划行程和导览的场景里，常用的工具就包括 CRM 查询，网络搜索、购票支付以及身份认证等等，所以这些工具你都可以重做一遍。另外，这个 Agent 很可能会在浏览器环境里运行，然后通过接口或者网页背后的 HTML 来执行任务，所以你也可以给它做一个专门的浏览器。

以此类推，你也可以为一个解题 Agent 去做定理检索、绘图，以及 LaTeX 等工具，也可以为它去写一个新的公式执行器或者代码执行器。

如果未来硬件有了突破，对于一个类似 Jarvis 的 Agent 来说，它需要的则是能够帮助它与现实世界进行交互的工具，以及传感器之类的感知环境。

这些还只是为单个 Agent 开发产品时需要考虑的因素。随着未来 Multi Agent 的成熟，可能会有多个 Agent 一起协作和沟通，共同解决问题。到那时，我们还需要考虑怎么去管控这些 Agent、怎么促进它们之间的协作，以及如果某个 Agent 挂了该怎么应对等等。

曲凯：我记得你之前提到过一句话，你说今天的 Browser Use 有点像 22 年的 AI Coding，能不能解释一下？

雷磊：22 年的时候，大家对 AI Coding 还有很多怀疑，不确定它到底会发展成什么样子，但到了今天，基本上已经没有人质疑它了。

这是因为大模型是不是能稳定地解决某类问题有一个很简单的公式：

某问题的样本集 × 模型的成功率 = 该问题的成功数量。

如果某类问题的成功数量能够满足人类的需求，那它就会被人们认可、逐渐成为主流。

对于 AI Coding 来说，自从 22 年 GPT 3.5 推出后，它的成功数量就突破了一个关键阈值，从而消除了人们的疑虑。

回到今天的 Browser Use，其实它的样本数量比 Coding 还要大，只是目前模型的能力还不足，所以现在还有很多人认为 Browser Use 不够实用。

但随着大模型能力的不断突破，当 Browser Use 的成功数量能够满足人们的需求时，人们对 Browser Use 的态度就会像今天对 AI Coding 一样，而且这个过程会比 AI Coding 来得更快。

曲凯：那 AI Coding 现在全球有几百家公司在做，也有很多估值很高的公司了，你觉得未来 Browser Use 也会是这样吗？

雷磊：其实哪怕是 AI Coding，我觉得仍然处于市场早期。因为如果从商业层面来看，全球软件开发的总市值大概有 3 - 4 万亿美金。只要 AI 能够在其中提升 5% 的效率，那就是一个 1500 亿美金的市场。但是今天 AI Coding 可能也就是一个小 100 亿美金的市场，还有很大的增长空间。

Browser Use 也是同样的道理。假如我们通过互联网进行的销售、招聘、获客等活动，能够通过 AI 提升 5% 的效率，那就是一个非常有潜力的大市场。

曲凯：那现在大家对于给 Agent 做产品这件事情，有什么很强的非共识吗？

雷磊：大家对于「给 Agent 做的产品到底最关键的是什么」这一点看法不太一样。有人认为是上下文，有人认为是更好的数据，或者更强大的模型。

但在我看来，最关键的是怎么设计一个好的反馈循环，让 AI 能够自我迭代。

我觉得人类最大的一个偏见，就是我们非常相信人类的先验知识对大模型来说很重要，所以我们不停地把我们的知识灌输给大模型，觉得这样它会越来越聪明。

但有没有可能人类的知识对大模型来说其实毫无必要呢？

举个例子。DeepMind 团队做了一个解奥数题的产品，叫 AlphaProof。他们团队只设计了一些基本的奖励信号，做对了题目 Reward + 1，做错了 Reward - 1，然后就开始让 AlphaProof 自己做题。AlphaProof 不参考任何人类解题的思路，就是从 0 开始通过强化学习的方式自主探索、自主迭代。但靠着这种方式，它去年已经摘取了国际奥数大赛的银牌。

曲凯：就像 AlphaZero 一样，对吧？最后大家发现人类的棋谱对它来说其实根本没有用。

雷磊：对，所以我觉得未来最重要的范式转变，就是让 AI 通过 Coding 和 Browser 之类的环境，自己去体验世界、获取真实的反馈，并通过这些反馈自主迭代，而不是一味依赖人类数据。

强化学习之父 Richard Sutton 和 David Silver 最近合作撰写的论文《The Era of Experience》里面核心也是在讲这件事。

曲凯：最后我想问，我们今天聊的很多东西的基础就是「未来 Agent 真的会起来」，那 Agent 到底什么时候会起来？

雷磊：与其思考 Agent 什么时候会起来，我觉得更重要的是思考在 Agent 崛起的那一天，我们能够提前为 Agent 做些什么、提供什么样的价值。

最后补一个现场活动的问答彩蛋：

Q: 不同的 Agent Infra 产品要怎么做差异化？

A：Agent Infra 这个赛道才刚刚开始，遍地是黄金，所以现在的关键在于找到差异化的场景，然后把自己的产品做深做厚，而不必考虑别人在干什么。这里可以分享一个具体的数据。有公司统计过，今天互联网上有 63% 的网站都已经被 AI 访问过了，但是来自大模型的流量在整体流量的占比只有 0.1%。

未来，AI 访问网站的流量可能会比人多 10 倍，所以 Browser Use 之后可能会有 10 万倍的涨幅。

那么在这个时候，我们就不该想着怎么去抢别人在 0.1% 里面占的那 0.01%，而是要思考怎么在剩下的 99.9% 里面去做出 10% 的市场。

42章经

思考事物本质

阅读原文

跳转微信打开

活动报名：Agent Infra 领域里的下一个大机会 | 42章经

2025-06-15 21:57:00

原创曲凯 2025-06-15 21:57 北京

Agent 之后，Infra 崛起

自今年年初以来，Agent 赛道的热度持续了好几个月。有非常多各种方向和概念的 Agent 项目已经拿到融资，而很多人也已经开始思考：

下一波机会，会出现在哪里？

我们看到的新机会之一，就是 Agent Infra。

这次我们请来了 Grasp（一款给 Agent 用的浏览器）创始人雷磊，请他在播客中分享了很多有关 Agent Infra 的观察与思考，比如为什么 Agent Infra 中有大机会、具体有哪些机会，以及硅谷当红炸子鸡 E2B & Browserbase 到底是啥等等。

不过雷磊对于「给 Agent 做产品」这件事，还有很多播客节目中承载不下的观察和思考。

所以下周六（6/21）下午，我们会在北京组织一场线下活动，邀请到包括雷磊在内的两位长期在第一线实践的创业者朋友，带来他们对 Agent Infra 的深入观察和方法论。

活动中，我们会展开讲讲从「给人做产品」到「给 Agent 做产品」的演化路线、Agent Infra 有哪些值得重写一遍的机会、为什么 Agent 需要自己的 browser、做 browser use 的实践和方法论，以及 Agent 长期记忆问题的解决方案和进展等话题。

具体报名信息请见下方海报。为保证小型、私密的活动交流氛围，本次活动限 50 人（非投资行业），我们会优先通过回答更认真、跟我们背景更匹配的朋友，具体通过情况请以工作人员通知为准。

期待和大家见面！

阅读原文

跳转微信打开

抱着“不做就会死”的决心，才能真正做好全球化 | 42章经

2025-06-15 21:57:00

原创黄东旭 2025-06-15 21:57 北京

全球化业务发展的宝典

本文来自 PingCAP 联合创始人兼 CTO 东旭的内部分享，有删减

大多数人以为战争是由拼搏组成的，其实不是，是由等待和煎熬组成的。—— 王兴

我们创业这一路上没有那么多惊心动魄，可能最重要的就是那么几个决定，以及，有些事情就不要决定。

那做海外市场，最重要的是什么？

就是创始人心态的转变。

要看它对你来说是一个战略还是第二曲线的尝试，而战略的最好定义就是「不做就会死」。只有当你觉得这件事不做会死的时候，才能把海外市场真的做好。

在尝试全球化的时候，我们踩了很多坑，回头复盘，核心原因就是那几年在国内太舒服了——客户收入不错、经济环境不错、也拿了很多融资。

就是因为国内的业务很好，所以就没想过失败了怎么办，就每次去美国都当是出差，转两圈就回来了。

所以现在回头来看，当时犯的第一个错误就是没有把全球化当做一个「不做就会死」的事。

第二个错误，就是说我们要「出海」。

「全球化」和「出海」这两个词听起来差不多，但其中的区别真的大了去了。

在 2017 年的时候，我们说要做「出海」。

出海这件事情映射到 PingCAP 的组织上，就是中间划出了一个出海部门。

但我们执行了一两年，发现状态不太对。为什么？因为世界上没有任何一个国家叫「出海」，所以出海的团队就像无头苍蝇一样，没有任何重点，很难在一个市场里边打深打透。

所以，在刚刚开始做全球化业务的时候，因为能投入的资源都是有限的，我们就更要从 day 1 开始就聚焦到一个具体的地区去突破，然后再慢慢扩张。

那这个地区的选择就很关键，就是它必须得能够带动其他地区。

就好比我今天只有三杆枪，这三杆枪要想发挥最大的威力，就应该集中打一个山头。打下来之后，再以它为中心去攻克其他的山头。这样做其实会更简单，因为你最开始的成功是有辐射效应的。

所以按照这个标准来看我们的业务，我们当时得出了一个结论，就是要先打东南亚和日本这两个市场。因为这两个市场看起来很简单，地处相近的时区，没有像美国那样的贸易战，出差距离也近。而且相比于老美，亚洲人多少还是更好说话。

但是事实上这个结论是有问题的。

因为日本和东南亚市场没办法辐射价值最高的美国市场。

就算你日本市场做得再好，你的日本客户案例对老美来说也完全没有信服力，因为他们可能根本就没听说过那些日本公司。东南亚就更不用说了。

但是反过来，如果我们先在美国做出点成绩，那再拿着这些案例去日本和东南亚都是完全有说服力的。

所以当时我们意识到，全球有两个企业软件高峰，一个叫中国，一个叫美国（硅谷）。这两个地方的案例都有各自的辐射效应。比如我们现在在做泰国的一个银行，人家一看我们把国内这么大的银行都服务得很好，那服务好他们更是不在话下，所以就很愿意和我们合作。

美国市场还有一个特别的好处，就是天花板确实非常高。美国的很多公司比其他单一市场的公司有钱太多了。

比如我们有一个客户，如果我们的系统挂了五分钟，是一定会影响到他们的实时股价的，假设会跌个一两个点，这些亏损也比给我们的钱要多了去了。

还有个客户，我曾经问过 Ta 有没有成本上的顾虑，对方直接三连怼，和我说：

第一，你千万不要把时间花在节省成本这种事情上（言下之意就是老子也不缺钱）

第二，你要知道我光是测试你们这个系统，每年花的钱就是百万美金级

第三，你知道假如你们的系统挂了五分钟，我们会损失多少钱吗？

所以如果一个软件能真正给他们带来很重要的价值，他们是很愿意付费的。

然后还有一个很有意思的地方，就是日本市场。

1）我们发现日本市场和其他国家的做法都完全不同

2）我们的日本团队都是纯本地化，完全不说英文也不说中文

3）日本市场的业务极度可预测

极度可预测是什么意思？

就是当你过了从 0 到 1 的阶段之后，你会发现你能很准确地预测每一年的增长和营收。

我举个例子，比如去年我跟日本的 GM 开会，我问他：

我给你 double 投入，你能不能给我 double 产出？他说不行。我说更高呢？他说还是不行。

这确实跟日本做企业服务的节奏有关，就是你再 push 客户，他们也快不起来。

不过日本的企业客户有个好处，就是言出必行。

比如有个日本客户，本来和我们约定了一个年度预算，却因为项目延期没有达成。结果他们说，既然当时答应了要达到这个数，那就还是按照约定的金额来结算。所以很多日本企业都非常重视契约精神。

我们犯过的第三个错误，就是一度在用「出差心态」来做全球化业务。但实际上这样做是成不了气候的。

举个特别简单的例子，如果你抱着出差一周的心态去美国谈业务，和客户见面聊得很开心，然后客户想约你两周后再一起喝个咖啡，你怎么办？这时候你肯定不好意思说：抱歉，那时候我早就回国了。另外，因为你抱着出差心态，所以每次来肯定都希望把客户拜访安排得密集一些，不然时间真的不够用。但显然，这并不是一种做长期业务的心态。

事实上，只有当你的肉身常驻海外之后，你才能对业务、客户以及产品机会有更深刻的认知，从而有机会拿成果。因为你的身体在哪里，你的注意力就会在哪里。

那团队是应该从本地招，还是应该从国内派遣呢？

我们实践下来，发现这两种方式都不对。前者的问题在于本地团队与企业文化的融合过程非常漫长，而后者的问题在于你的团队永远无法真正深入了解当地市场，因为派来的同事往往也会抱有出差心态。

而最好的做法就是具体岗位具体分析。

比如我们的售前销售、解决方案、售后这些岗位都是从本地招人，因为这些岗位往往会涉及到地区合规、客户关系的问题，而客户天然地更信任本地人。像一些研发产品的职能，在我们还没有本地团队时，则可以从国内派遣。不过我花了两三年的时间，现在也已经把很多负责产品和研发的 Leader 换成美国本地的负责人了。

对于肉身出海，很多人还会有一些顾虑。

比如英语不好会不会是很大的障碍？

从我们自己的体验来看，语言是最小的问题，只要你敢开口，剩下的都不是事。

不过一个确实存在的问题是，每当我们进入一个新的地区时，都要一穷二白地从 0 开始，和本土企业相比有很大的劣势。

这种情况下，我们拿什么和别人竞争？

其实中国团队有三个独特的优势。

第一，技术。国内的工程能力，即使放在老美这边也是相当强的，最典型的例子就是 DeepSeek。

第二，供应链。这方面中国真的太强了，尤其是在硬件和消费品等与制造相关的产业。

第三，贴身服务的苦工。这也是我们在美国破冰阶段最大的优势之一。

我们在美国的第一个客户本来在 PingCAP 和另一家美国本土的数据库团队之间犹豫不决，最后他们还是选择了我们。我当时问他们原因，他们半开玩笑地说：you guys never sleep。

做企业软件，服务也是产品价值中很重要的一部分。用户在做选择的时候，不仅要选择谁的性能最好，还要看万一出了点问题，谁背锅和搞定问题的速度最快。事实上每一次出现问题，我们确实都能在 15 分钟之内上线、回复、解决。

PingCAP 还有一点也非常有意思，就是我们从来不看竞争对手在做啥，只专注于做自己想做的事情。

为什么？

因为你比较关注的这些竞争对手，基本上都是和你体量差不多的公司。但美国市场水大鱼小，所以就算你们这几条小鱼看似竞争得非常凶，实际上做客户的时候也根本不会正面交锋。真正会和我们抢客户的，反而是那些最老牌的云厂商和一些传统的软件公司。

除此之外，大家可能还会担心地缘政治问题。这确实是一个问题，但并不是当前阻碍你发展的最关键的问题。如果你的年收入不到十亿美金，也不是一家美股上市公司，那就暂时不用过多地考虑它。

那当我们做了全球化业务后，在从 0 到 1 的破冰阶段，我还想给创始人几条建议。

第一，首先可以招聘一位本地销售人员，然后创始人也需要亲自与这位销售一起拜访客户。这对快速了解当地市场、融入当地圈子非常有帮助。而且优秀的销售人员通常具备较强的目标驱动和销售管理能力，这与技术背景的创始人形成了很好的互补。

实际上，现在我们各地区的一号位基本都是销售背景出身。销售背景的负责人会直接用收入成果向你汇报，相比其他背景的人的产出结果更好衡量。

当时我们招聘销售的过程其实也非常艰难，花了不少冤枉钱。最终能招到优秀的销售人员，也是对公司产品 go to market 效果的一种验证。如果销售人员感觉这个产品卖不掉，就根本不会选择加入我们。

第二，如果你想认真做海外市场，尤其是做 To B 业务，就得给自己留 300w 美金的预算，这是你逃不过的学费。

大家至少要做好前三年每年投入百万美金，却一毛钱产出都没有的心理准备。如果你觉得无法接受，那不好意思，你还是别做了。PingCAP 能做到今天这个程度，至少犯过一个价值 5000w 美金的错误。

第三，你要把你的注意力投入到全球化这件事上。刚开始做海外跟重新创业没什么区别，需要 CEO 能够以创业公司的方式去快速调动资源，使公司能够迅速在海外运转起来。

再往下，我们来讲讲具体执行层面的坑和 Tips。

首先从产品层面来说，中国很多公司，尤其做企业服务的公司，经常会犯几个错误。

第一个错误是，大家把「安全合规」的优先级定得太低了，总是优先卷产品性能。但在海外，「安全合规」才是最应该优先投入的，因为它能让你赚大钱，而产品性能其实做到够用就行。

比如，如果你去看海外的产品，就会发现它们都会把安全性作为一个重要的宣传点。

再比如，在美国，金融行业的客户一定会要求你提供 SOC 1 和 SOC 2 的合规证明，保险和医疗相关的客户一定会要求你提供 HIPAA 的合规证明，而这些证明没有一年半载是办不下来的。如果你临门一脚拿不出这些证明，那这些客户就不会和你合作。

所以我建议大家去了解一下自己的产品会不会涉及安全合规的问题，如果会，就要提前投入。

第二个错误是，很多人会认为海内外产品就是同一产品的多语言版本，但我们一次次被现实打脸之后，想告诉大家一个惨痛的真相：海内外的产品完全是两个不同的产品。

以我们自己为例，在国内，我们现在还是以私有化部署为主，卖的是软件和创新。但在海外，我们只提供云服务。而软件和云服务完全是两套逻辑，有着不同的 PMF，甚至很难用同一个产品团队来完成这两件事情。

不过我们还是找到了一个最大公约数，就是开源。海内外产品的研发团队共享我们的开源内核，并且都可以继续为它添砖加瓦。

第三个高频问题是，大家在国内市场总是卷一些莫名其妙的指标，不停地陷入各种 benchmark 的陷阱。但在海外，客户只关注你的服务能为他们的业务带来什么样的价值。

因此，现在我们公司研发团队最关注的指标不是产品性能，而是能否实现「客户成功」。

第四点，中国团队对 UI/UE 的重视程度不够。然而，把官网和产品的 UI/UE 做好，是一件 ROI 非常高的事情。

这一点我们之前也做得很不好，总以为把产品做得扎实就万事大吉了。但美国团队普遍非常擅长 Storytelling，而官网和产品界面就是极佳的讲故事的地方。如果你的 UI/UE 做得不好看，客户对你的第一印象就会大打折扣。

还有一个 ROI 很高的事情就是用 AI。

AI 是现阶段提升企业运转效率的最大杠杆，怎么重视都不为过。建议大家可以多上手实践、感受 AI 的能力边界，就像费曼说的：“What I cannot create, I do not understand.”

聊完产品，我想再分享几条有关商业化的建议。

第一，谨慎选择你的客户，而不是被客户挑选。

因为我们的产品能为客户带来很高的价值，所以我们一直是这么做的，而且我们只选择大企业或者知名企业合作（虽然这听起来可能有些凡尔赛…

这里有个小 tips，就是一定要找到你所在行业最头部客户的清单。尤其是在去海外的初期，最好的策略可能是「name account」，就是给每个销售分配明确的任务，比如要求某人一定要拿下索尼、另一个人一定要拿下任天堂，而不是让大家胡乱地去聊。

而且 PingCAP 一直以来的战略就是专注于大客户。

那怎么定义「大客户」呢？就是一年能为我们贡献 100w 美金以上的客户。

底层逻辑其实就是看 LTV（生命周期价值，也就是客户在使用你的产品期间为你带来的总收益）。

100w 美金看似很高，但我的体感是，很多华人创始人经常低估一个客户的 LTV。

大家也可以停下来思考一下，你会如何定义大客户的标准？

在你拍脑袋想出来的数值基础上，再乘上三到五倍，这可能才是一个真实的北美客户的 LTV。

另外，我们接客户时也会考虑客户的潜力模型。

每当销售谈一个新客户，我都会听他们讲这个客户的 LTV 是多少、他们为什么做出这样的判断。

如果这个客户的公司状况良好、长期数据量非常大，且在数据上一年的消耗能达到几千万甚至上亿美金，那么即使他们的第一单只有 10w 美金，我们也愿意合作。但如果某个客户是一个不知名的小公司，即使他们愿意一单掏 50w 美金，我们也未必愿意接。

LTV 除了对于判断客户潜力很有帮助，对于判断公司的发展重心也有重要的参考价值。

另外，以前我很纠结到底要选 PLG 还是 SLG，但现在我觉得这两个模式的核心都与 LTV 相关：

如果你们用户的 LTV 不太长，也就是用户接受产品的速度很快、使用周期较短，那么你们就是 PLG，因为对你们来说，重点是快速迭代产品，然后让用户用得满意、愿意迅速付费。

反之，如果你们用户的 LTV 较长，那么你们自然更偏向于 SLG，因为你们要花时间总结沉淀商业的这些 Knowhow、想办法让交付实施更可靠。这个过程一定是更长的，但一分耕耘一分收获，一旦成功拿下一个客户，可能就是 100w 美金的订单。

所以根本不用纠结 PLG 和 SLG，因为你的产品 DNA 和商业模式已经决定了你要走的方向。你真正应该选择的是 Value-LG。

第二条建议，是提升自己的 Storytelling 能力。会讲故事非常关键，但这恰恰是华人创始人普遍欠缺的一项能力。

第三条建议，是把 Marketing 后置。Marketing 应该是一件锦上添花的事情，而不应该反过来先布道、再期盼产品起势。

产品最好的 Momentum 来自于客户的口口相传，所以冷启动阶段最重要的就是前几个客户。你得想办法让早期客户替你把产品故事讲出来，这样后面你也能有做 Marketing 的素材。

不过我们比较幸运，因为我们的第一个企业客户中有一位五六十岁的美国技术高管，Ta 把我们的产品介绍给了湾区的其他公司，而那些公司最后都成为了我们的客户。这里也可以给大家一个 tips，就是你要时刻记住，你要接触的目标一定是硅谷最上层的那一小部分 C-level 和 VP 们。

最终，如果你想检验自己团队的国际化水平，有两个很好的里程碑。

第一，全英文办公。比如在 PingCAP，我们开高管会时，就算参会的都是中国人，还是会用英文，因为团队后面可能会有外国人加入，如果 Ta 想回头看会议记录，是看不懂中文的。

第二，公司内部使用真正国际化的工具。不是所有支持英文的企业协作工具都是国际化的工具，正确的标准是要看海外同事是否用得习惯。

最后想分享一点，就是我宁愿我们最早在国内没有收入，这样当时反而能更坚定地 all in 全球化。

其实 2017 年刚做全球化的时候，我们在国内大概就有几千万人民币的收入了，说多不多，说少不少，又一直在增长，所以我们在国内的组织就变得越来越厚重，拖慢了我们推进全球化的进度。

回过头用全球化的视角去思考，会发现在中国做企业服务，老实讲还是太难了。如果真的看利润率，我们现在在其他地区都在赚钱，只有在中国还在亏钱。

所以，如果现在有公司想做全球化，我最后的建议是：

坚决一些。

42章经

思考事物本质

阅读原文

跳转微信打开

张津剑：投资中的频率与频谱 | 42章经

2025-06-08 22:01:00

原创张津剑 2025-06-08 22:01 中国香港

AI 与人类注意力机制

自从那篇著名的论文《Attention is All You Need》问世以来，Transformer 架构不仅首次赋予了机器 Attention、推动了 AI 技术的飞跃，也进一步促进了人类对注意力机制的研究，促使我们以全新的视角重新审视自身对信息的感知与理解。

有趣的是，人工智能正通过不断演进的注意力机制，变得更专注、更目标导向、更具长期思维；而人类却在汹涌的生成式内容中愈发迷失，变得迷茫、割裂，碎片化。

之所以会出现这种差异，本质上是因为 AI 和人类的注意力机制截然不同。

信息越密集，对注意力的要求就越高，能耗也越大。然而，AI 消耗的是算力，可以通过增加计算单元做加法；人类消耗的则是心力，只能靠聚焦与克制做减法。

前者容易，后者难。

特别是随着世界运转速度的加快，保持专注和收拢注意力变得越来越困难。我们的注意力机制正在逐渐失效，甚至崩溃，导致许多人失去了独立判断的能力。

结果是，世界的分化程度日益加剧。

这种分化在社会的各个层面都有所体现，包括宏观的地缘政治、中观的贫富差距，以及微观的夫妻关系。

过去，人们能够在面对波动时进行独立判断，之后形成共识，然后携手共渡难关，形成「你好我也好，你差我也差」的局面。然而，现在「你差我好」或「我差你好」的情况却愈加普遍。

因此，可以说，当今世界许多问题的根源在于我们的注意力失控了。

为了更好地说明这一点，我们可以尝试从信号处理的角度，先来理解一下注意力机制。

任何一个信号系统，基本结构都可以简化为「输入——处理——输出」。

人类也不例外。眼、耳、鼻、舌等感官器官就像传感器，负责将外界的信息传递到我们的大脑中。这些信息在进入大脑后会被加工处理，最终以某种形式转化为行动输出。我们输出的行动可以是看得见的动作、语言或表情，也可以是看不见的想法、判断或偏好。

所以人类也可以被进一步概括为一个「感知——处理——行动」的信号系统。

但人类的这三项能力之间存在巨大的鸿沟。

人的视网膜每秒接收到的信息量约为 10^9 比特，相当于一段两分钟的 480P 视频；大脑每秒能处理的信息量，只有 10^6 比特，约等于一本小说的容量；而最终真正能转化为行动的输出带宽更低，仅有 10^1 比特，也就是一条指令的水平。

所以我们的感知能力远大于处理能力，处理能力又远大于输出能力。

那怎么办呢？

在信号处理中，为了解决这类问题，我们会引入滤波器来「去噪」，也就是过滤出信号、剔除掉噪声。

对于人类而言，为了解决信息过载的问题，我们也进化出了一种主动过滤器——注意力机制。这个机制能够帮助我们在信息洪流中忽略大量无关的噪音，并能根据我们目标的变化灵活调整，确保我们始终能专注于最关键的信息。

例如，当我们聚焦于某一个人时，眼中几乎只剩下这个人，周围的一切声音和画面都会自然消失。这，就是注意力滤波器在起作用。

一个真正专注的人，能够在不同情况下过滤出最重要的信号。这些信号就是我们常说的主要矛盾，也就是事物演化过程中的关键变量。

相反，一个不够专注的人则很容易被信息裹挟，或者被他人的节奏带走，变得人云亦云。

这是因为当我们的注意力机制崩溃时，我们会放弃主动感知世界，转而去处理高刺激信息，或者直接依赖他人的行为来进行判断。

于是，「抱团取暖」的现象也就变得越来越普遍。比如现在火的赛道特别火，哪怕是已经明显出现泡沫的领域，依然有大批人争先恐后地往里挤，而凉的赛道则完全无人问津。再比如凉的赛道可能突然就火了、火的赛道也可能突然就凉了。

这就像信号学里的「拉尔森效应」，它指的是，当信息输入和输出端口距离太近时，因信号循环而产生的啸叫现象。

比如当你把麦克风靠近音箱时，麦克风拾取的信号会传入音箱，而音箱发出的信号又会被麦克风拾取，如此反复，就导致信号不断自我增强，从而产生啸叫。

其实，今天的世界，每时每刻、各行各业都在啸叫。

在这样的世界中，「专注」会变得越来越有价值。

而且「专注」对于现在的创始人来说也愈发重要。人之所以会感到越来越心累，正是因为注意力分散造成了高能耗，而优秀的创始人往往清楚自己应该在什么时间将注意力集中在哪里。

当大多数人把注意力放到别人身上、跟风行动时，如果你能够静下心来管理自己的注意力，专注感知这个世界，你会发现这个时代的机会恰恰在变多，而不是变少。

比如 2023 年，我们关注到具身智能时，市场上还没有这个专有名词，我们内部对这个赛道也有质疑的声音。为了求证具身智能的市场空间，我们组织了一个小组出去调研了一圈，得到的市场反馈大多也是负面的。当时甚至有朋友跟我们说，他们在 15 年投的机器人项目一直都没能退出，劝我们千万不要进入这个天坑（笑）。

但这样的市场反馈反而让我们认定了这个方向是有机会的。因为很多事情其实早已在暗中发生了根本性的变化，只是因为没人关注，所以还没有得到应有的估值。

如果你能赶在别人前面注意到这样的领域，那恭喜你，你就找到了属于你的机会。

就像我认识的一位非常优秀的创始人，他本硕博连读于某领域最顶尖的学府。毕业后，出乎很多人意料的是，他选择了一个极其冷门的底层研发方向去创业。

当时我非常意外，问他为什么要做这个方向？

他说：“因为我的起步条件不算好，所以要找到一个不受关注、不需要跟别人卷资源、但未来 5-10 年有机会重大突破的领域。关注这个方向的人越少越好，因为只有这样，才有属于我的时间和机会。”

我又追问：“但你知道吗？你选择的这个方向还受政策限制，国家都没有发放过相关牌照。”

他回答：“我知道。但就是因为没人做，所以科技没有突破，国家不发牌照。我赌我做了之后，国家早晚会发牌照。”

于是，这位创始人和不到十个人的团队，埋头研发了整整 7 年。

到了 2023 年，国家终于发放了第一批牌照，全球仅有四张，其中就有他的一张，且他们的成本大幅低于全球其他公司。

所以，大部分人类的博弈，归根结底都是注意力的博弈。

今天无论是创业者还是投资者，如果想拿到想要的结果，一件非常重要的事情就是管理自己的注意力。你的注意力在哪里，你的世界就会在哪里显化。因为世界并非一个客观存在的实体，而是我们在感知和处理信息之后所渲染出来的结果。换句话说，没有所谓的客观世界，只有被我们所感知到的世界。

那具体要怎么拿结果呢？

很简单，就是要明确自己的需求。滤波器是一种目标越清晰、能耗越低的装置，所以你的需求越明确、你的注意力越专注，实现需求也就越容易。

进一步来讲，就是要认识自己、做自己。

这说起来很简单，但大家真的做起来往往会遇到两个问题：

第一，很多人其实并不了解自己，只是一味地在用他人的评价或者市场反馈来给自己贴标签。他们根本不清楚自己到底喜欢什么，或者总觉得自己喜欢的东西估值不够高、不符合世俗意义上的成功，所以不够高级。但其实你喜欢什么，什么就是高级的。

第二，很多人认识自己之后却不敢做自己，因为不相信这样做真的会有好的结果，于是更希望改变自己，向主流叙事、向他人的长板看齐。

回到 AI，就像开头所说，人类一直在利用技术帮助 AI 构建注意力机制，使其具备抓住重点和专注于重点的能力。

引入注意力机制后，AI 的能力确实实现了飞跃，它能够胜任的工作范围也在不断扩大。我们相信，AI 还将持续取得突破。人工智能在几乎所有工作中超越人类只是时间问题，而且这个过程不会太久。

因为人类实际上是非常局限的。这种局限性不仅仅体现在大脑的处理能力上，也体现在我们感知世界的能力上。

大家知道，眼睛可以看到图像，耳朵可以听到声音，皮肤可以感受到压力、温度和湿度。

毫无疑问，人类是一个多模态的大模型。

那么，是否存在一个维度能够统一图像、声音、气味、温度等不同模态输入的信息呢？

我们可以换个视角来讨论这个问题。假设信息是一个函数，我们在《投资中的高频与低频》中分享过，任何函数都可以通过傅里叶变换分解为不同正弦波的叠加，而每一个正弦波都对应着一个稳定的频率。例如，吉他的每根弦对应着一个频率，也对应着一个声音信息。当我们对弦施加不同的压力时，频率会发生改变，声音信息也随之改变。

所以频率可以简单理解为一个正弦波每秒变化的次数，例如，心脏在一分钟内跳动 60 次，那么它的频率就是 1Hz；而运动后，心跳变为 120 次/分钟，此时心脏的频率就是 2Hz。

不同的信息都可以在频率这个维度上进行统一。例如，可见光的频率大约是 10^15Hz，而声音和气味的频率则不超过 10^4Hz。

频率跨度从低到高范围很广，我们把这个范围称为频谱。

而不同生物的感知频谱是不一样的。例如狗的嗅觉频谱就比人的更宽，因此它们可以获取更多的气味信息。

其实，人和人之间的感知频谱也存在很大差异。有些人天然频谱更宽或者感知颗粒度更高，也就是我们所说的更敏感。所以我们也不要妄加评判另一个人，特别是不应该评判那些高敏感个体，因为他们的世界可能是我们完全无法感受到的。

那我们将常见的频谱画出来，就可以看到，人类能够感知的部分其实是非常有限的。

图中横向的坐标轴表示人类已知的电磁波频谱，彩色标注的部分是人类能够感知到的感官和模态。后者仅占前者的1/10^9。

正是由于这种有限，我们也一直在努力拓展对频谱的感知和存储能力。

我们发明了核磁共振、X光机、气象雷达、引力波探测器等工具，以辅助我们感知那些远超人类生理极限的信息频段。同时，我们还通过跨模态的方式记录不同模态的信息。比如，我们发明了乐谱，用图像存储声音信息，实现跨模态的信息存储。

然而，这些方法本质上都是对信息的影射，也就是将其他频段的信息转化为我们能够感知的信息。在这个过程中存在大量的信息损耗，因此也具有很大的局限性。

这时我们再来看 Agent，你们不觉得 Agent 强的可怕吗？

因为理论上来说，Agent 可感知的频谱是无限的。

今天我们讲的多模态大模型，其实也才刚刚起步。现在我们只有语言模型、语音模型、图像模型和视频模型等，但未来完全有可能出现触觉模型、温度模型、气味模型等全频谱模型。

从这个角度出发，我们不认同「数据不够了」这种观点。有人认为我们已经用尽了互联网上所有可用的图文、音频、视频数据，但这些数据仅仅是人类能够感知并记录下来的三种模态。X 光的数据我们用过吗？伽马射线呢？大脑中的 α 波呢？

这个世界每天都以各种方式产生大量数据，只是很多数据我们无法感知，因此未能很好地加以利用，甚至还没有创业者思考如何使用它们。

再往后发展，我们相信未来会迎来一波传感器的爆发。各种各样的传感器将被制造出来，用来帮助 Agent 感知从伽马射线、X 光到红外线等所有人类无法感知的频段。然后，Agent 会凭借它的全频谱处理能力解读这些数据，并通过语言模型将不同模态的信息整合起来，最后通过具身智能付诸行动。

最终，我们相信未来的 AI 将是「传感器 + Agent + 具身智能」三位一体的系统。它所能感知的世界将超出我们的想象。而这个系统应该运行在区块链、而非传统的互联网上。换句话说，区块链未来将是 Agent 的互联网。

基于这种相信，今天很多创业项目的方向可能就不对。

很多项目现在依然是「以人为中心」来组织工作。无论是 copilot 还是 deep research，都是试图通过各种方式让 AI 来赋能人类。

但面对一个可能具备全频谱的感知、处理，和行动能力的信号系统，我们应该思考的是如何「以 AI 为中心」来组织工作。

我们不应该把重点放在「如何把 AI 融入我们的工作流」上，而应该反过来思考「我们能怎么融入 AI 的工作流」，以及「我们能为 AI 提供什么」。

那讲到这里，大家可能会有一个问题：如果 Agent 知道得比我多、算得也比我快，那人类在未来是不是就毫无用处了？

不是。人类有两个独特的价值。

第一，提出需求。

如果说工业革命是「谁创造供给、谁就创造价值」，那么人工智能时代将是「谁创造需求、谁就创造价值」，因为人工智能时代的供给将趋近于无限。所以我们今后要更多地认识自己、探索自己、了解自己，明确自己要解决哪些问题。

第二，审美。

审美首先是我们为了节约大脑算力而进化出的一种预测算法。我们通常会对新信息进行预判，然后仅对「变化」——也就是与我们预判不一致的部分进行计算，而不会对全局信息进行计算。

我们常说有些科学家很有技术审美，指的就是他们能够在技术路径尚不明确时，凭借「感觉」找到正确的方向。这种能力其实是长期实践与积累的结果。

然而，这种节能机制也有副作用。尤其是在创业者中，很多人都有一种被称为「Wishful Thinking」的思维方式，美其名曰「理想主义」。但实际上，「Wishful Thinking」是一种懒惰，是你的大脑发现「变化」时，本该重新计算、却不愿意重新计算一遍，进而渲染出的偏执错觉。从这个角度来看，「实事求是」就是一种勤奋。

另外，审美不仅仅是一种算法，它还是超越单一模态的处理结果。比如，你遇到一个合伙人，Ta 和你聊得很好，Ta 的思维也非常缜密，但你就是感觉哪里不对。这种「感觉不对」可能并非来自于意识层面的分析，而是你整合了触觉、嗅觉等多模态信息后形成的一种综合感受。

如果某样事物能令我们产生「美」的感受，通常意味着它会带来正反馈，反之则可能意味着危险。比如，我们觉得笑容很美，是因为笑容往往代表善意与接纳。而我们下意识地躲避一个面相凶残的人，则是因为我们会直觉性地察觉到对方的暴力倾向。

人类之所以会发展出审美，正是因为我们的感知和处理能力有限，因此需要审美来帮助我们趋利避害。而这种审美可能超越了多模态的处理结果，甚至超越了二元对立，成为某种一体性的影射。

而 AI 却因为它的无限性，所以不具备审美。这也意味着，在 AI 时代，审美将成为人类所能拥有的核心价值。

所以每一个人都应该思考：你对什么事物的审美明显高于他人？这个事物可以是任何形式，比如艺术、代码、机械结构。只要你对某个事物的美有着超越平均水平的判断和表达，那么你就拥有了在 AI 时代最稀缺的能力。

今天我们聊了很多关于人的「有限」和 AI 的「无限」，看似人在面对 AI 时有诸多劣势，但实际上，恰恰是人类的有限性，促使我们进化出了注意力、主观预判、审美这些独特的能力，也让我们有动力将有限的人生活出无限的精彩。

你可以想象一下，如果你拥有无限的资源和资金，你还会想要创业吗？大概率不会了。你可能会拍拍合伙人的肩膀说：「去玩吧，我们什么都不缺」。就好比如果你打游戏时开了外挂，那么这个游戏一下子就会变得索然无味。

所以，在 AI 时代，我们要做好两件事。

首先是保护好自己的「心力」。心力的强弱直接决定了我们注意力的表现。如果说工业革命让人类的核心价值从体力转变为智力，那么我们相信，AI 会让人类的核心能力从智力转变为心力。

其次是回归审美。这个回归的过程，本质上就是一个去除噪声的过程，也是人类展现个体的独特价值的过程。我们需要把注意力重新放到自己身上，相信自己的直觉和判断，而不是依赖他人的信息和行动。

这些年，我们聊了很多创业者，最后发现，真正优秀的创始人未必比他人更聪明或更勤奋，但他们总能在最艰难的时刻选择坚持，在最辉煌的时刻保持平和、克己，在最进退维谷的时刻展现出勇气与坚韧。

以上，和大家共勉，愿我们都能在 AI 时代保持自己的生命力，不断进化，成为一个有审美、有定力的个体。

P.S. 绿洲资本最近也发布了他们自己的播客《信号与噪声》，希望在这个信息纷杂的社会中，和充满生命力的个体一起去除噪声，回归纯粹，感兴趣的也欢迎关注。

【张津剑 | 信号与噪声系列文章回顾】

投资中的高频与低频 2024.6.2

投资中的节奏与结构 2023.6.18

投资中的周期与载波 2021.3.14

投资决策中的信噪比 2020.2.23

投资中的信号与噪声 2018.12.2

42章经

思考事物本质

阅读原文

跳转微信打开

KaiQu | 曲凯 | 42 章经修改

KaiQu | 曲凯 | 42 章经的 RSS 预览