MoreRSS

site iconKaiQu | 曲凯 | 42 章经修改

公众号:42章经。由xlab生成。
请复制 RSS 到你的阅读器,或快速订阅到 :

Inoreader Feedly Follow Feedbin Local Reader

KaiQu | 曲凯 | 42 章经的 RSS 预览

活动报名:Agent Infra 领域里的下一个大机会 | 42章经

2025-06-15 21:57:00

原创 曲凯 2025-06-15 21:57 北京

Agent 之后,Infra 崛起


自今年年初以来,Agent 赛道的热度持续了好几个月。有非常多各种方向和概念的 Agent 项目已经拿到融资,而很多人也已经开始思考:

下一波机会,会出现在哪里?

我们看到的新机会之一,就是 Agent Infra。

这次我们请来了 Grasp(一款给 Agent 用的浏览器) 创始人雷磊,请他在播客中分享了很多有关 Agent Infra 的观察与思考,比如为什么 Agent Infra 中有大机会、具体有哪些机会,以及硅谷当红炸子鸡 E2B & Browserbase 到底是啥等等。

不过雷磊对于「给 Agent 做产品」这件事,还有很多播客节目中承载不下的观察和思考。

所以下周六(6/21)下午,我们会在北京组织一场线下活动,邀请到包括雷磊在内的两位长期在第一线实践的创业者朋友,带来他们对 Agent Infra 的深入观察和方法论。

活动中,我们会展开讲讲从「给人做产品」到「给 Agent 做产品」的演化路线、Agent Infra 有哪些值得重写一遍的机会、为什么 Agent 需要自己的 browser、做 browser use 的实践和方法论,以及 Agent 长期记忆问题的解决方案和进展等话题。

具体报名信息请见下方海报。为保证小型、私密的活动交流氛围,本次活动限 50 人(非投资行业),我们会优先通过回答更认真、跟我们背景更匹配的朋友,具体通过情况请以工作人员通知为准。

期待和大家见面!


阅读原文

跳转微信打开

抱着“不做就会死”的决心,才能真正做好全球化 | 42章经

2025-06-15 21:57:00

原创 黄东旭 2025-06-15 21:57 北京

全球化业务发展的宝典

本文来自 PingCAP 联合创始人兼 CTO 东旭的内部分享,有删减


大多数人以为战争是由拼搏组成的,其实不是,是由等待和煎熬组成的。—— 王兴

我们创业这一路上没有那么多惊心动魄,可能最重要的就是那么几个决定,以及,有些事情就不要决定。

那做海外市场,最重要的是什么?

就是创始人心态的转变。

要看它对你来说是一个战略还是第二曲线的尝试,而战略的最好定义就是「不做就会死」。只有当你觉得这件事不做会死的时候,才能把海外市场真的做好。

在尝试全球化的时候,我们踩了很多坑,回头复盘,核心原因就是那几年在国内太舒服了——客户收入不错、经济环境不错、也拿了很多融资。

就是因为国内的业务很好,所以就没想过失败了怎么办,就每次去美国都当是出差,转两圈就回来了。

所以现在回头来看,当时犯的第一个错误就是没有把全球化当做一个「不做就会死」的事。

第二个错误,就是说我们要「出海」。

「全球化」和「出海」这两个词听起来差不多,但其中的区别真的大了去了。

在 2017 年的时候,我们说要做「出海」。

出海这件事情映射到 PingCAP 的组织上,就是中间划出了一个出海部门。

但我们执行了一两年,发现状态不太对。为什么?因为世界上没有任何一个国家叫「出海」,所以出海的团队就像无头苍蝇一样,没有任何重点,很难在一个市场里边打深打透。

所以,在刚刚开始做全球化业务的时候,因为能投入的资源都是有限的,我们就更要从 day 1 开始就聚焦到一个具体的地区去突破,然后再慢慢扩张。

那这个地区的选择就很关键,就是它必须得能够带动其他地区。

就好比我今天只有三杆枪,这三杆枪要想发挥最大的威力,就应该集中打一个山头。打下来之后,再以它为中心去攻克其他的山头。这样做其实会更简单,因为你最开始的成功是有辐射效应的。

所以按照这个标准来看我们的业务,我们当时得出了一个结论,就是要先打东南亚和日本这两个市场。因为这两个市场看起来很简单,地处相近的时区,没有像美国那样的贸易战,出差距离也近。而且相比于老美,亚洲人多少还是更好说话。

但是事实上这个结论是有问题的。

因为日本和东南亚市场没办法辐射价值最高的美国市场。

就算你日本市场做得再好,你的日本客户案例对老美来说也完全没有信服力,因为他们可能根本就没听说过那些日本公司。东南亚就更不用说了。

但是反过来,如果我们先在美国做出点成绩,那再拿着这些案例去日本和东南亚都是完全有说服力的。

所以当时我们意识到,全球有两个企业软件高峰,一个叫中国,一个叫美国(硅谷)。这两个地方的案例都有各自的辐射效应。比如我们现在在做泰国的一个银行,人家一看我们把国内这么大的银行都服务得很好,那服务好他们更是不在话下,所以就很愿意和我们合作。

美国市场还有一个特别的好处,就是天花板确实非常高。美国的很多公司比其他单一市场的公司有钱太多了。

比如我们有一个客户,如果我们的系统挂了五分钟,是一定会影响到他们的实时股价的,假设会跌个一两个点,这些亏损也比给我们的钱要多了去了。

还有个客户,我曾经问过 Ta 有没有成本上的顾虑,对方直接三连怼,和我说:

第一,你千万不要把时间花在节省成本这种事情上(言下之意就是老子也不缺钱)

第二,你要知道我光是测试你们这个系统,每年花的钱就是百万美金级

第三,你知道假如你们的系统挂了五分钟,我们会损失多少钱吗?

所以如果一个软件能真正给他们带来很重要的价值,他们是很愿意付费的。


然后还有一个很有意思的地方,就是日本市场。

1)我们发现日本市场和其他国家的做法都完全不同

2)我们的日本团队都是纯本地化,完全不说英文也不说中文

3)日本市场的业务极度可预测

极度可预测是什么意思?

就是当你过了从 0 到 1 的阶段之后,你会发现你能很准确地预测每一年的增长和营收。

我举个例子,比如去年我跟日本的 GM 开会,我问他:

我给你 double 投入,你能不能给我 double 产出?他说不行。我说更高呢?他说还是不行。

这确实跟日本做企业服务的节奏有关,就是你再 push 客户,他们也快不起来。

不过日本的企业客户有个好处,就是言出必行。

比如有个日本客户,本来和我们约定了一个年度预算,却因为项目延期没有达成。结果他们说,既然当时答应了要达到这个数,那就还是按照约定的金额来结算。所以很多日本企业都非常重视契约精神。

我们犯过的第三个错误,就是一度在用「出差心态」来做全球化业务。但实际上这样做是成不了气候的。

举个特别简单的例子,如果你抱着出差一周的心态去美国谈业务,和客户见面聊得很开心,然后客户想约你两周后再一起喝个咖啡,你怎么办?这时候你肯定不好意思说:抱歉,那时候我早就回国了。另外,因为你抱着出差心态,所以每次来肯定都希望把客户拜访安排得密集一些,不然时间真的不够用。但显然,这并不是一种做长期业务的心态。

事实上,只有当你的肉身常驻海外之后,你才能对业务、客户以及产品机会有更深刻的认知,从而有机会拿成果。因为你的身体在哪里,你的注意力就会在哪里。

那团队是应该从本地招,还是应该从国内派遣呢?

我们实践下来,发现这两种方式都不对。前者的问题在于本地团队与企业文化的融合过程非常漫长,而后者的问题在于你的团队永远无法真正深入了解当地市场,因为派来的同事往往也会抱有出差心态。

而最好的做法就是具体岗位具体分析。

比如我们的售前销售、解决方案、售后这些岗位都是从本地招人,因为这些岗位往往会涉及到地区合规、客户关系的问题,而客户天然地更信任本地人。像一些研发产品的职能,在我们还没有本地团队时,则可以从国内派遣。不过我花了两三年的时间,现在也已经把很多负责产品和研发的 Leader 换成美国本地的负责人了。

对于肉身出海,很多人还会有一些顾虑。

比如英语不好会不会是很大的障碍?

从我们自己的体验来看,语言是最小的问题,只要你敢开口,剩下的都不是事。

不过一个确实存在的问题是,每当我们进入一个新的地区时,都要一穷二白地从 0 开始,和本土企业相比有很大的劣势。

这种情况下,我们拿什么和别人竞争?

其实中国团队有三个独特的优势。

第一,技术。国内的工程能力,即使放在老美这边也是相当强的,最典型的例子就是 DeepSeek。

第二,供应链。这方面中国真的太强了,尤其是在硬件和消费品等与制造相关的产业。

第三,贴身服务的苦工。这也是我们在美国破冰阶段最大的优势之一。

我们在美国的第一个客户本来在 PingCAP 和另一家美国本土的数据库团队之间犹豫不决,最后他们还是选择了我们。我当时问他们原因,他们半开玩笑地说:you guys never sleep。

做企业软件,服务也是产品价值中很重要的一部分。用户在做选择的时候,不仅要选择谁的性能最好,还要看万一出了点问题,谁背锅和搞定问题的速度最快。事实上每一次出现问题,我们确实都能在 15 分钟之内上线、回复、解决。

PingCAP 还有一点也非常有意思,就是我们从来不看竞争对手在做啥,只专注于做自己想做的事情。

为什么?

因为你比较关注的这些竞争对手,基本上都是和你体量差不多的公司。但美国市场水大鱼小,所以就算你们这几条小鱼看似竞争得非常凶,实际上做客户的时候也根本不会正面交锋。真正会和我们抢客户的,反而是那些最老牌的云厂商和一些传统的软件公司。

除此之外,大家可能还会担心地缘政治问题。这确实是一个问题,但并不是当前阻碍你发展的最关键的问题。如果你的年收入不到十亿美金,也不是一家美股上市公司,那就暂时不用过多地考虑它。

那当我们做了全球化业务后,在从 0 到 1 的破冰阶段,我还想给创始人几条建议。

第一,首先可以招聘一位本地销售人员,然后创始人也需要亲自与这位销售一起拜访客户。这对快速了解当地市场、融入当地圈子非常有帮助。而且优秀的销售人员通常具备较强的目标驱动和销售管理能力,这与技术背景的创始人形成了很好的互补。

实际上,现在我们各地区的一号位基本都是销售背景出身。销售背景的负责人会直接用收入成果向你汇报,相比其他背景的人的产出结果更好衡量。

当时我们招聘销售的过程其实也非常艰难,花了不少冤枉钱。最终能招到优秀的销售人员,也是对公司产品 go to market 效果的一种验证。如果销售人员感觉这个产品卖不掉,就根本不会选择加入我们。

第二,如果你想认真做海外市场,尤其是做 To B 业务,就得给自己留 300w 美金的预算,这是你逃不过的学费。

大家至少要做好前三年每年投入百万美金,却一毛钱产出都没有的心理准备。如果你觉得无法接受,那不好意思,你还是别做了。PingCAP 能做到今天这个程度,至少犯过一个价值 5000w 美金的错误。

第三,你要把你的注意力投入到全球化这件事上。刚开始做海外跟重新创业没什么区别,需要 CEO 能够以创业公司的方式去快速调动资源,使公司能够迅速在海外运转起来。

再往下,我们来讲讲具体执行层面的坑和 Tips。

首先从产品层面来说,中国很多公司,尤其做企业服务的公司,经常会犯几个错误。

第一个错误是,大家把「安全合规」的优先级定得太低了,总是优先卷产品性能。但在海外,「安全合规」才是最应该优先投入的,因为它能让你赚大钱,而产品性能其实做到够用就行。

比如,如果你去看海外的产品,就会发现它们都会把安全性作为一个重要的宣传点。

再比如,在美国,金融行业的客户一定会要求你提供 SOC 1 和 SOC 2 的合规证明,保险和医疗相关的客户一定会要求你提供 HIPAA 的合规证明,而这些证明没有一年半载是办不下来的。如果你临门一脚拿不出这些证明,那这些客户就不会和你合作。

所以我建议大家去了解一下自己的产品会不会涉及安全合规的问题,如果会,就要提前投入。

第二个错误是,很多人会认为海内外产品就是同一产品的多语言版本,但我们一次次被现实打脸之后,想告诉大家一个惨痛的真相:海内外的产品完全是两个不同的产品。

以我们自己为例,在国内,我们现在还是以私有化部署为主,卖的是软件和创新。但在海外,我们只提供云服务。而软件和云服务完全是两套逻辑,有着不同的 PMF,甚至很难用同一个产品团队来完成这两件事情。

不过我们还是找到了一个最大公约数,就是开源。海内外产品的研发团队共享我们的开源内核,并且都可以继续为它添砖加瓦。

第三个高频问题是,大家在国内市场总是卷一些莫名其妙的指标,不停地陷入各种 benchmark 的陷阱。但在海外,客户只关注你的服务能为他们的业务带来什么样的价值。

因此,现在我们公司研发团队最关注的指标不是产品性能,而是能否实现「客户成功」。

第四点,中国团队对 UI/UE 的重视程度不够。然而,把官网和产品的 UI/UE 做好,是一件 ROI 非常高的事情。

这一点我们之前也做得很不好,总以为把产品做得扎实就万事大吉了。但美国团队普遍非常擅长 Storytelling,而官网和产品界面就是极佳的讲故事的地方。如果你的 UI/UE 做得不好看,客户对你的第一印象就会大打折扣。

还有一个 ROI 很高的事情就是用 AI。

AI 是现阶段提升企业运转效率的最大杠杆,怎么重视都不为过。建议大家可以多上手实践、感受 AI 的能力边界,就像费曼说的:“What I cannot create, I do not understand.”

聊完产品,我想再分享几条有关商业化的建议。

第一,谨慎选择你的客户,而不是被客户挑选。

因为我们的产品能为客户带来很高的价值,所以我们一直是这么做的,而且我们只选择大企业或者知名企业合作(虽然这听起来可能有些凡尔赛…

这里有个小 tips,就是一定要找到你所在行业最头部客户的清单。尤其是在去海外的初期,最好的策略可能是「name account」,就是给每个销售分配明确的任务,比如要求某人一定要拿下索尼、另一个人一定要拿下任天堂,而不是让大家胡乱地去聊。

而且 PingCAP 一直以来的战略就是专注于大客户。

那怎么定义「大客户」呢?就是一年能为我们贡献 100w 美金以上的客户。

底层逻辑其实就是看 LTV(生命周期价值,也就是客户在使用你的产品期间为你带来的总收益)。

100w 美金看似很高,但我的体感是,很多华人创始人经常低估一个客户的 LTV。

大家也可以停下来思考一下,你会如何定义大客户的标准?

在你拍脑袋想出来的数值基础上,再乘上三到五倍,这可能才是一个真实的北美客户的 LTV。

另外,我们接客户时也会考虑客户的潜力模型。

每当销售谈一个新客户,我都会听他们讲这个客户的 LTV 是多少、他们为什么做出这样的判断。

如果这个客户的公司状况良好、长期数据量非常大,且在数据上一年的消耗能达到几千万甚至上亿美金,那么即使他们的第一单只有 10w 美金,我们也愿意合作。但如果某个客户是一个不知名的小公司,即使他们愿意一单掏 50w 美金,我们也未必愿意接。

LTV 除了对于判断客户潜力很有帮助,对于判断公司的发展重心也有重要的参考价值。

另外,以前我很纠结到底要选 PLG 还是 SLG,但现在我觉得这两个模式的核心都与 LTV 相关:

如果你们用户的 LTV 不太长,也就是用户接受产品的速度很快、使用周期较短,那么你们就是 PLG,因为对你们来说,重点是快速迭代产品,然后让用户用得满意、愿意迅速付费。

反之,如果你们用户的 LTV 较长,那么你们自然更偏向于 SLG,因为你们要花时间总结沉淀商业的这些 Knowhow、想办法让交付实施更可靠。这个过程一定是更长的,但一分耕耘一分收获,一旦成功拿下一个客户,可能就是 100w 美金的订单。

所以根本不用纠结 PLG 和 SLG,因为你的产品 DNA 和商业模式已经决定了你要走的方向。你真正应该选择的是 Value-LG。

第二条建议,是提升自己的 Storytelling 能力。会讲故事非常关键,但这恰恰是华人创始人普遍欠缺的一项能力。

第三条建议,是把 Marketing 后置。Marketing 应该是一件锦上添花的事情,而不应该反过来先布道、再期盼产品起势。

产品最好的 Momentum 来自于客户的口口相传,所以冷启动阶段最重要的就是前几个客户。你得想办法让早期客户替你把产品故事讲出来,这样后面你也能有做 Marketing 的素材。

不过我们比较幸运,因为我们的第一个企业客户中有一位五六十岁的美国技术高管,Ta 把我们的产品介绍给了湾区的其他公司,而那些公司最后都成为了我们的客户。这里也可以给大家一个 tips,就是你要时刻记住,你要接触的目标一定是硅谷最上层的那一小部分 C-level 和 VP 们。

最终,如果你想检验自己团队的国际化水平,有两个很好的里程碑。

第一,全英文办公。比如在 PingCAP,我们开高管会时,就算参会的都是中国人,还是会用英文,因为团队后面可能会有外国人加入,如果 Ta 想回头看会议记录,是看不懂中文的。

第二,公司内部使用真正国际化的工具。不是所有支持英文的企业协作工具都是国际化的工具,正确的标准是要看海外同事是否用得习惯。

最后想分享一点,就是我宁愿我们最早在国内没有收入,这样当时反而能更坚定地 all in 全球化。

其实 2017 年刚做全球化的时候,我们在国内大概就有几千万人民币的收入了,说多不多,说少不少,又一直在增长,所以我们在国内的组织就变得越来越厚重,拖慢了我们推进全球化的进度。

回过头用全球化的视角去思考,会发现在中国做企业服务,老实讲还是太难了。如果真的看利润率,我们现在在其他地区都在赚钱,只有在中国还在亏钱。

所以,如果现在有公司想做全球化,我最后的建议是:

坚决一些。


42章经

思考事物本质



阅读原文

跳转微信打开

张津剑:投资中的频率与频谱 | 42章经

2025-06-08 22:01:00

原创 张津剑 2025-06-08 22:01 中国香港

AI 与人类注意力机制

自从那篇著名的论文《Attention is All You Need》问世以来,Transformer 架构不仅首次赋予了机器 Attention、推动了 AI 技术的飞跃,也进一步促进了人类对注意力机制的研究,促使我们以全新的视角重新审视自身对信息的感知与理解。

有趣的是,人工智能正通过不断演进的注意力机制,变得更专注、更目标导向、更具长期思维;而人类却在汹涌的生成式内容中愈发迷失,变得迷茫、割裂,碎片化。

之所以会出现这种差异,本质上是因为 AI 和人类的注意力机制截然不同。

信息越密集,对注意力的要求就越高,能耗也越大。然而,AI 消耗的是算力,可以通过增加计算单元做加法;人类消耗的则是心力,只能靠聚焦与克制做减法。

前者容易,后者难。

特别是随着世界运转速度的加快,保持专注和收拢注意力变得越来越困难。我们的注意力机制正在逐渐失效,甚至崩溃,导致许多人失去了独立判断的能力。

结果是,世界的分化程度日益加剧。

这种分化在社会的各个层面都有所体现,包括宏观的地缘政治、中观的贫富差距,以及微观的夫妻关系。

过去,人们能够在面对波动时进行独立判断,之后形成共识,然后携手共渡难关,形成「你好我也好,你差我也差」的局面。然而,现在「你差我好」或「我差你好」的情况却愈加普遍。

因此,可以说,当今世界许多问题的根源在于我们的注意力失控了

为了更好地说明这一点,我们可以尝试从信号处理的角度,先来理解一下注意力机制。

任何一个信号系统,基本结构都可以简化为「输入——处理——输出」。

人类也不例外。眼、耳、鼻、舌等感官器官就像传感器,负责将外界的信息传递到我们的大脑中。这些信息在进入大脑后会被加工处理,最终以某种形式转化为行动输出。我们输出的行动可以是看得见的动作、语言或表情,也可以是看不见的想法、判断或偏好。

所以人类也可以被进一步概括为一个「感知——处理——行动」的信号系统。

但人类的这三项能力之间存在巨大的鸿沟。

人的视网膜每秒接收到的信息量约为 10^9 比特,相当于一段两分钟的 480P 视频;大脑每秒能处理的信息量,只有 10^6 比特,约等于一本小说的容量;而最终真正能转化为行动的输出带宽更低,仅有 10^1 比特,也就是一条指令的水平。

所以我们的感知能力远大于处理能力,处理能力又远大于输出能力。

那怎么办呢?

在信号处理中,为了解决这类问题,我们会引入滤波器来「去噪」,也就是过滤出信号、剔除掉噪声。

对于人类而言,为了解决信息过载的问题,我们也进化出了一种主动过滤器——注意力机制。这个机制能够帮助我们在信息洪流中忽略大量无关的噪音,并能根据我们目标的变化灵活调整,确保我们始终能专注于最关键的信息。

例如,当我们聚焦于某一个人时,眼中几乎只剩下这个人,周围的一切声音和画面都会自然消失。这,就是注意力滤波器在起作用。

一个真正专注的人,能够在不同情况下过滤出最重要的信号。这些信号就是我们常说的主要矛盾,也就是事物演化过程中的关键变量。

相反,一个不够专注的人则很容易被信息裹挟,或者被他人的节奏带走,变得人云亦云。

这是因为当我们的注意力机制崩溃时,我们会放弃主动感知世界,转而去处理高刺激信息,或者直接依赖他人的行为来进行判断。

于是,「抱团取暖」的现象也就变得越来越普遍。比如现在火的赛道特别火,哪怕是已经明显出现泡沫的领域,依然有大批人争先恐后地往里挤,而凉的赛道则完全无人问津。再比如凉的赛道可能突然就火了、火的赛道也可能突然就凉了。

这就像信号学里的「拉尔森效应」,它指的是,当信息输入和输出端口距离太近时,因信号循环而产生的啸叫现象。

比如当你把麦克风靠近音箱时,麦克风拾取的信号会传入音箱,而音箱发出的信号又会被麦克风拾取,如此反复,就导致信号不断自我增强,从而产生啸叫。

其实,今天的世界,每时每刻、各行各业都在啸叫。

在这样的世界中,「专注」会变得越来越有价值。

而且「专注」对于现在的创始人来说也愈发重要。人之所以会感到越来越心累,正是因为注意力分散造成了高能耗,而优秀的创始人往往清楚自己应该在什么时间将注意力集中在哪里。

当大多数人把注意力放到别人身上、跟风行动时,如果你能够静下心来管理自己的注意力,专注感知这个世界,你会发现这个时代的机会恰恰在变多,而不是变少。

比如 2023 年,我们关注到具身智能时,市场上还没有这个专有名词,我们内部对这个赛道也有质疑的声音。为了求证具身智能的市场空间,我们组织了一个小组出去调研了一圈,得到的市场反馈大多也是负面的。当时甚至有朋友跟我们说,他们在 15 年投的机器人项目一直都没能退出,劝我们千万不要进入这个天坑(笑)。

但这样的市场反馈反而让我们认定了这个方向是有机会的。因为很多事情其实早已在暗中发生了根本性的变化,只是因为没人关注,所以还没有得到应有的估值。

如果你能赶在别人前面注意到这样的领域,那恭喜你,你就找到了属于你的机会。

就像我认识的一位非常优秀的创始人,他本硕博连读于某领域最顶尖的学府。毕业后,出乎很多人意料的是,他选择了一个极其冷门的底层研发方向去创业。

当时我非常意外,问他为什么要做这个方向?

他说:“因为我的起步条件不算好,所以要找到一个不受关注、不需要跟别人卷资源、但未来 5-10 年有机会重大突破的领域。关注这个方向的人越少越好,因为只有这样,才有属于我的时间和机会。”

我又追问:“但你知道吗?你选择的这个方向还受政策限制,国家都没有发放过相关牌照。”

他回答:“我知道。但就是因为没人做,所以科技没有突破,国家不发牌照。我赌我做了之后,国家早晚会发牌照。”

于是,这位创始人和不到十个人的团队,埋头研发了整整 7 年。

到了 2023 年,国家终于发放了第一批牌照,全球仅有四张,其中就有他的一张,且他们的成本大幅低于全球其他公司。

所以,大部分人类的博弈,归根结底都是注意力的博弈。

今天无论是创业者还是投资者,如果想拿到想要的结果,一件非常重要的事情就是管理自己的注意力。你的注意力在哪里,你的世界就会在哪里显化。因为世界并非一个客观存在的实体,而是我们在感知和处理信息之后所渲染出来的结果。换句话说,没有所谓的客观世界,只有被我们所感知到的世界。

那具体要怎么拿结果呢?

很简单,就是要明确自己的需求。滤波器是一种目标越清晰、能耗越低的装置,所以你的需求越明确、你的注意力越专注,实现需求也就越容易。

进一步来讲,就是要认识自己、做自己。

这说起来很简单,但大家真的做起来往往会遇到两个问题:

第一,很多人其实并不了解自己,只是一味地在用他人的评价或者市场反馈来给自己贴标签。他们根本不清楚自己到底喜欢什么,或者总觉得自己喜欢的东西估值不够高、不符合世俗意义上的成功,所以不够高级。但其实你喜欢什么,什么就是高级的。

第二,很多人认识自己之后却不敢做自己,因为不相信这样做真的会有好的结果,于是更希望改变自己,向主流叙事、向他人的长板看齐。

回到 AI,就像开头所说,人类一直在利用技术帮助 AI 构建注意力机制,使其具备抓住重点和专注于重点的能力。

引入注意力机制后,AI 的能力确实实现了飞跃,它能够胜任的工作范围也在不断扩大。我们相信,AI 还将持续取得突破。人工智能在几乎所有工作中超越人类只是时间问题,而且这个过程不会太久。

因为人类实际上是非常局限的。这种局限性不仅仅体现在大脑的处理能力上,也体现在我们感知世界的能力上。

大家知道,眼睛可以看到图像,耳朵可以听到声音,皮肤可以感受到压力、温度和湿度。

毫无疑问,人类是一个多模态的大模型。

那么,是否存在一个维度能够统一图像、声音、气味、温度等不同模态输入的信息呢?

我们可以换个视角来讨论这个问题。假设信息是一个函数,我们在《投资中的高频与低频》中分享过,任何函数都可以通过傅里叶变换分解为不同正弦波的叠加,而每一个正弦波都对应着一个稳定的频率。例如,吉他的每根弦对应着一个频率,也对应着一个声音信息。当我们对弦施加不同的压力时,频率会发生改变,声音信息也随之改变。

所以频率可以简单理解为一个正弦波每秒变化的次数,例如,心脏在一分钟内跳动 60 次,那么它的频率就是 1Hz;而运动后,心跳变为 120 次/分钟,此时心脏的频率就是 2Hz。

不同的信息都可以在频率这个维度上进行统一。例如,可见光的频率大约是 10^15Hz,而声音和气味的频率则不超过 10^4Hz。

频率跨度从低到高范围很广,我们把这个范围称为频谱。

而不同生物的感知频谱是不一样的。例如狗的嗅觉频谱就比人的更宽,因此它们可以获取更多的气味信息。

其实,人和人之间的感知频谱也存在很大差异。有些人天然频谱更宽或者感知颗粒度更高,也就是我们所说的更敏感。所以我们也不要妄加评判另一个人,特别是不应该评判那些高敏感个体,因为他们的世界可能是我们完全无法感受到的。

那我们将常见的频谱画出来,就可以看到,人类能够感知的部分其实是非常有限的。

图中横向的坐标轴表示人类已知的电磁波频谱,彩色标注的部分是人类能够感知到的感官和模态。后者仅占前者的1/10^9。

正是由于这种有限,我们也一直在努力拓展对频谱的感知和存储能力。

我们发明了核磁共振、X光机、气象雷达、引力波探测器等工具,以辅助我们感知那些远超人类生理极限的信息频段。同时,我们还通过跨模态的方式记录不同模态的信息。比如,我们发明了乐谱,用图像存储声音信息,实现跨模态的信息存储。

然而,这些方法本质上都是对信息的影射,也就是将其他频段的信息转化为我们能够感知的信息。在这个过程中存在大量的信息损耗,因此也具有很大的局限性。

这时我们再来看 Agent,你们不觉得 Agent 强的可怕吗?

因为理论上来说,Agent 可感知的频谱是无限的。

今天我们讲的多模态大模型,其实也才刚刚起步。现在我们只有语言模型、语音模型、图像模型和视频模型等,但未来完全有可能出现触觉模型、温度模型、气味模型等全频谱模型。

从这个角度出发,我们不认同「数据不够了」这种观点。有人认为我们已经用尽了互联网上所有可用的图文、音频、视频数据,但这些数据仅仅是人类能够感知并记录下来的三种模态。X 光的数据我们用过吗?伽马射线呢?大脑中的 α 波呢?

这个世界每天都以各种方式产生大量数据,只是很多数据我们无法感知,因此未能很好地加以利用,甚至还没有创业者思考如何使用它们。

再往后发展,我们相信未来会迎来一波传感器的爆发。各种各样的传感器将被制造出来,用来帮助 Agent 感知从伽马射线、X 光到红外线等所有人类无法感知的频段。然后,Agent 会凭借它的全频谱处理能力解读这些数据,并通过语言模型将不同模态的信息整合起来,最后通过具身智能付诸行动。

最终,我们相信未来的 AI 将是「传感器 + Agent + 具身智能」三位一体的系统。它所能感知的世界将超出我们的想象。而这个系统应该运行在区块链、而非传统的互联网上。换句话说,区块链未来将是 Agent 的互联网。

基于这种相信,今天很多创业项目的方向可能就不对。

很多项目现在依然是「以人为中心」来组织工作。无论是 copilot 还是 deep research,都是试图通过各种方式让 AI 来赋能人类。

但面对一个可能具备全频谱的感知、处理,和行动能力的信号系统,我们应该思考的是如何「以 AI 为中心」来组织工作。

我们不应该把重点放在「如何把 AI 融入我们的工作流」上,而应该反过来思考「我们能怎么融入 AI 的工作流」,以及「我们能为 AI 提供什么」。

那讲到这里,大家可能会有一个问题:如果 Agent 知道得比我多、算得也比我快,那人类在未来是不是就毫无用处了?

不是。人类有两个独特的价值。

第一,提出需求。

如果说工业革命是「谁创造供给、谁就创造价值」,那么人工智能时代将是「谁创造需求、谁就创造价值」,因为人工智能时代的供给将趋近于无限。所以我们今后要更多地认识自己、探索自己、了解自己,明确自己要解决哪些问题。

第二,审美。

审美首先是我们为了节约大脑算力而进化出的一种预测算法。我们通常会对新信息进行预判,然后仅对「变化」——也就是与我们预判不一致的部分进行计算,而不会对全局信息进行计算。

我们常说有些科学家很有技术审美,指的就是他们能够在技术路径尚不明确时,凭借「感觉」找到正确的方向。这种能力其实是长期实践与积累的结果。

然而,这种节能机制也有副作用。尤其是在创业者中,很多人都有一种被称为「Wishful Thinking」的思维方式,美其名曰「理想主义」。但实际上,「Wishful Thinking」是一种懒惰,是你的大脑发现「变化」时,本该重新计算、却不愿意重新计算一遍,进而渲染出的偏执错觉。从这个角度来看,「实事求是」就是一种勤奋。

另外,审美不仅仅是一种算法,它还是超越单一模态的处理结果。比如,你遇到一个合伙人,Ta 和你聊得很好,Ta 的思维也非常缜密,但你就是感觉哪里不对。这种「感觉不对」可能并非来自于意识层面的分析,而是你整合了触觉、嗅觉等多模态信息后形成的一种综合感受。

如果某样事物能令我们产生「美」的感受,通常意味着它会带来正反馈,反之则可能意味着危险。比如,我们觉得笑容很美,是因为笑容往往代表善意与接纳。而我们下意识地躲避一个面相凶残的人,则是因为我们会直觉性地察觉到对方的暴力倾向。

人类之所以会发展出审美,正是因为我们的感知和处理能力有限,因此需要审美来帮助我们趋利避害。而这种审美可能超越了多模态的处理结果,甚至超越了二元对立,成为某种一体性的影射。

而 AI 却因为它的无限性,所以不具备审美。这也意味着,在 AI 时代,审美将成为人类所能拥有的核心价值。

所以每一个人都应该思考:你对什么事物的审美明显高于他人?这个事物可以是任何形式,比如艺术、代码、机械结构。只要你对某个事物的美有着超越平均水平的判断和表达,那么你就拥有了在 AI 时代最稀缺的能力。

今天我们聊了很多关于人的「有限」和 AI 的「无限」,看似人在面对 AI 时有诸多劣势,但实际上,恰恰是人类的有限性,促使我们进化出了注意力、主观预判、审美这些独特的能力,也让我们有动力将有限的人生活出无限的精彩。

你可以想象一下,如果你拥有无限的资源和资金,你还会想要创业吗?大概率不会了。你可能会拍拍合伙人的肩膀说:「去玩吧,我们什么都不缺」。就好比如果你打游戏时开了外挂,那么这个游戏一下子就会变得索然无味。

所以,在 AI 时代,我们要做好两件事。

首先是保护好自己的「心力」。心力的强弱直接决定了我们注意力的表现。如果说工业革命让人类的核心价值从体力转变为智力,那么我们相信,AI 会让人类的核心能力从智力转变为心力。

其次是回归审美。这个回归的过程,本质上就是一个去除噪声的过程,也是人类展现个体的独特价值的过程。我们需要把注意力重新放到自己身上,相信自己的直觉和判断,而不是依赖他人的信息和行动。

这些年,我们聊了很多创业者,最后发现,真正优秀的创始人未必比他人更聪明或更勤奋,但他们总能在最艰难的时刻选择坚持,在最辉煌的时刻保持平和、克己,在最进退维谷的时刻展现出勇气与坚韧。

以上,和大家共勉,愿我们都能在 AI 时代保持自己的生命力,不断进化,成为一个有审美、有定力的个体。

P.S. 绿洲资本最近也发布了他们自己的播客《信号与噪声》,希望在这个信息纷杂的社会中,和充满生命力的个体一起去除噪声,回归纯粹,感兴趣的也欢迎关注。


【张津剑 | 信号与噪声系列文章回顾】

投资中的高频与低频 2024.6.2

投资中的节奏与结构 2023.6.18

投资中的周期与载波 2021.3.14

投资决策中的信噪比 2020.2.23

投资中的信号与噪声 2018.12.2


42章经

思考事物本质



阅读原文

跳转微信打开

Agent 开发的上半场: 环境、Tools 和 Context 如何决定 Agent | 42章经

2025-04-27 22:11:00

原创 曲凯 2025-04-27 22:11 北京

如何设计和开发一个“真” Agent?

曲凯:Agent 是当下绝对的风口。关于 Agent 这个话题,我自己有一些核心在思考的问题,相信也是很多人同样会有疑问的地方。所以今天我们请来了长时间对 Agent 有研究和实操的文锋,想就这些问题展开一些讨论。

首先我想问,到底怎么定义 Agent?

文锋:我认为最好的就是 Anthropic 的定义:Agent 是让模型基于环境反馈去使用工具的一个程序。

曲凯:那你怎么看最近这波 Agent 热?

文锋:这波 Agent 跟过去非常不一样。

23 年 4 月以 AutoGPT 为代表的那一波里,Agent 更像是一个玩具,demo 都很炫,但实际应用价值很有限。

经过两年的发展,这波 Agent 确实能够在实际的工作和生活场景中解决问题,为大家带来价值了。

之所以会有这种跃迁,一是因为底层模型能力有了很大的进步,尤其是在结合了 RL 之后,以 o1 为代表的模型还赋予了 Agent 长思维能力。

二是因为 Agent 的工程侧和产品侧也有很大的突破,主要表现就是大家更知道该怎么给 Agent 构建一个合适的 Context,从而更好地解决问题了。

曲凯:怎么理解这个 Context?

文锋:Context 指的就是大模型执行任务时所需的各种信息的总和。

具体来说,不同产品的 Context 都不太一样。拿我们的产品举个例子, Sheet0 是一个 Data Agent,核心目标是打通整个数据工作流,让 Agent 自动完成在网页上收集数据、处理数据,再到基于数据采取行动的全过程。

我们的 Context 就包括网页、收集整理的数据表格、用户下达的指令,以及分析数据时生成的一些 SQL 等等。

曲凯:但 Agent 中的 Context 有什么不同?因为大家做其它产品时,好像也约定俗成地会把各种信息收集起来,然后加到 Prompt 或者是 RAG 中去使用。

文锋:核心区别在于 Context 的来源。

还以 Sheet0 为例,如果用之前 RAG 之类的方式,会有很多需要人工干预的步骤,比如网页里有很多无关紧要的信息,那就需要人工把有效信息提取出来,再比如过程中生成了一个 SQL,也需要人工校验它的准确性。

但在 Agent 中,这些信息会以某种自动化的形式被提炼出来,不需要人的参与。

曲凯:明白。然后最近大家经常听到 Function Call、MCP、A2A、Computer Use、Browser Use 等概念,能不能帮大家快速梳理一下它们之间的区别?

文锋:这些概念本质上都是在解决同一个问题,就是让大模型更有效地通过工具调用 (Tool Use) 去执行任务。

Function Call 最早由 OpenAI 提出,能够让大模型通过调用外部函数实现 Tool Use。但是因为不同系统的调用标准都不太一样,就好比 +86 的手机号在美国就没法接打电话一样,很可能你到了另外一个国家,就得把所有东西都重做一遍,所以它不太通用。

为了解决这个问题,就有了 MCP。MCP 的核心价值在于「统一了 Tool Use 的度量衡」,极大地降低了这件事的门槛。它可以把任务拆解成多个子任务,而每个子任务都有模块化、有统一标准的组件。通过这种方式,最后大家就能更加自由地调用各种工具。

至于 Google 最近推出的 A2A,我认为它并没有提供新的技术解决方案,更像是一个大厂为了争夺 Tool Use 话语权而强行推出的 KPI 工程,然后找了一堆合作伙伴来推广。

A2A 号称自己和 MCP 的区别在于,MCP 只能让 Agent 通过函数接口去调用外部工具或者 API,而 A2A 却可以实现 Agent 之间的交互。但其实这两种交互方式并没有本质区别,因为 Agent 本身也有函数调用的接口,所以 MCP 也能间接实现 Agent 之间的交互。

Computer Use 和 Browser Use 指的是让大模型把电脑和浏览器作为工具来调用。浏览器可能是大模型目前能调用的最重要的工具之一。

曲凯:我听下来感觉这些 Tool Use 方案整体分为两派,一派是 Function Call、MCP、A2A,背后的逻辑是直接用代码来解决问题,另一派是 Computer Use 和 Browser Use ,会结合一些视觉识别或者是 RPA (机器人流程自动化) 的方案,模拟人类来解决问题。

文锋:是的。但这两派并不互斥,比如你也可以用 MCP 的方式来进行 Browser Use。

Browser Use 本质上是让 Agent 通过 GUI (图形用户界面) 与网页进行交互。具体来说,可能后端的大模型会收到一张浏览器的截图,然后去判断上面的交互元素、推算出一个坐标,之后再在前端模拟人类的一系列操作,比如驱动鼠标移动到那个坐标上点击一下,或者输入一些内容,就好像 Agent 真的在使用浏览器一样。

但这个纯视觉的方案还远远不够成熟。国外有一家在 23、24 年非常火的叫 Adept 的公司就是这么做的,但这家公司现在已经死了,因为这个事太难了。

所以实际上,现在大家调用 Browser Use 时,通常需要 MCP 作为中间媒介。大家会把浏览器的 API 包装成 MCP 的组件,然后通过代码的形式让 Agent 完成后续的操作。

曲凯:类似于 Agent 在前端给人演了一场戏。看似它在模拟人类的操作,其实背后还是代码在驱动。

但毕竟很多公司还没有兼容 MCP,甚至之后可能有的公司为了保护自己的用户数据,更不愿意去兼容。那会不会之后大家就不得不用模拟人类的这种方式去进行 Browser Use?

文锋:MCP 是一个标准化的接口,所以这些 SaaS 软件是不是兼容 MCP 不重要,重要的是它们有没有 Open API,因为 Open API 都可以被包装成 MCP 来使用。而在国外的软件生态中,Open API 基本是标配,所以 MCP 的适用范围非常广泛。

不过海内外情况很不一样,因为国内大多数公司还没有开放 Open API 或者 SDK(软件开发工具包),所以这条路径确实被堵住了。

曲凯:所以我们可以得出一个结论,如果未来公司能够开放各种后端接口,那我们就可以直接通过代码的方式去调用工具。如果不支持,那就只能通过视觉和模拟人类使用电脑的方式来解决问题。

文锋:对。这两种方案我们都试过,虽然现在视觉的方案在稳定性和准确度上还不够高,比如我给 LLM 的截图中有一个提交表单的按钮,它常常会把那个坐标算错,但这种方式的优势是成本低、速度快,消耗的 token 至少会少一个数量级。

所以这两种方案各有优缺点,可以结合起来使用。至于具体如何结合才能更高效,就需要开发者根据实际需求调整配比了,因为每个 Agent 想解决的问题都不太一样。

曲凯:说起来我想到前几周我在美国时,有一个专业做 Agent 算法的人问过我一个问题。他非常不理解为什么 Manus 要用 Browser Use,因为在他的理解中,只要后端的代码能打通,那就能直接解决所有问题了,没必要再在前端搞个浏览器窗口。

你会怎么回答他这个问题?

文锋:我们在设计 Agent 时,一个关键问题是怎么给用户营造一个「可信的氛围感」,让用户更相信 Agent 生成的结果。

为了做到这件事,非常重要的一个手段就是让用户以一种好理解的方式看到 Agent 执行任务的全过程。

那浏览器就是一种天然对人更友好的呈现方式,远比代码界面这种黑乎乎的窗口要来得生动、直观。

曲凯:那 Devin、Manus、GenSpark 各自用的什么方案?

文锋:Devin 和 Manus 都是 Coding 和 Computer Use 混合的方案。

至于 GenSpark,我用它跑了一些任务,感觉它可能也在后端调用了一些网页的 API,但前端并没有像 Devin 或者 Manus 那样,通过浏览器窗口将网页使用的过程暴露给用户。

从这个角度讲,我觉得 GenSpark 可能还不太符合我心目中 Agent 该有的体验。

曲凯:但从用户的角度来看,最终能解决问题不就行了?为什么要在意 Agent 后端到底有没有在运行什么东西,或者能不能像人一样使用电脑或浏览器?

文锋:这是一个非常好的问题。

这个问题的核心在于要让用户时刻感受到自己在掌控一切,因为人都会有不安全感,那把一切都透明化就是建立安全感的关键所在。

举个例子,假如你是我老板,然后给我分配了一个任务,如果我们之间要建立信任关系,可能就得让你看到我是怎么做事的,并且能了解到我大致的思路。当你足够了解我之后,你才会对我产生信任。

曲凯:这点很 make sense。其实本质上是大家觉得 Agent 还不 ready、不靠谱,所以需要看到它执行任务的过程,也需要通过回答问题之类的方式时不时地参与到它执行任务的过程中。

然后我觉得当下市场对 Agent 的讨论和理解,其实很像两年前 LLM 那一波。当时很多人都在讨论未来究竟属于通用的 AGI 模型,还是垂直领域的模型,又或者是创业公司自己开发的小模型等等。

那现在大家也开始讨论 Agent 的终局会走向通用还是垂直。你怎么看这个问题?

文锋:我认为我们现在处于,并且将长期处于一个垂直 Agent 的时代。

我最近特别喜欢用做饭来举例。很多人都会做饭,但我们做饭可能就是拿出手机、打开菜谱软件,然后再照着菜谱一步步操作。

而一个更好的 Agent 就像是一位五星级酒店的大厨,受过多年的专业培训,不仅不需要菜谱,而且做出来的菜色香味俱全,比我们强很多倍。所以人家是大厨,我们只是会做饭的普通人。

曲凯:明白。然后至少在过去半年中,市场上最热、拿到最多钱的两条赛道就是 Agent 和 AI Coding。那最终 AI Coding 和以 Coding 为核心的 Agent 会殊途同归吗?

我原本觉得这两条赛道井水不犯河水,但越来越觉得它们未来很有可能会走到一起,因为现在很多 Agent 都在用 AI Coding 的解决方案。

文锋:而 AI Coding 那边也在讲 Coding 是一切的基础设施(笑)。

曲凯:是啊哈哈,甚至前几天我还看到一条新闻说 Coding 可能也是未来 AGI 的基础。

理论上讲,AI Coding 和 Agent 最终好像确实可能会殊途同归,举个极端的例子,如果我们要做 Browser Use,其实完全可以让 AI Coding 直接做出一个 Browser 然后自己去 Use,不是吗?

文锋:理论上是可以,但这种方式的经济成本和时间成本都太高了。

AI Coding 只能说是大模型执行任务的一个强有力的工具,这个工具存在两个关键问题,一是很难和其他工具协同,二是很难复用。

如果我们用 AI Coding 直接去执行任务,那它需要先拆解任务,然后针对每个子任务逐一写出能够运行的程序,并且之后每遇到一个新任务,都要从头到尾来这么一遍,非常低效且消耗成本。

所以对于 Agent 而言,最好的选择是在解决任务时先看看手边有没有现成的工具,如果找了一圈实在没有,再考虑用 AI Coding 现场造。

曲凯:明白。那 RL 和 Agent 之间的关系是怎样的?创业公司最终应该如何应用 RL?

文锋:Agent 这个概念本身就源于 RL,所以如果你不理解 RL,就很难理解 Agent 到底是什么,也就很难设计出一个好的产品。

那要做好 Agent,我们就先得了解 RL 中对 Agent 的定义。RL 中的 Agent 有三个要素:

1) 状态,对应 Context。

2) 行动,对应 Tool Use。

3) 激励信号,指的是当 LLM 采取行动后,用于评估它每一步操作的效果、指导它下一步行动的反馈信号。

那么对于创业公司而言,非常关键的就是如何在你的产品中打造出一个好的「环境」。这个环境需要清晰地描述当前的状态,Agent 可以采取哪些动作,也就是行动空间,以及对于结果好坏的定义。

其中,行动空间决定了你设计的 Workflow 中要有多少个节点。

而之所以一定要定义好结果,是因为只有这样,你才有可能设计出一套有效的评估体系和激励机制,进而不断让 Agent 基于动态的反馈去自我迭代。

如果你没定义好结果,那整个系统就没办法收敛。无法收敛就意味着最终 Agent 很可能给用户一个质量很差的结果,或者呈现出一种「什么都会一点、但什么都不精通」的状态。

所以我也很建议所有 Agent 开发者和产品设计者都去读一下强化学习之父 Richard Sutton 的《Reinforcement Learning: An Introduction》。看完这本书你会收获一个 mindset,让你能够在设计产品的时候不断地思考、调整、定义你的环境。

曲凯:怎么评判环境的好坏?

文锋:评判一个环境好不好,关键是要看这个环境能不能基于行动的结果来提供一个激励信号。

这么看,IDE 就是一个好的环境,因为只要  Agent 生成一段代码,就能立马在 IDE 中运行,而一旦这段代码跑不起来,IDE 就会生成一个报错信息。这个报错信息天然就是一个激励信号。

曲凯:明白。那你觉得 Workflow 会完全被 Agent 取代吗?

文锋:不。我认为 Workflow 和 Agent 会长期共存。

这两者的本质区别在于,Workflow 由人类驱动,而 Agent 由 AI 驱动。

人驱动的好处就是稳定、可靠,但缺点就是它缺乏泛化能力,比较死板。AI 驱动则恰恰相反,它更泛化、更灵活,能应对一些你事先没想过的问题,但它的缺点就是不确定性很高,10 次里面可能有 5 次都会搞砸。

所以 Agent 适合解决世界上 20% 更开放、需要长期探索和试错的任务,而其余 80% 更日常的问题,用 Workflow 完全足够。

曲凯:你已经做了一年多的 Agent,有积累哪些非共识的认知吗?

文锋:我认为「Chat」是 Agent 最重要的交互入口。

因为对于 Agent 来说,用户交互的自由度是第一重要的事情,其重要性远高于交互的准确度。

一旦你限制了用户的自由度,其实就是在让用户来适应你的产品,加重用户的认知负担。而一个好的 Agent 应该足够智能,能让用户像幸福的小朋友一样自由地使用它。

那么在现有的交互方式中,Chat 就是最能保障用户交互自由度的形态。

当然,并不是说准确度就不重要,只是我认为这不该是用户需要承担的问题,而应该由开发者和产品设计者去解决。实际上,业界也有很多方法来提升准确度,比如引入 Human-in-the-loop,或者像 Devin、Manus 那样积累用户偏好,再比如你也可以做更多的产品设计,比如通过向用户提问,来引导用户逐步把模糊的需求细化,直到变得具体可执行。

你不需要额外设计很多接口,也不需要在前端堆砌太多组件,但可以在恰当的时机把合适的组件推到用户面前。就算你设计了 200 个组件,但实际上用户的需求都不大一样,所以每个用户可能只用得上其中的 10 个,那就没必要把这 200 个组件全摆出来,徒增用户的认知负担。

曲凯:综合你说最后这点我很同意。单纯一个聊天框不一定是最高效的交互方式,但如果在聊天框基础上能结合一些场景推荐的 UI 组件,确实是一个挺合理的方案。

不过要实现这种交互形态,首先得做好意图识别,判断好用户到底想要什么。而且意图识别和 Context 好像是互为依赖的,Context 越多,模型就越有可能猜准用户的意图;反过来,在理解了用户的意图之后,模型也需要更多 Context,来判断该怎么做才能更好地完成整个任务。

文锋:所以模型本身要有能力去判断当前的 Context 是否充分,如果不够,就得通过调用外部 API,或者借助 RAG 之类的方式去获取更多的 Context。

曲凯:这件事其实和模型本身的智能程度,还有垂直领域的 know-how 都很相关。

文锋:是,另外开发者在 Agent 中预设的 System Prompt 也可以辅助模型的表现,像 Cursor 和 Windsurf 就有几千行的 System Prompt。

曲凯:System Prompt 其实也只在垂直领域才奏效,因为你要写出有针对性的 Prompt,就得知道用户的目标,而且你对这个领域越了解,写出的 Prompt 可能就越精准。

举个例子,如果你要做一个专门搞研究的 Agent,那你就可以针对研究这个场景提前预设一个 System Prompt,因为它每次执行任务都可以按照搜网页、找数据和相关文章、摘要重点信息、最后输出成 Excel 或 PPT 这个流程去操作,而且每一步都是独立的,可以单独进行优化。

但如果你要做一个通用 Agent,那面对用户千差万别的需求,你就很难写出一个适配所有任务的 System Prompt。而且通用 Agent 每一步动作都高度依赖上一步的结果,所以很可能会「一步错,步步错」,拉低最终结果的准确率。

文锋:是的。总之起手收集到的 Context 越多越好。

曲凯:所以我记得之前苹果会记录你打开某网页之前刚看过的那个网页,其实这就是在收集 Context。包括 OpenAI 最近刚出的记忆系统,本质上也是在构建一个 Context。

前几周我和张月光吃了顿饭,他也提出了一个特别好的观点。

他说你点开某个 APP 的那一瞬间,其实就已经提供了海量 Context。比如你点开美团大概率就是想点外卖,点开滴滴就是想打车,所以这些 APP 的产品设计都是基于这些 Context 展开的。

然后用户使用你这个 APP 的过程中,还会持续产生更多的 Context,比如输入了什么内容、做了什么操作等等。所有这些信息结合在一起,就能帮助系统更精准地识别用户意图、预测下一步的需求,甚至主动发问,引导用户获得想要的结果。

文锋:对。你想更好地了解一个人,就要看 Ta 的过去。同理,你想更好地理解用户的意图,就要追踪 Ta 从哪里来、以及过程中的路径是怎样的。

就好比下围棋,当前这一手没那么重要,重要的是你得理解对方前面一百手棋是怎么下的,因为只有这样你才能判断对方整盘棋的思路,进而推测出 Ta 接下来的策略,并做出相应的动作。

曲凯:所以 Google 很早就在保存用户的 cache。

文锋:这确实是 Google 在 AI Native 时代最大的竞争优势。这些海量的用户点击数据,未来都可以用在意图识别中。

曲凯:是。你对于 Agent 还有什么其它的非共识理解吗?

文锋:Agent 开发者还要解决好两个信任问题。

第一,你要信任大模型的能力。

如果你不信任大模型,就会退回到 rule-based 的老路子上去,给模型加一堆限制条件,比如通过 Prompt 不断告诉模型「你是谁、你只能做什么、不能做什么」等等。但其实这样是在人为限制大模型的泛化能力,导致 Agent 对模型智能的利用率大大降低。

第二,你得思考怎么通过产品设计,让用户信任 Agent 给出的结果。

这方面有个特别好的例子就是 DeepSeek R1。在 R1 之前,我用一些类似的产品生成报告时,拿到结果的第一反应往往是「这靠谱吗?」,因为我不知道这个报告是怎么来的,中间有没有出错。

但 R1 第一次让我看到了 AI 的推理过程,所以我心理上更有安全感,也更愿意相信这个结果。Manus 其实也是类似的机制。

曲凯:明白。再聊聊 Sheet0 吧,你前面说它可以自动完成数据收集、处理,以及基于数据采取行动的全过程。能不能举个具体的例子?

文锋:比如我们可以自动化执行这样一套流程:先抓取 YC 最近几期的初创公司列表,然后找出每家公司的创始人是谁,再进一步查找他们的 Twitter 账号并完成关注,最后再发个私信去建联。

这个流程我们已经做到了 100% 的准确率。

我们也试过用 Deep Research 和 Manus 去执行这个任务,但发现它们都会丢数据。而且 Deep Research 拿到数据之后,只能生成一份报告,无法像我们一样完成后续的建联动作,而 Manus 虽然具备行动能力,但它每一步都在动态 Coding,过程中需要不断 Debug 和调整,所以很难保证稳定性和成功率。

曲凯:所以你们怎么做到的 100% 准确?

文锋:我们用了一些 AI Coding 的技术。但这还不够,我们还在整个流程中预先搭建了很多小的工具模块。这些工具都是我们提前验证过、确保好用的。每次拿到一个新的任务,模型都可以直接调用这些模块,而不是从头写一段程序。

这种方式背后的核心逻辑就是「复用」。这样做效率更高,成本也更低。

但 Manus 不是这种思路。Manus 每遇到一个问题,都要打开 IDE 从零开始写代码。

并不是说 Manus 的方式一定不好,因为 Agent 的通用性和准确率之间有一个 trade-off,你越追求通用性,就越依赖模型的泛化能力,但泛化程度越高,随机性也会越高,结果的不确定性也会变大。最终选择哪种模式,取决于你到底想做出什么样的 Agent。

曲凯:所以如果你想要一个既通用又准确的 Agent,就得让团队投入大量时间和精力,手搓各种各样的工具组件。

文锋:是的。但也不是什么都要手搓,有时候用现成的工具反而更划算。比如像发邮件这种简单的流程,就很适合手搓一个模块,但如果是数据库相关的操作,你肯定不能每次都从头写一套脚本,更合理的做法可能是通过 MCP 之类的方式直接调用。

曲凯:那 Sheet0 跟其它 Agent 相比,有什么区别?

文锋:我区分 Agent 就是看它最终交付的结果。从这个角度去对比,市面上的 Agent 大体可以分成两类。

一类是 Coding Agent。它们交付的结果就是一段可执行的代码。

另外一类是调研 Agent。GenSpark、Deep Research、Manus 其实都属于这一类,它们最终给用户交付的结果就是一份报告,而不能真的帮你在美团上下个单,或者去京东买个什么东西。

而我们是个表格 Agent,和其它 Agent 相比,本质上其实是「定性分析」和「定量分析」之间的差异。

「定性分析」是很多 Agent 解决问题的方式。比如如果你想大致了解某一个问题,那就可以用 Deep Research 这样的工具去生成一份报告。这份报告能帮助你建立对这个问题的感知,但不能给你非常精确的数据。

而我们想解决的是生活中那些对精确度有要求的场景,所以需要用「定量分析」的方式去解决问题。

比如如果你想知道一个非常精准的数字,那就需要一个准确的数据源,而这个数据源通常是一个清晰完整的表格。Sheet0 所做的事情,就是借助 AI,从这些数据源中抓取各种数据,再把这些数据汇总到一个表格中,然后拿这个表格去做下一步的分析。

我们在工程上也解决了模型幻觉的问题,能够保证这个过程的准确度。

曲凯:说到模型幻觉我突然想到,AI Coding 是不是就相当于大模型的翻译和助手?如果各个环节都引入一点 AI Coding,是不是就能提高结果的准确率,解决幻觉的问题?

文锋:是的,AI Coding 是大模型的「灵巧手」。

大模型执行任务的过程有很多步,最终结果的准确率是前面所有步骤准确率的乘积。举个例子,如果它每一步的成功率都是 90%,连续执行 10 步之后,整体的成功率可能就会降到 0.9 的 10 次方,也就是 35%。

这是因为下一步都是在上一步的结果之上去执行,而每一步的结果又很难评估,所以就难以及时修正。

为了解决这个问题,我们就可以在每步中都引入 AI Coding,这样就可以把难以评估的结果,都转化成可验证的代码。

比如每一步我都可以通过 AI Coding 生成 10 段代码,因为代码很好验证,所以就算这些代码中只有一半是正确的也没关系,我完全可以只留下正确的那 5 段,用这 5 段去生成一个正确的阶段性结果,然后再进入下一步。这样就保证了最终结果 100% 的准确率。

MCP 其实也是通过这个方案打通了工具调用之间的壁垒。

曲凯:那你对于未来几年 Agent 的发展有什么预测吗?

文锋:现在 AI 发展的速度太快,与其分享一个具体的预测结果,我更想分享一个思考框架。

你想判断 Agent 未来的发展方向,最重要的是抓住关键变量。那就像我们之前聊的,Agent 做得好不好,核心是看它能不能真正交付出一个好的结果,而这个结果的质量,主要取决于两个因素:一是模型能力,二是你能不能构建出更好的 Context。

所以 Agent 要想有突破,至少需要模型更强了,或者我们在 Context 工程上走得更远了。

曲凯:那假设你是投资人,你会问什么问题来判断一家 Agent 公司做得好还是不好?

文锋:我首先会问他们团队里有没有人看过《Reinforcement Learning: An Introduction》(笑),因为看过这本书的人,大概率会具备一种正确的 mindset,能用很 solid 的方式来做好一个产品。

除此之外,我可能会问他们怎么设计产品中的激励信号,也就是他们怎么评估结果的好坏。这是一个非常关键的问题,决定了大模型能不能往更好的方向去持续迭代。

曲凯:所以你们产品的激励信号是什么?

文锋:我们产品的核心是任务执行的过程中 AI 生成的那个表格,那「表格中数据是否为空」本身就是一种很直观的反馈信号。

另外,前面也提到了,我们会通过 AI Coding 把一些难以直接评估的结果转化为可验证的代码,比如我们会把模型对于页面结构、页面与页面之间的关系之类的分析结果,通过 AI Coding 的方式生成一段脚本,那这个脚本能不能成功运行、运行的结果是不是符合预期,也是一种激励信号。

曲凯:理解了,谢谢!最后说下 Sheet0 最近开放了 Waiting List,也即将开始内测,欢迎大家去 sheet0.com 注册体验一下。

42章经

思考事物本质

阅读原文

跳转微信打开

一堂「强化学习」大师课 | 42章经

2025-04-13 20:02:00

原创 曲凯 2025-04-13 20:02 北京

其实人生也是一个强化学习的过程

曲凯:今天我们请来了国内强化学习 (RL) 领域的专家吴翼,吴翼目前是清华大学交叉信息研究院助理教授,他曾经在 OpenAI 工作过,算是国内最早研究强化学习的人之一,我们今天就争取一起把 RL 这个话题给大家聊透。

首先吴翼能不能简单解释一下,到底什么是 RL?

吴翼:RL 是机器学习这个大概念下一类比较特殊的问题。

传统机器学习的本质是记住大量标注过正确答案的数据对。

举个例子,如果你想让机器学习能分辨一张图片是猫还是狗,就要先收集 10000 张猫的照片和 10000 张狗的照片,并且给每一张都做好标注,让模型背下来。

上一波人工智能四小龙的浪潮其实都以这套框架为基础,主要应用就是人脸识别、指纹识别、图像识别等分类问题。

这类问题有两个特点,一是单一步骤,比如只要完成图片分辨就结束了;二是有明确的标准答案。

但 RL 很不一样。

RL 最早是用来打游戏的,而游戏的特点和分类问题有两大区别。

第一,游戏过程中有非常多的动作和决策。比如我们玩一个打乒乓球的游戏,发球、接球、回球,每一个动作都是非标的,而且不同的选择会直接影响最终的结果。

第二,赢得一场游戏的方式可能有上万种,并没有唯一的标准答案。

所以 RL 是一套用于解决多步决策问题的算法框架。它要解决的问题没有标准答案,每一步的具体决策也不受约束,但当完成所有决策后,会有一个反馈机制来评判它最终做得好还是不好。

因此,RL 其实更通用一些,它的逻辑和我们在真实生活中解决问题的逻辑非常接近。比如我要去美国出差,只要最后能顺利往返,中间怎么去机场、选什么航司、具体坐哪个航班都是开放的。

其实人生也是一个强化学习的过程,因为你有很多种选择,但没人告诉你通往成功的路具体要怎么走。

曲凯:这个点很有意思!不过对于强化学习来说,最终的产出是有一个明确的判定标准的,但人生却没有一个明确的好坏判断,对吧?

吴翼:这两者确实有一点差别,RL 的前提是你知道奖励函数到底是什么,比如打游戏,赢了就是好,但人生并没有这样的标尺。

所以我觉得人生有一个很好玩的地方是,你需要花很多时间先探索自己的奖励函数是什么,很多人可能努力了很长时间,最后却发现找错了奖励函数。

曲凯:是。另外我记得 RL 是 10 年前就被讨论过的概念,为什么现在又火了起来?RL 和 LLM 是怎么结合起来的?

吴翼:最初,RL 和 LLM 并没有什么关联。LLM 的本质是 next token prediction,每次只预测下一个词是什么。当我们给 LLM 看过足够多的数据后,它可能就具备了通用性和泛化能力,可以从中找到规律,预测一句话后面要接什么。用一句俗话来说,就是「熟读唐诗三百首,不会作诗也会吟」。

但这种训练方式有一个缺陷,就是 LLM 不会遵从指令。

这也是为什么 GPT-3 刚发布时,很多人觉得它不好用。举个例子,如果你对 GPT-3 说「解释登月」,你期待它给你介绍一下阿波罗计划、嫦娥计划等等。但可能它见过的数据都长成「解释登月是什么」这样,所以它会回你一个「是什么」。

曲凯:对,我们一直说 LLM 的本质是个概率模型。

吴翼:所以为了解决「指令遵从」的问题,OpenAI 第一次在 InstructGPT 中将 RL 和 LLM 结合了起来,然后发现效果还不错。

我们知道 RL 需要一个明确的任务,一些可用的决策动作,和一个 reward。还用刚刚的例子,OpenAI 的做法是把 RL 的任务定义成「解释登月」这个指令,决策是模型看到这个指令之后所说的每一个词,reward 就是模型最后给出的答案是不是和指令的需求一致。

曲凯:要怎么定义「一致」?

吴翼:这是一个非常好的问题。大家发现没法定义,还是需要人来判断模型输出的答案哪个更好,或者写一些好的答案作为范本。最后是用人为定义的这些数据训练出了一个 reward model,也就衍生出了 RLHF (Reinforcement Learning from Human Feedback)的概念。

曲凯:去年 RLHF 这个词非常火,但有人会说 RLHF 的本质是对齐,而不是 RL。那么大家今天讲的 RL 和 RLHF 到底有什么区别呢?

吴翼:这两者确实不太一样。RLHF 到去年为止的主要价值在于让 LLM 好用,好比让一个聪明的清北学生经过实习之后能变成一个很能打的员工。

它不存在 scaling law,也不能让 LLM 本身更聪明,但是 RL 可以。

这是怎么实现的呢?就是模型能遵从指令后,大家又在寻找除了预训练之外,能让模型变得更聪明的第二曲线。最后 Ilya 想到,LLM 在收到一个指令后会立马输出答案,但实际上人类在处理复杂问题之前往往会先思考。那如果能让 LLM 学会「慢思考」,是不是就能变得更聪明?

实现这一点的方法有很多,最终 OpenAI 发现了一种简单有效的方法,就是让模型「多吐点字」。收到指令后没必要着急给出答案,可以先吐 10000 个字再作答。这个吐字的过程就相当于思考,思考时间越长,答案就越准确。

这个过程就叫 inference time scaling。

曲凯:为啥 LLM 吐的字越多就越聪明?

吴翼:这件事到今天为止还没有一个理论能解释。所以从有「慢思考」的想法到真正实现它,OpenAI 其实花了一年半到两年的时间,这个过程需要极大的坚持。

总之 OpenAI 摸索出这个范式之后,问题就变成了要怎么训练一个能吐那么多话的模型。

这时又轮到 RL 登场了,因为吐字的这套逻辑和打游戏的逻辑非常像,我们只期待模型最后能输出正确答案,中间它吐的那几万个字是什么无所谓。

那新的问题又来了,要怎么评估模型慢思考的过程中产生的这些数据?因为和 RLHF 不同,RLHF 的输出可能只有几百个字,所以我们可以人为标注和排序。但是 RL 的探索过程非常开放,在慢思考时可能会输出几十万个 token,人工标注是做不过来的。

最后 OpenAI 用了一种非常简单的方式来解决这个问题,就是只用有标准答案的问题去训练模型的推理能力。比如解方程,如果正解是 x=3,那模型写 x=3 就正确,写 x=4 就不对。至于它是怎么推出的这个答案,我们不管。

曲凯:那如果只看最后的答案对不对,思考过程还会有做得好与不好的区别吗?

吴翼:有区别。我觉得 Anthropic 就做得特别好。

因为我们很难限制模型的思考过程,所以模型经常在一些很简单的问题上也要思考很久。比如有人会抱怨,问 DeepSeek「1 + 1 等于几」这么简单的一个问题,它也要想半天。

相比之下,Anthropic 在这件事上就处理得比较好。你问 Claude「1 + 1」它就直接出答案,你问它一个复杂点的问题,比如说算个 24 点,它才想上个 10 秒。

但正是因为我们对模型的思考过程不做限制,所以模型也会衍生出一些很有意思的泛化能力。比如我们问 R1 一个没有标准答案的哲学问题,它想一想也能讲得头头是道。

曲凯:这是怎么做到的?

吴翼:首先模型训练时本身就会产生一定的泛化能力,但这还不太够。所以当我们用大量有标准答案的理科问题训完模型之后,还会用一些文科训练把它往回掰一掰,不然这个模型就太理性了。

曲凯:就有点 Nerdy (笑)。

吴翼:是哈哈,所以你看 DeepSeek 的那篇 paper,其实他们最后是把一个 Nerd 模型和一个具备人文属性的 base 模型合了起来,又做了 SFT 和 RLHF,最终才有了比较平衡的 R1。

曲凯:那 R1 之后,现在整个行业对 RL+LLM 的最优路径形成共识了吗?

吴翼:国内一些做得比较好的团队,比如豆包和 DeepSeek,肯定还在探索各种新的可能性。其它团队还处在一个追赶的阶段,虽然他们可能也有自己的思考。

而海外的很多团队都有不同的 belief。拿 OpenAI 来说,他们的 RL 已经从纯推理进化到 Agent 范式了。

也就是从 InstructGPT 时传统的单轮交互,跃迁到多轮交互,而且能自由上网,与虚拟世界互动,这是一个非常大的进步。

曲凯:Agent 这个概念,我记得 23 年初就有了,也出现了 AutoGPT 等等,但如果我们现在回头来看,是不是那个时候还不具备 Agent 的基础?Agent 是从 RL 起来之后才可以开始做了吗?

吴翼:Agent 最核心的能力在于对文本之外的世界产生影响。当年的 AutoGPT 和 LangChain 等产品其实已经具备这种能力,但它们实现这一能力主要依赖 Prompt Engineering,你必须把每一步拆解清楚,让它按部就班地照做。而现在有了 RL 之后,像 Operator,Deep research 就可以自主探索,端到端自己完成任务了。

曲凯:如果 RL 已经能很好地完成复杂决策了,那能不能抛开 LLM,只用 RL 来做呢?

吴翼:OpenAI 很早就试过这么干,但屡试屡败。

第一次是 16 年的一个叫  World of Bits 的项目,他们试图通过 RL 来完成在网页上订机票的任务,失败了。

第二次是在 20 年,他们的机器人团队想通过图像输入来控制机器人整理桌面,又失败了。但这次失败后,另一个团队在 RL 中引入了一个预训练模块,就把这件事给做成了。

于是大家发现,仅仅通过 RL 很难训练出一个通用模型,虽然 RL 有很强的决策能力,但它的理解能力不足,需要有一个经过预训练的模型提供一些基础的理解能力、记忆能力等等。

所以 LLM 和 RL 之间是乘法关系,二者相乘才能实现最后的智能,缺一不可。

曲凯:这样捋下来其实很多东西就串起来了,之所以 OpenAI 能把 RL 先做起来,是因为他们一开始就在做 RL,后面把 LLM 和 RL 结合起来是一件很自然的事情。

那如果理解能力是交给了大语言模型或者多模态模型负责,生成能力呢?这个和 RL 有关系吗?

吴翼:RL 和生成之间也没有太大关系。另外我一直认为生成容易,理解难。

曲凯:我前段时间听到过一个非常反常识的说法:理解一张图片所需的 token 其实比生成要高。

吴翼:对,需要的 token 多正是因为理解是一件更难的事情。

举个例子,如果你收到了一个俄文指令,但你根本不会俄文,那你可能自己悟一辈子也悟不会。而如果你已经懂俄文了,那再用俄文培训你做任何事情,用俄文写诗,买票,都不会那么困难。

曲凯:所以相当于 LLM 负责理解跟记忆,RL 进来之后给 LLM 加上了长程思维能力,并且负责决策跟执行。那能不能说 RL 和 LLM 放到一起就已经完整了呢?

吴翼:我只能说我们现在看到的最好的 Agent 模型确实是这样整合出来的,但我觉得这个范式和 RL 算法都还有很大的发展空间,因为这个路径才刚刚起步,RL 的 scaling law 也才刚刚开始。

曲凯:具体会怎么发展?现在大家都觉得预训练的 scaling law 已经不太 work 了,RL 会有多大的发展空间?

吴翼:这里要稍微更正一下,预训练的 scaling law 并不是不 work 了,只是收益变小了。

现在预训练还有两个重要的方向,一个是数据,比如如果要强化多模态的理解能力,那就需要大量的图文混合数据,而且图文间需要有比较好的逻辑关系。这类高质量数据网上是远远不够的,所以就需要发展合成数据。

另一个方向是把模型做小,尽量蒸馏出一个更小规模、但具备同等能力的模型。因为 RL 模块已经足够复杂,在如此高的复杂度上,LLM 规模越大,训练的不稳定性就越高。很多人总说蒸馏可耻,但实际上如果能做到像 o3-mini 那样的程度,不仅不可耻,反而非常厉害。

对于强化学习来说,首先它的 scaling law 还处于初始阶段,斜率足够高,决策能力还会持续提升。

其次,不同的大模型公司在 RL+LLM 的路径上走向深水区之后,方向上也会出现分化。目前主要有三个大的分支:

1) 编程,典型代表是 Anthropic。

2) Agent,典型代表是 OpenAI。

3) 通用的泛化能力 (比如泛化到哲学、文学等领域),典型代表是 DeepSeek。

曲凯:强化学习做得好与不好,在用户侧的感知主要是什么?

吴翼:首先可以判断准确率。不管是做数学题,还是写分析报告,或者是在网站上完成一些操作,准确率都是可以验证的,只不过有的可以通过 benchmark 来验证,有的还是要看人的体感。

此外,多轮交互的体验也特别重要。举个例子,当我们让模型协助 debug 时,它通常会直接开搞。但 Claude 就很不一样,它会问问题,比如你装的环境包是什么之类的,用户体验就非常好。

曲凯:那这个训练过程是怎么实现的呢?我感觉预训练的训练过程比较好理解,无非是喂更多的数据,或者做些算法调优,RL 需要做什么?

吴翼:对于强化学习来说,基建最最重要,其次是数据,再其次才是算法。

基建可以理解为强化学习的框架,它决定了你的迭代效率。比如我们之前做过一版框架,以前训练 7B 模型需要一周,而迭代了框架版本之后,只需要两天就能把模型训一遍,这样一周就多了三次迭代试错的机会。

数据的作用很好理解,就好比学数学,差的老师只会让学生狂刷小学题,刷了一堆也没用,而好的老师则会针对性地出题,可能只需要两道题,就能让学生掌握某个知识点。

最终的效果是各种因素耦合的结果,而且也存在很大的不确定性。

强化学习很像炼丹,它是一门玄学,你经常会发现,它一直涨势很好,但是某一刻莫名其妙就不涨了,或者说一开始不涨,突然开始猛增。

曲凯:大模型现在主要是两条主线,一条是 LLM 加强理解能力,一条是 RL 加强决策能力。那对于大模型团队来说,该怎么设计相应的组织架构呢?

吴翼:最好的情况就是这两条线别分得太开,因为 RL+LLM 的范式非常复杂,需要团队中的每个人都有破圈意识,最好什么都懂一点,才不容易出问题。举个例子,一个做 RL 后训练的人,也得懂一些预训练的知识,否则 Ta 没办法判断拿到的预训练模型缺什么能力、少什么数据。

但确实不同范式之间差别比较大,所以可能至少要有一个预训练团队和一个后训练团队。再往下分工,我觉得大致可以通过目标来区分,比如可以有多模态、RLHF 分支等等。

曲凯:现在很多做 Agent 的公司都想配一个懂 RL 的人,你觉得这是必要的吗?

吴翼:我觉得很 make sense。虽然现在 RL 的门槛还很高,但一两年内总会降下来,未来很可能大家都需要用 RL 做一些简单的微调,先储备一些人才总是没错的。

曲凯:但未来大家真的需要自己做 RL 吗?你看前两年大家都在讨论应用公司到底要不要自己做预训练,现在基本上大家都默认使用开源模型就足够了。那如果过两年开源模型的 RL 水平也跟上来,大家是不是也可以直接用现成的?

吴翼:这就是创业公司自己需要思考的问题了。

且不说这件事的答案到底是怎样的,我认为有一点是比较明确的,创业公司不该有终局思维。

相反,创业公司的机会恰恰在终局到来之前。Manus 就是一个特别好的例子,在市场上还没有太多类似产品的时候,他们以最快的速度做出了一个可用的产品,抓住了机会。

现在 AI 发展得这么快,如果你真的去考虑终局,很可能会陷入一种无意义感,觉得世界上没有你的机会。如果你一定要追求笑到最后,那还不如趁早投奔字节(笑)。

曲凯:是。那从 Alpha Go 到现在,大家讲 RL 已经快 10 年了,为什么相关的人才还是这么稀缺?

吴翼:主要还是门槛太高了。你去看论文引用数,研究 RL 的,会比研究 NLP (自然语言处理)、CV (计算机视觉) 的,少一个数量级。要想把 RL 环境配好、跑完、能复现结果,就会筛掉一大批人,而且 RL 的数学也更麻烦些。

另外相比 NLP、CV 来说,RL 在工业界大规模使用的机会比较少,大家只能在学校里做,没有一个工业级的人才池,所以人才体量也会小很多。

最后就是强化学习对工程的要求非常非常高,所以导致大家也没有好的基建条件去做强化学习。

所以其实我回国之后做了很多开源的工作,就是希望能让更多的人把 RL 用起来。

曲凯:你们最近就联合蚂蚁研究院新发了一个强化学习的开源框架 AReaL-boba。

吴翼:对。前面提到过,框架其实就是基建,是 RL 训练和迭代的基础。但开源的 RL 框架本就不多,用起来可能也不太顺手,所以我们就自己搞了一个。

我们的这个框架用起来比较稳定,速度也比较快,把 7B 的模型做到了 SOTA 标准。

曲凯:也欢迎大家去 GitHub 上关注这个项目。

那如果国内的公司现在想招或者培养一个 RL 人才,该怎么做?

吴翼:这很难讲,因为每个团队的风格和所处阶段都不太一样。如果非要给一条建议,我会觉得「动手能力」和「不给自己设限」这两点很重要,现在开源的项目和相关的资料信息非常多,所以关键还是要看这个人是不是发自内心地想学习,愿不愿意动手去实践。

曲凯:最后,我想再回到开头你提到的「人生就是一场强化学习」这个点。你研究了这么多年 RL,是不是在自己做决策时也能获得一些参考?有没有什么可以泛化到人生中的经验?

吴翼:我有一系列围绕 Diversity-driven RL 的工作,还蛮有参照意义的。

传统的 RL 只在乎结果,所以一旦发现能稳赢的策略之后,就会无限重复这个套路。

但人类不是这样思考的。人虽然也想赢,但会想换个赢法。就比如踢足球,虽然我知道带球单刀特别好进球,但总这么踢我会觉得无聊,就想换头球试一试。

人之所以为人,是因为人都是 Diversity-driven 的,所以才有了截然不同的经历和多姿多彩的人生。

曲凯:我们之前录过一期德扑主题的播客也聊过类似的一点,就是顶尖的牌手越来越趋同,一个比一个像 AI,然后这个游戏就变得没意思了。

吴翼:对。所以我们试着给 AI 强化学习的过程加了一个限制条件,不仅要求结果的质量,还要求结果的多样性——每次都要找到一个新的解决路径。结果模型自然而然地发现了一些很好玩的东西。

映射到人生中,我发现现在很多人都倾向于选择风险最低的路径。我跟学生聊天的时候就发现,很多同学在做升学决策时,考虑问题的角度往往是为了「求稳」,比如有的同学觉得去美国可能会有签证风险,于是就会选择国内保研。

但我觉得人还是要追求「熵值最大化」的生活方式。

曲凯:不过强化学习是可以无限试错的,而人生总有一种滋味叫「后悔」。

吴翼:是有这个差别,但我觉得还是要勇敢一点,很多人觉得人生只有一次,我觉得不是,人生怎么着也能试错个三四次,尤其 20 岁的年纪,你做任何事情都是对的。

前提是你要敢于选择,多跳出去看看,不要老局限在 local optimum (局部最优解) 里。比如我当年在伯克利读书的时候,如果不是我自己主动地去敲了隔壁另一个导师的门,我可能最终不会拐上强化学习这条路。

曲凯:是。最后我还想和你探讨一下奖励函数这件事。你开头说人很可能奋斗了一段时间,却发现最终的 reward 并不是自己想要的。那在 RL 里会遇到类似的问题吗?有可能中途改变奖励函数吗?

吴翼:在传统 RL 里不大行,但因为我研究多智能体强化学习和人机交互,经常要面对没有标准问题和清晰目标的情况,所以就需要训练 AI 主动搜集信息、探索正确的奖励函数的能力。

比如我们做过一个能和人一起玩 Overcooked(一个厨房经营游戏)的 AI,在人机合作的过程中,这个 AI 需要猜出人想干嘛,然后和人一起打配合。那在这个过程中 AI 就必须大胆尝试,在尝试中得到各种信号,然后揣摩出人的意图,也就是自己的 reward 到底什么。

人生也是一样,要想找到自己的奖励函数,首先需要多主动探索,先和世界交手个三百回合。

42章经

思考事物本质

阅读原文

跳转微信打开

世界怎么就「东升西落」了?聊聊二级市场与 DeepSeek+Manus 的热潮 | 42章经

2025-03-30 22:26:00

原创 曲凯 2025-03-30 22:26 北京

「做时间的朋友」不再是唯一的答案?

「东升西落」的叙事

曲凯:最近我又来美国了,发现市场真是变化太快,这边突然有人开始提到一个所谓「东升西落」的叙事。

莫傑麟:对,二级市场今年 1 月以来一直在演绎这个剧本,但其实 24 年就已经在为这个叙事做铺垫了。

24 年美国的宏观环境和各项经济数据都比较好。他们一方面非常重视 AI,在所有前沿创新上也一直绝对领先,另一方面又凭借美元的强势吸引着全球的投资。

但今年 Trump 上台之后,情况发生了变化。

Trump 在关税、财政支出上都做了很多调整,一套大刀阔斧去杠杆的动作下来,大家关注的重点从 AI 转向了宏观问题,也对未来多了很多不确定性。

又因为过去几年,美国股市一直走高,投资人的预期已经被拉得很满。所以大家现在极度厌恶风险,股市就会出现剧烈的震荡。

而今年的中国刚好是美国的镜像。

其实国内的股价从 24 年开始就有回升,但并不明显,直到今年 DeepSeek 的发酵才彻底引爆。

归根结底,还是因为大家之前对于中国科技行业和宏观环境的预期都太低了。

曲凯:对,我觉得「东升西落」本质上是一种价值评判的回归,之前大家确实过于低估国内 AI 了,而 DeepSeek 就是一个典型代表。

所以虽然 DeepSeek 发布已经有一阵了,我还是很想听听你对它的看法。

莫傑麟:我觉得 DeepSeek 非常能说明一个问题,就是中美对 AI 的关注重点完全不同。

美国从 22 年 Q4 至今的核心叙事一直是 scaling law,是 AGI,只不过前缀从 pre-train 变成了 post-train,最近又变成了 compute time。

但中国一上来的重点就是应用。我们关注的是 PMF,是投入产出比。像字节很长一段时间都还是会关注豆包的日活、月活这些指标。

那 DeepSeek 出来之后,最核心的亮点就是通过工程优化极大地降低了成本,而成本对应的就是 PMF。成本越低,就越容易在市场上得到应用和推广。

曲凯:对。美国一直在讲的就是堆更多的卡、灌更多的数据、花更多的钱,从而获得更好的结果,不过实际上过去一年他们模型能力的提升似乎是不及预期的。

而当美国市场还想继续讲堆高成本的故事时,DeepSeek 直接用极低的成本,交付出了更好的结果。

莫傑麟:对。说来也很妙,大家一直都在期待 GPT-5,但 OpenAI 并没有如期在 24 年年中交付出来。大家对中国 AI 一直没什么预期,反而出了 DeepSeek。

曲凯:是。那除了 DeepSeek,最近「东升」叙事里还有一个热点就是 Manus。

Manus 刚出来的时候爆火,很多人都在夸,但后面又很快变成很多人在骂。你对这件事是什么感受?

莫傑麟:我最大的感受还是中美的 AI 叙事千差万别。

与美国不同的是,中国「应用叙事」中很重要的一点就是怎么能覆盖到更多的用户,而 Manus 团队就是按照这个思路去做事的一个典型,比如他们的联创之一 hidecloud (张涛) 在硅谷做分享的时候,主要讲的一点就是「AI 能不能做给从来没有用过 AI 产品的人」。

所以这个团队其实每天考虑的问题都不在硅谷主流的 scaling law 叙事之内,甚至也没考虑过把 intelligence 作为产品的重点,而是在想办法让更多的人更好地用上 AI。

从这个角度看,其实这个团队在硅谷非常稀缺,我也很欣赏他们。

曲凯:是。我也可以讲下我的视角。

其实不止 Manus 一夜爆火,从去年开始,全球 AI 产品都有一种脉冲式增长的势头。经常是出来一个东西大家就疯狂转发,然后很快收获大量用户,像 Cursor、Devin、Windsurf,包括 DeepSeek 等很多产品都经历了这样的过程。

比如 Cursor 前几天还在讲,他们到目前为止都是 0 投放,团队也仍然是小几十个人,但却用非常低的市场成本做出了非常高的 ARR 收入。Manus 其实也在这个路径上,我相信今年后面几个月也持续会有这样的产品出来。

这种脉冲式发展背后主要有两个原因。

第一,大家不约而同地选择了 Prosumer 这个人群。这群人既具备 C 端的属性,又具备一定的付费能力,而且能够在各个平台上通过分享转发来把一件事带火。

第二,AI 的热度太高,但真正好用的 AI 产品却太少。所以只要有一个还不错的产品出来,很快就会被网友们推上去。

Manus 就是一个典型的被推上去的案例。

但后来,有些人我觉得夸的有些用力过猛,把 Manus 架到了 OpenAI 的对立面。

此前承担这个角色的一直是 DeepSeek,但如果要说 Manus 是中国的下一个 DeepSeek、是中国的 OpenAI,这个坐标系就有些错乱,因为 Manus 本身就没有 AGI 的梦想,他们的梦想是做出一个更好的产品,让 AI 发挥出更大的效用。

莫傑麟:对。我发现后面一些人攻击 Manus 时会强调两点,第一它不是 AGI,第二它的影响力不如 DeepSeek。

但其实 Manus 和 DeepSeek 根本就是不同的物种,没有可比性。

曲凯:对。我还想补充一个有意思的观察。

我发现 DeepSeek 能在国内火起来,一个很重要的原因是一些海外大 KOL 都在讨论它,而很多人批评 Manus 时则是会说「海外没人讨论,那它肯定不行」,就感觉国内目前依然没有摆脱「被海外认可就是牛、没被海外认可就不行」的思维。

所以 Manus 事件可能会造成的一个影响是,未来如果有国内团队要推一个新产品,很可能会选择在海外先立住,然后再打回国内。就有点像早年消费品的逻辑,大家要想在国内卖得好,就得先出海做个假洋牌子,但这并不一定是件好事。

市场宏观趋势

曲凯:讲完这两个标志性的产品,我们再聊聊「东升西落」在二级市场的表现吧。当下的二级市场具体呈现了一个怎样的趋势?

莫傑麟:二级市场由两部分组成,一是预期,二是实际的趋势。

先说预期。我们开头有说过,这波 DeepSeek 之所以对美国市场的冲击这么大,主要就是预期在作祟。美国投资人一度把 AGI 的预期拔得非常的高,体现在市场上就是股价非常高。

那现在大家对中国市场的预期有没有被拔得很高呢?

如果直接从股价上来看,大家对中国市场的预期并不低,但还是没有美国积累了两三年的预期高。我觉得一个准确的表述是,大家对中国的预期在经历一个从 0 到逐渐填平的过程。

曲凯:那当下大家对于国内市场的预期具体是什么?

莫傑麟:海外的长线投资人对中国的预期还是我们处在一个后地产时代。他们更多还是关注我们的化债问题、消费问题,AI 只是其中的一个子命题,即使他们看 AI,关注的重点也是 AI 能不能带来产业趋势、能不能创造更多的就业和消费、能不能让经济逐步变好。

本土以及全世界主要看科技的投资人,对于中国资产、尤其是互联网和 AI 相关的资产的预期,则是我们现在是不是相当于 2023 年的美国。我们 1 月发布 DeepSeek 的这个节点,刚好对应着美国当初的 ChatGPT 时刻。

ChatGPT 发布之后,迅速引起了美国核心互联网公司对于算力的 FOMO,导致一批头部大厂带着一部分的创业公司展开了 Capex 和人才的投入,进而对美国经济也产生了实际的影响。

所以现在这批投资人会很关心 DeepSeek 出来之后国内头部大厂的反应。

曲凯:按照国内 A 股的逻辑来讲,如果一家公司要提高前期投入的成本,却无法立刻带来明显受益,那一般股价好像会跌才对,但阿里云刚说要加大对 AI 的 Capex 投入,股价就马上大涨。

这是不是也说明大家对国内 AI 的预期发生了变化?

莫傑麟:你说的这个点非常准确,这就说明国内的预期在经历一个从坏到好的转折。

曲凯:就是大家觉得大厂敢投入了,至少是一件好事?

莫傑麟:对。其实像阿里、腾讯这样的公司,在一段时间之内我们都已经把它们当成价值股了,意思是我们会要求分红、会要求看现金流,但是我们可能不会特别要求它们有很宏大的战略和业务创新的目标。

曲凯:对,之前大家就开玩笑说国内都开始把互联网当作传统产业了,但其实美国的那些互联网公司还在屡创新高。

莫傑麟:所以 DeepSeek 发布之后让全国人民和这些互联网公司都过了一个好年,因为它把 AI 从战略投入直接拔到了产业趋势的高度。

曲凯:是。然后还有一件事也挺有意思,就是过去两年一直缺位的腾讯突然开始发力了。

莫傑麟:腾讯在 DeepSeek 这波中可能是一个最大的赢家。

原来头部的互联网公司想入局 AI,都要经历一个 6 到 12 个月的模型军备竞赛,得花时间组团队、搭集群、训模型。但因为 DeepSeek 是开源模型,所以腾讯直接跨过了这个阶段,一步迈向应用,然后再回过头来在 DeepSeek 的基础上去训自己的模型。

曲凯:对,这次 DeepSeek 出来,好像给腾讯在内的一批公司,集体送了一张跳级卡,让他们能直接在 DeepSeek 的基础上从第二关开始搞。

那关于预期我想最后再讨论一个问题。美国 AI 已经经过了两年的预期和验证,也付出了超多的成本,但目前为止并没有见到大规模的收益和回报。在这样的参照下,现在大家对国内市场到底还在预期什么?还会有多少耐心?

莫傑麟:国内现阶段其实非常像 23-24 年的美国。

23 年为什么美国的互联网大厂涨得很好?

因为只有大厂才能搞 AI。当时美国的利率很高,所以宏观环境并不支持创业公司去做战略性投入,但是大厂却有很大的优势。

首先大厂有很强的用户的基础和业务场景,能讲清楚自己为什么要投入 AI,而且 AI 还能反过来促进它们原有业务的发展,比如 AI 对 Meta 的广告和搜推就起到了很好的作用。另外 Meta 拥抱开源、微软拥抱 OpenAI、亚马逊拥抱 Anthropic 这些故事,也能帮这些大厂在这波 AI 中抢占身位。

我们把这些基于现有业务场景和财务能力就能做的事情叫做简单题。25 年国内最重要的预期就是让大厂先把这些简单题做完。

曲凯:就是说国内还处在一个补课的阶段。

另外我想问,经过国内硬科技这几年来的发展,以及 DeepSeek 带来的性能和研发能力的提升,未来国内芯片「卡脖子」的问题还会是问题吗?

莫傑麟:我觉得现在中美在模型上的分工是有区别的。

中国可能更多会承担起主动探索商业化的作用。这条路径对卡的需求主要在于推理,所以「卡脖子」的问题不会太严重。

首先,国内的推理卡确实有非常大的进展,大家去看寒武纪的股价就能看出来。今年也会上市很多新的推理卡,可以说国内现在呈现出了一种「百卡齐放」的局面。

虽然这些卡的性能短时间可能还是不如英伟达,但至少是可用的。因为推理和预训练对卡的要求不一样。预训练需要有大集群,所以互联通信技术就很重要,而英伟达在这方面确实有垄断。

但推理不需要做互联,所以哪怕卡的性能差一些,也不会有那么大的影响。

当然如果我们也要追求 AGI,可能暂时就还是得依赖英伟达来建大集群。

曲凯:明白。所以这是预期的部分。

你前面说二级市场除了预期,另一个核心就是趋势。那这方面能不能再给大家拆解一下?

莫傑麟:趋势又包括产业趋势和宏观趋势。

也就是我们 23 年底那期播客里讲过的明线跟暗线,前者指的是产业趋势,是能拉起经济走势的新兴的发展机会;后者指的是像房地产、债务、经济周期这些和宏观环境相关的问题。

国内的宏观趋势和 23 年底相比还是有蛮大的变化。23 年底的时候,国内面临着地产转型之后的冲击,一方面居民的消费信心在减弱,另一方面,当地产不再成为主要的经济支柱后,地方债务和创收也成了很大的问题。当时我们提出的解法是说要重新锚定和解决更长期的问题。

什么是长期的问题?一是人口,二是要找到新的经济转型突破口和产业结构。

当时我们的预期是这些问题很难在短时间内得到解决,但现在我们其实已经解决了一部分,比如居民的消费信心在改善,比如出了 DeepSeek 这样一个好到完全出乎我们意料的模型,再比如上海的房价也已经创下这几年的新高。

所以目前从宏观趋势上来看,国内 24 年 1 月份可能就是信心的谷底,之后一直在缓慢匀速地提升,直到 25 年 1 月份被 DeepSeek 点燃。

然后我觉得更值得讨论的是产业趋势。

其实不止是互联网和 AI,部分「专精特新」的公司,比如一些储能公司、轴承公司,以及很多消费公司都呈现出了一种顺周期的趋势。顺周期指的就是这些公司爬出了谷底,并且通过出海或者是技术突破等方式,在自己的上升周期中确立了行业的领先地位,其中一个典型代表就是宁德时代。

所以无论是从宏观趋势还是产业趋势来看,可能我们无法直接得到「西落」的结论,但确实能看到「东升」的势头。

股市的未来

曲凯:那今年 A 股还会不会继续涨、美股会不会继续跌?

莫傑麟:很多人现在会把 AI 及互联网的发展情况和市场趋势划等号,但我个人的感受是,AI 我们虽然很看好,但它对中国资产的重要性没有美国那么高,包括前面也提到过,我们和很多海外长线投资人聊的时候,发现他们更多关注的还是中国的消费、就业、经济是不是真的能立得住等等这些问题。

从这个角度上看,我们还是得回到暗线的问题上。

解决暗线问题的一种方式是「放水」,也就是用加杠杆的方式来迅速地提振经济,而这个周期里没有采取这种「大水漫灌」的经济政策,也就意味着这个周期相对来说时间会比较长,所以大家还是需要更有耐心。

另外有一个值得关注的现象是,这些年板块轮动的速度在变得越来越快。

投资人可利用的工具在变多,大家关注新闻的速度更快、渠道更广,对信息的处理也更深,导致大家达成共识和演绎的速度越来越快。

曲凯:但如果市场对于一件事的反馈过快,会不会变相地激励一种蹭热点、讲故事的经营方式?

莫傑麟:一定会。股价毕竟是一个很重要的信号,讲好故事,股价上升,对企业经营就可能带来一些利好。

比如在高利率的周期里,你如果能被投资人认可,那你就能更容易地利用这个窗口期来做一些收并购。如果公司的股价足够高,那员工的信心也会更高,用期权来吸引人才时就更有优势,资金成本也更低。

曲凯:我最近还有个很大的感受,这种「东升西落」的叙事真是来得猝不及防。过去两年大家都非常悲观,结果春节过完一下子就彻底翻转了。

大家看待世界的变化频率已经变得这么快了?这是未来的常态吗?

莫傑麟:频率就是加快了。

但我们要尊重一个现实是,市场最终还是取决于一线的企业能不能真的做出产业趋势。

曲凯:是,我们今天一个核心的结论就是未来会持续有高频率的波动,但是波动最终到底是向上还是向下,还是取决于每家公司最后做出来的东西。

但这就又引出了一个问题,当把时间线拉到足够长以后,有没有可能这些小波动就是可以抹平的?

莫傑麟:不排除这种可能性。

但是今天我们说的高波动不仅来自于交易行为,还来自于世界的变化,比如美国跟俄罗斯的关系去年还很糟糕,今年突然就变好了。

所以现在越来越多的人不再把「做时间的朋友」看成那个唯一的答案。

曲凯:对于 25 年资产走势,你还有哪些可以分享的建议或看法吗?

莫傑麟:我觉得可以分为 AI 和非 AI 来看。

AI 确实是走到了一个值得大家投入更多精力去研究的阶段,因为现在硅谷、纽约、中国在讲的 AI 叙事,可能是三个不同的叙事,大家关注的点非常不一样,这就会呈现出很大的波动,而波动背后就是机会。

我个人今年会主要关注三个问题:

(1)模型在产业链中的价值。很多人,包括我在内,第一反应都是闭源模型的定价权在减弱。但事实会往哪个方向发展还有待观察,因为一个客观情况是,现在还能持续投入资源去训模型的公司越来越少,也就是说大模型的竞争格局在慢慢收敛。

(2)原生应用。除了 Devin、Operator、Manus 这类 Agent 应用,最近 Google 也默默出了很多工具和产品,包括海外的声音模型也进展很快。我会很关注这些产品今年会呈现出什么样的趋势。

(3)垂直应用。Ilya 之前就提到过,他会特别关注 AI 在生物制药里的应用。今年我也会 follow 医疗、金融、保险等行业会出现哪些垂直 AI 产品。

另外非 AI 领域其实也有很多值得研究的公司,比如美国生物医药行业、航空航天业的公司,国内出现在民营企业家座谈会上的公司等等。

曲凯:我还想和你讨论一个问题,这波 AI 里很多人都在说最赚钱的方式是炒股,确实很多价值的驱动和最终的呈现也都落在了那些上市的互联网大厂上。你怎么看这个问题?

莫傑麟:我对这点的感受非常直接。

之前很多 CEO 不知道该在哪个点上卖自己的股票,但是这几年我听到的故事恰恰相反。我发现这波 AI 从业者很知道自己该怎么做投资。

举个例子,24 年初的时候,专业的投资机构还没关注到光模块,但一些云厂商的 CXO 已经意识到了光模块在英伟达下一代技术中的重要性,所以开始大举买入相关的公司。再比如 hidecloud 曾经反复表达过他对算力很悲观,但他自己做了 Manus 之后,发现 agent 对 token 的调用量呈几何级增加,对算力的看法就发生了变化。

所以你会发现这波从业者对产业的判断更有体感,而且因为很多投资人会找他们聊,他们对投资人的预期也更有把握。

曲凯:明白。最后一个问题,因为过去几年有一些一级市场的基金合伙人最大的收入是来自于炒股,像你刚刚说的,很多创始人现在也都会去买股票,专业炒股的人也越来越多。

所以是不是二级市场真的是所有人最终的归宿?对此你有什么建议吗?

莫傑麟:我觉得这些人去炒股非常正常,因为他们本身有很高的信息密度和认知密度,只是可能不知道怎么把自己的认知转换为一个对应的价格。

但转化这一步本身是一个可被学习的技巧,我的一个建议就是可以多跟二级市场取得过结果的同学取取经。

然后相比于实际经营一家公司,二级市场肯定还是一个比较舒服的归宿,它舒服的点就在于路径会简单很多,无外乎是你要有信息源,有对信息比较好的加工能力,可以做出胜率比较高的预判。

但二级市场会是最终的归宿吗?

不一定。

很可能你全职炒股之后,对事物的认知密度也就消失了。

42章经

思考事物本质

阅读原文

跳转微信打开