MoreRSS

site iconPlatform Thinking修改

关于 AI 行业的洞察和参考信息。由 Neo Zhang 运营。
请复制 RSS 到你的阅读器,或快速订阅到 :

Inoreader Feedly Follow Feedbin Local Reader

Platform Thinking的 RSS 预览

智能的度量:o3 与 AI 的分水岭

2024-12-23 12:25:36

智能的度量:o3 与 AI 的分水岭

“当我看到这些分数的时候,我意识到我需要改变我的世界观了。”

在 OpenAI 的发布会现场,ARC Prize Foundation 的负责人 Greg Kamradt 有些不安。作为全球最严苛的 AI 测试基准之一,ARC-AGI 每年都会举办奖金不菲的竞赛。无数模型在这个测试面前折戟沉沙,以至于业内开玩笑说这个基准“感觉已经存在了几个世纪”。

但就在 2024 年的最后几天,情况发生了变化。

OpenAI 的最新模型 o3 不仅打破了记录,更令人震惊的是:在高算力测试中,它达到了 88% 的得分,超越了人类平均水平的 85%。

“我需要重新校准我对 AI 能力的认知,特别是在这个被 o3 开启的新世界里。”Greg 继续说道。

超人的 o3

在 OpenAI 连续 12 天的发布马拉松中,o3 是最后一棒。这个时间节点的选择颇具戏剧性:此前的几天里,OpenAI 和 Google 仿佛陷入了一场隐形的竞速:Sora 对阵 Veo 2,GPT-4 对阵 Gemini Flash 2.0 Experimental,o1 对阵 Gemini Flash 2.0 Thinking Mode。当 800-CHATGPT 这样的功能发布出现时,不少观察者认为这是一招缓兵之计,为最后的王牌 o3 争取时间。

发布前夕的情况也颇为微妙。关键人物的离职消息传出,让业内开始担心:o3 会不会重蹈 Sora 的覆辙,只是一个仓促的“占坑”发布?

但 o3 的发布过程打破了这些猜测。虽然 Sam Altman 在开场时将 "launch" 改口为 "announce",但随后的展示却令人印象深刻。OpenAI 的研究主管 Mark Chen 没有用华丽的演示,而是直接展示了 o3 在编码和数学能力上相对于 o1 的巨大飞跃。

最引人注目的是 ARC-AGI 测试的结果。这个基准测试的重要性,通过 Greg Kamradt 的介绍得到了充分展现:

它在人工智能领域已经 5 年无人能敌,感觉就像几个世纪以来一直如此。击败 ARC-AGI 的系统将成为迈向通用智能的重要里程碑。

而 o3 正是这个里程碑的缔造者:在 high compute 和 low compute 两种场景下,o3 分别达到了 88% 和 76% 的惊人成绩。更具历史意义的是,它在高算力场景中超越了人类水平线(85%)。

智能的度量:o3 与 AI 的分水岭

在整个发布过程中,有一个有趣的细节:Sam Altman 和 Greg 不断拿研究主管 Mark Chen 作为参照物。作为美国信息学奥赛(IOI)的国家队教练,Mark Chen 的数学和编程能力远超常人。这种看似调侃的比较背后,实际上暗示了一个更深层的信息:AI 已经可以在某些特定领域与最优秀的人类专家较量。

ARC Prize Foundation 的 官方文章 这样写道:

OpenAI 的新 o3 模型代表了 AI 适应新任务的能力的重大飞跃。这不仅仅是渐进式的改进,而是一个真正的突破,标志着 AI 能力与 LLM 先前的局限性相比发生了质的转变。o3 是一个能够适应从未遇到过的任务的系统,可以说在 ARC-AGI 领域接近人类水平的表现。

这不仅仅是一场普通的产品发布会,而是一个重要的信号:AI 正在从模仿人类迈向真正的智能。要理解这一跨越的意义,我们需要深入探讨智能的本质。

于是,我去读了一下为 ARC-AGI 奠基的论文:On the Measure of Intelligence

无面之网:重新想象 Agent 网络

2024-12-16 12:30:34

Agent 不是标准化产品;Agent 的主要交互对象不是人类;Agent 不是“预制菜”。

1%、刻银术与 AI:一个温和的未来

2024-11-15 16:00:00

在小说《巴别塔》中,“刻银术”是一种神奇的魔法,能够捕捉不同语言间最细微的差异,连接彼此难以相通的心灵。今天的 AI 技术,正在成为现实世界中的“刻银术”——它不仅是一种工具,更是一座座沟通的桥梁,让每一种独特的生命体验都能找到自己的声音。

这是一个关于技术的故事,但更是一个关于理解与包容的寓言。在规模与标准化主导的时代之后,我们也许终于找到了一种更温和的愿景。

这也是四十岁生日之际,我写给未来的一封信。
1%、刻银术与 AI:一个温和的未来

2009 年,一座冰岛火山的喷发让东半球航班停摆,我因此误打误撞进入了移动互联网的浪潮。十五年间,我在这场信息网络构建的游戏里换过不同的座位,见证了规模至上的时代,也目睹了它承诺的多样性是如何被吞噬的。

信息传播的成本近乎于零,这让构建一个规模庞大的信息网络变得有利可图。这个时代的从业者,包括我自己在内,把整个青春都花费在寻找让网络规模持续变大这件事上。这是一场资本、智力和体力的多重竞赛,残酷之处在于它根本没有太多获胜者的名额,第二名与惨败别无二致。

对这场竞赛的个人反思,不在于它有多惨烈,而在于它并没有带来一开始所许诺的多样性。过去十几二十年,我们这一代人中比较理想主义的那些,多多少少是受到了蛊惑,前仆后继的跳入这条湍急的河流里,并不知道它将把所有人带到什么地方。

每一个信誓旦旦的定律背后,都还有更大的公理,但我们都太容易在繁花般绽放的现象面前丧失冷静判断,忘记一切运转的根源在于宇宙间看不见的巨手的拨弄。当一切微小在长尾中翻腾涌现的时候,就总有少数最终会长成谁也不认识的庞然巨物。对于生存的底层渴望,让“大”成为最终的宿命,“小”甚至无法归类,无处安放。

“小”并不是“小而美”,“美”只是众多意义的一种。小,多样,意义丰富,才是对互联网难以割舍的乡愁。

第二座山

一年前,我翻到 David Brooks 的《第二座山》。这位纽约时报专栏作家的著作我向来在读,但这本书来得太恰逢其时,仿佛是算法的精心安排。以山为喻,是写人生转折时的常见手法,而 Brooks 比李宗盛看得更远:他不只看到了一座山丘,还看到了第二座。在他的笔下,第一座山是世俗意义上的成功,但这既不是终点,也不是重新开始。在第二座山上,人需要重新审视自己的理想主义,挑战时代赋予的主流价值。

正读到书的一半,一位朋友来找我聊职业选择。在餐桌上,我不经意地谈起内心对时代和个人前路的不安。在他眼中,我分明正在第一座山上奋力攀登,这种忧虑来得莫名其妙。今天回想起来,那次晚餐像是一场预言。

Brooks 在书中讲述了许多故事:疾病、事故、婚变甚至战乱,作家本人也经历了亲密关系的破裂。正是这些突如其来的转折,让人切身感受到翻越山丘后的失望、迷惘与孤独,也让人得以望见第二座山的轮廓。

“孤独”这个词,我在青春期就格外钟爱,彼时只是迷恋它的意象与韵律,未曾想到多年后它会从日记深处重返,带着新的含义。孤独症(autism)是一种特殊的人格特质,在人群中占据约 1% 的比例——每个班级中都有这样一个学生。Elon Musk 坦言自己属于这个群体,而剑桥大学的 Simon Baron-Cohen 爵士更进一步,他设计了一份量表,认为每个人都或多或少具有这种特质。这不是缺陷或障碍,而是人类认知光谱上的一种多样性。

《雨人》等艺术作品将这种特质浪漫化,让更多人得以理解并产生共鸣。通过这面镜子,我开始理解自己的种种特质:那些痴迷的追求,习以为常的忽略,难以理解的困惑,原来都是这 1% 群体共同的体验。

离开工作后,我开始了一段长假:或在异国漫游,或在家中独处。充裕的时间让自我探索得以深入,日常的细节在慢镜头下清晰可辨。这些零星的片段,就像光谱上的离散点,渐渐连成了一条令人惊讶的轨迹。

刻银术

我意识到,人类的心灵并不真正相通,一个孩童需要后天努力才能习得语言和社交的能力。即便如此,世界上仍有许多的 1% 群体并不与其他人用相同的频谱沟通。网络创造了连接,而连接并不解决沟通中的摩擦、误会和障碍。相反,正因为网络效应创造的巨大规模,连接、互动和交易都变得更加频繁,每个人都被匆忙的推搡到大街上,赤身裸体,惊慌失措,只有那些最大声的占到了便宜。

小说《巴别塔》像是一部寓意更加深刻的《哈利波特》,其中最重要的魔法被称为“刻银术”,通过将不同语言中的对应词汇刻在银条上,捕捉语言深层的、隐含的意义,进而发生巨大的作用。“刻银术”由具备精湛手艺、深谙多种语言妙处的“嚼舌者”刻制在银条上,等待被咒语激活。

比如一块银条上刻有汉字“爆”和英文 burst:

爆,部首是‘火’。右半部分则代表暴力、残忍和动乱。‘暴’字本身也有野性未驯、原始野蛮的意思。雷暴和残暴等词语里都有暴字。而他用英语 burst(爆发)来翻译‘爆’,这是最温和的译法,温和到根本无法翻译出‘爆’的内涵。因此,这个字所有的毁灭之力都被困在了银条里。

这块银条在小说中杀死了一个角色。它告诉我们,翻译中所流失的细微含义会带来危机;而多样性则会互相补充,产生惊人的力量。

AI 正是我们这个时代的“刻银术”:它通晓人类文明所积累的大量语言资料,在极大的跨度上建立关联或分辨细节。只要我们施以合适的咒语(prompt),就能激活伟大的力量。更重要的是,AI 让小众需求的满足变得经济可行——它可以为每个 1% 的群体量身定制专属服务,这在过去的规模经济时代是难以想象的。

就像小说中的嚼舌者通过刻银术捕捉不同语言间的微妙差异,AI 也在以前所未有的方式连接和转译人类的多样性:

  • 一位患有阅读障碍的学生使用 AI 工具,将复杂的文本转换成更容易理解的形式,比如将抽象概念转化为具象比喻,或者调整文本的排版和节奏。
  • 专注于罕见病的医疗 AI 助手能够理解患者的口语化描述,将其转换为专业医学术语,并匹配相关病例。这让每个“1%”的病患群体都能更容易找到适合自己的诊疗方案。
  • 非母语作家用 AI 助手探索语言的边界,它不是机械翻译,而是帮助作家在两种语言之间找到独特的表达方式,创造出新的文学可能。

这些应用展示了 AI 作为现代“刻银术”的多面性:它不仅是工具,更是一种理解和转化的媒介,让每个小众群体都能找到自己的表达方式和生存空间。正如《巴别塔》中的银条能够捕捉词语间的微妙差异,AI 也在帮助我们发现和连接人类认知的无限可能。

《巴别塔》中,作家借普莱费尔教授的话说:

在无尽的时光里,翻译始终在推动和平。翻译让沟通成为可能,而沟通又让各国之间的外交、贸易与合作成为可能,从而让所有人都得到财富与繁荣。

如果过去的一个时代,我们的主要工作是在解决连接问题,那么下一个时代,工作的重点就是“翻译”:它不是字面上的意思,而是在连接之上重新阐释,释放由多样的 1% 带来的力量。

1%

这一年对我而言,既是向外探索,也是向内寻求,但最终是向内更多一些。世界真的很大,充满了种种可能性,仅仅是了解这些可能性,就已经让人应接不暇。但一切发生在别人身上的可能性,都没法照搬你自己身上。不管有多少奇遇,但在讲故事的时候,总要有一些线索暗中串联,才能听上去足够合理。

历史既是包袱,也是地图。每个人都是他过去经历的总和。无论过去如何背叛,你都没法轻而易举的把它抹除。相反,你还得从中找到继续向前的路线,不管它看上去平淡、凶险还是未知。

时代匆匆向前,并不容许太多思乡怀旧。那些对宏大规模的追求,让我感到越来越陌生,或许对于赚钱来讲,它仍然是最好的故事,但如果把它作为第二座山的目标,令人生疑。

人类的伟大之处,不在于我们能建造多么宏大的工程,而在于我们能容纳多少种不同的存在方式。每一个 1% 的群体,都是人类认知光谱中独特的一抹色彩,都在用自己的方式解读和回应这个世界。

探索频道的创始人 John Hendricks 在其自传中提出过服务“25% 人群”的概念,他不知道从哪里听说,这个世界上有 25% 的人热衷于科学知识,于是将其定为探索频道要服务的人群。在大众传媒年代,这已经是技术所能承诺的极限愿景。

而 AI 带来的可能性在于:当机器能够理解和转译人类心灵的细微差别,那些曾经被主流叙事忽视的声音,那些在喧嚣中难以被听见的低语,都能找到自己的回声。就像《巴别塔》中的刻银术师们,执着地寻找字词间的微妙关联,我们也在寻找连接彼此心灵的桥梁。

在这条路上,也许我们终将明白:真正的繁荣不在于所有人都变得相同,而在于我们能让每一种不同都绽放出自己的光。这是一个更温和的愿景,不再追逐规模的巅峰,而是在静默处聆听每一个独特的生命体验。

Roblox: 反惯性

2024-10-24 08:30:23

Roblox: 反惯性

2024 年 10 月,一个看似普通的交易日变得不同寻常,因为 Hindenburg Research 发布了一份关于全球最大游戏平台之一 Roblox 的严厉报告。该报告称,Roblox 每日活跃用户中多达 42% 可能是机器人。然而几天之内,该股已基本恢复。这种韧性告诉我们一些关于 Roblox 的重要信息——并揭示了人工智能和虚拟现实时代平台转型挑战的更深层次的故事。

Roblox 创办于 2004 年,是一家有着 20 年历史的公司。它从 PC 时代起家,经历了移动互联网、Covid-19、Metaverse / NFT 热潮,现在,它是世界上日活跃用户最多的游戏平台之一(MAU 和时长超过 PlayStation),但创始人坚持认为它是一个连接人类的社交体验。

出版过《The Metaverse: Building the Spatial Internet》的投资人和分析师 Matthew Ball 在 2024 年 8 月以《Roblox 已经是世界上最大的游戏。为什么它不能盈利(以及如何盈利)?》为题,撰写了一篇长篇分析文章——这不是他第一次分析 Roblox——文中对 Roblox 出色的数据表现进行了全方位的展现,也乐观的为它长期以来的亏损进行了解释。

Roblox: 反惯性

在我看来,这是一篇极佳的入门读物:如果你想要在十五分钟内对这家公司有所了解,Ball 的这篇文章足够了。但它也有缺点:分析仅限于亮眼的数字,缺少对背后原因的解析。Roblox 是少数在 Covid-19 之后仍然保持强劲增长的在线内容娱乐类产品,在 MAU、DAU、时长、用户年龄和地区结构分布、收入能力上都很正向。

2024 年 10 月份的一个平平无奇的交易日,Hindenburg Research 发布了一份 做空报告,直指 Roblox 用户数据注水:通过对公司游戏服务器的持续监测,收集了 2.98 亿行实时玩家数据,数据表明,Roblox 平台上存在大量机器人账号,这些账号不是真实的玩家,而是为了赚取游戏内货币以再次出售的挂机账号。调查结果表明,Roblox 夸大了 DAU 指标 25%-42% 或更多,另一项关键指标——参与时间——被夸大了 100% 以上。

报告一出,Roblox 股价当日暴跌。

这家公司让我感兴趣的另一个原因,是因为它和最近风头正劲的 AR / VR 生态有所结合。Mark Zuckerberg 把 AR / VR 视为下一个计算平台,Roblox 作为世界上最大的虚拟社交娱乐体验一定会在这个平台的发展中扮演重要角色。无论是 Quest、Orion 还是 Apple 的 Vision Pro,都需要内容生态来拓展使用场景,而 Roblox 正好拥有这样的生态。

带着好奇和疑问,我开始探究 Roblox 这家公司的故事。

创始故事

Roblox 的创始人有两位,分别是:David Baszucki 和 Erik Cassel,后者因罹患癌症,在 2013 年英年早逝。

David Baszucki 出生于 1963 年,是乌克兰移民的后裔。他 1983 年毕业于 Stanford 的电气工程专业。深受 80 年代个人电脑早期文化的影响,和弟弟共同创办了一家名为 Knowledge Revolution 的公司,Erik Cassel 是这家公司的工程副总裁。他们一起开发了一个用 2D 技术模拟物理实验的教育软件 Interactive Physics,后来又拓展到机械设计领域(Working Model)。这家公司在 1998 年以 2000 万美金卖给了另一家模拟软件公司。Baszucki 在这家公司工作到 2002 年。

Roblox: 反惯性

在和 Microsoft CTO Kevin Scott 的一次访谈中,他回忆说教育软件是一项很困难的生意,他曾经和父亲的一位深谙商业之道的朋友交谈,对方告诉他教育软件的市场规模很小,Baszucki 开始并不同意,但最后发现对方说的是对的。他反思道:

... the notion was always come back to the consumers and there is a notion that the best educational tools sometimes aren't educational tools, they're really good word processor, they're really good movie editor, they're really good web browser. Those types of things can go super high quality, super high volume and be educational tools tens of millions of people use.
... 这个想法总是回到消费者身上,人们认为最好的教育工具有时并不是教育工具,而是非常好的文字处理器、非常好的电影编辑器、非常好的网络浏览器。这些东西可以达到超高品质、超高容量,成为数千万人使用的教育工具。

Baszucki 意识到,用户愿意用是产品发挥作用的前提,教育产品的形态限制了用户规模。他进一步讲道:

The learning from Interactive Physics was let's think about going more consumer, let's go 3D instead of 2D, let's go multiplayer, let's go cloud based, let's go avatar based. So rather than a 2D experiment you are watching by yourself, you are inside of a 3D experiment with your friends around the world on multiple devices. So the Interactive Physics thought was still there. But the hope was if there's thousands of engineers working on super high quality, free consumer software, the byproduct of that may be an educational product that's even better than Interactive Physics.
从 Interactive Physics 中学到的是,我们要考虑面向更多的消费者,我们要采用 3D 而不是 2D,我们要采用多人游戏,我们要采用基于云的,我们要采用基于虚拟形象的。因此,您不再是自己观看 2D 实验,而是与世界各地的朋友在多个设备上一起参与 3D 实验。因此,互动物理学的思想仍然存在。但希望是,如果有成千上万的工程师致力于开发超高质量的免费消费者软件,那么其副产品可能是一种比 Interactive Physics 更好的教育产品。

在短暂的做了两年天使投资人,期间投资了社交网络先驱 Friendster 之后,2004 年,Baszucki 和 Cassel 再次创业,吸取了在 Knowledge Revolution 上的经验,要打造一个多人在线的 3D 体验。

发明与建造

2024-10-05 10:00:20

发明与建造

在《光电帝国》一书中,关于电力革命早期的那段历史重新展开在面前。在这段长达数十年的历史中,无数个重要的名字穿梭其中,有世人熟知的爱迪生,也有神秘天才特斯拉,还有没有那么熟悉的威斯汀豪斯。

这些人物有着不同的起点,在那个伟大的黄金年代里,他们的性格、天赋和行为模式让他们走过了不同的旅程——终点并不重要,它是随机性叠加起来的结果。

我们将分别讲述三个人的故事。

George Westinghouse

1846 年出生在美国纽约谢内克塔迪的一个家庭机械作坊,19 岁就取得了第一个发明专利,23 岁发明了铁路空气制动器,赚得人生第一桶金,之后在铁路的信号系统上发现了电力的机会——这就是 George Westinghouse(后称威斯汀豪斯)的人生开局。或许对很多人来说,他是一个稍显陌生的名字,但在研究 19 世纪末到 20 世纪初的那段美国工业史的时候,他一定会无可避免的和你撞个满怀。

发明与建造

与他的宿敌 Thomas Edison(后称爱迪生)不同,威斯汀豪斯进入电力领域的方法是通过购买专利开始的:5 万美元,包括一个自动调节发电机和一个碳化灯丝灯泡。但这并不意味着他是一位金融家,他懂技术,能够预见一张图纸蕴藏了什么样的蔚来,同时,他自己仍然会对收购来的机会进行实践改进,让它能够成为可以扩大规模、让人信得过的工业产品。

威斯汀豪斯一生中最重要的一笔投资是在 1887 年和 Nikola Tesla(后称特斯拉)签署的专利授权协议,这项协议后来被认为是交流电力系统赢得电流之战的关键,同时,这笔高达 6 万美元的许可授权费以及后续每台电动机每产生交流马力 2.50 美元的专利费很可能是让威斯汀豪斯的西屋电气陷入财务困境的原因。威斯汀豪斯施展了他在银行家面前纵横捭阖的社交天赋,最终在 1891 年从这次债务危机中脱困。

《光电帝国》中记录了威斯汀豪斯善于社交的生活细节:

以豪爽亲切而闻名的威斯汀豪斯,白天在办公室时,经常给他夫人打电话说,他可能带两个、4 个甚至 10 个客人回家吃晚饭。通常客人是和公司业务有关的人和太太,匹兹堡当地人们就经常会看到极为尊贵的科学家、铁路执行长官和国外贵族来访。​

尽管如此,威斯汀豪斯并不如同时期的爱迪生那么出名,两者的区别在于,威斯汀豪斯更注重实际,他的客人往往和他关注的实际业务直接相关,而爱迪生的名声则很多是因为他为了宣传自己的发明而得来的。

对特斯拉的专利投资并非威斯汀豪斯的意气用事。早在 1885 年春天,他就在《工程学》杂志上获得了灵感,通过变压器来转换电压,就可以实现高压输电,低压用电,从而让电力输送不再有距离的限制。此时,爱迪生的直流电还需要依靠上百个中心电站为他的直流电力系统供电。

用今天的观点来看,交流电的规模经济和网络效应无疑远远超过直流电,后者的中心电站通常只能覆盖几英里半径的范围,而且铺设输电线路需要大量的铜,边际成本远高于交流电系统。威斯汀豪斯用 68 座交流电站的规模就几乎可以与爱迪生的 121 座直流电站相比。

《光电帝国》一书写道:

吉多·潘塔里奥尼,一位有教养的年轻意大利工程师,他曾在交流电时代为威斯汀豪斯工作过,时不时回到匹兹堡。他发现虽然他以前的老板“仍然很会招待人,机智异常,妙语连珠,但真正让他时刻惦念的只有一件事,就是——机器运转得怎么样?​”潘塔里奥尼发现威斯汀豪斯现在对此类问题更加专注,​“生意越来越多……在商业上他真是个奇才;我还从未见过这样的人,面对纷至沓来的众多业务,还能保持清醒头脑,指挥若定;他的远见卓识让我钦佩不已;当一个新主意出现时,你还没有意识到他是怎么想的,他已经将其解释清楚并付诸实施。​”

如果我们把企业家分成两种,一种是 Builders(建造者),一种是 Inventors(发明家),那么威斯汀豪斯一定属于前者:他一方面关心生意,善于社交,并且永远都看重能不能扩大规模,但另一方面,他也是一个对技术有着独到深入理解的人,这让他能够以一种理性冷静的视角做出判断,尽管这种判断也需要从生意的角度衡量,也需要冒着巨大的风险。

18 世纪末的美国正在经历南北战争之后的一段黄金岁月,铁路贯穿全国,这让钢铁和矿业的生意再上了一个新台阶;资本市场已经热闹起来,华尔街一片繁忙;而电气革命还没有真正开始,不断有新技术冒出火花;大恐慌时代还要至少 10-20 年后才会真正到来,企业都在快速扩张。

在技术周期交叠的阶段,我们总能看到类似的情形,也就不难用自身所经历过的现实做对比。JP Morgan 这样的金融家比今天的风险投资家有着更大的权力,他最终让威斯汀豪斯和他的对手们都以相似的方式失去了对自己所创办的企业的控制权,但如果深究其原因,我们又能看到建造者和发明家在行为模式上的差异。

威斯汀豪斯是在 1907 年前后的大恐慌年代中失去了对西屋电气的控制权。他在 1890 年前后已经经历了一次债务危机,那一次正是因为他看到了交流电的机会,在扩张的同时没有及时解决好现金流的问题,但那一次需要解决的资金规模是 50 万美元,威斯汀豪斯 通过出售优先股的形式,成功筹集到了这笔钱。

而到了 1907 年 10 月,美国陷入了三周的金融恐慌,股票暴跌了 50%,银行出现了挤兑。而在此时,威斯汀豪斯 再一次为了追求规模增长而放松了对公司债务的控制,10 月 18 日,威斯汀豪斯 发现公司即刻需要 400 万美元现金来偿还短期债务,此刻,他需要面对恐慌之中的银行家。尽管他通过向员工出售股票筹得了部分款项,但到了 1908 年底,银行家已经获得了西屋电气公司的控制权,并选出了新的董事会主席,威斯汀豪斯 在 1910 年底彻底离开了公司。

1911 年,在他辞世前 3 年,他获得了由 IEEE 颁发的爱迪生奖章(IEEE Edison Medal)。谁也说不清,这是不是一次巨大的讽刺。

Meta: 用十年寻找下一代计算平台

2024-09-27 12:29:28

Meta: 用十年寻找下一代计算平台

Meta Connect 2024 发布会这两天引发了很多讨论。我自己也在 Twitter 上写了一些总结,结合最近 Zuckerberg 的访谈,我发现,有必要重新整理一下过去几年这家公司的路线图。

我花了一个上午仔细阅读了过去几年对 Meta 关键人物的访谈和分析材料,做了一些摘录放在这里。

移动 OS 时代的困境

在移动互联网阶段,Zuckerberg 认为自己受到了来自 OS 平台的诸多限制。在 Acquired 的访谈中,他提到如果没有这些平台的限制,Meta 可能能够赚到「双倍」的利润。

对于 Meta 而言,移动互联网上两个主要的操作系统带来了不同的挑战:

  • iOS 的垂直整合:苹果采取垂直整合策略,对所有应用抽取 30% 的分成。但对 Meta 影响最大的是苹果推出的 App Tracking Transparency (ATT)。这个功能表面上是出于隐私保护的考虑,但实际上严重影响了 Meta 以广告为主的商业模式。
  • Android 的生态系统:Zuckerberg 曾经尝试与 HTC 合作开发基于 Android 的设备,但很快就失败了。他后来发现,谷歌基于安卓的开源系统,实际上建立了一整套包括账号、支付、基础应用等在内的配套服务。这使得 Meta 想通过在安卓之上添加一层软件和硬件的方式来竞争变得几乎不可能。

如果没有碰到这些困境,Zuckerberg 或许不会选择探索现在这条路。

Oculus、Quest 和 Reality Labs

在移动时代碰到的种种限制让 Zuckerberg 学到了很多教训,他开始寻找下一代的计算平台:在 2014 年收购了 VR 头显厂商 Oculus。

收购完成后,继续向前的路线并没有立即明确。内部存在两种观点:一种是做一个高端的 PC 或游戏机配件,价格更贵但支持更强大的计算能力,Oculus 原来的团队很多支持这条路线,早期产品 Rift 也是这个路线的代表;另一种是做价格便宜、成本低但销量大的独立设备,代表人物是后来离职的 John Carmack,他推动了 2018 年发布的 Oculus Go,可以认为是独立廉价设备路线的初代机。

最终还是第一种路线取得了胜利。2019 年,初代 Quest 发布,售价 399 美元。2020 年,Reality Labs 成立,Andrew Bosworth 担任负责人,后来成为现在的 Meta 的 CTO。2021 年,Facebook 宣布更名为 Meta。

Reality Labs 每年预算达到上百亿美元。在 2020 年代初让 Meta 承受了巨大的资本市场压力,投资人不理解为什么要少这么多钱投入一个短期看不到任何成效的项目上,也不再相信 Zuckerberg 讲的 Metaverse,Meta 股价在 2022 年 10 月底跌破 100 美元。Zuckerberg 很快宣布 2023 年为 Meta 的 Year of Efficiency,启动大幅度的裁员、组织架构调整。

从财报披露来看,Meta 2023 年的 Year of Efficiency 对 Reality Labs 的影响是温和的:Reality Labs 在 2023 年第四季度首次突破 10 亿美元季度收入,实现增长。然而,Reality Labs 继续报告重大亏损。2023 年第四季度亏损 46.5 亿美元,而 2022 年第四季度亏损 42.8 亿美元。Meta 增加了对 Reality Labs 的 AI 投资,但巨额亏损仍然持续。

Bosworth 在和 Ben Thompson 的访谈中认为,在 Year of Efficiency 之前,RL 内部就已经在做路线选择,2020 年底发布的 Quest 2 已经证明了他们选择独立 + 低成本设备 + MR 的路线决策。这一代产品的最低配版本起步价格首次达到了 299 美元。

我喜欢这个问题。那是在效率年到来之前。我认为这并不罕见,你会经历这些扩张时期,你会想,“我们还不知道什么是重要的,我们真的不知道什么技术是正确的技术,我们不知道什么操作系统是正确的操作系统,我们还不知道什么权衡是重要的”。因此,如果你想在一定时间内充满信心地取得成功,那么并行处理大量事情是值得的。

说实话,我们在 Quest 2 中取得了转折,尤其是当我们看到了混合现实时。这开启了这个过程,现在你已经达到了混合现实的地步,我们的元宇宙部门非常专注,对什么是好的有着非常清晰的愿景,有非常清晰的能力来辨别这是道路,这不是道路。因此,您可以更加高效地利用资源,使用并行路径列表,只需快速处理更重要的事情。

2022 年推出的 Quest Pro 实验性的推出了薄底镜头,售价高达上千美元,虽然反响一般,但对后续 Quest 3 铺垫了很多技术准备。

2023 年的 Quest 3 基于 Quest Pro 进一步完善了硬件规格,销量达到新高(据称在百万台)。本次发布的 Quest 3s 就是基于 Quest 3 的一个「青春版」,希望冲击更高的销量。同时,和 Ray-ban 合作的智能眼镜也获得不错的市场反响。

Apple 在 2023 年推出的 Vision Pro 一定程度上坚定了 Meta 在路线选择上的信心。Bosworth 这样讲道:

我喜欢 Vision Pro — 人们不会相信我 — 我喜欢他们走极端。就像,“如果我们把这个拨盘转到 11,让系统的其余部分保持原样,会怎么样?”,你明白为什么我们没有这样做,只是在重量和成本方面。是的,这就是把这个拨盘转到 11 所需要的。

当竞争对手推出产品时,你唯一真正担心的是他们已经取得了你没有的突破。他们已经解决了一些问题,一些你还没有解决的技术问题,因为这样他们就有可能在一段时间内保持优势,直到你能打败他们。所以我认为每当一种设备问世时,人们都会有这样的感觉:“哦,太好了,这都是用我们所知的材料制成的,这都是用我们可以接触到的技术制成的。”

Meta 很清楚,自己需要更快的达到用户规模的临界点,才有机会进一步和 Apple 在软件和内容上竞争。Vision Pro 的高端路线使得它在推出时没有太多可以匹配的应用和内容。Meta 则在 Quest 2 和 3 的成功基础上进一步探索如何构建开发者生态。

AI 带来的再次加速

VR 和元宇宙叙事最大的挑战就在于内容制作的成本。解决这个问题的路径无非是游戏、视频和社交。前两者 Meta 并不擅长,需要开发者生态,而社交则是它很擅长的,所以他们先后推出了 Horizon Worlds 和 Codec Avatar,本质上是构建一个虚拟世界,让用户在其中互动,从而支撑 Quest 生态。

Bosworth 认为,AI 在内容生成、虚拟形象、动作追踪等方面具有极大的推动作用:

人工智能最能拯救我们的地方是 Horizon Worlds,我希望每个人都能创造一个世界,但 3D 设计并不是一件小事 ... 无论你做得有多便宜,这都是不简单的,除非我能用语言描述它并让它出现,今天我们谈到了这一点。我们在舞台上谈到了 NPC——NPC 是一件很繁琐的事情,如果没有它,你的游戏就很难做。现在,你可以用人工智能来做。同时,在 AR 上,我们使用的人工智能是传感方面。

他提出,这个问题和自动驾驶很类似,都是在空间中进行模拟和计算:

你需要一个设备来具备一些常识,没有更好的词来形容。它需要理解一些……我不能教它每一件事,而且……我永远也做不到。人类在世界上的经验太丰富了。这就是自动驾驶汽车教给我们的。事实证明,自动驾驶汽车在交通中遇到的随机情况数量如此之多,如此之大,长尾如此之长,以至于当你试图死记硬背时,你几乎无法到达那里。所以对于我们耳机来说,我们的架构图中一直有一个我们有时称之为指挥的概念。这个代理的概念可以感知你的注意力和意图,了解你想要完成的事情并帮助你。

这里隐含了一个很重要的观点:在已有的计算平台上(比如手机),AI 生成的内容更可能成为现存内容生态的补充,而很难支撑一个新的内容平台。这就是为什么我们看到大量的 AI 文字、视频生成应用更多是为了企业或创作者经济服务的。无论是在位平台、创作者还是普通消费者,都难以接受大规模的 AI 生成内容冲击现有生态的利益分配。

而对于新的计算平台而言,既得利益少很多,内容稀缺,人们更能接受 AI 生成的虚拟形象在这个空间中大量存在,占据主导地位。这里很有可能给生成式 AI 留出更大的机会。

Zuckerberg 的视角看,AI 的两种重要场景是:

基于这些假设,我们试图了解其中哪些东西对人们最有用。其中一条主线是帮助人们和创作者使用人工智能制作更好的内容。所以这一点非常清楚。让有抱负的创作者或高级创作者能够非常轻松地制作出比他们原本能够制作的更好的东西。这可以采取这样的形式,“好吧,我女儿正在写一本书,她想要配上插图,我们坐下来一起与 Meta AI 和 Imagine 合作,帮助她想出一些图片来说明它。”这就像她以前没有能力做到这一点。她不是平面设计师,但现在她有了这个能力。我认为这会很酷。

然后有一个版本,在这个系统中有各种各样的人工智能代理。我认为这是我们对人工智能的愿景与大多数其他公司之间的巨大差异。是的,我们正在将 Meta AI 打造为您可以构建的主要助手。这有点像谷歌、OpenAI 或其他人正在开发的单一助手,但这并不是我们的主要工作。我们的主要愿景是,我们认为将会有很多这样的助手。每家企业,所有数亿家小企业,就像他们今天有网站、电子邮件地址和社交媒体账户一样,我认为他们未来都会拥有一个人工智能来帮助他们与客户互动,将销售和客户支持等功能结合起来。

如果说第一条路线已经体现在 Quest 生态中的话,那么第二条路线将更多体现在新发布的 Orion 中。

Orion 和 Full AR

Zuckerberg 在发布会上演示的 Orion 眼镜是最引人瞩目的,他将其称为 Full AR。这个设备可以认为是 Quest 头显设备和 Ray-Ban Meta 眼镜的结合体,在硬件和软件定义上更可强大,也更具有移动性。

在 The Verge 的访谈中讲道:

总体而言,对于 Reality Labs 来说,有一段时间,很多人认为所有的预算都用于虚拟现实和混合现实。实际上,我认为我们已经公开表示,我们的眼镜项目比虚拟现实和混合现实项目预算更多,但这适用于所有项目。这就是 Full AR,这就是无显示眼镜,这就是我们将在 Ray-Ban 上进行的所有工作,我们刚刚宣布扩大与 EssilorLuxottica 的合作伙伴关系

他认为,眼镜可能成为下一个十亿用户级别的计算平台。

因此,眼镜变得越来越有用,我认为这也会随着时间的推移增加需求。它如何与手机互动?就像你说的,我认为人们不会很快放弃手机。我的想法是,当手机成为主要的计算平台时,我们并没有放弃电脑。我们只是有所转变。我不知道你有没有这种经历,但在 2010 年代初的某个时候,我注意到我会坐在电脑前的办公桌前,拿出手机做事。

我们不会扔掉手机,但我认为,慢慢地,我们会开始用眼镜做更多的事情,更多地把手机放在口袋里。这并不意味着我们已经不再需要电脑,而且我认为我们也不会在短时间内不再需要手机,但有一条非常清晰的路径,那就是你将使用眼镜做越来越多的事情。随着时间的推移,我认为眼镜也将能够由腕戴式可穿戴设备或其他可穿戴设备供电。

所以,10 年后有一天你醒来,甚至不需要随身携带手机。现在,你仍然会拥有一部手机,但我认为更多时候,人们会把它放在口袋里或包里,或者最终,有时,会把它留在家里。我认为眼镜将逐渐成为我们进行计算的主要方式。

眼镜这个界面有它的局限性:尽管 Orion 展示了强大的手势操作能力,但它仍然不是太适合做大量输入。这也是为什么 AI 可能扮演更重要的角色,语音输入和 agents 更适合在这个场景下完成任务。在手机上,Apps 生态更加分裂和孤立,可能成为 Agents 的限制。

Meta 还有更多实验室里的产品没有拿出来,预计还有 3-5 年时间再迭代数代才可能真正普及到普通消费者手中。

Bosworth 说,第三代产品其实就是你在做第一代产品的时候希望的能有的样子。这一点在 Quest 上已经应验了。如果 Orion 算是初代,那么它的三代的确很令人期待。

从收购 Oculus 开始,到 Orion 推出,很巧,这条路刚好走过十年。

"Living in the Future"

Andrew Bozworth 在 Meta 官方博客上发表了一篇题为 Living in the Future 的文章,其中写道:

我们在过去一年中看到的转变表明,人工智能将成为人机交互的主要方式。新设备的出现为人们提供了舞台,它们可以以前所未有的方式感知、理解和与周围的世界互动。
我们的人工智能雷朋 Meta 眼镜展示了一条这样的道路。我们的新 Meta AI 助手结合了视觉和语言理解,从您的角度看世界,并与您一起理解它。我们正在眼镜上测试新的多模式人工智能功能。启用此功能后,它们可以翻译您正在阅读的外语,或为您拍摄的照片想出一个有趣的标题。而且它们可以解放双手,您无需拿出手机或操作应用程序。
我们相信,尖端人工智能最强大的表现之一将是能够理解您周围的世界并帮您度过一天的助手,最终无需提示。眼镜是实现这一目标的理想设备——它们可以从您的视角看世界、听世界,它们已经被社会所接受,可以全天佩戴,让您完全沉浸在当下。
在 Reality Labs,我们投入了多年的研究来研究推进这一目标所需的技术——例如超低功耗、始终开启的传感器和能够理解您的环境的机器感知系统。我们不仅在这里开创了一种新型设备——我们将在未来几年推动它的发展。

Elsewhere

Altimeter Capital 的投资人 Freda Duan 认为,Ray-Ban Meta 有可能成为像 AirPods 那样的爆款产品,后者已经销售了上亿对,是目前可穿戴硬件领域销量最高的产品,其次是 Apple Watch,销量为 4000 万只。

她比较 Ray-Ban Meta 和 Ray-Ban Stories(初代产品):

新品:Ray-Ban Meta 包含内置 AI 辅助。
改进:音频音量增加 50%,低音增加 2 倍;增强媒体质量和舒适度;更多款式和颜色;充电盒更快。
相同:价格;电池寿命;开放式耳机。
Ray-Ban Stories 售出 30 万副,每月使用率仅为 10% 以下,退货率很高。

以及回顾了其它竞争对手在这个领域的尝试:

$GOOGL 眼镜(2013 年):使用不到一年,销量不到 10 万台。
定价过高,高达 1,500 美元;没有制造合作伙伴;出于安全和隐私方面的考虑,市场尚未做好准备。
$SNAP 眼镜(2016 年):导致 $SNAP 损失 4000 万美元,销量不到 30 万台。
功能类似于 Meta 的 Ray-Ban,但缺乏更广泛的应用集成(只能将视频传输到 $Snap 应用,而不能传输到手机的相册),导致库存过剩。

这次的不同之处:

1/ AI 集成:市场对 AI 助手的兴趣日益高涨。人们想要一些新东西!
2/ $META 的生态系统锁定:正如
@boztank
所说,“通过 WhatsApp 和 Messenger,人们可以使用 Meta AI 助手。但您无法通过 AirPod 获得它。”

@boztank 就是 Meta 的 CTO Andrew Bozworth。


References