2024-12-23 15:14:09
Re https://pt.plus/measurement-of-intelligence/
2024-12-23 15:13:38
应该是今年倒数第二期 newsletter 了,不能免俗的谈一下 o3,不管 OpenAI 有多少争议,12 天发布的最后一发的确是有分量的。
周末已经看了不少讨论。因为大部分人都没有用上这个模型,所以讨论集中在放出来的几个“跑分”上。其中最关键的就是那个 ARC-AGI 测试。
这个测试集已经创建了 5 年,它的设计原则是:在很少的先验知识前提下,对人类很简单,对机器很难——考验的是模型是不是真的有“智能”——按照人类的标准。
5 年以来,在 o3 出现之前,还没有什么模型能在这个测试上取得和人类相当的成绩。
ARC-AGI 测试的设计者 François Chollet 在 2019 年发表了一篇题目为 On the Measure of Intelligence 的论文,详细论述了度量智能水平的思路和原则,这个测试也就由这篇论文而来。
我去读了这篇 64 页的论文,才开始理解为什么 o3 会采用这个测试来证明自己的能力,以及它和 GPT 系列模型之间的关系。
在 2024 年年尾,释放出这样的信息,意味着我们将在 2025 年看到很不一样的变化。AI 的进化肯定没有撞墙,而是在进行分化和分工:不同的模型因为智能水平的不同而被选择扮演不同的社会角色,正如今天的人类社会一样。
面向 2025 年可以做的预测很多,我也尝试做了一些,放在文章最后。
全文链接见评论区。
2024-12-20 19:11:39
Re @novoreorx 说起来,Roblox 倒算是一个可以不断更新的“玩具”。
2024-12-20 19:10:44
Re @novoreorx 我依稀记得他当时最大的困难就是获客,当时 O2O 还得去做地推,挺难做起来的。这个点上可能是比当时好,可以用的办法应该比当时多。
其它的我不敢说,玩具市场了解不是太多。比如家长是不是对玩具的安全卫生等问题有顾虑?以及玩具有没有“过时”的问题等。