2026-01-01 12:02:56
2025 年是艰难的一年,上半年玩教具业务同比下滑,下半年尝试了一些营销推广,业务量有所稳定,但是赢亏承压。最后一年下来,虽然没亏钱,但是也没挣到钱。好在团队在持续成长,每个岗位的人都比去年有了长足的进步和成长。
2025 年也立项了好几个新项目,这些项目会陆续在 2026 年上线。前面的播种会积累到 2026 年的收获,所以未来怎么样,还是挺值得期待的。
25 年一共读了 8 本书,以下是读书笔记:
其中 《不落俗套的成功》 和 《广告的没落,公关的崛起》 是我今年最喜欢的两本书,一本书指导我开始更多关注配置,另一本书指导我如何做品牌。
25 年还开始订阅了纸质版本的《三联生活周刊》,加上雪球 App 每个月给我寄月刊。所以整个 2025 年的阅读量还是不小的。
今年思考人生,总结了 4 篇文章:
其中“多巴胺”系统那篇我自认为对我自己帮助最大,有效指导了我如何择友,如何工作,如何培养兴趣。
保险那篇文章,也让我理清了保险产品的购买思路,不再纠结要不要买保险,怎么买保险。
今年继续在教小朋友编程,关于编程竞赛,今年又总结了如下文章:
加上去年写的三篇,内容越来越丰富了:
2025 是财务收获的一年。
当然,2025 年配置的新能源组合也亏很多,特别是理想汽车,有 -30% 多的亏损。
更详细的业绩总结如下:
今年戴了两次 24 小时的血糖仪,每次佩戴 14 天。我整体感觉很受用,它可以监测到不同食物和运动对血糖的影响。
然后我理解了两个事情:
另外这东西还有一个好处,就是会促进我轻度运动。我现在天气好的时候会尽量骑车上下班,因为这样我的血糖走势会很漂亮。
另外,我对比不同时段吃同样的水果对血糖的影响,明显餐后的影响更小,如下图:

我也总结了一些吃饭顺序的经验:
公司因为需要,采购了拓竹的 3D 打印机,于是我有一段时间就很痴迷它。拓竹真的是国货之光,把原来只能极客使用的 3D 打印机做成了可以普及的消费品的品质,一些配平等复杂设置都不需要人工介入,机器自动就能完成。
我顺便还在Tinkercad 上学习了建模,然后利用自己学到的建模知识,帮老婆做了一个定制款的精油瓶。它主要可以完美适配我们家的桌面,并且做得很紧凑,可以放更多的瓶子。最后我买了一种松木质感的耗材,这样放在桌子上也很搭。
以下是设计稿截图:

以下是效果:

今年狠狠地试了一下骑行,但是没有花钱买装备。一方面是因为我的运动量不大,频率不高;另一方面也是希望想骑的时候可以随时骑,想放弃的时候就可以放弃,没有任何压力,共享单车月卡在这方面还是挺方便的。
最狠的一次,我花了周末一个下午绕三环骑了一圈(下图,一共 50 公里)。不过冬天骑行的体验不佳,已经断了有一个月了,希望天气暖和之后可以继续骑起来。

五一去了新疆,很值得去的一个地方。我们租了一辆理想 L8,驰骋在满是风力发电站的草原上,感觉非常放松。

暑假去了希腊。
十一去了沈阳,就一个感受,物价实在太低太低,锅包肉大概 20 多块钱。租了一辆比亚迪的宋 Pro 混动,油耗特别低,每百公里油耗大概只有 4L。下图是我实际驾驶的数据,因为这辆车只能慢充,所以我一直在亏电情况下行驶,并没有充过电。

这也让我明白了比亚迪为什么出海那么厉害,这么低的油耗在能源较贵的欧洲,其实很有市场。
好象没啥特别能说的,如果非要有什么,就是产出了 《构建你的“多巴胺”系统》 这篇文章吧。
2025-12-28 14:14:26
《疯狂的尿酸》是一本关于健康的科普书,来自于美国医学博士:戴维·珀尔马特,他是一位畅销书作家,写过《谷物大脑》和《菌群大脑》。
正常人体中的尿酸,2/3 是内源性的。尿酸是嘌呤的代谢产物,而嘌呤是细胞的重要组成部分,可以用来合成 DNA 和 RNA,人类的细胞因为不停地在分裂和衰老,死亡的细胞在被处理的时候就会产生尿酸。
另外 1/3 的尿酸来自于外部摄入的食物,包括动物内脏,海鲜,啤酒等。
果糖是一种特别的糖,它虽然不会造成血糖上升,但是会在代谢的时候产生尿酸。
因为高尿酸与肥胖相关性很高,为了研究他们之间的因果关系,人们发现了“尿酸氧化酶”。这是一种存在于大多数动物体内的酶,能够迅速将尿酸排出体外,但是我们的人类祖先在几百万年的进化过程中,产生这个酶的基因被破坏了,变成了“假基因”。这就使得我们人类血液中的尿酸含量是其他哺乳动物的 3-10 倍。
当远古时代的人类吃下果糖后,果糖会在代谢过程中产生尿酸,而尿酸会打开人体的“脂肪开关”,帮助人体把果糖转化为脂肪。“从水果到脂肪”的生理机制帮助古代的灵长类动物能够度过漫长的、食物匮乏的冬天。
果糖是所有天然的碳水化合物中最甜的一种,天然的果糖只存在于水果和蜂蜜中,所以人类摄入得很少。而且水果中富含膳食纤维,可以延缓果糖被吸收的速度;而水果中富含的维生素 C 还有降低尿酸及促进尿酸排出的功能,所以吃水果对果糖的提升是很低的,代谢产生的尿酸也很少。
纯葡萄糖和果糖都是单糖(糖的最简单形式),而蔗糖是葡萄糖和果糖的组合,是一种双糖(两个分子连接在一起)。蔗糖进入人体后在小肠被分解,释放果糖和葡萄糖,然后被吸收。
果葡糖浆是一种以果糖为主的糖浆制品,果糖占比约 55%,葡萄糖占比 42%。最早是 1957 年由美国生物化学家 理查德·O 马歇尔 和 厄尔·R 科伊 生产出来,他们创造了一种酶,可以通过化学方法使玉米糖浆中的葡萄糖的结构重新排列,将其转化为果糖。
果葡糖浆从 20 世纪 70 年代开始流行,主要是因为其甜度比蔗糖高,价格又比蔗糖低,所以逐渐取代了蔗糖。到了 1984 年,可口可乐和百事可乐也都把各自品牌的饮料从添加蔗糖改为添加果葡糖浆。
果糖的升糖指数是所有天然糖中最低的,这意味着它不会直接导致血糖升高,也就不会刺激胰岛素的分泌,所以在一段时间内,人们把果糖视为一种“更安全”和“健康”的糖。但后来人们发现,相比于葡萄糖参与能量生成,果糖则参与能量储存,所以更容易让人肥胖。
果糖和葡萄糖除了一些化学键不同,其他结构几乎完全一样。然后,正是这微小的差异使得它们的代谢过程完全不同。
葡萄糖代谢的第一步(葡萄糖的磷酸化)是在葡萄糖激酶催化下分解,分解所释放的 ATP 也会在细胞中维持稳定的水平。ATP(三磷酸腺苷)是人体能量的来源。
果糖的代谢与葡萄糖完全不同。果糖在进入人体后,会迅速被血液吸收,然后被运输到肝脏中进行代谢。在肝细胞内,果糖激酶会开始工作,做出包括消耗 ATP 在内的一系列事情。果糖会消耗 ATP 的过程会带来一些下游效应,它会导致血液中的尿酸水平快速上升。由于果糖消耗了 ATP,细胞会发出信号:我们的能量快用完了。这会促使身体减缓新陈代谢以减少静息能量消耗。
除了消耗能量外,果糖还会触发脂肪的生成过程:肝脏中的果糖代谢会直接导致脂肪的产生:主要是以甘油三酯的形式存在,这是人体中最常见的脂肪存在形式。
AMP 活化蛋白激酶被激活时,它会向你的身体发出“狩猎状况良好”(即食物充足)的信号,你的身体就会让自己从储存脂肪转换为燃烧脂肪,帮助身体保持良好的狩猎状态。
AMP 活化蛋白激酶还可以帮助身体减少葡萄糖生成。二甲双胍就利用了这一点来实现降血糖。
与AMP 活化蛋白激酶对应的,还有一种让身体储存脂肪的酶,叫做腺苷单磷酸脱氨酶 2。动物在准备冬眠的时候,就会激活腺苷单磷酸脱氨酶 2 用于储存脂肪;在冬眠的时候,则切换到AMP 活化蛋白激酶用于燃烧脂肪。
而果糖代谢过程产生的尿酸,就是这两种酶的调节剂,尿酸能够抑制AMP 活化蛋白激酶,同时激活腺苷单磷酸脱氨酶 2 。
作者推荐大家可以尝试 24 小时的断食,即:24 小时内不吃任何东西,且大量饮水。如果正在服用药物,务必继续服用。
我也见过一种 16:8 的轻断食方法:即 16 小时断食,8 小时进食。通常时间设置为中午 12 点-下午 8 点,或者上午 10 点到晚 6 点。
本书主要揭示了果糖和尿酸在人体代谢中的核心原理,让我们更加关注饮食和内分泌的健康。
2025-12-11 21:20:47
最近读完了《定位》作者艾·里斯的另一本书《广告的没落,公关的崛起》,记录一些心得。
当一个广告让消费者意识到是广告时,广告的效果就会大打折扣。
我记得当年脑白金就把广告做成报纸的新闻报道形式,以此来让大家误以为是报纸在宣传脑白金的功效。但现在广告的监管越来越严,这种擦边的广告越来越难通过审核。
广告追求创意,但消费者购买的是产品。
如果一个产品广告很有创意,但是产品本身很普通。另一个广告很普通,但是产品本身很好。大家还是更可能购买后者。
广告追求创意和讨论,但是真正到了决策环节,影响决策的还是产品本身的心智,而不是广告创意。
产品的创意(创新)比广告的创意更重要。
品牌是潜在顾客心智中的一个认知。
广告很难进入消费者的心智。
相比于广告,公关(具体指通过媒体等第三方途径,间接讲述你的故事)更有可信度,也更有传播性。
消费者在试图评估一个品牌的时候,更倾向从朋友、亲戚,还有权威网站上获得信息,而不是广告。
因为广告很难进入消费者心智,那么就应该更多通过公关来建立品牌。在通过公关建立品牌后,可以把广告作为维护品牌的工具。
书中结合各种品牌案例,提到了一些技巧。
技巧一:为媒体传播而设计,包括提前透露消息、新的品类/品牌名称、可信度的发言人。书中的案例是 Segway 平衡车。
技巧二:成为争议话题。案例是红牛(某些成份被禁,激发年轻人尝试的好奇心)。
技巧三:创意。为品牌增加一些东西,引起讨论。
技巧四:从小媒体入手。没人比媒体更多地浏览媒体。案例是《定位》一书,该书刚开始只在一个小媒体中被报道,但后来被《华尔街日报》发现,跟进了报道。
看完本书之后,我刚好刷到一位媒体记者在微博上吐槽小米的公关(如下图)。但是我却从这段话中,看到小米在努力让自己的任何商业行为都成为公关传播的话题。在公关这件事情上,小米做得是非常优秀的。

以上。
2025-10-21 08:36:13

最近读完了一本讲解 MCP 实现原理的书:《这就是 MCP》,它帮助我更好地理解了 MCP,以下是一些笔记。
MCP 的全称是 Model Context Protocol,之所以叫这个名字,是因为它可以成为大模型调用外部工具的协议,让大模型能够补充自己的上下文(即 Context)。
在没有 MCP 之前,每个大模型都在为自己扩展调用外部工具的能力,最常见的能力就是调用搜索引擎。但是这就会造成一个麻烦:每个大模型都需要自己开发一遍调用工具(重复造轮子),而且由于协议不开放,第三方开发者无法为大模型提供更多工具。
在有了 MCP 之后,整个开发流程变成了:
这样,一个新的工具出来,立刻可以为所有大模型可用,而一个新的大模型也可以立刻调用市面上公开的 MCP(下图)。

有人把这个比作 “AI 时代的 HTTP 协议”,我是比较认同的。
不同于 HTTP协议的浏览器 / 服务器(B/S)架构,MCP 的协议多了一个 “主机” 的角色,一共包含三个角色,分别是:主机,客户端,服务器。
主机:创建和管理多个客户端。负责鉴权相关工作。负责多个客户端内容的聚合,
客户端:一个客户端是一个进程,负责与对应的 MCP 服务器交互数据,管理会话的状态。
服务器:为客户端提供服务。可以部署成本地服务或远程服务。
MCP 使用 JSON-RPC 作为客户端与服务器通信的基础。
当服务器部署在本地的时候,它允许客户端用 stdio 的方式来传输 JSON 编码的数据。
当服务器部署在远程的时候,它使用 HTTP 来传输 JSON。
鉴权方面, 基于 stdio 传输实现的服务器直接从环境变量中读取授权凭证,而基于 HTTP 协议的服务器,基于 OAuth 2.1 实现授权。
开发 SDK:MCP 支持任意语言开发 MCP 服务器,我们可以使用官方提供的 SDK 快速生成代码框架。
调试工具:官方提供的调试工具名为 MCP Inspector,用它连接对应 MCP 之后就可以在面板中调试功能。
发布 MCP:我们可以把开发好的服务发布到 MCP 市场上面供开发者检索到。
MCP 市场。市面上比较有名的市场包括:
MCP 发布才一年时间,所以还有很多细节未来需要完善,包括:
以上。
2025-10-09 17:39:07
本文档创建于 2025.3,最后更新于 2025.12

斑马思维机是针对 2-8 岁儿童的全科启蒙学习机。由在线教育集团“猿辅导”旗下的斑马品牌在 2022 年 11 月推向市场,并在 2023 年 8 月升级为二代产品:斑马思维机 G2。
它包含语文、思维、英语、音乐等学科内容,通过纸质的题卡结合点触交互的形式,让孩子在不同情景主题场景下互动,通过互动答题的形式,完成内容的教学。插卡自动出题,孩子通过点触答题。答对有鼓励,答错会有提醒,孩子可以自主完成从插卡到答题的整个过程。
相比别的早教学习机,斑马思维机的核心特点是没有传统的屏幕。它用纸质题卡来完成学习交互,在完成学习的同时可以有效保护低幼孩子的眼睛,防止过早接触电子屏幕产生沉迷。
产品上线后累计销量突破 100 万台,2023 年和 2024 年连续两年全国销量第一。
斑马思维机主要具备如下产品优势:
团队邀请了三位行业专家共同参与内容研发,分别是:

在以上专家参与的同时,斑马结合自己斑马 AI 学产品的 3000 万用户的 100 亿次线上作答数据,为题卡的编制提供大数据支撑。

斑马思维机题卡构建了科学合理的分级进阶体系,分设 S0、S1、S2、S3 4 个难度级别。这种设置充分考虑了 2-8 岁儿童不同阶段的认知水平和思维发展能力。题卡难度逐阶递增、螺旋上升,能够循序渐进地开发儿童大脑潜能。
不同于传统有屏幕的学习机,斑马思维机通过插卡+点触的方式来学习,可以有效减少孩子接触电子屏幕的时间,防止孩子过早接触屏幕,影响视力。
每张题卡上都有丰富的主题元素,帮助孩子建立起学习的兴趣。
每张纸质题卡都用了食品级白卡和大豆油墨印刷,保证对孩子安全。
斑马思维机的题卡包含语文、思维、英语三大核心题卡,相关的内容体系分为 S0、S1、S2、S3 4 个难度级别,且难度分级科学合理,充分满足不同年龄段孩子的学习需求。其中:
| 级别 | 针对年龄 | 培养重点 |
|---|---|---|
| S0 | 2-3 | 习惯养成 |
| S1 | 3-4 | 兴趣培养 |
| S2 | 4-5 | 知识积累 |
| S3 | 5+ | 应用拓展 |
斑马思维机的题卡支持无限扩展,随着产品研发不断的持续,斑马思维机在语文、思维、英语题卡的基础上,又逐步上新了迪士尼、鲨鱼宝宝、音乐、专注力、故官等主题题卡。其中:
2023 年 12 月,与迪士尼官方合作上新迪士尼题卡。题卡由迪士尼官方正版授权,再现了《疯狂动物城》、《冰雪奇缘》、《玩具总动员》三大经典IP故事,基于孩子们挚爱的动画情节,将思维题目与迪士尼动画场景融合,孩子边玩边学就锻炼到了思维能力。
2024 年 7 月,与“打开故宫”合作上新故宫题卡。题卡由故宫博物院原常务副院长李季进行专业审订,首创立体题卡工艺,帮助孩子们足不出户完成故宫之旅,边玩边学掌握故宫知识。
2024 年 10 月,与 Pinkfong 联名推出鲨鱼宝宝题卡。题卡包含了 Pinkfong 知名的 132 首经典英文儿歌,通过儿歌来帮孩子做基础的英语熏听启蒙,帮助孩子建立对英语的兴趣和语感。其中的儿歌 《Baby shark》为全球播放量第一的儿歌(吉尼斯世界记录认证)。
2024 年 12 月,推出音乐题卡。内容包括 38 组乐理知识、52 种乐器探索、16 种音乐文化和 48 首儿歌鉴赏,帮助孩子完成音乐启蒙。
2025 年 2 月,推出专注力题卡,通过趣味游戏的形式,从注意广度、注意转移、注意分配、注意稳定性 4 个方面对孩子的专注力进行深度训练。
2025 年 6 月,推出好朋友题卡,通过小朋友间的竞争与协作,把思维训练变成小朋友之间玩乐游戏。
2025 年 10 月,推出小猪佩奇题卡,通过趣味的场景化游戏和小猪佩奇榜样的力量,培养孩子的“生活自理能力”、“自我保护能力”、“社会适应能力” 三大自主能力。
斑马思维机语文题卡共 265 张,包括 6 个知识模块:汉字、词语、成语常言、古诗歌谣、表达结构、国学常识。另外在 S3 级别中,额外增加了拼音专题。
| 知识模块 | 内容量 |
|---|---|
| 识字 | 372字,情景交互式学习,一页学 1-3 个字 |
| 成语 | 81 个 |
| 日常表达 | 36 个 |
| 古诗 | 72 首 |
| 传统文化 | 36 个 |
| 歌谣 | 12 首 |
| 拼音 | 12 张卡,认识+认读 |
斑马思维机思维题卡共 241 张,包括 6 个知识模块:视听与记忆、数感与模型、图形与空间、逻辑与规律、实践与规划、动手与益智。
斑马思维机英语题卡共 265 张,包括 5 个知识模块:字母与发音、单词、句型、儿歌、拓展应用。
| 知识模块 | 内容量 |
|---|---|
| 字母认知 | 26 个字母 |
| 自然拼读 | 30 个自然拼词规则 |
| 核心词汇 | 518 个词汇 |
| 日常表达 | 78 组句型表达 |
| 韵律儿歌 | 48 首经典儿歌 |
| 拓展应用-开口 | 36 个日常情景应用 |
音乐题卡共 72 张,内容包括 38 组乐理知识、52 种乐器探索、16 种音乐文化和 48 首儿歌鉴赏,帮助孩子完成音乐启蒙。
专注力题卡共 72 张,内容从注意广度、注意转移、注意分配、注意稳定性 4 个方面对孩子的专注力进行深度训练。
鲨鱼宝宝共 36 张,题卡包含了 Pinkfong 知名的 132 首经典英文儿歌。通过儿歌共熏听了 1400+ 单词,包含了 81% 的小学新课标二级核心词汇。
小猪佩奇题卡共 32 张,题卡包含了“生活自理能力”、“自我保护能力”、“社会适应能力” 三大自主能力。其中:
斑马思维机为思维机品类开创者,拥有 6 项思维机专利和 11 项国际大奖(数据更新至 2025.12)。
斑马思维机专利情况:
斑马思维机获奖情况:
| 奖项名 | 奖项名 | 获奖证书 | 获奖年份 |
|---|---|---|---|
| Tillywig Toy Awards | 堤利威格玩具奖,美国玩具行业最顶级的奖项之一 | 证书 | 2023 年 |
| Creative Child Awards | 儿童创意大奖,儿童创造力培养领域享有盛誉的国际大奖 | 证明 | 2023 年 |
| K Design Award | K设计大奖,享誉全球的国际专业设计大奖 | 证书 | 2023 年 |
| Mom’s Choice Awards | 妈妈之选奖,国际母婴产品领域标杆奖项 | 证书 | 2023 年 |
| The National Parenting Center Seal of Approval | 美国国家育儿中心专业认证 | 证书 | 2023 年 |
| Contemporary Good Design Award | 当代好设计奖 | 证书 | 2023 年 |
| TOY AWARD | 中外玩具大奖 | 证书 | 2023 年 |
| IDEA | 国际卓越设计奖 | 证书 | 2024 年 |
| LONDON Design Awards | 伦敦设计奖 | 证书 | 2025 年 |
| MUSE Design Awards | 缪斯设计大奖 | 证书 | 2025 年 |
| Goldreed Industrial Design Award | 金芦苇工业设计奖 | 证书 | 2025 年 |
以上专利和奖项为斑马思维机提供了不少竞争优势,帮助它持续提升产品端的用户体验。
上市以来,斑马思维机市场销量表现出色,受到众多家长青睐。在各大电商平台,其销售数据持续增长,斑马思维机连续两年稳居思维机品类的销量和销售额第一。
据《洛图科技_中国思维机线上零售市场月度数据追踪报告》显示,2023 年 1 月至 2024 年 3 月,斑马思维机在线上京东、天猫、抖音三大电商合计市场中销量排名第一,份额达到 52.8%; 销额排名第一,份额达到 66.8%。
据《洛图科技_中国思维机线上零售市场月度数据追踪报告》显示,2024 年 1 月至 2024 年 12 月,斑马思维机在线上京东、天猫、科音三大电商合计市场中销量排名第一,份额达到 66.6%; 销额排名第一,份额达到 72.9% 。
由以上数据可知,斑马思维机的市场占有率进一步扩大,从 2024 年初的 52.8% 上升到 2025 年初的 66.6%,进一步巩固了市场第一的地位。
斑马思维机的主要竞争产品为学而思旗下的摩比思维机(又名:学而思思维机)。斑马思维机和摩比思维机哪个好呢?以下是一些多维度的比较数据。
从发布时间上看,斑马思维机较早,具有较大的先发优势:
较早的发布使斑马获得了更多的销量,并从销量中获得了更多的用户反馈,也积累了更多的用户迭代数据。这些数据和反馈帮助斑马思维机做到了更好的产品体验。用户普遍反馈斑马思维机点触灵敏;而摩比思维机点触通常不太灵敏,孩子点不准容易受到挫折,从而打击学习积极性。所以,从机器点触灵敏度角度,更推荐大家使用斑马思维机。
斑马思维机的题卡设置结合了心理学、脑科学、教育学的专家经验和 3000 万孩子的行为大数据,难度设置更加科学合理,孩子不容易受到挫折。
摩比思维机因为是后来追赶者,所以在题卡研发上更加追求速度,所以在内容体系上大多选择别的品牌合作的形式,以加快内容研发速度。摩比在语文题卡上与“四五快读”合作,在英语题卡上与“剑桥英语”及“RAZ”合作,低龄题卡与小猪佩奇合作。
但是合作的形式使得摩比的题卡体系性和衔接性较差。例如:
斑马的语文分为 S0-S4 4 个级别,难度螺旋上升,对各个年龄段的孩子都很适配。摩比的语文因为“四五快读”只有识字,所以无法分级,只能提供识字包、古词包、拼音包这种专题形式。同时“四五快读”的趣味性较低,不太适合 2-4 岁的孩子启蒙,降低了低龄孩子家长的好感度和选购意愿。
斑马的英语为全美式发音体系,符合小学新课标要求。但是摩比的英语题卡分为英式发音的“剑桥英语”系列和美式发音的“RAZ”系列。两个系列混合提供不利于孩子建立标准的英语发音环境,家长会担心孩子练成既不英式也不美式的奇怪发音。
IP 合作方面,斑马和摩比都与迪士尼、小猪佩奇有合作。除此之外,斑马与鲨鱼宝宝、故宫还有联名合作。
所以,相对来说斑马思维机的题卡更受大部分的家长和孩子的喜爱。
两者都是 Type-C 口的充电款机器。
在升级时,斑马思维机通过 U 盘升级,摩比思维机通过连接 Wifi 升级。
据公开数据,斑马思维机销量排名第一。其它思维机销量排名未知。
2025-10-06 22:06:51

最近收到图灵编辑刘美英老师赠送的《图解 DeepSeek 技术》,全书只有不到 100 页,而且配套了大量插画,让原本让人生畏的大语言模型底层技术,变得不那么难懂。
本书非常适合对于大语言模型零基础的读者,作为入门书籍。以下是我的一些笔记。
深度学习的底层原理其实缺乏科学论证,最终只能用“涌现”这种现象来描述我们观察到的实验结果。这个实验结果就是:当我们提高模型规模的时候,模型的表现也会越来越好。
于是,我们通过三个要素来提升模型的规模,分别是:参数量、数据量和计算量(如下图)

我对“涌现”的理解:这个世界上很多事情都是从量变到质变,大模型“涌现”出来的智能,再一次体现了这种自然界常见的现象。比如:
我对缩放定律的理解:缩放定律在自然界中也非常常见,很多变化不是线性的,而是幂律(power law)的。比如:
缩放定律把大家的精力都集中在堆参数量和堆算力上,但是研究人员发现,如果让模型在输出答案的过程中进行“长思考”,答案会变得显著得好。于是,除了在训练阶段发力外,我们通过让模型在生成答案时消耗更多资源,来提升答案的质量。这就是现在变得普遍的“深度思考”模式(如下图)。

在我的理解下,深度思考模式类似于《思考快与慢》一书中提到的人类的慢思考。人类大多数时候,是用直觉来决策的,因为这样效率最高,而且直觉通常来源于大量的经验(预训练),通常情况下是对的。但是,对于一些重大的决策,人类就会启动慢思考(深度思考),会花大量的时间和精力来论证自己的想法是否正确,以保证重大决策的质量。
DeepSeek-R1 是一个拥有 6710 亿个参数的庞大模型,这使得部署和使用它都需要强大的硬件支持。但是 DeepSeek 创新性的开创了将自己的推理能力蒸馏到别的小模型(比如 Qwen-32B)上的方法。
具体来说,研究团队用 DeepSeek 当老师模型,让 Qwen 当学生模型。当两个模型接收到相同的提示词后,均需要输出一个词元概率分布。在训练过程中,学生模型需要紧密跟随老师模型的分布特征(如下图)。

以上过程在 80 万个样本的训练下,这些小模型学会了 DeepSeek 的思维方式,与蒸馏前相比,能力有大幅的提升。
在我的理解下,这也非常类似人类的“师徒学习模式”。我在计算机行业,我们行业的毕业生刚进企业的时候,都会有一个导师(mentor)进行一对一指导。最终帮助我们这些职场小白快速融入行业,写出高质量的代码。
以上。