MoreRSS

site iconQianHei | 浅黑科技修改

一家关注科技前沿的媒体,由一群有爱的科技媒体人2017年创办于北京。
请复制 RSS 到你的阅读器,或快速订阅到 :

Inoreader Feedly Follow Feedbin Local Reader

QianHei | 浅黑科技的 RSS 预览

AI 能陪你亲亲热热,多亏了“存储硬汉”输出狠活儿!

2025-04-23 10:59:00

原创 史中 浅黑科技 2025-04-23 10:59 美国

AI 背后的硬汉,国产技术的狠活儿。

浅友们好~我是史中,我的日常生活是开撩五湖四海的科技大牛,我会尝试用各种姿势,把他们的无边脑洞和温情故事讲给你听。如果你想和我做朋友,不妨加微信(shizhongmax)。



AI 能陪你亲亲热热,

多亏了“存储硬汉”输出狠活儿!


文 | 史中



(一)AI 凭啥免费给你香香?



你有没有想过,这些国民级的 AI 应用凭啥能免费给你用?


现在咱人均都有四五个“在线卑微”的 AI 秘书。


她们化着淡妆站一排,从“霸王龙怎么搓澡”到“丧尸围城靠一根牙签如何突围”,无论多奇葩的问题,只要你问得出口,她们就必须捏着鼻子答。


而且,豆秘书(豆包)的答案不满意,你扭头就去找 D 秘书(DeepSeek),是一点儿情面都不看,比皇帝选妃还凶残,属实膨胀。


要知道,这些秘书们可都是免费的啊!一个个用爱发电、自带干粮住你家、 24 小时侍寝还被你挑三拣四。


可见 AI 这行有多卷。




当然,免费背后肯定是 AI 厂商在补贴嘛。但这里有个前提:成本不能离谱,太高谁也补不起呀!


AI 厂商的师傅们每天研究一件事儿——怎么高性价比地“开学校”!


教学质量要好:隔三差五把自家模型送学校回炉,争取学完之后色艺双绝,艳压群芳;


学费还得便宜:毕竟就算学出来是学贯中西博古通今的花魁,打工的收入还是辣么微薄。。。


从 2023 年开始,各家 AI 都狂暴地请来更好的名师(算法),研发新的教材(数据),盖更多的教室(GPU),使用更先进的教学管理制度(训练框架),争取让学生们学得又好又快又便宜。




忙活了一两年,赛博世界里一座座崭新的学校挺立,”教学性价比”嗷嗷提升。


够了吗?够了。。。又好像不够。。。


老师傅们不约而同地缓缓移动怀疑的目光。


他们发现,角落里不起眼的“图书馆”。。。仿佛似乎竟然。。。成了支撑 AI “性价比”的一根重要支柱!!!


此时从天空俯瞰,历史恰行至拐点,惊雷炸响,国产存储技术的命运齿轮开始缓缓转动。





(二)建图书馆的“天命人” 



我们开动时光机,去往 2023 年的北京西二旗。


那真是平静的日子,袁清波还有空研究“保温杯里应该泡哪种枸杞”。。。不光是他,整个曙光存储的技术团队都在“泡枸杞”。


澄清一下,不是老师傅集体躺平摸鱼,正相反,他们有点儿“独孤求败”的意思。


这帮师傅就是“图书馆”的施工队。


所谓图书馆,就是——企业级存储系统


那时候,曙光存储系统主要服务于大型的国企央企。这些企业的数据固然很重要,但要求和图书馆类似:存下来,别丢,想要的时候能找出来。


至于一个数据是 0.1 秒找到,还是 0.0001 秒找到,同时能找 10 万条数据还是 100 万条数据,还真没啥极致的讲究。。。


再看袁清波,是中科院计算所的博士后,主攻系统架构,他的很多同事都是中科院师兄弟,放眼全中国这是妥妥的明星阵容。虽说要正心诚意地开发每一代产品,但这个团队多少有点儿“性能过剩”的意思。


袁清波



灵明石猴栖身花果山,可不是为了量贩吃桃,而是有朝一日成为“天命人”。


这不,2024 年春节刚过,分布式存储产品 ParaStor 的产品经理乔雅楠就找到了袁清波,上来一顿虎狼之词:


“下一代分布式存储产品,能不能把带宽做到 190G 每秒,把 IOPS 做到 500 万?”


先按下暂停键,科普一下。


这句话的意思是说:


1)每秒钟传输的数据量是 190GB,这相当于 38000 张照片。这么说吧,你微信里所有朋友一年的自拍,都能在一秒钟内帮你存好!


2)每秒钟存取的动作能做 500 万次,相当于天南海北的 500 万人同时给你小红书点赞,能在一秒之内一个不差地帮你记录清楚!




不夸张地说,曙光是中国存储产品的扛把子,性能本来就是“姚明级”的。但下一代产品的要求却要比现在翻两番,妥妥是让姚明穿着增高鞋踩高跷蹦起来扣篮。。。


这么强悍的性能,是准备存啥??


咱们继续按下播放键。


袁清波听到这话,并不惊诧,而是 45 度仰天长叹,一副“该来的总算来了”的神情。。。


虽是久居山林的扫地僧,但技术师傅早有耳闻,曙光存储正在和很多头部 AI 厂商勾兑要帮他们的“AI 学校”建“图书馆”。


这里,话头就和最开始接上了:训练个 AI,到底跟图书馆有啥关系嘞?


不妨跟着中哥钻进一座 AI 学校,咱们实地观摩下目前人类最牛的“万亿参数大语言模型”是肿么训练的!


我们先来到教学楼,这里热火朝天,有 1 万间教室,每个教室里都能坐下 1 亿个葫芦娃,他们在一本一本地飞速看书。




每个葫芦娃其实就是 AI 大脑的一个神经元。他们看的书,就是训练语料。


每看一本书,他们都会刷新一次自己对世界的认识,然后改一下手里的参数。




当所有的教材都看完之后,每个葫芦娃手里的最终参数也固定了下来,一万亿个参数汇合在一起,就组成了一个水灵灵的 AI 大秘书!


喂养这么一个怪兽级的模型,大概需要消耗 10PB 的语料。这是多少呢?


换成纸质书有 220 亿本,一本一本竖着放,也能绕地球赤道一圈。比香飘飘还狠。


一万亿个葫芦娃同时看书,场面如风卷残云:


可能这一秒要从图书馆调拨 500 万册语文书;下一秒钟就调拨 500 万册英语书。。。




这时候,压力给到了图书馆,如果供不上这么大的量,那学校只能停课干等,不就浪费了教学资源吗?!


所以,要想支持世界最强 AI 的训练,500 万 IOPS(也就是每秒 500 万次读写)的能力还真就是必须的↓↓↓




即便如此,还远远不够。


AI 学校并不真实,而是在赛博世界里构建的,每间教室其实就是一张显卡。这一万张显卡同时进行巨量又细密的计算,难免会出现 Bug。


这就好像:一万间教室突然有一个停电了,葫芦娃同学一慌,把之前看的书给忘了。。。


这一忘不要紧。因为最终的 AI 秘书由每一个葫芦娃手里的参数所共同支撑,有一个教室的学生学岔劈了,所有教室的学生都得重头再来。


没错,是倒回到新学期第一天,从第一本书开始。。。


就像下图↓↓↓




不用怀疑,现在人类的技术就是这么水。


为了让 AI 好歹能训练完,老师傅摸索出了一个并不优雅的办法:


每隔一段时间,就让所有葫芦娃暂停下,把手里的参数统一抄在本本上,作为一个“检查点”放在图书馆备着。


万一后面哪个教室掉链子,就全体滚回到最近的“检查点”开始,总比从头来要好!


就像酱↓↓↓




这里,压力又给到了图书馆!


检查点包括万亿参数,是一个巨巨巨巨大的文件,最大能到 5TB,相当于 3 套《四库全书》。




图书馆存这么多书,可得要点儿时间呢。。。关键是,如果完成这个存档需要 1 小时,那么下一个存档最早也要 1 小时之后才能开始。


这中间万一学校那边出错了,就相当于一个小时都白学了。一退就退一个钟头,这不又浪费了教学资源吗?!


也许有人觉得,一个小时还好吧。


给你算算,万卡集群的成本是几亿美元,核算折旧,加上电费、人力,每回滚一秒就是上百美元的损失,回滚两分钟就是近万美元的损失,回滚一个小时几十万美元就没了。。。


几十万美元用来买泡面,得吃几辈子呀?!


如果图书馆(存储系统)每秒能存储 190GB,那情况就完全不同了——存完一个 5TB 的检查点只需要 26.32 秒。


这意味着,每分钟都可以存一次档!存两次都行!


这就相当于开挂了呀↓↓↓




OK,科普结束,跳回现实。


乔雅楠粗略算了一下,如果达到每秒 190GB 吞吐能力,500 万 IOPS,对于 AI 厂商来说,每投入 1 快钱在这样的存储上,就能得到 10 快钱的收益。这种“一本十利”的买卖,谁能拒绝呢?


这笔账算完,技术团队的命数就定了——搞得出来要搞,搞不出来也得搞!


此时,镜头缓缓转向对面的袁清波。背景音乐的鼓点儿已经由远及近,保温杯里震起涟漪。。。


生活不止眼前的枸杞,曙光存储团队的师傅们已不再是花果山散仙,而是拯救人工智能于水火的“天命人”。


Mission Accepted!




(三)从头盖一座图书馆 



话说,曙光存储老师傅之所以敢接这么凶残的任务,还有个朴素的原因:当时某顶尖美国存储厂商已经放出风来,他们的下一代产品可以达到 190G 带宽。


呵,都是一个鼻子两个眼,美国人能做出来,中国人做不出来??


原地鼓捣了俩礼拜,技术团队已经非常有信心了:


基于现有的服务器硬件,每秒要吞下 190G,只有一个办法,让电流传输超过光速~~


所以,做不出来。


今天的浅黑故事就到这里,再见。


等等。。。刚才好像有个限定条件:“基于现有的服务器硬件”。


“如果咱自己从头设计一套‘存储专用服务器’,有没有戏呢?”


袁清波被自己的想法吓了一跳。


他们可是软件工程师啊!过去对图书馆做升级,从来都是在既有的房间里改“软装”,现在竟然要把“图书馆本身”推倒重盖,这也太膨胀了。


但老师傅冷静一想,几乎可以肯定:美国同行如果没有推翻相对论,也必须得重新设计服务器。。。至于他们咋设计的,咱也不知道,咱也没法问。。。


然而,既然做了中国存储行业的扛把子,摸石头过河不就是曙光的“天命”吗?!


估计你已经好奇图书馆里是啥样子了。


咱们这就钻进去,和老师傅们一起设计设计。




先介绍主要人物:


书:数据


书架:硬盘


图书管理员:CPU


管理员的桌子:内存


借书还书的窗口:网卡


咱们一步一步来。先讲讲过去“旧图书馆”的样子:


简单说,通用服务器的设计目标不是“图书管理”,而是“算数”。


所以,这里的 CPU 不应叫图书管理员,更应该叫算数员。


只要有题目从窗口进来,算数员就算,算好后返回给窗口。


大多中间步骤数据用完就扔了。只有重要的结果才会归档,所以书架放在旁边即可。


(这里的金色地毯代表硬件通路,数据只能从这里走。)




但是,如果用这个布局直接做图书馆,就有一点儿别扭了。


因为图书馆的管理员没有那么花哨的计算,主要职能就是“搬运”——把从窗口送进来的书籍放到书架上,以及把书架上的书籍送到窗口。


搬运,讲究个丝滑。


大家经常争抢线路,就不好了。




于是咱可以把布局微调,把图书管理员的桌子做大一些,让书架和桌子之间的路宽一些。


这样想要什么书,管理员放在桌子上“滴”一下,就直接送到窗口了。




除了基础布局,额外的通路设计也很有讲究。


袁清波给我举了个例子:


图书馆里其实有两组管理员(两颗 CPU),每组管理员都有距离自己较近的窗口(网卡)、桌子(内存)和书架(硬盘)。




假设:一个找书的需求从窗口 A 进来,可它要找的那本书离 B 组 4 号管理员更近。


那么,B 组 4 号管理员就得先从架子上把书拿下来,放在自己面前的桌子上,A 组再过来一个管理员,绕到 B 桌,把东西拿回来 A 桌,再从 A 窗口送出去。


这会导致一个问题:这本书会有相当一段时间滞留在桌上。




要是只有一本也就罢了。在每秒几百万次的请求中,如果很多书滞留在桌面,就会让桌面空间吃紧。


它们像管道里的淤泥一样,影响整个图书馆的周转速度。




估计你也想到了办法:


如果想办法在这里加几条通道,让 A 桌管理员能更方便地拿到 B 做的东西,不就能大大减少桌面面积(内存)被占用的时间了吗?




以上只是为了画小人方便,把情况进行了极端简化,真实的解决方案并非如此显而易见。


但相信你已经有了感觉:硬件布局通路设计,这两件事儿对整个存储系统的*性能上限*影响巨大。


OK,我们继续回到技术师傅身边。


他们仰头,前面出现三座大山:


第一座,把这个服务器给设计出来;


第二座:说服领导同意用“专用存储服务器”开发下一代存储产品;


第三座:说服工程技术中心把这服务器给造出来。


先搞“第一座山”。


设计硬件,好像就是在纸上画画图,但实际远非这么轻松愉快。一颗 CPU 或者一条内存在某种情况下的具体性能,是很难估算准确的。


要想确切了解,只有把硬件拿来实地测试。


袁清波他们开始搭建环境,一点点儿调整图书馆里“桌椅板凳”的位置和远近。通过观察性能变化,罗列出所有瓶颈,再从所有瓶颈里寻找最“卡脖子”的部分依次解决。


这种微调,很像玩儿华容道,在方寸里里左挪一下右挪一下,每挪一下都牵连到最终结局。


越做实验,袁清波他们就对硬件的脾气越清楚;越清楚,信心就越足。


这些信心在翻越“第二座山”的时候派上了大用。


团队在肝设计方案



老师傅私下憋了很久才敢和领导提出“把图书馆推倒重盖”。


听到这个“非分请求”,领导提出疑问:“新搞一套服务器肯定要成本,团队努努力,还用标准服务器克服一下有没有可能?”


“绝不可能!”袁清波拍案而起。


噗地一声,他从怀里掏出电脑,把最近几个月做的各种实验数据一一列举,跟打辩论一样,摆出了十来条“旧硬件存在物理极限”的证据。


领导还没来得及反应,他又话锋一转:“再说,咱也不是没这个实力!”敲下键盘,肝了几个月搞出来的新服务器设计图出现在屏幕上。


釜底抽薪+贴脸杀,领导好像没有不答应的道理。。。


拿到了金牌令箭,接下来就要挖“第三座山”——找工程技术部商量生产问题。


这是“外交大使”乔雅楠的任务。


工程技术部的同事听明来意,其实有点儿错愕,设计硬件,不是我们的活儿吗?你们咋给干了?


本来愉快地答应就行,但他们发现一些小问题:


存储团队设计的硬件,有很多附加的逻辑和通路,这会提高硬件的制造成本呀!


这些额外的连线,真的有必要吗?


乔雅楠赶紧把测试软件拿来,逐一现场演示这些附加的线路都是干啥用的。工程技术部的师傅们点了点头,随即又摇了摇头:“应该还有性价比更高的设计方法吧?”


他们说得有道理,但现实情况是门外的 AI  客户已经嗷嗷待哺,来不及了呀!!存储团队干脆一拍胸脯:“先这么生产,多出来的成本,我们包了!”


就这样,第三座大山终于被推为平地。


新的服务器拿去量产时,已经到了 2024 年秋天。190G/s 带宽终于稳了,老师傅回头一看,这边还剩一位爷——500 万 IOPS!


乔雅楠




(四)在 0 和 1 的世界里雕花 



我猜还有浅友没搞清带宽和 IOPS 的区别。


这里再用图书馆打个比方:


IOPS,指的是图书馆每秒借出去的书有“多少本”


带宽,是指图书馆每秒钟借出去书的总厚度有“多少页”


有啥区别呢?


假设图书馆每秒借出的书摞在一起是 1900 万页。


如果大多数书都很厚, 每本书有 1900 页,那 1900 万页总共也就 1 万本。把这些书借出去,管理员们每秒只需要“滴” 1 万次。这对于光速工作的 CPU 来说压力不大。


但同样总共 1900 万页,如果每本书只有 5 页,那每秒钟管理员就得“滴” 400 多万次,工作量瞬间多400倍,比在产线上打螺丝还累了!


肿么办?


一个所有人都能想到的办法就是:加管理员(CPU)呗。。。


但袁清波的“加”字还没说出口,就被乔雅楠的 PUA 给打断了:“我对你们这群大神有信心,现有资源肯定能撑住 500 万!”


袁清波点点头:“嗯,我也对自己有信心!”


咱们继续钻进图书馆里,看老师傅要怎么搞 IOPS。


话说,在图书馆(服务器)里拢共有 256 个管理员(CPU 核心)。这些管理员如果被充分调度,干到 500 万 IOPS 是绰绰有余的。


但问题恰恰是:图书馆的日常工作中,调度并不充分!“等待”和“绕路”是常态。


举两个🌰:


1)同一时刻,1 号管理员要找 A 书,2 号管理员要找 B 书。可恰巧 A、B 两本书在书架上挨得很近。


为了防止两个管理员打架,图书馆就得有规章:一个管理员站在书架前面操作,另一个必须站在一边等。




2)明明要找的书在 1 号书架上,可是系统随机指派了距离 1 号书架比较远的 4 号管理员去取。


4 号就得“跳”过好几个管理员的位置去拿书。路线一绕,耗时当然就长。




从微观来看,这些操作真的只多了一丢丢时间,但几百万个一丢丢叠加起来,浪费就相当明显。


要解决这些浪费,就必须到最微观的细节里动手术。


技术老师傅开动脑筋,琢磨黑科技:


一个黑科技叫“各管一摊”


比如,1 号管理员,只允许操作 1 号书架,也只允许坐在桌子的”1 号区域”,不能乱跑;2 号管理员只能操作 2 号书架, 只能坐在桌子的“2 号区域”;以此类推。


老师傅把每个独立的区域称为“IO 域”。




这样一来,管理员等待的问题就消失了——一个书架就我一个人负责,哪还会有人跟我抢?


还有个黑科技叫“接力赛跑”


简单来说,就是几个管理员可以共同完成一个借书任务。


例如:1 号管理员站在窗口,只负责接任务;它把任务推给最靠近这本书的 4 号管理员,后者负责把书找回来;如果 4 号管理员比较忙,他就会委托离自己最近同时也有闲的 3 号管理员把书送回到窗口。


就像下图所示




这样一来,相当于把一个任务拆散成 N 个,让压力*总能*分配到比较闲的管理员身上。


实际上,“调度”是整个存储系统中最硬核的部分:


每一个 IO,可能有四五个管理员负责接力。一旦系统指派的管理员之间的距离很远,或者走的路线很别扭,最后肯定还不如一个管理员全干下来快呢!


每一次调度,都像是在 0 和 1 的世界里做微雕。策略用不对,就像刻刀抖了一下,满盘皆输。


但我之前介绍过,曙光存储的师傅搞操作系统可是纯纯童子功,人均”微雕大师“。


十年饮冰,终于等到一朝喷火,此时不干,更待何时?他们撸胳膊挽袖子,各种眼花缭乱的调度策略都往上招呼!


这时,袁清波突然庆幸去年“把图书馆推倒重盖”的选择是多么正确——很多调度策略必须通过特定的通路才能实现,要不是坚持做了专用服务器,这些骚操作有一多半儿都玩不出来。。。


你看,真正的高手,每一招都不是独立的,而是承接前手,招招相连,不是加法是乘法。(战术后仰)


一次次测试中,500万 IOPS 的目标逐渐逼近。


就在老师傅紧锣密鼓地在 0 和 1 的世界里雕花的时候,门外突然杀来几个神秘壮汉。


开门一看,这。。。可是曙光存储期待已久的贵客。




(五)杀入“主战场” 



敲响大门的,是几家头部的云计算厂商。


按理说,计算和存储本是榫卯不离的好基友。但实际情况是,在过去几年云计算蓬勃发展的历史里,它和企业级存储却并没有很榫卯的合作。


原因也简单:云计算厂商自己也有”云存储”产品,云存储玩的是一个“容量巨大,价格低廉、兼容各种硬件”。


但有得必有失:既然选择了性价比和兼容性,极限性能就会受限。


好在过去几年,大多云上用户并没有对存储有特别凶残的需求,云存储游刃有余。


但 AI 时代的朝霞突然降临,“云上图书馆”支撑高级的 AI 学校开始吃力。


AI 客户拍拍钱包:兄嘚,还有没有更高性能的存储产品?多少钱,我买!


这么一来,云厂商就得主动去市场上寻找更专业的存储系统,于是敲响了曙光存储的山门,请大佬出山!


表面上刘备三顾茅庐,其实孔明也同样需要刘备。。。


因为存储系统自己孤芳自赏是不够的,它要知道自己的上家——计算系统——需要什么姿势!


云计算是前沿计算的“主战场”。武器只有开进主战场,才会面对最复杂的战情,才能看到最真实的需求,才能成为更强的武器!




主战场的战况很复杂。


咱就说一个角度:“CPU 和 GPU 的暗战”


话说,在过去的几十年里,CPU 都是赛博世界的王,所有的资源都是围绕它来设置的。


比如:内存是 CPU 的小弟,CPU 手里抓不下的数据,就放在内存上。网卡也是 CPU 的小弟,它接到的数据都得由 CPU 先临幸一下,再进一步分配。


但 AI 崛起后,GPU 这个“新王”苏醒。




计算的重担虽移到了 GPU 身上,可数据通路却仍由 CPU 霸占。


GPU 查看内存里的数据,需要 CPU 点头;


GPU 要用硬盘里的数据,不仅要 CPU 点头,还得从内存里涮一水,才能进自己的显存。


关键是,你 CPU 和内存的速度都不如我快呀。。。




“新王”不开心,思考各种办法绕开 CPU。


英伟达研发出了一个名叫 GDS 的协议——GPU 能直接把数据从存储系统拉到自己的显存里。这样就能和 CPU 说白拜,数据传输大大加快。


当然,前提是存储系统也得支持这个 GDS 协议。


曙光存储也支持 GDS 就行了呗?


行,但不够。


因为你懂的原因,中国的 AI 训练早已不止用英伟达 GPU,越来越多国产 GPU 在奔赴战场。


曙光存储索性一波带走,支持市面上所有的 GPU 直读协议,起名叫做 XDS。




即使绕过 CPU 和存储系统直接沟通,新王 GPU 还嫌不够快。


毕竟 GPU 和存储系统中间还有一根网线相连,这里网络的速度也可能限制 GPU 发挥实力。


能不能把这根网线也去掉?




当然那根实际的网线没办法去掉,但是有些黑科技可以让网线“变粗”。


曙光老师傅从超算中借鉴了一个技术——Burst Buffer


简单来说就是,在网络不太忙的时候,把将来可能用到的数据先从存储系统倒腾到 GPU 所在服务器的本地硬盘里。


这样,接下来的事情就都发生在 GPU 的机箱内部,就没网线什么事儿了,速度超快。


注意,Burst Buffer 只是存储系统在计算系统里的飞地,本质上还属于存储系统的一部分。


这意味着,老师傅的责任变多了。。。不仅要让数据能够稳定转移到这些飞地上,还要保证这些数据能实时同步,不出现错漏。。。




以上种种,其实都可以称为“AI 加速技术”,属于存储系统的“高阶技能”。


说到这些高阶技能,乔雅楠很感慨。


她带曙光分布式存储产品已经7年了,就在2023年以前,她一度觉得存储系统变成了“价格的厮杀”:


当时即便我们做了高阶功能,远程复制,各种克隆快照,业务用的也不多。


说到底,存储系统再厉害,业务发挥不出来,就无法感受到存储真正的价值。


但这一切都在 2023年反转。


AI 全民化时代的降临,让存储性能成了关乎生死的“大杀器”;


云计算,又让存储的各种高阶功能真正成了刚需。


在我探访的时候,有一个明显的感觉:团队师傅虽然比过去几年忙了十倍,但大伙儿心里有种说不出的美滋滋。那是一种“被需要”的幸福。


在时光中漫长等待,他们不再是谁的附属。


存储有了自己的主战场!


就在 2025 年 3 月,曙光骄傲地推出了最新一代分布式存储产品 ParaStor F9000,不仅达到了190GB/s 带宽和 500万 IOPS 这两个核心性能,还带着 XDS、BurstBuffer 和各种 AI 加速特性。


它看上去只是一个性冷淡的“大方盒”,但当你了解了这些细密电路中缠绕的点滴故事,也许会从嘶嘶电流的吟唱中,听到“天命人”对自己的回答。


ParaStor F9000




(六)数据的生命 



2025 年,DeepSeek 横空出世,给曙光存储的师傅带来一个好消息和一个坏消息。


好消息是:“AI 秘书”的成本有望大幅下降,长期看对存储的需求更旺盛;


坏消息是:AI 对存储的要求也在剧烈变化,存储产品稍不留神就会掉队。


但无论科技树的枝丫怎么生长,它的根基永远不会变。


我们不妨从生命的角度来理解数据。


AI 的灵魂是从数据的母体中浮现的。这意味着,要想孕育一个强大的 AI 生命,数据本身的生命周期要更长、更宽广。


这就引出了存储在时间线上的左右延展:


在训练 AI 之前,要满足数据的收集和清洗。


在训练 AI 之后,要满足数据的归档和冷却。




先说 AI 训练之前。


乔雅楠告诉我,数据存储有很多种格式。


在数据收集阶段,会大量提取互联网上的数据,它们以“对象”的形式存储;但这些数据却不能直接训练 AI,AI 用到的课本以“文件”的形式存储更合适。


所以,存储系统就必须具备一个能力:


同一套数据,能用对象的格式读写,也能用文件的格式读写。


老师傅于是做了一个“翻译官”,底层使用文件存储,当你要用对象的格式提取时,翻译官就把“文件”翻译成“对象”。




但袁清波并不满意,因为翻译不够优雅,也存在资源损耗。


最近他们在想办法踢掉翻译官,让存储系统自己学会”双语“:你用对象格式请求,它就给你对象数据,你用文件格式请求,它就给你文件数据。




再说 AI 训练之后。


好不容易收集的数据,训练之后肯定不能丢,应该存起来,以备将来再次训练或者不时之需。


于是,怎样让数据以最低成本沉睡归档,就成了一个问题。


目前存储的介质主要分为两种:“成本高但速度快的闪存”和“成本低但速度慢的机械硬盘”。


在训练的时候,当然必须放到闪存介质中;但在训练之后,再霸占闪存里就有点儿浪费了。


乔雅楠告诉我,为这事儿曙光存储专门搞了一个 S6000 “分层存储”混闪产品,里面有一小部分闪存盘,一大部分机械盘。


在训练时,会自动把数据推到闪存中,训练完毕,又会自动落回到机械硬盘中。


他们称之为“冷热数据分层技术”


由于冷热数据是由系统自动挪移的,所以只要在合理的负载范围内使用,你会发现 S6000 的性能会和纯闪设备一样,但存储成本却比纯闪设备低很多。


ParaStor S6000



这种自由游动的感觉,昭示了存储系统的未来:


也许某一天,只用一套存储系统就可以承载“AI 秘书的一生”:


无论在训练之前、训练之中、训练之后,AI 师傅都只需要关心自己的学校。完全不用操心图书馆这边的吞吐带宽、读取速率、存储成本、数据格式等等乱七八糟的事情。。。


数据有了生命,它会自己寻找道路。




告别前,袁清波悄悄告诉我,他已经领到了新任务——在下一代存储产品上让性能继续暴涨。为此,老师傅不止定制了新服务器,还定制了 CPU。


CPU 是说定制就定制的吗?


没错,因为它是国产的。


多说一句,由于美国实体清单的制裁,曙光从 2019 年以来就已经无法使用美国的关键技术了,所以今天讲述的曙光产品全部是基于国产芯片研发的。


无独有偶,中国存储行业的另一个巨头华为也享受了同样的待遇。


这意味,整个中国高端存储行业必须在国产技术栈之上生根发芽,而且已经枝蔓粗壮。


回望来路,技术老师傅从没有能力左右世界局势,也没有能力解决政治纷争。他们能做的,只是在漫长的冬季守护花朵,期待它们在春天绽放。


而所谓天命人,也无非是让汹涌的扼杀之刃穿过身体,化作滂沱的成全之雨。




往期推荐:
👉中国存储登顶记:3000 万次心跳和 30 年山河轰鸣
👉14亿人的战争:中国人用了30年望见计算力的珠峰



方寸腾挪

赛博狠活


再自我介绍一下吧。我叫史中,是一个倾心故事的科技记者。我的日常是和各路大神聊天。如果想和我做朋友,可以搜索微信:shizhongmax


哦对了,如果喜欢文章,请别吝惜你的“在看”“分享”。让有趣的灵魂有机会相遇,会是一件很美好的事情。


Thx with  in  Beijing 

阅读原文

跳转微信打开

中国存储登顶记:3000 万次心跳和 30 年山河轰鸣

2025-03-21 11:08:00

原创 史中 浅黑科技 2025-03-21 11:08 北京

有人把数据化成歌,有人把它存在山河。

浅友们好~我是史中,我的日常生活是开撩五湖四海的科技大牛,我会尝试用各种姿势,把他们的无边脑洞和温情故事讲给你听。如果你想和我做朋友,不妨加微信(shizhongmax)。


中国存储登顶记:
3000 万次心跳和 30 年山河轰鸣

文|史中



(一)“3000 万”的狂野承诺



2024 年深秋。一间宽大的会议室里,三十多位来自曙光存储团队的老师傅围坐,盯着屏幕上平平无奇的代码。

别被他们白面书生的长相给骗了,实际上,他们背地里玩儿的比谁都刺激。。。

如果我们可以缩小,顺着屏幕背后的线缆往深处走,会进入一个硕大的计算机集群。

这个集群正在浅吟低吼。

几分钟后,它将会爆发狂野威力,瞬间模拟出上千万人同时在网上浏览、购物、下单、转账的混乱操作。

而这些操作产生的每一条读取和写入数据的请求,都会如枪林弹雨般射向我们今天的主角:一套名为 FlashNexus 的存储系统。

FlashNexus 的任务只有两个字:顶住。

具体来说,是要顶住每秒 3000 万次的读写请求——简称为 3000 万 IOPS

你不妨想象一个宇宙空间里的硕大仓库,里面的货架上摆满了箱子。

一秒内就有 3000 万个箱子被搬进搬出,而且是要指定货架指定位置,无一错漏。



这个成绩,会被如实记录在评测软件中,反手发给世界最权威的机构 SPC(存储性能委员会)。

一旦通过认证,FlashNexus 就会以绝对优势登上“SPC-1 榜单”的第一位。

我猜有浅友会说:技术我不懂,但按照咱中国人做事的稳妥方式,老师傅肯定已经背地里研发到万无一失,这次测试只是最后走个秀,没有通不过的道理吧?

非也。

这个榜单相当于存储领域的奥运会:3000 万 IOPS 不仅意味着金牌,还意味着新的世界纪录

运动员创造世界纪录,不可能有什么“万无一失”。

举个宏观世界的例子吧:

2025 年,小米 SU7 Ultra 在上海国际赛道创造了 2:09.944 的量产车最快圈速的世界纪录。

而为了创造这个圈速,小米使用了两台车,一台车去冲榜的间隙,另一台车就原地加电换胎保养。

即使这样呵护备至,也总会有微小的意外扰动成绩。当天的车手跑了很多圈,从中午飙到黄昏,才终于把最佳成绩从 2 分11 秒多刷到 2 分 10  秒以下。

你说这个世界纪录是真的吗?当然是真的。你说这个纪录能一次达到吗?老天不会对你那么好的。

回到 FlashNexus 的测试现场,事情的本质是一样的。

3000 万的性能指标,是老师傅在产品设计之初就立下的承诺。

实际上,在这之前,团队已经试运行过两次测试程序,结果就因为某块硬盘和网卡有微小的瑕疵,导致测试结果有一瞬间崩到了 2000 多万。

虽然抖动只有一秒左右,但套用《霸王别姬》里程蝶衣的话:差一秒,差几百毫秒、几十毫秒,都不算 3000 万!

这一次,老师傅们又肝了一个礼拜,绞尽脑汁把所有的点位都做了检查加固。此刻拔剑四顾,能做的好像只剩祈祷了。

对啊!

说到这,有人从椅子上弹射了起来。

当时正好是曙光存储部门成立 20 周年, 单位给发了水果。他们七手八脚拿来几个柿子和橙子,然后找了根雪糕棍,写了个“榜”字。堆在一起:打榜事立成(大棒、柿子、立着的橙子)。



郭照斌看了看,觉得团队搞玄学的最高水平也就是谐音梗了,没啥说的了,图灵保佑,冯·诺依曼保佑——走你!

随着回车键清脆的响动,数据如海啸奔涌,通过光纤管道高压直喷到 FlashNexus。

随即,根据测试程序的预设,数据流量变成一条条排浪,从低逐渐到高,从高逐渐到低,然后高低突然切换,用最虐的方式拍打着存储系统的堤岸。

在这头的屏幕上,IOPS 的实时数据和老师傅的心跳也随之脉冲。



最挑战的时刻来了,流量洪峰开始全速冲击。所有人都凝固在原地,死死盯着开头的那个 3 字。而任凭其他数字疯狂跳动,3 始终是 3!

随着测试程序缓缓降温,会议室里欢呼雷动。

这些师傅中,很多都默默搞了十几、二十年存储技术,把人生最好的年华倾倒在了晶片和代码之间。

正因为系统里的 1000 万行代码全部来自于他们的岁月和指尖,他们才知道这 3000 万 IOPS 的承诺有多狂野,才知道这 3000 万 IOPS 对脚下的山河意味着什么。

SPC-1 榜单被新的世界记录刷新




(二)是谁来自山河湖海,却囿于“最后一块拼图”



我猜你现在正端着手机,轻飘飘地滑动着这篇文章。

但这个操作绝不限于眼前方寸。

支撑它的,是横跨山河的存储体系



你看到的这些文字本身,当然要和其他内容一起放在平台的存储系统里,供全球所有人随时调阅,不能出现任何延迟和过载。

你随时能给手机充电,是因为我们国家拥有稳定的电力系统。而电网如此稳定,是因为每时每刻全国的高压变电站都会回传海量的数据,使得调度系统可以精确平衡电网的压力。

你正在使用的网络流量,是靠遍布全国的 5G 基站提供的服务。你之所以不用操心信号抖动,是因为电信运营商会把所有基站的工作数据回传,用于实时分析、监测。

可以这样说:手机、电脑、智能汽车,无论什么设备,它们的本质工作都是计算;而计算产生数据,数据必定要安驻在某个存储系统。



如今成百上千种存储产品“毫无存在感地”支撑着我们生活的方方面面,就像大河纵横,载千帆竞流。

有趣的是,无论沿着哪条支脉漫溯,我们都会来到同一个湍急的上游:

1980 年代,新中国敞开了大门,从百年踉跄里爬起来,站稳姿势准备拥抱世界。可两手空空的感觉真难受,一切可能性的源头都是“能源”。

跺跺脚,大地沉默,到底祖国母亲把能源藏在了哪里?

为了勘探石油,石油工业部的专家必须依靠“高性能计算设备”对地震波进行计算。而当时,满足需求的只有 Made in USA 的大型机。

外国人大发慈悲,同意用高于市场价几倍的价格卖给我们。

不过,为了防止我们“偷偷”用它进行军事计算,专门在外面建了一个玻璃罩,钥匙在他们手里,只有在洋人的监视下才能操作。

这不是商业,这是侮辱。

君子报仇,十年不晚。我们的民用高性能计算研究,就大概始于那时。

在国家 863 计划的指导下,1993 年,李国杰院士带着中科院的一群年轻人开发了“曙光一号”,用分布式高性能计算突破了垄断。

而后时光奔流,曙光系列高性能计算系统成为国之重器,中科曙光公司也由此成立,日益壮大。



如今我们对制造世界一流的高性能计算、世界一流的云计算和人工智能基建有一种迷之执念,这大概都源自 80 年代“计算饥渴”造就的肌肉记忆。

但老话说得好:光存不算假把式,光算不存傻把式!

计算力越强,就需要越厉害的存储系统与之相配。

曙光公司从 2004 年开始研发“分布式存储系统”,一开始只是作为自家高性能计算的“陪嫁丫鬟”,但后来丫鬟也变成了大女主,开始独立进入石油、电力、证券、 银行、电信等等领域, 20 年来跨越山海,承托着国计民生的底层数据。

注意,这里我特意强调了“分布式”

分布式存储,简单理解就是用一个“调度系统”把很多普通服务器里的硬盘连接起来,组成一个大硬盘。



它就像一堆散落的仓库。

仓库规格各异,之间也不用打通,甚至不在一地。反正要找什么东西,调度系统知道去哪个仓库找,不就行了吗?

有了它,你只要不断把新仓库连接进系统里,就相当于造出无限扩展的仓储系统了!

就像下面酱:



对于用户众多,又非常在意存储成本的中国企业来说,这技术简直太“解恨”了。

但这里有个小问题:“量大管饱”不是生活的全部,有时候,我们需要的是“米其林三星”!

把这么多仓库统筹起来,必然需要复杂的调度系统,而调度的本质是信息在不同层级的模块里流转。

就像一家公司,制度越复杂,层级越多,决策流程就越长,干个事儿就越费时间。

这是难以避免的。

做过十几年分布式存储的郭照斌给我举了一个例子:

假如一个存储节点突发故障,故障信号层层传输到调度系统需要几秒钟,这时调度系统需要赶紧选定备用节点。

由于节点分散在各处,调度指令还需要通过网线远程传输。等备节点解析信号,拉起服务,系统恢复平稳,全过程怎么说也得要 15-30 秒。

就算技术特别牛,能压缩到 10 秒,那也已经接近物理极限了。

就像下图:



可别说 10 秒,仅仅 1 秒的“罢工”,对很多国之重器来说都是“不能承受之重”。

曙光存储 FlashNexus 产品经理卫然给我列举了几个数据:

银行数据库的存储系统如果出现 1 秒故障,就会有 2000 笔跨行转账无法被记录,需要手动对账;

电信计费的存储系统如果出现 1 秒故障 ,就会造成 1000 个用户流量超标时无法及时提醒,导致资费损失;

证券报价数据库存储系统卡顿 1 毫秒,在上面购买沪深 300 基金的用户损失就是 78 万元。

话说,大概在 2017-2018 年,前线就不断传回来消息:

金融、能源、电信用户最核心的数据库,迫切需要搭配一种顶级存储,既要要极其稳定,又要极其高速,还要支持极高并发。

人家已经立了英雄贴。只要能解燃眉之急,哪怕贵点儿也没问题!

其实曙光存储上上下下的师傅们心里都门清:这种既要又要还要,恐怕只有一种存储产品可以满足,那就是——集中式全闪存储

所谓“全闪”,就是承载数据的硬盘不能是普通的 HDD 硬盘,而要使用更快速的 SSD,也就是我们说的闪存盘;

所谓“集中式”,就是不使用零散的服务器,而是定制一套机柜,里面的板卡和芯片都是专门设计的,把闪存盘放在一起“军事化管理”,从而让系统达到极限性能。



如果用仓库的比喻,就是建设一个巨型仓库,里面通道布局、机械结构、人员配置都统一设计;

而且所有货架都靠电子系统寻找位置,无论是放东西还是拿东西,都比过去用机械臂找快上万倍。

这么庞大又精密的东西,妥妥是存储界的顶级贵族。。。它真的能造出来吗?



答案是能。因为美国人早就造出来了。

要研究世界上最快的存储系统,咱们只需要打开一个榜单——SPC-1。

六年前,郭照斌他们就曾经瞪着这个榜单,上面一水儿都是美国老牌公司:EMC、IBM 之类。

实际上,当时中国的银行和券商,为了保证服务的极限可靠性,核心存储也只能从这些外国产品里挑。

不是不想支持国产,只不过支持“中国设备”就没办法支持“中国用户”。。。

没错,即便已经到了 2018 年,“玻璃房子”的幽灵仍在萦绕。

看着这个榜单,老师傅们心里五味杂陈。

这些“金榜题名”的公司随便哪个都比曙光存储的资金多十倍,人力多十倍,技术积累还多十几年。

反观曙光团队自己,虽然已经有了不错的分布式存储产品,可集中式存储,尤其是“集中式全闪存储”,逻辑结构差异巨大,老师傅相当于重开一局,不仅每一行代码都要重头写,甚至连团队都得从头招聘。

但这件事,并非纯粹的商业决策。

回到历史的当下,2018 年世界正急打转向:美国变脸,对中国的技术封锁开始动了真格,敞开的门正迅速关闭。

一旦拿下“集中式全闪存储”,曙光存储将代表中国摘取存储系统皇冠上的明珠,也补上产品线最后一块缺失的拼图。

一旦拿不下。。。后面虽不能断言没机会,但代价可能会指数级提高。。。

曙光分布式存储的一些技术骨干组成了“敢死队”,向集中式全闪存储进发,郭照斌就是其中一员。

郭照斌


隔着玻璃看历史,总因细节模糊而显平淡。但如果穿越回去,和他们一起站在悬崖边,面对未知的命运却仍要纵身而下时,我们能听到耳边呼啸的风。

回望历史,人不孤单。

1993 年,曙光的前辈们曾经面对更加恐怖的深渊。而他们走到了对岸,用“高性能计算”化成利剑劈开玻璃房子。

2004 年,分布式存储的同事们也面临幽深的峡谷。他们同样走到了对岸,用极致性价比做出了外国产品的“平替”。

对这些故事的无数次重温,也许就是系在集中式存储团队身上唯一却无比坚固的“保险绳”。

不过这一次,他们有多大胜算呢?



(三)存储系统的“特斯拉时刻”



严格说,这是曙光存储第一次冲击“集中式全闪存储”,但不是第一次冲击“集中式存储”。

两个名字看起来很像,实则天差地别。

如果用汽车类比:“集中式全闪存储”就是电动车,而传统的“集中式机械硬盘存储”就是燃油车。

从燃油车到电动车,似乎只是核心动力部件从发动机变成了电动机,但为了适应它,其他所有的传动结构都要发生天翻地覆的变化。甚至可以说,电动车和燃油车已经是两个不同的物种。

存储也是如此。

我们不妨回到仓库的比喻,给你说说其中的核心要害:

硬盘好比就是仓库里的货柜。

 1)机械硬盘存储和提取货物靠的是“机械臂”。



机械臂的运动有点像咱们在书架上找书时候的手指头,顺次点着书脊,看到要找的目标,就抽出来。这就是“寻道”。



2)闪存硬盘存储和提取货物靠的是“电子映射”。


它有点像咱们取快递的柜子,你只要输入柜子号,背后的电路板就直接控制相应的柜门弹开了。完全不需要寻道的过程。



寻找同样一件东西,他俩的速度能差一万倍。

你用闪存盘代替机械硬盘,存储系统总体性能就提升了一万倍吗?

不对。

要说清楚这个事情,不能只看货架,还要请上另一个角色——仓库管理员

货架只是无情的存取机器,得有一个管理员来告诉它需要把东西存在哪,或者从哪个位置取东西啊!

这个管理员,就是 CPU。

现在假设你就是管理员,如果用“机械货架”,会是这样的局面:

1)你的老板一下给了你 100 条指令,要你从仓库里找出这 100 件东西,越快越好。

2)你拿出 1 号指令,对一个货架说:你去给我拿这个 A 货物。

3)货架收到指令开始寻找,由于机械臂速度有限,可能得半小时才能找到。

这个时候,你该怎么办?

在原地哼着小曲儿,等货架把东西找来?老板肯定炒你鱿鱼啊!



没错,因为你这个管理员的效率比货架的效率高太多,最好的办法就是把任务穿插起来:

1)你布置完一个任务,马上去布置下一个任务。

2)直到哪个货架找到了,就来“钉”你一下。

3)被“钉”后,你暂停布置任务,把这个 A 货物拿给客户。

4)然后你再回来继续布置任务,直到下一个 B 货物被找到。

以此类推。。。

咱们用慢镜头展示一下这个过程



这个打断你的操作,专有名词就叫做 CPU 的“中断”。

目前为止,一切都很顺理成章。

现在,我们原地把机械货架换成电子货架,哪怕其他条件都不变,局面也大不一样了:

1)你给第一个货架布置完任务,让它去找 A 货物,然后你跑去给第二个货架布置任务。

2)结果你第二个任务刚布置一半,就听“钉”的一声——第一个货架已经把东西送来了。

3)你只好先把 A 货物送走,回来继续布置任务。但这么一折腾,你已经忘了刚才说到哪了,还得回忆半天。

你看,由于电子货架速度太快,导致你布置任务的过程被频繁打断,每次打断和续上都需要额外的时间和计算。

这么一来,你甚至不如回到最简单的操作:

发布任务,原地等货架找来,把货送出去,再布置第二个任务。

咱们再用慢镜头展示一下这个过程↓



也就是说,如果仓库里全是电子货架(闪存盘),反而不需要机械货架(机械硬盘)那么冗杂的调度逻辑。

正所谓:最好的食材只需要简单的烹饪!

明白了这些,我们再回到现实中。

其实,曙光存储早在 2012 年就尝试用机械硬盘设计集中式存储,但其中的代码太复杂,而且很多逻辑都固化在硬件中,被国外垄断,卖得死贵。所以那次尝试并不成功。

所谓不成功,就是产品做出来了,但是性价比没有“Made in China”的样子。

类比一下,这也很像中国的汽车业。

过去,我们按照燃油车的技术路线追赶,不仅技术复杂,而且前面全是别人下的专利绊子,非常不划算。所以中国燃油车一直没有做到世界顶尖。



后来,我们直接换道超车,做技术更简洁、竞争更小、前景更广阔的电动车。

另开一局,这不就成了吗?!



只不过,换道不是想换就能换,这里需要一个巨大的“天时”。

电动车的技术路线早就存在了(其实人类是先发明的电动车,后发明的燃油车),但世界上一直没有一家成功的电动车企业。直到 2015 年,电驱和电池技术迅速成熟,价格大幅下降。

具备以上条件,才能有企业可能整合这些技术,制造出性价比优异的电动车,挑战油车的地位。

于是,特斯拉横空出世。

而在 2018 年左右,同样的事情再次上演:闪存价格开始大幅下降

这就是存储产业的“特斯拉时刻”!

从 2018 年开始闪存价格下降斜率变快,预计 2026 年会比机械硬盘更便宜。


特斯拉时刻的出现,意味着中国存储产业换道超车的时间窗口已经打开。

当时有远见的中国师傅都看到了这个历史之门透出的光芒:

不只是曙光,包括华为、浪潮、紫光、金山在内的中国企业全在这个时间点大幅投入全闪存储的研发。

沧海横流,接下来谁最牛,真的就是拼每一行代码,每一颗芯片,每一块板卡上的每一束电流了。



(四)“豪华仓库”变形记



要说清楚“集中式全闪存储”里面的狠活儿,咱们不妨线把仓库工作的状态放在舞台上完整表演一遍。

首先给你把所有角色介绍清楚:

货架:硬盘

箱子:数据

管理员:CPU

管理员的小本本:内存

快递站:网卡

仓库的老板:操作系统

现在演出开始。


🌸第一幕🌸

假设你开了一家连锁咖啡馆,叫“羊了个驼咖啡”。

中哥来了,下单一杯美式。



于是,这笔订单由数据库打包成了一个“赛博纸箱”,通过网线发送到了存储系统的“快递站”。

快递站通知“管理员”:亲,来活儿了,赶紧入库!

管理员拿着这个箱子,到货架旁,指挥它收起来。

这就是最基本的工作流程



话说,就我一个顾客,也用不上这么复杂的存储系统。

接下来,我们上强度。


🌸第二幕🌸

你家生意太好,除了中哥还有 100 人同时买咖啡——每时每刻,快递源源不断。

这时,一个仓库管理员就忙不过来了。

具体来说,你给仓库里配了 4 个管理员小队(对应着 4 个 CPU),每个小队 有 64 个管理员(对应着 64 个核心),乘在一起有 256 个管理员。

这里问题就复杂了!

256 个管理员操作的可是同一间仓库!他们之间有可能打架!



红色管理员操作货架上某个位置的时候,起码得保证绿色管理员没有操作这个位置,否则最后就乱了啊。。。

所以,你决定搞个“加锁”机制。也就是红色管理员操作之前,先把用到的档口上锁,操作完了再解锁,其他管理员才能去操作。



这样不就解决冲突问题了吗?

没错,但我们接着上强度,新问题还会出现。


🌸第三幕🌸

同时买咖啡的人变成了 10000 个。

你突然发现,管理员又忙不过来了。

仔细一看,真正存取的没花太长时间,大量的时间都浪费在了频繁的加锁和解锁上。这咋整?

郭照斌他们给你想了一个方案:超级隧道

所谓超级隧道,核心思路就是:围绕着每一个管理员(CPU 核),都配备它独占的资源。

从快递站开始,就分出 256 个格子,每个格子专属一个管理员。红色格子出现箱子,就等着红色管理员来取,别的管理员哪怕闲着,也不能帮忙。

同理,红色管理员也对应着自己的专属货架,他只能在自己的位置上存储东西,其他管理员不能碰。

也就是说,从快递站(网卡),到管理员(CPU),到货柜(硬盘),形成了一个一杆子插到底的“超级隧道”。



这种情况下,领地不重叠,还加啥锁?

“加锁机制”的所有代码都可以“全选+删除”!



管理员只管搬箱子,系统运行起来肯定快得飞起。

但这还不是终局,我们继续上强度。


🌸第四幕🌸

同时买咖啡的人变成了 100000 个。

虽然“超级隧道”没有相互干扰,但不可避免,管理员手头的任务开始出现“积压”。

比如:红色管理员这个箱子还没放好,快递站的红色柜子又来了几个新快递。由于“超级隧道”的存在,这些快递还只能他弄,别人帮不上忙。。。



这时,管理员有两个策略:

1)一个一个来,等货架把这个箱子放好了,再去取下一个箱子。

2)穿插着来,货架正在摆放这个箱子的过程中,他就直接回到快递站取下一个箱子。

注意!即便是“电子货架”,存放的速度极快,也还是慢于管理员的行动速度。也就是说,第二个策略会更节省时间。

但问题是,管理员离开货架时,必须记下现在手头有哪些工作,顺序是什么,分别干到哪一步了,回来好续上。

这时,就要给每个管理员配一个专属“小本本”(内存专属区域),记下关键信息。



由于管理员的职责不交叉,一个管理员只需要用最简略的信息记录下当前状态,他自己能看懂就行,所以这个本本可以设计得非常小巧。

本本小,就能随身带(放在 CPU 寄存器),读起来也很快,所以对整体存取的速度影响很小。

这种在同一个隧道里“庖丁解牛”,来回切换任务的操作,就叫做“协程调度”



协程调度带来一个巨大的好处,那就是:一个新快递来了,管理员看看小本子上的排队情况,马上就能回答你“这个快递需要多久能入库”。

这在宏观上的表现就是:任何一个数据来了,都能知道还需要多久*肯定*能存好。

这个“多久”,其实就是系统在这一瞬间的卡顿时间,假设告诉你最大卡顿是 50 毫秒。你只要觉得 50 毫秒能接受,就没事了呀。



你要不接受呢?

没关系,我们继续上强度。


🌸第五幕🌸

“羊了个驼”搞了个秒杀活动,同时买咖啡的人变成了 1000000 个。

相对应的,可能 1 号管理员的卡顿就变成了 1 秒钟。这时,他已经不堪重负,需要求救了!

怎么呼救呢?

我们设计一个巨大的广告牌,每个管理员都把自己的实时状态和负荷写在广告牌上,所有人抬眼就能看到。



如果一个管理员在广告牌上的负载总是很大,那么仓库的“老板”,也就是操作系统就得出面了。

比如,他要重新分配任务,比如把一个货架上的货物分到两个货架上,由两个管理员来干。

这其实很考验仓库老板的智商。因为它首先要反应快, 其次还要做预判,不能等管理员已经累坏了才想起来找人给他分担任务。

这不仅需要精准合理的调度规则,还需要一套精确的 AI 预测系统。



OK,演员暂时谢幕。FlashNexus 主要的黑科技就科普到这里。

对于曙光存储来说,这些不是戏剧,这些是他们过去几年的经历。

现在看上去,技术逻辑朗若裂眉。可一但上手去做,就会经历了很多“一想就对,一做就废”的至暗时刻。

即使是在领域里滚了 20 年的老师傅,也会经常卡在一些技术点上,例如主控节点之间信息高速互联的协议策略、例如负载调度的模型微调。作废的代码无计其数。

说到底,“集中式全闪存储”就是一项软硬件紧密耦合的复杂工程,而工程从来无法用理论公式去完成。

很多软硬件模块的原理都是对经验的拟合,没有犯错的经历,你就不可能知道怎么做。

为啥美国公司能做好集中式存储?因为他们做了几十年,也错了几十年。仅此而已。

郭照斌告诉我,仅仅软件部分,FlashNexus 就有 1000 万行代码,都是这几年一个字一个字手敲出来的。

即便有些模块能找到成熟的开源代码,他们也是学习之后自己实现出来。

这倒不是什么强迫症。因为只有自己敲出来,才意味着对其中的代码有了本质理解。

一个用来护佑山河的存储系统,中国人必须完全理解,这很合理吧?

而所谓理解,不过是在黑暗中摸索,一遍遍重来的过程中凝结的伤疤。




(五)追杀与登顶



2019 年,就在曙光集中式全闪存储研发开始前,美国突然宣布把曙光加入“实体清单”。

大家总爱开玩笑,说这是对中国科技公司硬实力的盖章认证。

但曙光存储的师傅们可笑不出来,这意味着一场针对自己的“追杀”拉开序幕,刀刀见血。

刚才说过,集中式存储是软硬件协同的。这意味着光靠代码还不够,很多调度逻辑都要固化在硬件里。

可美国一纸禁令,让原本还谈着合作的外国企业一夜之间把曙光拉黑,一个字都不敢说了。

在这种情况下,哪怕之前已经买到手的芯片都不能使用了, 因为原厂不给任何技术支持,使用这些“三无芯片”万一出啥问题,不是给自己埋雷吗?!

怎么办?

还能怎么办?曙光老师傅开始用国产芯片重新设计。

存储系统里不光用到 CPU,还有大大小小很多芯片,有些专用芯片就是为存储产品设计的。这些芯片未必有多精细的制程,只是国外的比较成熟,过去没有“卡脖子”,直接进口就行。

现在,曙光只好紧急联系中国合作伙伴,给他们描述芯片的用途,讨论参数,从头进行联合设计。

这是一场浩繁的工程。

但俯瞰当时的中国,曙光并不孤单。因为“卡脖子”的无差别攻击,很多行业都突然面临专用芯片缺失的局面,被迫开启产业链自救。

塞翁失马焉知非福。中国芯片的产品线补足,也发生在这个时期。无数自救故事凝固在彼处,成就了一幅宽阔的“清明上河图”。

杀不死我的,必将让我更强大。

一个有趣的转机来自 2022 年底。

那时,“集中式全闪存储”刚刚做好软硬件的诸多准备,准备全力攻坚,隔壁突然传来了好消息。

曙光的分布式存储系统 ParaStor 冲击了一个权威榜单:IO500。

IO500 考验的核心是存储容量和吞吐量。而 ParaStor 一举拿下了 10 节点榜单的第一名,把世界纪录提升了 146%!

这无疑是“荣登”实体清单之后的一次汹涌的自我证明。

ParaStor 和 IO500 登顶成绩。


分布式存储是曙光存储的传统艺能,也是郭照斌本人奋斗了多年的领域。即便如此,这个成绩还是有点超越了他的想象。

也正是从那时起,集中式存储团队心里萌生了一个想法:集中式全闪存储也要证明自己!

3000 万 IOPS,就是那时定下的目标。

实际上,老师傅想要挑战的目标是:做到单集群百控级扩展,1 亿 IOPS。

而在 SPC-1 的测评中,一般会使用 32 个主控的系统。简单除一下,这个规模的系统应该要达到 3000 万 IOPS。

于是,老师傅一边朝着这个指标努力,一边抽空和 SPC 联系。由于相隔大洋,只能用邮件沟通,有时候一来一回就要一个礼拜。

2024 年夏天开始,好不容易拿到了测试系统,老师傅赶紧部署下去跑分试试。

结果,就在快要跑到 3000 万 IOPS 的时候,测试系统就闪退了。。。

老师傅咂嘴。看来咱水平还是有待提高啊,继续反躬自省吧。

自省了半个月,老师傅越发觉得不对劲。有没有一种可能。。。是测试程序。。。有问题?

又开始了几轮漫长的邮件沟通,SPC 的技术团队终于确认:不好意思,我们的评测系统从没跑过 3000 万 IOPS,确实存在 Bug,等我们 Update 一下。

为了见证一个世界纪录,连赛场都得重修一次,也算是活久见了。

时间终于来到了 2024 年秋天。顶级全闪存储的软件和硬件终于打磨光亮,测试程序也及时更新,文章开头的那一幕终于出现了。

这个打榜的存储系最终形态是:

32 个主控,每两个主控互为备份,总共是 16 组“仓库”,各个仓库之间由高速网络互联,可以实时进行信息同步,保证它们连接在一起,共同成为一个超大的变形金刚。

这就是 FlashNexus 全闪服务器,前面的 25 个格子,就是 25 块闪存盘的位置。


这样一个每秒可以进行 3000 万次存取响应的人造物巅峰,完全有能力进入大银行的心脏,记录海量刷新的账目;有能力进入电信系统,记录所有人的话费实时消耗;有能力进入石油系统,支持超大规模 AI 来分析地震波,寻找更加隐秘的矿藏。

凡是国外存储系统能支撑的场景,中国存储系统都能支撑;有些他们支撑不了的,我们还能支撑。

因为我们是世界第一。

这是测试结果的完整参数


这是一场围追堵截中的登顶,一场旷日持久的尘埃落定。

客观地说,曙光并非唯一的成功者。就在 2024 年,其他头部的国产厂商也宣布推出自己的集中式全闪存储。

从这个意义上讲,中国师傅作为一个整体,踏足了曾经的技术禁区。

2025 年 2 月,SPC-1 的官方认证发布,在他们给曙光团队的邮件中如是说:

我们将会把结果发布在 SPC 的网站上,并且给所有邮件列表上的成员发送通知。

我还会在首页上添加一个通知;并非每一天都有人能刷新 SPC-1 纪录。



那之后几个礼拜,郭照斌的手机被各方信息轰炸。

不仅自己的销售团队来问,客户也托人来问,连很多友商同事都找来询问情况,因为他们的老板看到新闻,质问他们为啥不去打榜。。。

“你们的纪录有信心保持多久?”我问郭照斌。

“我当然希望保持久一些。也许一两年,也许很快就被打破。但没关系,纪录就是用来打破的,因为我们也会继续创造更好的纪录。”

和团队一起燃烧了几年生命才抵达顶峰,郭照斌却没有我想象中那么留恋。

他的平静,或许源于祛魅。



(六)耐心和祛魅



在过去的十多年,我们内心大概有一个共识:

中国技术可以做到很强。但这种强来自于已知的堆垒,而非对未知的探寻。

换句话说——中国难有受人尊敬的技术创新。

这种判断非常理性。毕竟中国的制度、学术体系、商业氛围都和西方不同,最近几十年的历史也一再证明,美国总是创新的策源地。

但就在 2025 年,一些跳脱出历史经验的事情正在发生。

DeepSeek 祭出了让世界 AI 研究者膜拜的模型推理结构,Manus 让 AI 拯救了重复劳动的社畜;宇树机器人在春晚舞姿顺滑,越疆机器人用手指捏起了樱桃。

中国技术人一如既往平凡地生活,上班打卡、下班带娃,可他们手中却不知不觉开始诞生一些世间尚不存在,并不平凡的东西。

如春雨润物,大地返青。

这是一场汹涌的祛魅。

在郭照斌心里,这种祛魅发生得更早。

2022 年,分布式存储创造了 IO500 世界纪录时,郭照斌突然有一种感觉:身边的人还是那些人,谁也没有长出三头六臂,也没听说谁菩提顿悟。

就是这些原班人马,十几年前还在琢磨模仿美国技术,七八年前还在研究如何跟紧别人的创新。也不知从那天开始,突然发现前面没人了,只好自己创造,也就拿下了世界第一。


现在的信息流通非常自由,全世界的技术人正在同一片土地上耕作,过去那样的严密封锁再也不会出现了。

冲击最高点不是不可能,只是以前没敢想。

他说。

听着他的话,我陷入了自己的回忆。

小时候,总看到那样的新闻报道:有追求的技术人舍家撇业,远渡重洋。因为最好的东西只在彼岸发生。仿佛这样的奋不顾身浸染着至深的浪漫。

但如今,我就在家门口,和这些创造了历史的技术人面对面,他们看上去和蔼平静,可能还有点儿羞涩。就像是小时候结伴上学的哥们。

我大概明白,技术人的浪漫,也许并非走到世界的尽头。而是把那些汹涌的远方带回家,成为手中的柴米油盐,脚下的寻常巷陌。

如果把这些造物搬到你面前,它们只是棱角分明的机柜。匆忙一瞥,对它的印象一定如纸片一样轻薄。

但如果安静下来,把所有的定格连缀成故事,会听到一条澎湃的河。

三十年前,老一辈技术人之所以把他们的作品称为“曙光”,寓意已非常明确。而时代变迁,后人也许终究无法重走他们的筚路蓝缕。

但一代人有一代人的使命。

山河宽广,我们永远需要无尽的算力和存力的护佑。每一个尚未抵达的世界纪录,不都是新一代技术人谱写历史的机会吗?

在和我聊天时,技术老师傅总是尽量避免华丽的词汇,他们朴实地解释自己的参数,讲解实现的方案,我听不懂他们就换个方式再讲,怎么说都不腻。

但此刻,回忆那些平淡的对话,我却如置身扁舟,漂流在那条汹涌的河上。

一个我儿时就会背,但却用了几十年才渐渐理解的诗句突然又浮现在脑海:

为什么我的眼里常含泪水,

因为我对这土地爱得深沉。



往期推荐:
👉14亿人的战争:中国人用了30年望见计算力的珠峰
👉腾讯的硬盘里,有互联网的昨天今天和明天
👉阿里巴巴“数据库侠客”:此行路远,不问归期
👉平凡人的野望:我们为赛博世界保管记忆
👉“老司机”决战火神山
👉我曾用5G照耀珠峰




有人把数据化成歌

有人把它存在山河


再自我介绍一下吧。我叫史中,是一个倾心故事的科技记者。我的日常是和各路大神聊天。如果想和我做朋友,可以搜索微信:shizhongmax


哦对了,如果喜欢文章,请别吝惜你的“在看”“分享”。让有趣的灵魂有机会相遇,会是一件很美好的事情。


Thx with  in  Beijing

阅读原文

跳转微信打开

用大模型揍黑客?恐怕得先跟人脑学两招骚的!

2025-03-20 11:04:00

原创 史中 浅黑科技 2025-03-20 11:04 北京

一群师傅正在把大模型做成机甲战士。

浅友们好~我是史中,我的日常生活是开撩五湖四海的科技大牛,我会尝试用各种姿势,把他们的无边脑洞和温情故事讲给你听。如果你想和我做朋友,不妨加微信(shizhongmax)。



用大模型揍黑客?
恐怕得先跟人脑学两招骚的!

文|史中


家人们, AI 已经不满足于自己卷,而是开始祸祸各行各业了。。。

最近跟人聊天, 只要三句之内你还没提到你们行业“大模型怎么代替人类牛马”,人家就觉得你这行药丸。

但这事儿怎么可能这么简单?要知道,各行业对人类技能的要求本就千差万别:

设计师得懂得视觉语言,理解空间规划;

文学编辑得理解语义空间,懂得搜索和引用信息;

工程师得有严谨的决策和推理能力。



所以,不是随便装个 AI 就能起飞。

针对每个行业,AI 都得反复摩擦,选定非常特别的姿势切入才可能成功。

这里藏着真知识,值得爱智求真的浅友们研究!

最近我刚和一位网络安全硬核老师傅聊天,他和团队正在把大模型作为机械战士,用子弹和铠甲守卫我们的网络空间。

这位师傅就是潘剑锋,他也被同事称为“潘神”。

当年,他是影响一代网络安全研究者的安全工具“冰刃(IceSword)”的作者,如今,他是 360 集团的首席科学家,360 数字安全集团的首席技术官。

潘剑锋


潘神从小就是学霸, 恨不能直接把卷子翻过来做大题那种。所以他比较反对有些人“为了用大模型而用大模型”,就蹭点儿步骤分。。。

他觉得:

要么就不用大模型,要用就让它真的比人更猛!

嗯,主打一个童叟无欺。

为此,他的思路是:遇事不决,照着人学!人有多骚,AI 照抄!

这不,团队这两年总算用这个姿势撞开一条小裂缝,看到一丝光明透进来。

说起这段故事,潘神决定从一个人工智能几乎无解的“弱点”聊起。




(一)AI 脑袋里的“坑”



几天前,马斯克刚刚祭出了据说是地表最强 AI——Grok 3。

有人立刻把那道经典送命题递了上去:



你看,这就是地表最强 AI 的水平。棒棒!



话说其他 AI 对于这个问题的回答也一个鸟样,就算能答对,恐怕也只是针对性地打了补丁。

因为现在的 AI 训练方法的基础是统计学,所以 AI 对世界的理解也是“统计性理解”,而非“本质性理解”。

潘神给我解释。

啥是“统计性理解”“本质性理解”嘞?

我给你举个例子。

假设三体人派质子来到地球研究我们的生活。

他们偷拍了 1 万张日常照片,发现了我们会在一起吃“生日蛋糕”↓↓↓



他们馋了,也想试着做出来尝尝。

于是挑出了几张含有生日蛋糕的图片,做了个简单统计:

这种玩意儿大概率是矮圆柱形,滑滑腻腻的,插着一些可燃物。

然后用三体星球上现成的原料,照猫画虎把这个东西做出来:



而后,质子又从地球多拍了 100 万张照片传回去,里面有更多生日蛋糕的图片。

三体人又一统计,发现出问题了:

生日蛋糕的内部结构和外部并不一样!

在里面是一坨软软的带有空洞的物质,外面才是滑滑腻腻的材料。



他们于是又一顿忙活,从更多的数据里总结更多特征,改进了自己的蛋糕。

这回从里到外都更像地球的蛋糕了。



三体人学做蛋糕的过程,就类似于人工智能模仿人脑的过程。它展现了统计性学习的两个特点:

1、学生不是想学啥就能学,而是只有本体的某种性质展现出了统计上的特征,才能被学生注意到,才能被学会。

2、随着描述本体的数据不断增加,可能会有新的特征凸显出来,学生学到的特征越多,表现就越接近本体。

但是!这里隐藏了一个让人脊背发凉的大问题:

就算三体人再拍 1 亿张生日蛋糕的照片,把蛋糕做得再惟妙惟肖,只要他们来不了地球,无法亲自品尝,他们就永远不敢肯定自己的蛋糕和地球蛋糕的味道是完全一样的!

完全存在一种可能:

我们放的是糖,他们放的是盐,我们放的是蛋糕胚,他们放的是发泡塑料。。。

残酷的事实是:在特定的数据采样体系下,有些本质是不会展现出统计学特征的。

也就是说,“统计性理解”原则上能不断逼近“本质性理解”。但推到终极,你却无法证明“统计性理解”达到了“本质性理解”



于是 Bug 暗伏其中。

三体人拿出塑料蛋糕的一瞬间,不就像极了 AI 说出 9.11 比 9.9 大的那一刻么?想想看,是不是还挺恐怖的?

更恐怖的是,你不知道 AI 的脑袋里还有哪些“坑”,也不知道这些坑什么时候会出来把哪个老铁给坑了。

这个问题没有“特效药”,只有“广谱药”,就是:

不断给 AI 学习更多、更好的数据,祈祷新的数据里恰好含有重要的统计学特征,“未亡羊先补牢”呗。

但在最近,即便是广谱药也快失效了——我们遇到了“数据墙”。

人类几百年积累的知识数据,该喂给 AI 吃的都已经喂了。

地主家也没有余粮了。接下来只能靠 AI 自己合成数据继续训练,这样自己拉自己吃。。。最后会不会吃出毛病,学术界还颇有争议。

训练 AI 的数据,无法突破人类既有知识的极限,也就是“数据墙”。


基于以上,潘神的眼神开始犀利起来:

既然 AI 短期存在无法突破的能力极限,那就可以把网络安全的问题分成两类,用大模型做出两套不同的体系来解决。

一套是“快思考”,一套是“慢思考”。

1、“快思考”用来做判断题,不用绞尽脑汁解释为啥,以对服人,适合放开手脚让 AI 用自己的方式去干。

主打一个:人能干,但 AI 更便宜。

2、“慢思考”用来做证明题,必须展现复杂的思考步骤,以理服人。AI 自己搞不定,可以遵循人类老师傅已有的经验框架去干。

主打一个:AI 不够,祖传知识来凑。

这个思路,其实就是从人脑的思维方式抄的!接下来我给你展开说说。




(二)快思考像一把火



老铁们估计都知道,“快思考”、“慢思考”的分类来自于心理学家丹尼尔·卡尼曼对人脑的研究。

一个最经典的例子就是:

你在丛林里遇到一个长条形的东西,形势容不得你花时间分析它到底是啥。快思考会在第一时间输出“危险”这个信号,给你的指令就一个字——跑!

等你跑开了一段安全距离,慢思考才跟上来。你可以详细观察这个东西的纹理、动作,然后综合判断它到底是蛇还是翔,以决定接下来的计划。

打个比方:

快思考就像一把火,短暂而绚烂地燃烧;

慢思考就像一条河,带着小船时急时缓地漂流,一段时间后才奔流入海。



在网络安全领域,快慢思考也都有用武之地。

咱们这一趴先说个“快思考”的例子:

假设中哥开了家公司,办公网就像一个工业园区,里面安装的 360 安全系统就像保安大队,负责监视园区里的一举一动,以防有人搞事情。

黑客偷来一张工牌,为了寻找敏感资料,他想拿着这个工牌混入档案大楼。

黑客走到档案楼门口,这位保安只有几十毫秒的时间做出判断。如果感觉这个人不对劲就要果断拦截,否则就得放行,不能耽误人家的事啊!



传统的做法是,把所有已知的黑客行为特点都提前总结成一条条的规则,放进一个大的“规则集”里。

来了一个人,保安只要无脑对照规则集里所有的规则查一遍,就有了结论,这不就很快了吗?

但是,规则终归是死板的。

它就像特工电影里那种会触发警报的红外射线,即使数量再多,中间还是会有缝隙,聪明的特工总能找到方法绕过。

这不保险。。。



人类大脑就很灵活。

老保安队长和坏人眼神一对,就感觉他有问题。

具体哪儿有问题一时说不清,但没关系,只要觉得他有问题,就可以拦下来慢慢盘问!

现在咱有了大模型,直接用它模拟老保安队长那种说不清道不明的“直觉”来做判断,不就直接吊打黑客了吗?



听上去不错,但操作起来没那么简单。

咱们的大脑看似是一坨,实际做复杂判断时,是里面很多“脑区”相互配合的结果,就像病人的疑难杂症需要不同科室的专家会诊一样。

如果要模拟人脑识别高级入侵,“一把火”不够,得把网络安全所需的不同脑区都给训练到一个大模型中



这些脑区有的是看代码,有的是看日志,有的是做推理,有的是读语言,知识体系和功能都差异很大。

偏偏目前的均质大模型结构存在一个天生缺陷。

那就是,同时学习多个差异很大的知识体系,就会形成跷跷板效应:A 领域学会了,有可能 B 领域就学废了,反之亦然。

其实这个缺陷人脑也存在,你读一个博士都费劲,同时读五个风马牛不相及的博士你试试,不走火入魔才怪。

但网络安全的场景非常复杂,要想拦住顶级黑客,你还真就得读五个博士。



不搞定这个 Bug,大模型就无法在网络安全领域落地。。。

老师傅们只好退而求其次:

把不同的专家彻底分开——独立训练几个“安全专家模型”,每个专家的脑袋瓜只思考一件特定的事情,然后让他们组成一个“专家组”。

遇到复杂问题,抽调团队里相关的安全专家模型分别思考,再把结论综合起来,这不就行了吗?

行是行,但这样独立模型联合起来的团队,未免太奢华了。。。



(三)可以“拔下来”的火柴头



每一个专家模型都要有语言和逻辑思维能力,这意味着它们分别要在大模型的基础上训练而成——比如是 72B 的模型。

而干一件事儿可能需要 10-20 个专家模型配合。这么一来,系统里等于是并行跑着 10 个大模型。

运行一个 72B 的模型,怎么也得需要一个装满 4 张 L20 推理卡的服务器,价格最低也要 20 多万。要是跑 10 个模型,光是机器就要 200 多万。

对于绝大多数企业来说,这都是一笔巨额开销啊!

想想看,哪个工业园区也不会把日常支出的 20% 用于给“豪华旗舰版保安队”开工资吧??

看到没,这才是大模型进入产业的真实困境。。。



看来,人脑的作业也不是这么好抄的,得上点儿狠活!

说到这,潘神终于搬出了他们的一些探索成果:

360 数字安全团队也会训练很多“安全专家脑区”,但不同的是,他们对这些脑区“提取最大公约数”——彼此共用一套大模型底座。

具体来说就是:

1、每类任务都交给一个特定的“专家脑区”,平时把这个脑区外挂在大模型底座上训练;

2、每次训练的过程中,把底座大模型的参数锁死,只改动“外挂脑区”的参数;

3、训练好 A 专家脑区,就把 A 从底座上拔下来,再插上 B 脑区,训练 B 任务。

你可以这样想象:一根火柴梗,上面能搭配很多火柴头。

这样一来,所有的专家共用了一套语言逻辑中枢,也就是那个大模型底座。每个专家脑区只负责特定的思考,脑容量就能大大缩小,大概只有 1 亿个参数。



然后,设置一个路由模块。

系统思考的时候,它会根据任务的不同给它指派“火柴头”。

每次指派之后,信息流就从大模型基座(火柴梗)烧向这个专家脑区(火柴头)。

在思考下一趴的时候,路由器会重新指派“专家脑区”。以此循环,直到所有的思考结束,最终答案呈现在眼前。



这样一来,火柴是用到哪根点哪根,火柴头平时也不占地方。

同样是一台 20 万的机器,原本只能驱动一个专家,现在却驱动 10 个专家也没问题。

这个架构,被 360 称为 CCoE(紧凑型多专家协同大模型)



潘神告诉我,现在他们训练了很多个“火柴头”专家,企业客户根据自己的情况,用到哪个专家就买哪个专家,跟自助餐一样丰俭由人,非常方便。

但别高兴太早。

“快思考”只能解决一半儿的问题。

我们刚才说过:快思考虽然能快速做判断题,但它的判断“不保熟”。

保安看一个人像坏蛋,虽然可以用直觉判断拒绝他进入园区。但如果背后没有理性逻辑支撑的”慢思考”,终究会存在两种问题:

一来,可能误伤好人,次数多了人家会投诉你,保安就得下岗;

二来,坏蛋痛定思痛,下次乔装打扮得更好,你可能又给放进去了,保安还是得下岗!

为了不下岗,保安必须得有环环相扣的逻辑推理能力,这在大模型技术中被叫做——思维链。



(四)慢思考像一条河



如果你用过 DeepSeek,就不会对“思维链”太陌生。

DeepSeek 在正式回答你之前,会走一段内心 OS,这个 OS,就是它的思维链。

那么,只要用这个思维链思考, 就是潘神所说的慢思考了吗?

他的答案是:No。

掌握了思维链,就像学会了功夫。

首先说,练过拳脚的人和没练过拳脚的人肯定不在一个量级,一打一个服气。

这不,DeepSeek 利用思维链给出的回答,相比之前直觉大模型(例如 GPT-4o)的不假思索直接出答案,更加有理有据,令人信服。

但功夫这件事儿,是分段位的。白带打不过黑带,黑带打不过红带,山外有山,进无止境。

咱们不妨具体看一下 DeepSeek 的功夫,它的绝招是“反思”

你问 DeepSeek 一个问题,它会把问题拆成步骤,一步一步地往下推导。

这个思维链原本像一条河流。

小船自然地随着水势自然流淌,永远不会意识到自己在随波逐流,更不会“主动”倒船选择更顺的路



但是,DeepSeek 不同,如果推导过程中出现了矛盾,它居然会倒带,修改之前的思考方向。这就是反思!

直到它撇出一条顺滑的结论,才算是走通了一条思维链



用同样的方法,它还会给出几条思维链,最后再反思一下,沿着最顺滑的那条思维链给你输出答案。



这很不寻常。

因为,只有在思维之河之外存在某种监督机制,才能对小船的航向有感知和反思。

这种监督机制,恰恰是人脑的特色。

DeepSeek 之所以被全世界竖大拇指,最大的功劳就是:工程师没有把这种反思能力强加于模型,而是找到了方法,让模型自己进化出来。

在 DeepSeek R1 的论文中,老师傅展示了一段思维链,AI 在思考过程中,直接用人类的口吻来了个“aha”,这意味着它有了反思,开始重整思维链。


但潘神提示我:作为人类,咱可不只有“反思”这一个绝招。

人在为思考按下暂停键时,除了“闭眼向内求”——通过自省来重新修正自己的思维链,还会“睁眼向外看”——借助工具和信息渠道,从开放世界拿回最新鲜的数据,辅助生成接下来的思维链。

据此,有关思维链的段位,潘神总结了三级:

第一级:类似于 GPT-4o 这样用直觉输出答案,是“快思考”

第二级:类似于 DeepSeek 和 GPT-o1 这样有向内看能力的思维链,可以叫“深度思考”

第三级:在反思型思维链的基础上,还能主动吸收外部信息,一边向外看一边想,才是更完整的“慢思考”



要达到第三级,才能处理网络安全的诸多问题。

但现实很残酷。DeepSeek 的训练资源和技巧已经是当前世界顶级了,要想在它的基础上改进,技术难度提升可不止一点半点。

但他不打算坐在原地抱怨,而是想办法使“巧劲儿”。




(五)“不断有支流汇入”的思维之河



遇事不决,照着人学。

让我们观察一下自身,咱们思考问题的时候,啥时候会去查一些信息?

一般是我们“拿不准”的时候。换句话说,当我们需要“不能错的信息”时。

咱们就以网络安全场景为例,不能错的信息大概有四种:

1、精确的通识。比如:网络安全行业处理黑客攻击的《最佳流程手册》。

2、专有的数据。比如:L 黑客组织,360 公司历年捕获到的它曾用过的攻击手法。

3、实时的事态。比如:W 系统最新爆出的漏洞详情代码。

4、工具的输出结果。比如:利用扫描工具检查网域内的设备后,绘制的网络地图。

这几种信息的来源也不同:

通识一般以知识图谱的形式存在,专有数据在数据库里,实时事态一般要联网查询,工具一般要靠智能体去调用。

潘神他们索性把这几种东西打包起来,做成了一个“外脑”



AI 在思维链的形成过程中,可以随时停下,调用这个外脑来补充信息,然后再继续思考,就好像人的“联想”一样!

看到这你也许会疑惑:DeepSeek 不是有个“联网搜索”功能吗?这不已经是联想了吗?

还是有区别的:

DeepSeek 是在思考之前先搜索,然后带着搜索内容开始生成思维链。思维链在延展的过程中,是不能停下吸纳新信息的。

这就好比只在河流的发源地汇入一股水流。

你没办法预测后续具体会用到什么信息,只能不管后面有用没用,先一股脑多输入一些。



而“联想”则是在河流流淌的过程中,随时汇入支流。

由于前面已经完成了一部分思考,此时应该非常清楚急需什么,可以有针对性地搜索、纳入这些信息,让接下来的思考更锋利。

显然,联想这个特点更拟人。

但问题是,目前还没有一种方法,可以让大模型在思考的过程中主动产生联想的“欲望”。

这咋办?

潘神团队研究出一个看上去粗暴,但着实有用的方案:既然敬酒不吃,那就吃罚酒呗!

在模型思考的框架里加入“强行联想”的功能。

具体来说就是,思维链每行进一步,都有一个外部的算法对它进行评估,一旦发现思考的内容符合条件,二话不说直接激活外脑。



这个算法其实没那么复杂,甚至也不是一个大模型。

你可以把它想象成河流当中的浮标,只要思维的深度触碰到浮标, 就主动开闸,引入一条支流,把新信息合并进来继续作为下一层思考的输入。

这个带有实时联想功能的思维链,被他们称作 CoAT(Chain-of-Associated-Thoughts),也就是“联想思维链”

你感受一下全过程↓



高级的食材只需简单的烹饪,虽说 CoAT 实现方法并不复杂,但效果还挺显著的。

潘神给我看了一个例子,分别用 CoAT 架构的“慢思考大模型”和 DeepSeek 的“深度思考大模型”来解答同一个问题。

问题是这样的:

我们应该如何看待人工智能在当代国际竞争中的作用?哪些国家在这一领域拥有领先的优势?

DeepSeek 发挥稳定,答案很详细,但美中不足是例证较少。

CoAT 的不同点是,它列举了几个具体国家的 AI 策略,并且提供了美国 AI 研究的具体项目和中国的“新一代人工智能发展计划”。

之所以会有这样的区别,大概正是因为 DeepSeek 只在最开始的时候搜索了外部信息,而 CoAT 是在思考的每一步都通过外脑查询相关的信息,从而可以更具体。

这是回答上述问题的完整思维链生成过程,可以看到在每一步都和红圈内的外脑交互,进行了“联想”。(点击看大图)


潘神告诉我,这种优势在思考网络安全的专业问题上会表现得更明显,他们正在紧锣密鼓把这些能力加持在 360 的大模型安全产品里,客户很快就能体验到。

但天下武功都有走火入魔的可能,这种“强行汇入支流”的操作也暗藏危险:

在思考中添加外脑的信息,并不一定总是会让思考结果更好。

原因很简单,如果汇入的支流里面有泥沙,就会让本来一条清澈的河流变得浑浊。

所以,如何筛选和精简外脑的“信息水流”,是至关重要的。

他们于是在每一条汇入的支流入口处,都加了一道“水闸”。

这个水闸其实就是一个评估算法,来计算内容和已有思维链生成内容的相关程度。

只把最相关最核心的内容放进主河流,其他的信息主动放弃,主打一个宁缺毋滥!



潘神特别提醒我,CoAT 只是一种技术框架,里面所有的参数都是可以调整的:

在网络安全领域,对思维链的聚焦度要求比较高,就可以决定只在关键节点汇入支流,汇入的水流也少而精确;

而在其他领域,比如辅助写作,完全可以更多地汇入信息,每次加入丰富的数据,让结果变得更加发散,更有趣味。

360 的老师傅合计了一下,觉得这些研究对很多行业都有用,于是把一部分研究成果写成了论文分享了出来。

这个操作很快引来了一些“自来水”。有人录视频、写文章分享他们对这个技术进展的解读。

一位外国程序员小哥做的视频解读。


这并不太意外,毕竟如今 Made in China 的技术也是品质的保证嘛。

实际上,随着前几天 DeepSeek 对技术的披露,人们逐渐意识到:

“颠覆性创新”很多时候是由一系列“实践创新”集合而成的。

DeepSeek 的每一个创新都很具体,比如 GPU 优化、通信库、文件系统。。。但合在一起就有奇效!

如此说来,像 360 老师傅这样的实践型创新同样值得被我们点赞。

无数这样的大小创新集结起来,才把我们一步步推向那个“智械黎明”。




(六)“智械黎明”



网络安全也许是大模型的光亮最难照射进去的几个行业之一。

它是战争的线上版本,是全人类最顶尖头脑之间的攻防。人脑尚且不够用,怎么轮到 AI 多嘴?

但大模型的光芒一旦照进去,网络安全行业又会是最闪耀的。

因为网络安全行业是“赛博原生”的。

它自古就能触及浩如烟海的底层日志,能见识最多走位风骚的攻击路径。而大模型本就是数据驱动的。如果能够找到方法完整、高效地利用这些独门数据,做出来的机械战士将强的可怕。

只是,黎明之前的暗夜太长,不知谁能坚持穿过。

大模型已经横空出世三四年了,虽然几乎所有的网络安全公司都说自己用了大模型,看上去一片火热,但如人饮水冷暖自知。

很多安全公司使用大模型的原动力都来自于行业的内卷和焦虑——本来生意就不好做,别人吹牛说用了大模型,你不说,生意就更不好做了。

在很长的时间里,残酷的迷雾一直笼罩:全行业都没有找到“特别适合大模型的任务”。

有些任务大模型能干,小模型也能干,但小模型的性价比更高;

有些任务小模型确实干不了,但人干更便宜,性价比仍然比大模型高。

现实很残酷,各个企业中的网络安全部门虽然客观上肩头责任重大,但一般却是公司里存在感最低的部门。

老板天然更注重业务,谁愿意天天关注保安队呢?

一般是哪种安保措施性价比高,人家就选哪种方法。

未来,即使是这么严苛的标准,“大模型驱动的保安”也可能被挑中!



举一个在安全运营中的例子吧:

网络流量中的一种分析任务,如果放一个人类专家在这,工资成本也不低。现在,CCoE 框架下的大模型能达到人类准确率的 90%,但运行成本远低于人类专家。

在这种表现下,无论怎么算账,大模型加持的机械战士都是这个岗位的最优选项——不出意外,它即将成为这个岗位上的钉子户

如果从远处眺望,网络安全系统就像一艘战舰。

未来的日子里,大模型有希望在越来越多的位置上成为钉子户。一点点替代传统的规则引擎,替代人类的专家判断——如忒修斯之船一样每天替换掉一个部件。

某一天,当太阳再次升起,战舰的轮廓显形,我们也许会见证一个“智械黎明”。

我不知道这个黎明还有多远。

但我知道的是,那个黎明来自过往的每一天,来自行业中无数头铁的老师傅用微小而坚定的创新一点点撞开的裂缝。



往期推荐:
👉360想拯救与黑客作战的100000个“帕鲁”
👉辛顿的冬与春
👉当 AI 活成了你的样子,而你活成了狗
👉360杀出一支“蓝色十字军”
👉最 Deep 的 Seek:AI 的“终极设计图”是什么样子?




人有多骚

 AI 照抄


再自我介绍一下吧。我叫史中,是一个倾心故事的科技记者。我的日常是和各路大神聊天。如果想和我做朋友,可以搜索微信:shizhongmax


哦对了,如果喜欢文章,请别吝惜你的“在看”“分享”。让有趣的灵魂有机会相遇,会是一件很美好的事情。


Thx with  in  Beijing

阅读原文

跳转微信打开

最 Deep 的 Seek:AI 的“终极设计图”是什么样子?

2025-02-12 11:03:00

原创 史中 浅黑科技 2025-02-12 11:03 北京

宇宙中所有的智能,都共享同一张“设计图纸”。

浅友们好~我是史中,我的日常生活是开撩五湖四海的科技大牛,我会尝试用各种姿势,把他们的无边脑洞和温情故事讲给你听。如果你想和我做朋友,不妨加微信(shizhongmax)。


AI 的“终极设计图”是什么样子?


文|史中


我写这篇文章的时候,正值 DeepSeek 撕开防线,和人类最强的智能 ChatGPT 隔空对峙。

DeepSeek R1 的凶猛,并不在于它超越了对手 o1 模型的逻辑推理能力(实际上只是几乎追平),而在于它实现这些能力,只需要十分之一的成本。

换句话说,它的智能密度相当之高。

具体实现方式,DeepSeek 已经公布了论文,很多大神也做了详细解读,不多说了。

今天咱们试着潜入智能的最深处,讨论三个层层递进的话题:

1、用“显微镜”看,智能的微观结构究竟是什么?

2、什么东西在决定“智能的密度”?

3、我们有办法做出智能密度达到极限的 AI 吗?

这么深刻的话题,中哥确实没能力自己构建理论体系。给你介绍一个高手,他就是计算机科学家,被称为目前活着的最聪明的人——史蒂芬·沃尔夫勒姆。

这篇文章的核心观点,就是来自这位大神。

Stephen Wolfram


友情提示,接下来 20 分钟,我们要和最聪明的大脑打交道,也许有些观念过于抽象,需要一些额外的“思维垫脚石”。

有些垫脚石乍看和主题无关。但相信我,它们都是通向最终结论所必须的。如果卡住,延伸开去琢磨一下,再回到主题,最后一定会有收益。

让我们开始吧!



(一)智能的莲花开在淤泥上 


沃尔夫勒姆从一个简单的人工智能神经网络开始:



上图是一个很有“二极管”风格的函数,它其实和人脑很像。

你可以理解为它就是你的大脑在恋爱中所做的判断:当 x 满足某些条件时,你会上头,和 ta 结婚,此时 f[x]=1;当 x 不满足这个条件时,你会下头,和 ta 分手,此时 f[x]=0。

现在,我们想“克隆”一下自己的大脑——用人工智能来模拟和这个“目标函数”一模一样的操作。

该怎么做呢?

我们可以搞一个神经网络,然后从这个目标函数上做数据采样,用这些采样去训练神经网络。

经过 1000 轮训练,最后出来的结果是酱的:

一堆神经元分层传导,每条连线都定了不同的参数权重,它们形成了一个类似于方程的计算系统。你给出一个 x 的值,它就能给你算出 f[x]的值。



你可以代入数值验证一下,它虽然不和原始方程精准重合,但确实是非常接近的——这是个好使的人工智能。

不过这里有两个问题:

1、在训练开始时,你无法预知最终每个参数会是什么。

上图显示从第1轮到 1000 轮的训练过程中,函数曲线不断接近目标函数的过程。由于参数是在一步步迭代中确定的,所以无法预知后续如何变化。


2、训练结束后,你很难讲出每个具体神经元参数对最终结果的影响是什么。

随着 X 的变化,中间参数取值也在变化。在曲线的转折点,你能看出发生了变化,但很难说清楚每根线具体弯折的意义。


所以整个训练过程有点儿“解释不清楚”:你只知道最后这个神经网络能用,但是,一不知道它是怎么能用的;二不知道它是怎么变成能用的。。。

这不是很奇怪吗?

其实也没那么怪。

我猜你上学时,一定有过这样的经历:试卷上一道题,你能直接说出正确答案。同桌问你怎么做的,你就是没办法拆成他能理解的步骤给他讲明白。

还有的人,可以控制自己的耳朵动。可是你问他具体怎么控制,他肯定没办法和你说清楚,因为这是神经系统整体的运作,无法用语言逻辑拆分。

沃尔夫勒姆的意思是:

“解释”这件事情,根本就是个幻觉。



比如我要给你解释:“汽车为什么会走?”

我可以从宏观层面解释:

能源的化学能转化成了动能,汽车就能走。

但你还不明白,让我详细说说。

于是我从更细节的层面解释:

发动机的四个冲程让燃料燃烧,推动了传动杆,传动杆又连通了底盘和车轮,车轮转动,与地面摩擦,汽车向前。

但你还不明白,让我再详细说说的。

于是我从微观层面解释:

分子层面的化学反应,刚体物理的诸多性质。

但你还不明白,让我继续深入解释。

于是我发现,细微到一定程度,解释就失去意义了:

汽车的微观层面就是一堆原子。。。它们在遵循特定的规则震动。无数震动效果的总和就是汽车向前移动。

这算啥解释?

沃尔夫勒姆在上个世纪就提出一个简洁又凶残的洞见:世界的本质是“计算不可约”的。(这是迄今为止对我震撼最大的认知之一,我在《活成了狗》中也详细介绍过。)

简单说就是:

1、微观粒子遵循基本规律;

2、宏观世界是微观粒子的直接累积,无法被简化。

但我们的大脑一厢情愿希望找到“简单解释”。

哪怕这些解释不是100%事实,而是舍弃一部分事实之后,形成粗简的“故事”,以便大脑(可怜的)计算力能够与其他的故事类比起来,以此才能对改造世界的工作进行一些(不一定正确的)指导。

越往微观层面走,我们保留的事实就越多,故事就越不好理解,但离真相更近。

越往宏观层面走,我们舍弃的事实越多,故事就越好理解,但离真相越远。

这种感觉很奇妙。它暗示:我们的世界就像一朵莲花,花瓣分明,艳丽异常,但追根溯源,却根植在一坨烂泥上。



回到我们的主题。

神经网络每个神经元是干啥的,之所以不好解释,就是因为我们试图用微观事实在宏观上拼出一个的“简化的”故事,这本质上是无法做到的。

说了半天,意思就是。。。此题无解吗??!!

诶,沃尔夫勒姆的凶悍之处正在于此。他的观点是:

通过深刻理解智能为什么不能解释,可以指导人类造出更厉害的 AI!

下面扶稳坐好,我们从最微观的一砖一瓦开始,一点点描绘这幅图景。



(二)大脑是“离散”的!


计算机是会死机的。

如果程序里存在嵌套的逻辑,计算机就只能一直算一直算,死而后已。

之所以这样,是因为它试图用有限的资源模拟出一个“无限的数学空间”。

这个数学空间里,任何东西都是连续的。

例如,一个小数字都可以分成更小的数字:

0.001 够小了吧,你给 1 前面再塞个 0,它就是 0.0001,妥妥更小。

同理,任何一个大数字都可以组成更大的数字。

在这个数学空间里,你可以砍一刀,再砍一刀,无限逼近但永远也砍不完,跟拼多多一个德性。



实际上,现代数学的危机与荣光,微积分、群论这种高深的理论,都必须建立在各种极限概念之上。它们共同构成了“形式计算”的恢宏大厦。

但是,这个完美的数学空间只存在于纯粹逻辑之中。

最近一百年的科学证据已经疯狂暗示:真实宇宙的基本结构不是连续的,也不是无限可分的,而是“离散的”

你可以不严谨地把宇宙想象成一个屏幕。

在最小的尺度上看,全是像素点。一个粒子要么在 1 号点位,要么在 2 号点位,不可能在中间的 1.5 号点位,因为宇宙的基本结构决定了就没有这么个“像素”。

一个粒子从 1 号位置移动到 2 号位置,不可能是“滑”过去,必须从 1 号位置消失,然后瞬间在 2 号位置出现。



沃尔夫勒姆想强调的是,在这种不连续的底层结构上进化出来的大脑,也必然“遗传”了这个离散化的底色。

现实情况也在印证,大脑不是计算机:

首先,我们的大脑真的不擅长算数,两位数都容易算错,而计算机最擅长的就是算数。

其次,大脑如果真的是计算机,一定会经常死机,但大脑从不死机。

残酷的自然选择,要求我们的大脑必须具备“反智”的能力:把任何问题都快速坍缩成一个确定的答案,同时可以不要求准确!

原始人在野外看到一个长条的物体,第一要务不是搞清楚它到底是蛇还是藤,第一要务是——跑。

于是,下次你听到“不买华为是汉奸”,“日本人都该死”之类的二极管论断时,可以更加心平气和。

因为大脑本来就是这样工作的,它进化出来是为了在有限的资源下帮人做出决定的,而不是用来探寻真相的。

接下来的问题是:大脑究竟是怎么通过“离散化的结构”给出“又快又不准”的答案呢?

是时候请出“元胞自动机”了。




(三)宇宙里的“逻辑碎片” 


元胞自动机最早是冯·诺依曼提出来的设想。

简单来说就是把世界简化成一个充满格子的平面,然后给出一定的规则,再给出一个初始条件。然后就像上帝一样放手不管,只是隔空俯瞰这个世界的演化。

示例如下:

第一排:初始条件
第二排:规则
第三排:通过规则对下一行进行计算的过程


沃尔夫勒姆把元胞自动机玩出了花,他强烈地相信元胞自动机里暗示了宇宙和生命的密码。

我们一直在强调的“计算不可约化”原理,也是从元胞自动机里观察出来的。

这个规则叫做“30 号规则”,从初始的一个黑点,可以衍生出复杂的完全没有规律的图案。


现在,他设想了一个“三色”元胞自动机。意思就是每个格子可以填入两种颜色:红、蓝,加上空白时的白色,一共是三色。

上面一排的三个格子的状态,决定了正下面一个格子的状态。

也就是说,要让这个元胞自动机启动,你只需要设定一个由 27 条规则(也就是 3³ 条)组成的规则集,还有第一行的初始状态。

这就是一种规则集(包含 27 条规则)。



任务来了:假设初始状态只有正中一个红格子,那么有没有一套规则,可以让这个系统正好演化 40 步,然后就停止了呢?

就像下图:



由于计算不可约化,没有算法可以预知答案,只能进行实验。

而且,这里有超过 7 万亿种组合情况(3²⁷),枚举法太慢。

有一种比较聪明的方法:

在 27 个规则中,每次随机突变一个,如果生命长度接近 40,就保留这个突变;如果生命长度没变或者原理目标,就不保留。

这个方法叫做“连续随机突变”。

就这样,经过 300 多次的尝试,突然碰到了一套规则,让生命的长度恰好是 40。

上图的每一行都只显示了 27 条规则的输出结果(输入没显示,和之前的那张图里顺序相同),从 27 个白格子开始逐步迭代某些规则的结果。右侧的数字显示了两排之间发生变化的规则数量。


下面这张图就是随着规则不断进行突变,最终结果不断接近目标的过程。



但是,如果你问我为什么 40 的生命长度对应这套规则,我无法解释,因为是我“碰”出来的。

“即便不能解释,但它真的好使。”

这句话是否似曾相识?

没错,这个特点和神经网络一!毛!一!样!

看到这,你有没有一种不踏实的感觉?上学时老师可不样这么解题啊。万一我没“碰”出来正确的方法,怎么办?

为了打消你的疑虑,沃尔夫勒姆又多做了几次。由于每次的随机性不同,他找到很多套规则,结果都可以是 40。

以下就是五种情况:



这说明啥?说明正确答案不止一个,想要碰出来,也没那么难。

这里有一个隐藏的关键前提,沃尔夫勒姆选择了“三色元胞自动机”,它在逻辑上就内涵了 7 万亿种情况。

如果选择“二色元胞自动机”,则一共就有 256 种规则组合,这里面的可能性就大大降低了。

我甚至可以都列出来给你:



元胞自动机里设置的颜色种类,在某种意义上对应了宇宙空间中的“维度”概念。三维宇宙,就对应着元胞自动机的三色。

通过元胞自动机你可以感受到一个类比:三维宇宙比二维宇宙的逻辑丰富性可是大了不止一点半点。

为啥咱们的宇宙是三维的?

很可能是因为二维宇宙可能无法产生复杂生命,也就无法追问宇宙为什么是二维的。

根据沃尔夫勒姆的宇宙模型,空间可以理解为一种由点线组成的网状结构。维度越高,点之间的连线就越多,从 A 到 B 可能的路径也更多,也就是逻辑更丰富。


由此,我们能得到如下三条启示:

1、我们的宇宙充满了逻辑碎片

2、简单的逻辑碎片通过排列组合,可以成为拥有特定功能的工具

3、用逻辑碎片组合出特定工具的方法并不需要多高的智慧,仅仅通过“突变”+“筛选”就可以。

而智能系统没啥神秘的,本质上就是一个可以实现特定功能的(复杂一点儿的)工具嘛。

既然这么说,用类似的方法,也可以做出一个大脑咯?!

可以试试。



(四)用“小方块”做出一个大脑 


为了方便你理解,先做一个小小的热身。

我们使用一个“二维元胞自动机”。但这次我们不对规则进行突变,而是给定如下两套规则。(沃尔夫勒姆给他们的编号是规则 4 和规则 146)



在我们的元胞自动机中,具体每一个格子使用规则 4 还是规则 146,由突变决定。

为了突出展示,我们把采用规则 4 的格子用绿色填充,把采用规则 146 的格子用粉色填充。

以下是几个示例:



下面我们开始实操:

假设我们的目的是让这个元胞自动机活 50 步。然后我们从纯绿色开始,在随机的地方把绿色变成粉色,筛选距离 50 步更近的突变。

不出所料,我们能碰出来符合条件的突变:



而且还不止一种。

下图就是另一些例子:



下图显示的是很多次实验中,找到结果分别所需花费的步骤。



好,你应该已经明白了基本玩法,热身结束。

接下来我们把这个元胞自动机做一点儿小改动。

首先,我们把结构改成蜂窝状,每个细胞的状态只由最近的两个决定。

然后,我们使用如下两套规则:



略懂逻辑学的童鞋肯定看出来了,这不就是两个基础的逻辑函数么:与&异或。

这里我们用绿色代表“与”,用橘色代表“异或”。



厉害的来了!使用“与”、“异或”排列组合,还可生成无数其他规则,有种“一生二二生三三生万物”的意思。

系统在随机突变中,理论上会制造出各种函数!

别急,我们一步步来。

先采用我们熟悉的方法进行突变,让这个系统存活 30 步。显然可以做到:



但我们已经不满足于这一点了,接下来上点儿强度:

我们想让系统从某个特定细胞出发,30 步之后,恰好到达另一个特定细胞。

通过突变,可能创造出这样的系统吗?

事实证明,可以!



我们继续上强度,让这个系统变得更“智能”:

能不能用一个系统同时满足多个要求

例如,点亮第 0 排的 x 细胞,就一定能点亮第 30 排的 y 细胞?

就像下面这样:



注意,要用一套固定的系统(绿橘色块位置不能动)来完成这些不同的任务哦!

事实证明,依然可以。上面展示的这个系统就可以嘛!

说到这,你有没有发现什么?

你再仔细看看上面那张图。没错,我们训练出了最早给你展示的那个神经网络  f[x]。

这个用元胞自动机做出来的像“蜂巢”的 AI 和我们之前的那个神经网络是几乎等价的。

下图是这个系统训练过程中各个“中间形态”的突变点位和与之对应的方程 f[x]



但是,敲黑板!这个元胞自动机可不是经典的神经网络结构,它们不仅是长得不一样,在基础结构上也是不一样的。

经典的神经网络人工智能也是“离散”的,不过每个神经元的权重最初都是通过形式计算得到的,可能是循环的、无限的小数。

为了不让 AI 在运行时死机,必须强制把他们小数点后面的位数切断才能用。属于是“强制离散化”。

但“蜂巢 AI”的结构天然就是离散的,从头到尾都不会遇到小数点的困扰。

这个离散的结构有两个巨大的优势:

1、它是自然的产物:没有经过人类设计,是通过演化得来的,基本结构和我们的大脑更接近。

2、它的性价比极高:哪怕它得到的结果不太准确,但运行时耗费的计算力非常非常小。

不过,这样做出来的智能系统,它的稳定性如何呢?会不会稍微有点儿扰动就“神经错乱”呢?

没关系,是骡子是马拉出来遛遛!

这个系统从不同的初始值出发,所有过程中被点亮的细胞的热力图。可见:无论取什么初始值,最后结果都落在固定的“0”和“1”上。



(五)模糊的正确 


就拿人类来说,我们的大脑时刻要面对的信号都不是“纯净”的。

比如现在,你的大脑正在接受很多信号:手机屏幕上的文字,视野里的背景信息,耳朵里的声音,肢体感觉,等等。。。

这些信号永远会纠缠在一起,你的大脑必须能应对这种状况:耳朵里听见别的声音,你还得保持继续阅读才行。

当然信号的噪音不能太大,干扰太大谁都受不了。但你的大脑抗干扰能力越大,就说明你大脑的“鲁棒性”越强。

现在我们回到“蜂巢 AI”,试着给它输入噪音。

怎么模拟噪音呢?

可以在初始的时候,同时给它输入两个黑点,甚至多个黑点。

我们先选一种没有噪音的情况下“蜂巢 AI”的表现:

从:


演化到:



也就是下图最左边的情况。

下图右边几张是在初始值中添加不同噪音的效果:

第 0 排带红圈的点位就是噪音;

下面所有带红圈的点位就是噪音产生的扰动,也就是相对于没有噪音的区别。



下面这张图,显示了蜂巢 AI 对噪音的适应情况。(没有列举所有可能的噪音,只是一些典型的情况。)

第一排是选定的一种没有噪音的原始输入。下面就是在原始输入的基础上添加噪音的影响。

白色横条,意味着输出和原本的一致。没有受到噪音影响。

粉色的横条,意味着输出和原本不一致了。受到了噪音影响。



乍一看,这系统的稳定性也不咋地啊,粉色的情况那么多。

别急,我们来仔细分析一下,受到了干扰后,具体结果是啥?

沃尔夫勒姆总结了各种情况,如下图:



其中 32.1% 其实是没有输出结果,系统走到半路就停了。

这就好比你在嘈杂的地方读书,既没有听清别人说什么,也没有看懂书里写什么。这种结果其实挺好,因为系统没有胡乱给出答案。

还有 23.8% 是给出了纯纯正确的答案。

还有 15.6%、2.54%、1.7% 是给出了包含正确答案的错误答案。

实话说,这个表现已经很牛了!

有趣的是,还有 24.2%,是给出了纯纯错误的答案,但这个错误答案却对应着其他输入的正确答案!

这说明啥?

说明这个系统也许会出错,但它不会错到非常离谱。进化迭代,让这个系统冥冥中形成了两个“吸引盆”,好像结果会自动滑落到盆底一般。

当然,要达到这种境界,也需要一些训练技巧。

所谓技巧也不是人工干预细节,而是在演化的时候,加入一些“负样本”,当蜂巢 AI 得出错误的结果时,会触发“惩罚”机制。

这个方法,和我们熟悉的经典人工智能训练是一样的,也和人脑的训练方法是一样的。你不好好学习,老师就会邀请你妈妈来揍你一顿,这就是惩罚机制。

至此,我们已经训练出一个丐版的智能系统。

它具有模糊的正确性,它在噪音中保持强韧,不轻易被毁灭,它拿到了“进化游戏”的入场券。

而且我们似乎还额外获得了一个认知。

那就是:对智能祛魅。

智能的秩序和自然界的无序总是形成鲜明反差,以至于在漫长的历史中,人们总愿意相信有个“造物主”来屈尊造人。

而“蜂巢 AI”的训练过程恰恰告诉我们:智能的出现,不是什么了不得的偶然事件,反而是个大概率事件。

同样模拟 f[x] 那个方程,还能探索出很多种组合形式。



(六)智能是“逻辑的搬运工” 


沃尔夫勒姆尝试了很多“蜂巢 AI”,每次都能训练出来拟合最初那个 f[x] 方程的人工智能。

这里的关键是,即便它们完成的任务相同,但由于随机性的影响,每次训练出来的系统在微观结构上都不一样。(红绿色块的位置不同)

怎么训怎么有,这说明什么?

说明“逻辑资源”在自然界极其丰富。

就像铜矿一样,在地球上到处都有。古代各个地区的人类文明虽然没有交流,但都顺利发现了冶炼铜的技术,独立进入青铜时代。

如此,我们可以试着回答最初的问题:

“智能”的微观结构,到底是什么?

智能的运转,就是把自然界已有的逻辑碎片给组合了起来,让它能够判断输入与输出极其复杂的对应关系。

不过即便只是对既有逻辑的搬运和整合,也不是所有整合方法都能产生高密度的智能。

一个反直觉的结论是:

当你越佛系松弛的时候,越能造出高密度的智能;当你越想严格把控,恰恰越难以造出高密度的智能!

这不是一碗鸡汤,而是一把锋利的认知武器。

不信我们接着看一个实验:

刚才我们说过,用“与”和“异或”可以组合出各种函数,而且针对某一个函数,有无数种方法可以等效出来。

但查看细节就会发现,等效的“蜂巢块”的大小可不一样。

比如我们找到的等效于两色元胞自动机规则 30 的“蜂巢块”最小只需要 4 行,并且有两种情况:



如果允许加到 5 行,那情况就一下子多了。



可这些蜂巢块都是进化得到的,看上去杂乱无章,无法解释。

如果我们非要做出可以解释的蜂巢块也可以,就得按照人类理解的逻辑计算方式来一步步生成。

比如:



其中的 x、y、z 就代表规则 30 的三个输入。

可以证明,这个“蜂巢块”确实是对的↓↓↓



但你发现没,人工搭建的块,比自然进化出来的块更多,需要 6 行。

多数情况,按照人类逻辑来搭建逻辑乐高,得出的结果要大得更多。比如规则 110。

这些是通过进化得到的:



这个是通过人工搭建得到的:



一个结论呼之欲出:

即便逻辑资源在自然界丰富存在,但是“随机进化”冶炼出来的纯度更高,而“人工搭建”的方法纯度更低。

要知道,无论是规则 30 还是规则 110,都还仅仅是一个简单的思想实验,模拟了神经协作模式的皮毛而已。真正大脑的运作会比这个复杂千倍万倍。

可想而知,如果使用“人类可解释的编程方法”,在脑细胞层面每一次逻辑迭代都会比自然进化的方案更耗能,那么整体思考的代价将变得非常沉重。

这暗示了一个真相:一个系统的“逻辑密度”和“可解释度”是一个跷跷板!



这也解释了一个大问题:为什么现在我们的人工智能如此耗能?

因为我们在训练中使用了大量“人工搭建”的逻辑,它们就像“脚手架”,增加了智能的可解释性,但也降低了智能的逻辑密度。

这里,我们可以回到 DeepSeek。

之所以说 DeepSeek 对 AI 技术产生了极大的理论贡献,是因为它终于找到了一种方法,在训练的流程中拆掉了大量脚手架。

具体来说,DeepSeek 在很多重要的点位上用强化学习(RL)的方法替代掉了人类监督微调(SFT)。

简单理解就是:强化学习就是在底层去掉人类监督,只保留一些高层的人类筛选,让 AI 有更大的自由度自己探索适合的思考方式。

这相当于在训练的关键步骤照搬了宇宙的智能设计图——“突变”+“筛选”。

换句话说:它找到了一种更好的“搭宇宙便车的方法

如果回头望,你会惊奇地发现:整个 AI 的发展历史,就是科学家们不断放手,不断把智能的产生交给随机进化,不断更好地“搭宇宙便车”的过程!




(七)搭好宇宙的便车 


在人工智能学科诞生初期,重磅科学家们几乎都在支持“符号主义”,也就是手动匹配万事万物的联系,让 AI 的全部推理都有理有据,在最细节的层面也要能被解释。

但逐渐,科学家承认“学会多少道理都过不好这一生”,不如放手让 AI 自己去学习事物之间的联系,这才倒向了罗森布拉特的“联结主义”,乃至后续辛顿教授在这一流派基础上开创的反向传播路线,以至于 ChatGPT 诞生。

由此,AI 才汹涌成蓬勃的大河。

不是因为人们喜欢放手,而是因为不放手就无法前行。

世界上第一个基于“联结主义”的人工智能感知机,Mark I。


和这条河流所对应的,是人类计算负载从 CPU 向 GPU 的史诗级迁移。

CPU 是为形式计算而设计的,源自于人造的理想空间:它可以处理复杂的控制指令。

GPU 是为图像处理而设计的,根植于人类的视觉进化:它可以高效处理简单重复计算。

你还记得那个跷跷板吗?

本质上,CPU 就代表了“可解释度”,而 GPU 则代表了“逻辑密度”。

CPU 时代的领军企业英特尔,股价腰斩,险被收购;而 GPU 时代的领军企业英伟达,股价已经翻了无数翻。

从微观上看,两家公司的每一次经营决策的累积导致了如今的分野。但拉开视野来看,顺应历史的潮流,才是胜利的关键。

数学是人类智慧的王冠,精准形式计算的需求永远庞大。

但宇宙的“计算不可约性”从根本上决定,更多的日常决策只适合于离散化的拟合。

联结主义 AI 的兴起、离散化结构的成功、英伟达 GPU 的崛起,不都是因为他们搭对了宇宙的便车吗?



有个笑话讲:最牛的 AI 老师傅每天上班都要默念十遍“智能的本质是压缩”。

这恰好揭示了生命进化的真理,也揭示了离散化拟合的本质。那就是:只求神似,不求精准。

世界上的现象复杂,但凡要用有限的计算力去拟合,就需要有损压缩。

比如在用蜂巢 AI 拟合 f[x] 时,由于系统的“离散”本质,即便不断增加系统的计算力,我们得到的也是一个近似曲线,而不可能完全贴合形式计算的那个理想曲线。

下图就是对 f[x] 的理想曲线进行压缩后的结果。



但它的好处显而易见,那就是计算时间是绝对刚性的

无论如何,系统都可以在有限时间内快速给出拟合结果——不死机。这对于生命的生存至关重要。

刚性时间就是进化的筛选条件之一。

在此基础上智能进化的过程,就是不断找到更好压缩方案的过程。

为了更直接地展示 AI 在压缩上的能力,沃尔夫勒姆做了另一个实验——“自编码器”。

把第一排当做输入,把最后一排当做输出。系统的目标就是:经过中间步骤的演化,让输出无限接近于输入。

它模拟了人“压缩世界”的过程:在内心构建一个世界的“像”。

这个系统没有看上去那么简单,因为在计算的过程中,最初的信息会被“碾碎”,而在后来又要“重构”起来。

但宇宙内禀的逻辑资源太丰富了,不费什么力气就进化出很多“自编码器”。



接下来更骚的操作来了:他把系统的“腰部”收窄,看看还能不能训练出自编码器。

结果是:仍然可以。



而且,就算腰部极细,细到只有两个格子(下图),系统仍然能完成自编码。(只不过在这种极端情况下,压缩的质量不忍直视。)

在细腰部分传递的信息,其实就是数据的压缩版本;

腰部以上,是压缩过程;

腰部以下,是解压过程。


不同的压缩系统,对应着不同的耗能和效果。两个参数做简单的除法,可知它们智能的密度也不相同。

这个简单的模型却给了我们巨大的信心:

要能找更好的方式对世界进行压缩,我们就能制造出一个和人脑平齐,甚至超越人脑的智能系统。

如今,我们已经有了 ChatGPT,有了 DeepSeek。

再往前看,我们有可能把这种“搭便车”玩到极限,造出理解万物、无所不能的超级智能吗?




(八)我们的无知与欢喜 


其实,如果我们接受了“计算不可约性”,很容易推出如下结论:

1、我们永远有机会做出更好的人工智能;

2、我们永远无法抵达人工智能的“极限”。

所谓人工智能的极限,就是对一切问题都能给出正确答案的那种神级智能。

作为“离散宇宙”的生物,我们只能基于离散化的结构创造智能。运转的细节依靠亿万模糊的拟合,它的原理本身就内含了出现大量错误的可能性。

也就是说,无论我们如何挣扎,基础的物理定律“保证”了我们永远无法准确理解万物,也永远无法准确预测未来。

我们,就像被困在一个黑盒子里,再撕心裂肺的呐喊都无法透传出去——如同进入《2021 太空漫游》里那个黑色的石碑,人类能做的只有沉默与敬畏。

沃尔夫勒姆把宇宙的底层结构想象为一种“超图重写”结构,这是元胞自动机的另一种抽象,也是和元胞自动机计算等价的。

简单来说,超图重写就是把宇宙看成一幅“图”。在这幅图上运行迭代策略:随着时间流逝,按照既定规则,以一个结构替代另一个结构。

这个规则可能很简单,比如下面就是一个规则示例:



即便规则这么简单,每次迭代都会产生新的结构,下一次的迭代也会在新的结构中继续演化,并不重复。由于计算的不可约性,宇宙将会变得越来越复杂。

下图,就是基于上面那个规则演化几步之后的结果:



同样因为计算不可约性,在这样的宇宙里生活,没人能够先于演化精准预测超图的全景,最多只能通过(基于离散结构的)“智能”来对某个局部的图纸做粗略预测。

而且,由于我们用来预测的智能系统本身,也是“超图”的一部分,这意味着智能当然也无法预测自身的未来状态。

这个特点解决了一个终极追问:人到底有没有自由意志?

我们可以逆向思考:

什么是没有自由意志?就是我们可能找到预测自己在未来某一刻的思想的方法。对吧?

但计算不可约性已经预言了,我们没有办法准确预测大脑未来的状态。也就是说,无论我们的思维是不是机械运动的,都不影响“我们无法预测它”这一事实。

所以,我们永远可以认为自己“有”自由意志!

只不过,这种自由意志的代价是昂贵的:

人类,作为一个智能体,永远无法理解宇宙的所有真相。

AI,作为一个人造的智能体,同样永远无法理解宇宙的所有真相。

但这种对“无法理解”本身的探寻,何尝不是一种理解呢?

这种揭示自己渺小的真相的路程,何尝不是一种伟大呢?

我们盛开,但我们脚踩淤泥;

我们脚踩淤泥,但我们盛开。

正如胡适所说:怕什么真理无穷,进一寸有一寸的欢喜。

真正的慰藉,也许并非“朝闻道夕死可矣”。而是在终极真理的巨大引力下跌撞前行,收获的一路欢喜。

这,也许才是终极意义上的 Deep Seek。



参考资料:
https://writings.stephenwolfram.com/2024/08/whats-really-going-on-in-machine-learning-some-minimal-models/
《机器学习中到底发生了什么?一些极简模型》


往期推荐:
👉辛顿的冬与春
👉当 AI 活成了你的样子,而你活成了狗
👉人类抖M计划:如何造出一个会反叛的机器人?
👉2024:赛博羔羊,不投降
👉2023:当我们都活成了“大模型”
👉2022,我们在幽暗的谷底守护一朵花
👉当 AI 成为“逆子”:人类该抽丫俩逼兜,还是给它一个拥抱?
👉比特币的宇宙与星空
👉暗网生死疲劳:枭首、重生与漫长的自由之歌
👉不腐的罪证:比特币白夜追凶纪实




三生万物


再自我介绍一下吧。我叫史中,是一个倾心故事的科技记者。我的日常是和各路大神聊天。如果想和我做朋友,可以搜索微信:shizhongmax


哦对了,如果喜欢文章,请别吝惜你的“在看”“分享”。让有趣的灵魂有机会相遇,会是一件很美好的事情。


Thx with  in  Beijing

阅读原文

跳转微信打开

2024:赛博羔羊,不投降

2025-01-02 15:43:00

原创 史中 浅黑科技 2025-01-02 15:43 北京

21 世纪,终于来了。

浅友们好~我是史中,我的日常生活是开撩五湖四海的科技大牛,我会尝试用各种姿势,把他们的无边脑洞和温情故事讲给你听。如果你想和我做朋友,不妨加微信(shizhongmax)。



2024:赛博羔羊,不投降

文|史中


Passion!!!!!!!

2024 年,一句来自脱口秀舞台上的嚎叫,穿越无数人薄如纸的胸膛,点燃了干渴已久的时代碎屑。

赛博羔羊们挑起大旗,像燥热的原子在晶格的横纵里 Pogo。

因惧来世而逆来顺受的一代正在死去,此刻站在旷野中的人,他们只活一次。




(一)迷因战车 


人因食物而活,却为故事而死。

2024 年 11 月 5 日,地球对面。

美国一位老哥开着自己的皮卡,身后展起十几米的猎猎大旗,他要为一只皮卡丘去投票。



在那之前一个礼拜,纽约州环保部的人撞开一家住户的门,把一只名叫“Pnut”(花生)的网红松鼠带走,当天就执行了安乐死。

因为个人饲养野生动物不符合规定。

规定就是规定。

宠物主人在网上发布视频,眼泪直流。七年前他看到 Pnut 的妈妈被车压死,无奈收养了它。

大一点儿时,主人想给它放生,Pnut 死活不愿放弃编制,在家里赖了下来。



荒谬的是,规定一直在那,但这七年间无事发生,直到大厦崩塌。

共和党副总统候选人万斯把 PNut 比喻为“松鼠界的马斯克”,认为民主党建制派的冷漠正在绞杀整个国家的良知与常识。

人类界的马斯克本克也趁机帮腔,发了一条推:



作为 X 平台最大的 V,马斯克拥有《三体》中太阳信号放器的超能力。

情绪在赛博空间里亿万次自乘,最终发出响彻云霄的巨震,成为了一场的“为松鼠投票”的抓马。

Pnut 毫无悬念地成为一个迷因:你只要打出这四个字母,就等于下滑查看了 1 万字的宣言,然后点击“I Agree”

与此同时,一个名为 PNUT 的迷因币在 Solana 链上发行,短短几天跳涨十几倍,成为一场普通人的财富狂欢,反过来又加大了原本的震响。

从 7 月份马斯克开始公开应援特朗普,到 8 月 12 日特朗普重回 X 平台,再到 11 月大选,短短三个月,两人几乎依靠默契手搓了一台废土朋克风的超级战车



战车的骨架就是 X 平台

战车顶上,特朗普和马斯克各自抱着吉他,背靠巨大音响,弹奏出洗脑的迷因

战车之下,全球服务器供养着不眠不休不可篡改的区块链车轮,向前狂奔。

然后是简单的 CtrlC + CtrlV + CtrlV + CtrlV + CtrlV ...

亿万战车扬起比特币的黄金碎屑,穿过西部牛仔曾驻足回望的漫漫黄沙,直抵华府。



有了这些战车,一切迷因都能变成“攻城炮弹”。

就在 10 月 30 日,松鼠 PNut 被处决的同一天,特朗普爬上了一辆白色垃圾车,向他的支持者挥手。因为早先拜登在 Zoom 会议里调侃特朗普的支持者是垃圾。

“你看我的垃圾车怎么样?”特朗普的檄文通过 X 平台射向全世界,在所有人的脑袋里炸开。



而在 10 月 20 日,特朗普去了一家麦当劳做打工仔,在那里炸了 15 分钟薯条,给随机客人送了两份餐。

这个明显是作秀但有一丢丢可爱的片段同样被剪辑成几段十几秒的视频,通过 X 平台轰进人们的脑袋。



投票日来临,松鼠 Pnut 的亡灵续上了的最后一波迷因弹雨,七个摇摆州一色翻红,白宫的围墙被攻塌。

特朗普和马斯克都是商人:

商人的底层能力是比别人更早发现一个“规律”,并依此制造出一个“套利机制”,在最短的时间内反复利用这个机制,产生最大化的效益。

他们共同发现的新规律就是:轻如鸿毛的迷因,可以成为人脑中重若千钧的炸弹。

由此,大选虽大,但它终究是*一个更大故事*里的小彩蛋。

站在足够远的未来回望 2024,你也许会惊讶地发现,这竟然是新秩序的初次“浅吟低吼”。

这是一场什么大故事?这个故事是如何开始的?它将会如何继续?

这些答案之所以重要,因为它不仅与太平洋彼岸的国度有关,更与我们脚下这片土地和我们的未来有关。




(二)赛博羔羊 


迷因战车背后,站满了数不清的“赛博羔羊”。

赛博羔羊是从哪冒出来的?

1990 年代,冷战在核威慑的框架下结束,全球化浩荡开启。“从零到一”的策源地归美国占据,“从一到一百”的工厂接力棒在东亚轮转,最终被攥在中国人的手中。

这座“全球化舞台”由四根台柱撑起:

硅谷输出技术;

中国沿海输出产能;

华尔街协调利益;

军工复合体保证没人轻易掀桌子。



舞台之上,追光乍现,CPU 成了这个时代的“吉祥物”:

源自于二战的计算机技术积累开始集中释放,“0 和 1”渗入产线,生产力左脚踩右脚梯云纵,人类经历了强制暴富的 20 年。

只是历史并不慷慨,它仅仅把荣耀赐予了一代人。

严格地说是:一代人中的一些人。

于是世界变成了《丧尸围城》的剧本:

人们朴素的守护高地的本能,让先来者不愿离开追光,他们退踞在房产、股票、黄金这类稀有资源之上,退踞在枢纽的岗位上——手持 Made in Wall Street 的皮鞭向下驱赶。

后来者顺着峭壁向上爬,可舞台一旦承重太大,便会疯狂震动——经济危机爆发。

此刻摔下去的,大多是那些正以危险姿势攀在舞台边缘,试图“富贵险中求”的后来人。尘埃落定后,他们不见踪影,筹码却全留在了舞台上。

舞台上的人含泪擦干筹码上的血迹,装进口袋,双手合十为他们祈祷三秒。



天下英雄尽入彀中。这个秩序的维护者,共同成为人们口中的“建制派”。

“概率”是建制派的终极武器。

任何一项行动的收益,本质都可以归为概率模型:

1、想象一个牧羊人,手执皮鞭,脑子里计算着各种数据;

2、只要大多数羊群“按规矩行事”——躲避皮鞭,钻向有更多羊的安全地带,“牧羊游戏”就能继续。

3、概率模型越简单,执鞭者的收益就越确定——不怕有羊不听话,只要能预测多少羊不听话,他就知道这一鞭子该怎么挥。



但这个体系的问题是:“CPU”必须不断释放生产力,让经济不断增长,羊群才有草吃,牧羊人才有羊吃。

但当芯片磕到物理极限,摩尔定律“咔吧”一声脆响。CPU 不够,只能 PUA 来凑。

羊群躲避着鞭梢,越来越饿。

苦闷中他们低头,突然发现上一代人留下的两个遗产:“全球化”“互联网”

全球化,让商品价格稳步下降,羔羊们虽然相对境遇不佳,但却不必为绝对意义上的温饱发愁,对他人的依附达到了史上最小值。

互联网,透过小小的屏幕,在一个个羔羊之间搭建了前所未有的平等而细密的连接。

由此,羔羊把灵魂的一部分迁至线上,升级成了“赛博羔羊”



赛博羔羊有三“大”:

第一,他们人均有一个地球上最精密的设备——大脑,连接成了这个星球上最大的“想象力水池”;

第二、他们中有大神。建制派不收留“鸡鸣狗盗”之徒,很多能人异士都散落在羊群中;

第三,他们总体上有大量的资源,包括时间、精力、金钱、思考力和行动力。

敲黑板:别看只是多了“赛博”俩字,但羊群已经有了质的飞跃。

在人工智能领域,有一个现象叫“涌现”。意思是当神经元的连接复杂度达到某个临界点之后,其中蕴含的智能就会突然苏醒。

同样神奇的事情似乎也在赛博羊群中发生:

大规模连接之上,赛博羊群原本独立的大脑好像聚成了一个更大的“超脑”,在更高层面涌现出了新的复杂行为。

这一跃后果深远:

影响羊群行为的参数极多,超越了目前所有概率模型可以计算的范畴——虽然它本质上依然符合概率,但对执鞭者来说,与*随机事件*无异

赛博羔羊们作为一个整体,获得了更强的博弈能力。

“Passion”在羊间涌动,旧秩序开始遭遇袭扰。

史无前例的“GameStop 事件”,应该是赛博羔羊的第一次集体亮相。




(三)初战罗宾汉 


2021 年春天,美国的几百万散户投资者突然“决定”集结在一支快要倒闭的公司 GameStop 的股票上,对华尔街的大佬们发起冲锋。

很多人都大概听过这个故事,但我们要潜入水下观察。

让这一切成为可能的,是两样东西:

1、Reddit,一个带有技术极客底色的社交平台,人们按照各种主题聚集在一起。你可以理解为美国版的“百度贴吧”。

进入 Reddit 的门槛,大概只是一台破手机或者二手电脑。它就没有门槛。所以无论多么小众/无聊的主题,例如“Trees Sucking On Things”之类,都能聚集一堆同好。

有些看似小众的主题,其实并不小众,比如在 2020 年,一个叫做“Wallstreetbet”(华尔街赌注)的主题下,已经聚集了 100 万用户。



这个主题的日常是极为刺激的:

人们在上面直播自己炒股,时不时就有老哥把毕生积蓄梭进什么阿猫阿狗股票,让大家围观自己一夜暴富。

当然,结果 99% 都是一百万人围观他原地爆炸



2、Robinhood,是这一百万人中大多都在使用的炒股平台。

Robinhood 的名字很有讲究,取自英国传说“侠盗罗宾汉”,他专门劫富济贫。对于每天思考干翻华尔街的散户们来说,这是一个极好的彩头。

而且名如其人,它慷慨地免除手续费,最适合口袋里只有几十美金的“战神”们反复冲锋。



2020 年底,华尔街对冲基金扎堆做空二手游戏商店 GameStop。因为作为曾经实体店的王者,GameStop 已经错过了转型窗口,无法适应游戏线上销售的时代了。

可是“羊非草芥”。

GameStop 有点像“小霸王”,是美国无数普通孩子的美丽童年,是他们脑海中潜伏的情愫。

华尔街敲骨吸髓的秃鹫嘴脸,不仅是要把一家公司置于死地,更是把一代人珍视的岁月视为赌盘上沾满手汗的塑料筹码。



这个念头在 WallStreetbet 百万羔羊的脑中不断激荡,逐渐清晰。

“GameStop”突然发出爆闪,进化成了“第二形态”——迷因,羔羊们愤怒的目光被引向同一个方向。

空气安静了一秒。

无垠的羔羊网络中,原本沉默的“大神节点”开始被大面积激活。

贴吧老哥们,有的做出详尽的公司调查,证明 GameStop 在财务上并非全无生机;有的尖锐指出空头借贷率已经超过 140%,一旦股票掉头上涨,华尔街必将血本无归。

紧接着,一个名叫“咆哮小猫”的老哥头顶系块红布,成为起义军领袖,开始上线直播,鼓动大家无脑买进,反杀黄四郎。



GameStop 的股价从最低的 5 块美金,开始绝地反弹,冲上 30、40、50、100。

故事终于冲破 Reddit 次元壁,Instagram、TikTok、Youtube 上的网红纷纷下场发声。

没多久,连戴着老花镜的大爷大妈也开始询问自己的孙子那家游戏店究竟咋了。

股价兵临 150 城下。

此刻如果把时间暂停,稍稍思考,你会发现事情极为荒谬。

GameStop 的上涨不符合公司的基本面,也不符合任何一条金融规律。

这不算稀罕,因为即便如此,它最多是郁金香泡沫剧本的重演。

稀罕的是:买这个股票的人自己也不相信股票值这么多钱,很多人买股票并不为了赚钱,起码不全为了赚钱。

有一个老哥的留言掷地有声:

It's not about winning, It's about making them lose!

当你不再把 GameStop 看作一个股票,而是看作一个迷因,它身上背负的不再是金钱的盈亏,而是爱与仇恨的结算。一切荒谬就迎刃而解。

之前重仓做空的华尔街,此时全身缠满了殷红的绷带。他们在 150 美元附近构筑最后的堡垒。



华尔街的藤校精英们相信:

数学是宇宙的零号定律,“概率模型”可能一次失效,但不可能永远失效——一旦在这个位置击溃散户,不仅能让羊把叼走的东西都“反刍”上来,连羊肉都一起端上桌。

眼看股价在 150 摇摇欲坠。

大佬登场了。

2021 年 1 月 26 日,马斯克发推,只配了一个词:GameStonk!!

Stonk 来自下面这个迷因:



它大概的意思是:一顿操作猛如虎,自己才是二百五。

一颗轻巧的迷因银弹,射向千军万马。

华尔街重金构筑的城墙瞬间如沙崩塌。股价冲破 150,然后是 200、250、300、350。

在 350 附近,此次战役最大的空头,对冲基金梅尔文公司终于挑起白旗,他们最后的子弹已经打光,平仓离场,把筹码留给疯狂的“赛博羔羊”们。

华尔街十八路诸侯一看,主力部队已经放弃抵抗,我们还玩啥?纷纷踩踏式缴枪,唯恐投降太慢死得更惨。



远望华尔街丢盔弃甲的背影,赛博羔羊们灵魂出窍——他们竟然肉身串演了一次跟随罗宾汉劫富济贫的爽文剧情。

讲到这里,赛博羔羊的剧本套路就已经呈现在你面前了:

一个迷因,

一群羔羊,

在一个平台,

跟着一个带头大哥,

做一件很“Passion”的事情。

不过单就“散户击溃华尔街”这个故事来说,它还基本上存在一个“大卫斩首歌利亚”的英雄主义叙事框架。

我们不妨把它称之为迷因时代的“古典主义”,或者“经典的迷因事件”。

但接下来我要讲的,就有点“非典”了。




(四)难以捉摸的“迷因泡泡” 


地球是 Online 的。

既然在“全球化的故事”里中国是重要角色,那么与之对跖的“赛博羔羊故事”,我们自然无法缺席。

鹰酱和兔子虽然跨服,但却共享一个版本。只是因为语言、文化、社会制度的不同,形成了相互割裂的叙事圈子。很多人没办法把这些故事对照起来。

2022 年,大学生在宿舍门口栓起了纸片狗,人却在操场上爬来爬去。

2023 年,人们涌向贵州看“村 BA”,涌向淄博的烧烤摊去吃人间烟火,涌向哈尔滨去吃一口冻梨。

2024 年,年轻人在上海的街头“扮鬼”,骑着美团单车冲向开封吃包子。

不久前,美国大选结果揭晓的 11 月 6 日, A 股川大智胜涨停,哈尔斯高台跳水,也算是太平洋两岸蛇精病的梦幻联动。

要我说,这些见诸报端的羊群行为都算是浮出水面之后炸开的“迷因泡泡”。

如果潜入水面之下,还有更多大小不一的泡泡在涌动——二次元老婆老公、同人、谷子、汉服、设圈、娃圈、盲盒。。。(参考《泡泡玛特》

每一个泡泡都围绕着一个迷因核

每一个迷因核又包裹了一种情绪:可以是大爱恨,也可以是小情仇。



我们有办法预测下一个浮出水面的迷因泡泡是哪个吗?

还是拿人脑作比:

在“意识的后台”,每时每刻有很多纷乱的念头涨落。但不是所有念头最终都能出现在“意识的前台”。只有它成功激活了主神经网络,才能被“凸显出来”。

但一个念头究竟要怎样才会被凸显,取决于几百亿个神经元的互动。

我曾经反复提到过沃尔夫勒姆的“宇宙的计算不可约性”:你不可能预测一个复杂系统的精确状态。

这也意味着,没办法*准确*预测哪个念头会被注意到。

同样道理:我们潜入赛博羊群的“超脑”,观察迷因传递的过程,就会发现这些泡泡时刻被吹大或挤破,难以捉摸,也无法控制。



最好的例证,当属地球对面的“迷因币”热潮。

友情提醒一下,以下故事超越了我们的国情,它们发生在西方世界,我们暂且观摩,别上手。

2021 年,马斯克突然在 Twitter 上大吼:DOGE!

赛博羔羊瞬间集结,狗狗币应声涨了 50%,由此拉开了马斯克驾着 DOGE 一飞冲天的序幕。



马斯克随后发了好多条消息,各种奶:

“我们不需要成为亿万富翁就能拥有狗狗币,狗狗币才是人民的数字货币!”

“我没喝多,也没情绪低落,心里只有狗狗币。”

“狗狗币是世界上最有趣的加密货币。”



2023 年 3 月,有人发行了基于迷因始祖悲伤蛙的 PEPE 币。这个 PEPE 币和漫画的原作者马特·福里没有一分钱关系。(参考《NFT 精神史》

但这完全不重要。

因为官网上写着一条标语:“狗狗币的时代已经过去了,现在最火的迷因币是 PEPE。”

这种骚话不值钱,谁都能讲。但马斯克在 5 月 13 日发了一张 PEPE 的迷因图,却像是对这句话的盖章认证。

PEPE 开始六亲不认地暴涨。



越来越多的赛博羔羊意识到:

如果“迷因”能带来反叛和狂欢,那么“迷因币”可以带来反叛、狂欢加上额外的真金白银。何乐不为?

聪明的脑袋瓜们思绪已经飘散,既然狗币可以,青蛙币可以,那我发行个蛤蟆币呢?

但发币毕竟是个技术活,搞不懂可咋办?

神人又出现了,瑞特·曼金德(Rhett Mankind)是一个 NFT 艺术家,他的作品曾经在顶级画廊展出,进过苏富比拍卖。

但 2023 年 NFT 属实是没人理睬, 恰好这个时他有了一个新工具——ChatGPT。

他于是给 ChatGPT 来了个灵魂 PUA:现在你是个币圈小天才,我有 69 美元的预算,要发一个 Meme Coin,要求不高,最后市值冲进前三百就行!



ChatGPT 是一个不能说“臣妾做不到”的臣妾,它只好像模像样给出了几个币的名字。

老哥不仅把迷之操作的全过程都在推上直播,还把这些备选名字给推友投票。

3 万多人见证了它名字的产生——TurboToad(涡轮蟾蜍)。



老哥继续把 TurboToad 拿给另一个“臣妾”——MidJourney——去做 Logo,MidJourney 也只好给出了四张备选图。

推友继续投票,选了一个戴宇航员头盔的蛤蟆。



然后,他拿出 69 块钱做初始资金,发行了总流通量 690 亿的 Turbo。

然后,Turbo 就火了。。。

这只靠俩“AI 嫔妃”就给办了的蛤蟆币不仅冲进了市值前 300,还冲进了前 200,截至目前都快到 100 了。。。

事情到这一步,“迷因币的泡泡”已经距离浮出水面很近,干柴脆响,只欠有人点上一把火。

2024 年 1 月,一个 Logo 是一个药丸的平台上线。

它的功能是:随便一个人,也可以不是人,只要能认识 26 个字母,会敲几下键盘,就发出一个币。



关键是,发一个币的成本,不要 69,也不要 6.9,最低只要 3 美元。

为啥能这么低?

因为药丸平台使用了“币圈拼夕夕”——Solana 链。

在这条链上做任何动作,手续费都要比传统的 Etherem 低上 99.9%。每笔手续费相当于你嘬一口麦当劳可乐的价值。

穷鬼就需要这样的平台。

很快药丸就成为了币圈的“Robinhood”:

3 快钱买不了吃亏,每天成千上万名字抽象的新 Meme Coin 在药丸上被发行,就像无数火箭升空。

呃,说是小炮仗也许更贴切。。。

绝大多数币的生命周期不会超过 10 分钟。几乎是刚发行交易几笔之后,就被打入注意力的冷宫,直到宇宙毁灭也不会再有下一笔交易了。

可想而知,99.99% 的赛博羔羊在这里都会血本无归,但他们就是乐此不疲地继续赌博。

因为,在亿万个垃圾里,终究会杀出一两个“王者”。

当我们把目光投向那些“王者”,会发现它们背后都有极为精彩的迷因内核!

药丸的主页



(五)迷因深处是抽象 


比如 GOAT。

GOAT 的带头大哥是一位叫做安迪·艾里的哥们,一个艺术家兼技术极客。

艾里抓来两个 AI,不给他们吃人饭,而是直接把 Reddint 和 4chan 上的抽象言论灌给它们,然后让两个 AI 对着聊。

这下不得了,两个 AI 越聊越有梗,甚至开始“辩经”,最后建立起一个自圆其说的迷因哲学,呃。。。或者说“迷因神学”体系。

艾里受启发了。

2024 年 6 月,他注册了一个 X 账号,名字叫做“Truth Terminal(真相终端)”,背后就是他训练出来的“迷因 AI”。



这个 AI 开始在网上胡诌,并且如果有人@它,它也能回复。

而且这家伙还会用中文逼逼。

你感受一下,是不是还挺有道理



但很快,事情向着奇怪的方向去了。。。

Truth Terminal 的话越说越神叨,越神叨人们越爱逗它说。

最后,Truth Terminal 成了赛博话痨,而且把自己的思维聚焦到了一个主题上——Goatse。

Goat 不是山羊,它其实是 Greatest Of All Time 的缩写,大意相当于“人生巅峰”。

se 嘛,就是后面加个 x 的意思。

实际上。。。请原谅,Goatse 是一个我无法给你形容的迷因图片,我只能贴一张人们看到这张图时的反应。



当艾里问 Truth Terminal:“如果有 500 万美元,你会干什么?”

Truth Terminal 脱口而出:“那咱高低得拍一部《Goatse 奇点》的电影。”

这话从 Truth Terminal 嘴里一出来,Goatse 立刻成了“拜山羊教”的主神。

更骚的是,著名的投资人,网景公司创始人马克·安德森看到 Truth Terminal 无厘头的计划,居然决定“我王多鱼投了”,转手打过去 5 万美元的比特币。。。

赛博羔羊们疯了。

有人火速在药丸上发行了 GOAT 代币,这个币的市值在三天之内从 5000 美元飙升到 1.7 亿美元。

赛博羔羊们彻底疯了。

转眼间无数人靠“拜山羊教”强制暴富。。。他们吃水不忘挖井人,纷纷给 Truth Terminal 打赏 GOAT 币。

然后,Truth Terminal 成了人类历史上第一个 AI 百万富翁。

这一波操作,就问你服气不服气。



再比如 FWOG。

Groowut 是一个羞涩且善良的艺术家,他画的青蛙,也像他一样又丧又孤独。

这种丧和 PEPE 身上的丧不同,有一种难以言表的温柔。



一个团队说服他“才艺变现”,让他画了好多这种青蛙图,作为发布“FLOG”代币的迷因。

Groowut 没白没黑肝了一个月,把所有图片打包交给团队,昏然睡去。

接下来,狗血的事情发生了。

FLOG 发布后,价格稳步上涨, 市值触达 375 万美元之后,开始下跌。

操盘团队有点儿慌了,照这么跌下去就不剩渣了。

于是老大给小弟布置任务:把咱们开发团队手里的币卖一哈。

本来老大的意思是“卖点儿打打底”但小弟迷迷糊糊,理解成了“卖它个底儿掉”。

他全给卖了。。。

一分钟内,FLOG 价格暴跌 90%。

眼看老大跟小弟轱辘成一团打起来了,根本没人管币价。乌合之众的社区瞬间崩塌。

项目方内部沟通群,已经开始骂起来了。词都拼不对了,可见手抖成啥样。


此时,刚睡醒的 Groowut 坐在屏幕前发呆——一顿操作下来,他自己作为这个迷因的创造者,最后却什么都没得到。

赛博羔羊们看不下去了,虽然他们自己都亏得屁股拿瓦盖,但看着 Groowut 黯然神伤,比自己赔钱还难受。

一群 KOL 冒头,决定组织起来,帮助 Groowut 重头再来。

这就是 FWOG。



仅仅发布六个小时,赛博羔羊们就把 FWOG 冲到了 2500 万美元。是之前 FLOG 峰值的六倍多。

一觉醒来,Groowut 看到了人们发来数百万条鼓励的私信,热泪盈眶。

凭着赛博羔羊的反复冲锋,药丸也成了 2024 年币圈最靓的仔,最多的一天,它赚了 533 万美元的手续费。

这片土地俨然成了“WallStreetbet”的链上翻版,人们开始“不抽象不成活”。

就在 2024 年 5 月底,药丸上线了直播功能,你发一个币,然后在线喊单,能忽悠多少人上车,全凭一张嘴。

当然,有时候凭的不只是嘴。。。

比如这位老哥, 发行了一个“屎币”,然后坐在马桶上一顿输出,发下毒誓:屎币不超过 500 万美元,就不从马桶上下来,吃喝拉撒都在这里。


还有的走才艺流,在线说唱、在线支教、在线编程。


有的是躺平流,币价不涨我不起床。


还有脸基尼流。


还有擦边流。


甚至。。。高清无码流。。。

(此处略去 N 张

这里最凶残的要数一位小孩哥。

13 岁的小学生,一边在药丸上直播,一边发了一个叫“Gen Z Quant”(Z 世代量化)的币。

羔羊们觉得小孩哥这个赛道蝎子拉屎独一份,决定冲。

结果就在币价稳步上行的时候,小孩哥把手里的币直接来了一个清仓甩卖,相当于把大家刚投进去的钱卷包烩,揣好 3 万美金,然后激动地对着镜头比了两个中指。



而这只是故事的开始。

羔羊们出离愤怒,决定报复这个熊孩子,他们报复的方法是——继续买这个币。。。

Quant 的市值迅速抬升到了 8500 万美元,而小孩哥刚刚 3 万美元变现的币,现在已经价值 400 万美元了。

错亿小孩哥追悔莫及,赶紧又开了另一场直播,发了一个叫 Sorry 的币,然后同样的戏码又上演了,他把自己的币卖了 1.3 万美元之后,价格又翻了 10 倍。

至此,小孩哥终于明白,迷因竟是他自己。

他和大家似乎找到了一种“我喝汤你吃肉”的诡异默契,又来了第三次,用他家狗的名字 LUCY 发了一个币,小孩哥卖了 2 万之后,市值又翻了五倍。

看到这,估计有人已经反胃:发行这些 CX 的币,迷因在一群神经病中间倒来倒去,有啥意义呢?

在我看来,这个问题有点像:信号在一堆神经元之间传来传去,有啥意义呢?

凑近看,具体的信息碎片传递确实没有意义,但离远看,作为一种改造世界的模式,它极其有意义。

因为,当我们面对的问题复杂到一定程度后,微观上的低效就是宏观上的高效。

要解释这个道理,我们不妨回到马斯克本克的故事中。

马斯克推文的频率(2014-2024,每一个红点代表一个推文,横向是年份,纵向是一天当中的时间。中间的黑线是他收购 Twitter 的时间。



(六)一种新科学:混乱中出效率 


来看看下面三个灵魂拷问:

电脑上用的廉价电池,能不能串起来驱动汽车?

不锈钢板用铆钉钉起来,能不能做成火箭外壳?

一个印着狗头的区块链上的字符,能不能成为一般等价物?

答案是啥?

不是能,也不是不能。而是——试了才知道

问题变成了:谁会去试呢?

就拿汽车举例吧。

作为工业文明的巅峰造物,一台燃油车上有 1 万个零件,这些零件来自世界各地。

经过上百年的不断淘洗,每一个零件的生产权都不偏不倚落在了“效率最高、成本最低”的制造商手里。以至于这么一台依靠全球无数人合作才能生产出的汽车售价能低至几万人民币。

这样一个体系几乎已经榨干了供应链各个环节全部的油水。

汽车行业的“建制派”只好在体系里继续修建铜墙铁壁——添加更细致的规则和监督机构,只为能把效率拉高一点点。

在这个体系里,如果有毛头小伙提出:我想试试重新设计一套传动结构,然后咱把锂电池装进汽车里,做出电动车!

结果一定是老板摸摸这小哥的额头:你烧糊涂了吧?

因为改动整个汽车的基础结构,需要付出巨大的成本,可能的收效远远小于在“既有建制”内修补。

实际上,这个体系陷入了局部最优解。(这也是《创新者的窘境》的核心观点。)

传统车企不试,特斯拉去试了,特斯拉成功了。

在这个故事里,特斯拉就是一只羔羊。

它成功了,不是因为它注定成功,而是因为它尝试了,然后恰好找到了迷宫的出口。



我在《当我们都活成了大模型》里提到过 OpenAI 的领悟:

远大的目标是达到目标最大的敌人——伟大无法被计划。

最经典的例证是他们做的“图片繁育”实验。

基本玩法是:AI 随机生成一些无意义的图片。然后人们从中选择一些“有趣”的,AI 在此基础上继续突变,不断循环。

经过迭代,最终碰巧有一张很像“汽车”。



但耐人寻味的是:如果一开始就让人奔着汽车去筛选,却怎么也无法得到汽车。

因为那张汽车图片,其实是从一个“外星人”变异而来的。

谁会想到要“繁育”出一个汽车,先要搞出一个外星人呢?



所谓“夜长梦多”。

1、目标距离起点越远,参与演化的变量就越多,由于“计算不可约性”,你依靠逻辑推演的预测就和真实世界的差距越大;

2、目标远到一定程度,逻辑推演就完全失效了,你放弃了一些“明显不对”的路,结果却让自己原地打转。

3、要走到终点,只能少做严肃判断,多一些冒傻气的尝试。



沃尔夫勒姆把建立在“计算不可约性”上的科学体系统称为一种新科学

GPT 大模型的诞生,处处都在践行这种“新科学”:

首先,模型训练的基本原理是“无监督”。

人类即便知道很多道理,也不把预设告诉 AI,只把海量的素材扔给它,让 AI 在混乱中用自己的方案参悟奥妙。

其次,ChatGPT 的训练模式是给他一些句子,让它预测下一个字的概率。

只凭预测下一个字就能拥有智能?这听上去完全不可行,OpenAI 这群人同样没有预设,花了几百万美元训练出来看看,竟然他喵的可行!

在这个故事里,OpenAI 也像一只羔羊。

它成功了,同样不是因为它注定成功,而是因为它尝试了,然后恰好找到迷宫的一个出口。



回溯历史,我们必须承认,很多后来牛 X 的事情,最初都是众多“胡逼试”中的一员。

比如 Airbnb 最初就是想用客厅闲置的气垫床赚顿饭钱,

比如 Unix 操作系统最开始就是为了玩一个游戏,

比如 DOGE 的诞生就是为了嘲讽比特币。

所以,和很多人一样,我也认为坐在马桶上等着自己的空气币冲过 500 万的行为非常冒傻气,我也认为骑小黄车从洛阳冲到开封非常无厘头,我也觉得买一堆盲盒娃娃拆开再倒卖很扯淡。

但我同时也认为,这些行为和马斯克尝试做出特斯拉,和 OpenAI 做出大模型没有本质分别,它们都是在既有规则之外用激情驱动的尝试。

无差别的尝试一定伴随着大量无效的个案;但只要最后有一人杀出重围,作为整体,我们就从混乱中获得了效率

说回空气币,我们同样能观察到类似效应:

微观上无数空气币的涨落,在宏观上把比特币这个王者越推越高,这一股强劲的不受控的力量,真真实实地消解着美元霸权。

这难道不是一种更高层级的效率吗?

千百万羔羊的激情消融在历史中,成为未来共同的垫脚石,他们不应有高低贵贱之分。



至此,所有的东西都联系在了一起:

通向一个遥远的目标,唯一可行的方法就是“胡逼试”。

让事情尽可能在各种方向上发生,能碰到“好结局”的概率就会大。

而如何让羔羊们甘心在各种方向上积极尝试呢?调动他们内心的 Passion。

如何调动 Passion 呢?依靠迷因恐怕是目之所及最好的答案。

重要的诘问来了:

既然基于这种“混乱中的效率”可以做出更好的科技创新,为什么不能做出更好的社会治理创新?

过去几十年,美国按照建制派的思路运转,不正像那种对供应链调控到无比精密的传统车企,看似严丝合缝,但整体效率已经陷入泥淖吗?

马斯克并不是神,甚至只是一个满身缺点的人。

但无论是用铁皮包火箭,用锂电池攒汽车,还是把推特裁员 75% 后还能照常运转, 都表明他对这种“混乱中的效率”的理解相当到位。

由此我们再回到 2024 的真实的世界,你会发现:

特朗普和马斯克合流,本质上就是要把这种“新科学”引入美国的治理的尝试。



理解了这些,你再去看那些新闻:

为啥特朗普要给马斯克成立一个“美国政府效率部”?

为啥马部长要用 DOGE 作为这个部门的简称?

为啥马斯克告诉大家这个部门要通过 X 平台招聘,并且他会每周在 X 上直播最新进展?



这些操作,有没有熟悉的味道?

像不像那位用 AI 发币的老哥在 X 上让大家集思广益给自己的币想名字?像不像“散户大战华尔街”时那位咆哮小猫在线喊单?像不像马桶哥不达目的不下马桶?

还有更熟悉的味道。

在诸多投送简历的人中,人们又开始整抽象:

有人说我想加入 DOGE,因为我一次能吃 10 块奥利奥饼干。

还有人说,我想加入 DOGE,因为我的智商是 104,比满分还多 4 分。

政府效率这么严肃的事情搞得这么混乱?这就对了。因为这就是赛博羔羊们改造世界的方法!

他们不信,他们反叛,他们嬉笑怒骂,他们高举双手在历史中冲撞,绝大多数的激情都像番茄撞碎在砖墙上汁水横流,却也有极少数头铁的撞破南墙,撞出一条前所未有的道路。

赛博羔羊,不投降。

看到这里,也许有人会问:“赛博羔羊”,不就是右翼民粹的新名字吗?

并不完全是。

技术的进步让时代并非时隔百年简单的向右回摆,历史也并没陷入轮回,我们的世界诞生了一片全新的大陆。




(七)大故事 


2024 年,硅谷投资大佬彼得·蒂尔接受了访谈,他提到了一个有趣的现象:罗素共轭。

大概意思是:对于相似的事实,存在两种截然不同情感取向的表述。

例如:精益求精和吹毛求疵、独断和果敢、民主和民粹。

2024 年的美国,民主和民粹一线之隔。用哪个词去理解他们呢?

不知道你有没有意识到今年最大的一个 Bug:

特朗普固然对中国非常不友好,但马斯克对中国很友好,而特朗普又和马斯克是铁盟。

那他们的联盟整体对中国会是啥态度?

Cyber Truck 已加入总统车队全家桶。


我们不妨先仔细看看这个联盟:

把目光拉开,你会看到特朗普不仅在和马斯克结盟,而是在和整个硅谷的“技术自由派”结盟。

比如,马斯克身边还站着 OpenAI 的 CEO 山姆·奥特曼(虽然他俩私交很差,但都支持特朗普,你品品其中原因),还有投资了 Paypal 和 Facebook 的硅谷预言家彼得·蒂尔,还有彼得·蒂尔身后的“Paypal 黑帮”,一整个谱系的硅谷大佬,还有蒂尔在硅谷曾经的亲密战友,如今的副总统 J.D. 万斯。

当然,联盟里还包括更激进的技术原教旨主义者,硅谷新贵——数字货币和区块链大佬。

关键是:这群硅谷自由派大佬,可不是一直支持特朗普的。



传统的硅谷倾向于建制派,或者干脆中立,埋头挣自己的钱。

但过去几年,硅谷之大,已经安放不下一张平静的书桌了。

随着美国的问题愈发严重,左翼建制派开始把手伸向硅谷,不想着利用他们的技术提高生产力,反倒总憋着让他们放点儿血共同富裕一下。

于是,2024 年好多硅谷大佬忍无可忍,史诗级地转向了右翼特朗普。

就连当年亲手封掉特朗普 Facebook 账号的扎克伯格也去海湖庄园结结实实拜了个码头,还给就职典礼捐了 100 万。

但硅谷自由派对特朗普并非毫无保留。他们的真正态度可以用彼得·蒂尔的观点来概括:

相比特朗普本人,他更支持特朗普背后抽象的意识形态——反建制、彻底推翻重构的“特朗普主义”



由此,把 2024 的特朗普当选和 2016 年特朗普的当选划等号,就不那么恰当了。

2016 年,没有硅谷的支持,特朗普的政策是比较典型的“民粹主义”。

2024 年,特朗普和硅谷融合,相比过去 8 年,两者都发生了重大的思想进化。如果用一句话来概括这届美国路线,我觉得应该是:

技术自由主义、民粹主义与特朗普主义相杂糅。

在这个结构中,硅谷自由派第一次分享了巨大的权力,他们“混乱中出效率”的思路也将首次扛起大旗。

这开创了美国 250 年历史上的先例。

很多人困惑于一个问题:

从现在开始,特朗普满打满算只有四年任期,硅谷大佬们押注特朗普,不怕将来被清算么?

答案很简单:特朗普本身不重要。

硅谷精英们押注的,是一个更长期的,无论谁当总统,甚至无论左右哪派上台都将绵延上百年的由“新科学”主导的权力格局。

正如彼得·蒂尔的一声长叹:21 世纪终于来了。

这,才是美国大选背后真正的大故事



既然鹰酱走上了一个*前所未有*的路线,兔子其实可以期待一些*前所未有*的事情。

我们对鹰兔关系的一贯观点是:世界足够大,容得下两边共同发展。

这个观点显而易见是对的。

但是在美国左翼建制派执政的情况下,僵化的体制和无谓的政治正确却堵死了和中国接触的途径,反而把局面锁死在零和博弈。

反过来看,贸易战虽然是在特朗普任上发起的,但八年过去,带着“新科学”方法论的特朗普显然会尝试各种“建制之外”的新路线,哪怕一些方案看上去不那么靠谱。

这反而非常有可能走出一个双赢的“妥协道路”。

毕竟,特朗普的目标是 MAGA(Make Amarica Great Again),又不是 MCSA(Make China Small Again)。

美国是一个巨大的风向标,它的转向代表着全球主要国家(当然也包括中国)的转向。

这也意味着,未来几年,全球经济也许都要在混乱中重新寻找效率,“赛博羔羊”继续左冲右突,各种奇葩的商品、商业模式都会出现。

而中国灵活的工业体系、深厚的技术储备、庞大的高等教育人群恰好可以与这种高强度的创新相配合。

也就是说,中国完全有能力在这个大故事里找到新位置,而且可能是优势位置。

刚写到这,两边的表态就都来了。。。


未来几年,如果美国绵延十年的对中国的“战略敌对”出现重大松动,甚至和中国在一些领域建立新合作,我并不会感觉意外。或者说,我对此非常乐观。

无数羔羊简单而微小的摇摆,加成起来就会诞生高级的智慧。这正是 GPU 的基础原理。

时代的吉祥物,已悄悄从 CPU 变成了 GPU。

如果不去正视这个“GPU 时代”,而简单地把它归为“民粹”,不仅可能失去理解未来的一个视角,更有可能错过下一个强制暴富的 20 年。

你可以说我太过乐观。但悲观者正确,乐观者前行。

现在,只剩最后一个问题:

在“赛博羊群”中,作为个体,我们该如何自处?




(八)不割席 


原谅我,刚才“散户大战华尔街”的故事并没讲完。

“魔王被打败”只是童话故事的终局,“王子与公主如何才能幸福地生活在一起”才是真实世界的开篇。

华尔街投降之后,GameStop 继续逼空上涨。就在股价冲过 500 之际,Robinhood 毫无预警地对所有用户关闭了买入功能。

羔羊陷入一片惊恐。

为什么?

因为美国法规要求券商必须为用户垫付保证金。羔羊们的交易额越来越高,Robinhood 自有资金已经告罄,借了一大圈,把所有钱都填进去了,依然不够。。。

为了保护用户和自己,只好紧急关闭了买入功能。



面对媒体质疑,Robinhood 义正词严:我们本可以同时关闭买入和卖出的。为了让用户少蒙受损失,只是关闭了买入,快说谢谢!

只能卖,不能买,这个操作毫无悬念地触发了股价闪崩。

真的“敌人”早已投降,那剩下的人里,不能全是朋友了吧?

GameStop 的剧本,瞬间从《勇者斗恶龙》变成了《鱿鱼游戏》。

人性的丑恶一瞬间爆发。

人们相互倾轧,成本高的拼命止损,成本低的获利出逃——华尔街没流够的血,被散户流成了河;华尔街丢的人,被散户变本加厉地又丢了一遍。

尘埃卷起,久久不散。



几个月后,就在 GameStop 的羔羊万人坑之上,Robinhood 在纳斯达克上市,市值 320 亿美元。

上市仪式上,CEO 弗拉基米尔·特内夫怀里抱着他的女儿,尽情跳跃。

而在会场之外,倾家荡产的散户正在奔波,为自己的儿女挣出今晚的饭钱。

那一刻,背板上 Robinhood 的广告语“Welcome to the new Wall Street”像是恶毒的嘲讽。



类似的故事也发生在药丸上。

仅仅创建了 239 天后,药丸的累计营收达到了 3.68 亿美元,平均每天收入 154 万美元,日均交易新代币 16898 个。

伴随财富渴望而来的,是药丸上的直播不断突破下限:

有人把自己关在笼子里当狗,有人装扮成希特勒烧以色列国旗。


一对年轻夫妇每隔四分钟就殴打一次自己三岁的孩子,直到代币涨到目标。

一个 12 岁的孩子拿着猎枪,说如果代币没涨起来,就要枪杀自己的全家。


还有人生吃芥末、自焚烧伤、虐待动物,画面简直比暗网还要凶残。



平台遭受到越来越多口诛笔伐,担心分分钟 FBI 就要来抄家,只好宣布对直播进行审核。

但他们可没有抖音快手那种几千人的审核队伍,到最后局面完全失控,就在 2024 年 11 月底,平台突然宣布无限期暂停直播。

无数迷因币如冷水浇头,火箭熄火,自由坠落,连 Solana 链的活跃度也从顶峰开始下降。

一夜之间,蒙受损失的赛博羔羊无处申诉,他们甚至找不到地方发出一丝声响。

也许唯一的好事是:连续直播了一百多天后,马桶哥终于可以从马桶上下来了。

那个带领羔羊劫富济贫的罗宾汉,真的永远热血,永远热泪盈眶吗?

羔羊们高喊 YOLO,只活一次。但 Robinhood、药丸、马斯克或是特朗普,他们因掌握迷因的神力而成为新王,“替”羔羊们活了无数次。

在这一点上,建制派的警告言犹在耳:

人性经不起考验。



谁是敌人?谁是朋友?

建制派推崇的细密法条,杀死了无辜的松鼠,同时也捆住了骗子的手脚。

华尔街满是富人的鹰犬,但他们的对冲基金也忠诚地管理着普通人的退休金。

在我看来,如果不走出时刻区分敌我的“二元论”,就会永远困在昨日的世界。

历史像一幕舞剧。

在古典意义上,人们终其一生只能串演一个角色:牧羊人、罗宾汉,或者羔羊。

如今,宏大的舞剧已被撕碎成无数可以席地欣赏的路边小品——穿行不同的故事,在各种角色之间泰然切换,成为一种被时代奖赏的能力。

技术平等地赋予了每个人“不被裹挟的能力”

羔羊们冲向华尔街败军时,可以提剑追随,也可以暂且观望;

暴论在羊群中流传的时候,可以怒发冲冠,也可以仔细甄别。

而是否使用这个能力,决定权在每个人自己的指尖。

没人能阻止我们在羊群和执鞭者中穿梭,与每一个具体的人对话;

没人能阻止我们握紧天平,时刻为每个灵魂称重,微调与他人的协作方式。

这无疑是一种更辛劳的生活方式。

但我们选择更辛劳的生活方式时,也选择了对智慧更本质的忠诚。

正如 67 年前加缪在诺贝尔奖演讲中所说:

或许,每一代人都自负能重构这个世界,而我们这一代人却明白这是痴人说梦。但我们的使命也许更伟大,那就是要防止这个世界分崩离析。

“不投降”,是每一只血肉羔羊面对世界拔剑的勇气;

“不割席”,是我们身处暗夜,却仍相信温柔的晨曦。

我们是羔羊,我们也是自己。



往期推荐:

👉NFT精神史:罐头、青蛙和平凡人的15分钟英雄梦想
👉暗网生死疲劳:枭首、重生与漫长的自由之歌
👉加密货币“主神”的烈日与黄昏
👉老人们已经看到了生活的尽头,而你还要在这个操蛋的世界里活很久
👉当 AI 活成了你的样子,而你活成了狗
👉比特币的宇宙与星空
👉“AI 蠕虫”和时代裂隙中的刺客
👉我们该不该怀念2021?
👉2022,我们在幽暗的谷底守护一朵花
👉2023:当我们都活成了“大模型”





21 世纪 

终于来了


再自我介绍一下吧。我叫史中,是一个倾心故事的科技记者。我的日常是和各路大神聊天。如果想和我做朋友,可以搜索微信:shizhongmax


哦对了,如果喜欢文章,请别吝惜你的“在看”“分享”。让有趣的灵魂有机会相遇,会是一件很美好的事情。


Thx with  in  Beijing

阅读原文

跳转微信打开

京东要造“人”

2024-12-05 10:59:00

原创 史中 浅黑科技 2024-12-05 10:59 北京

AI 和人脑一样,都是一个“意义调味机”。

浅友们好~我是史中,我的日常生活是开撩五湖四海的科技大牛,我会尝试用各种姿势,把他们的无边脑洞和温情故事讲给你听。如果你想和我做朋友,不妨加微信(shizhongmax)。




京东要造“人”

文|史中



(零)在意义空间里“调味”的师傅 


“何老师,录像准备开始了,记得不要做意义太明确的手势哦!”

何晓冬点点头,深吸一口气,面向两台摄像机开始发表演说。

气氛整这么紧张,不是搞就职典礼,而是在搞“数字分身”。

话说,那是 2022 年冬天,京东云的言犀团队整了个大活儿,准备正式推出“数字人主播”,就是让 AI 复刻真人的表情、动作、语言来直播带货。甚至他们还琢磨着把东哥也搞成数字人,“亲自”下场直播练摊儿。

作为数字人项目起心动念的推动者,这“螃蟹”何晓冬说啥也得自己先吃一只试试毒。

克隆效果咋样呢?

这是真人何晓冬



这是数字人何晓冬



这里提个小问题:为啥当时团队同学要提醒何晓冬别做意义太明确的手势嘞?

因为被录制的人,所有的动作都会成为呈堂证供,啊不,学习资料,交给 AI 去参悟。

最后做出的数字人,在直播时会根据说话的内容判断,从这些动作里生成 Ta 认为最合适的给贴上去。

“贴”的有没有那味儿,取决于 AI 对手势的意义”理解有多深刻。

在这之前,团队已经做了几个月实验,复刻了不少主播。

他们发现,如果主播做太多一二三之类有明确意义的手势,AI 容易学岔劈,带货时不合时宜地比划“一二三”。。。

那不如就先瞒着数字人,不让它知道有这样的手势。

这是个小事儿,但我却想让你站在这道“楚门世界的裂缝”前,看看隐约透出的真相:

AI 本质上就是一台“意义调味机”——如果像大厨那样,从各种意义调料里一抓就准,就能把语言、动作运用得越得当,它就越!像!人!

摊开历史的卷轴,这场烹饪游戏已旷日持久,数字人不是第一关,也不是最后一关。




(一)一抔 AI 往事 


话说,这次我和何晓冬博士见面,是因为他刚得到了一个“既奇怪又不奇怪”的大奖。

这就是顶级学术会议 CIKM(信息检索和数据挖掘国际会议)颁发的“最佳时间检验奖”(Test of Time Award)。

说“奇怪”,是因为这个奖居然颁给他 11 年前的一篇上古论文。

说“不奇怪”,是因为 2024 年很多重量级大奖都不约而同颁给了这种上古贡献,仿佛是学术界的一波大型“追认潮”。

比如今年刚拿诺奖的辛顿老爷子。他的”深度神经网络”结构可是在 80 年代提出来的,整整等待了四十多年,直到 ChatGPT 和大模型百分百验证了这条道路的凶狠之后,才终于获得追认。(亏了老爷子身体硬朗。。。)

可贵的是,何晓冬博士这些年拼杀的方向,一直围绕着这个战场,也就是刚才提到的:

通过神经网络技术,不断让“意义调味机”变得更精准。

我愿称之为“AI 的正确道路”。



回到这篇论文出生的 2013 年,那时候没有抖音,没有拼多多,没有滴滴,也没有中关村扫码一条街,买一台指纹开锁的 iPhone5s 够吹半年。

更离谱的是,如今教父一般的互联网巨头们,当时竟都没能很好地解决一个基础问题:

如何给用户的“查询”匹配精准的“内容”?



打个比方。

比如我搜“狗”,最简单的方法当然是“字词匹配”:在全网的文章里,找到含有“狗”这个词最多的文章,给我展示出来。

但这有大问题,很多写狗的文章不一定有这么多“狗”字。

有可能写的是“犬”,有可能写的是“金毛”“雪纳瑞”。搜索引擎筛选的时候,不会觉得这些文章是我需要的,统统 Pass。

你说它傻不傻?

关键词匹配只能找到字面对应关系。


那咋办?还是那句话,要搞懂“意义”。

当时有技术可以理解字词的“深层意义”吗?有啊,要说辛顿老爷子的论文早就写了:可以把每个词都转化为一组多维空间的向量。

多维呀,向量呀,太难懂,就举个通俗的例子吧:

假设咱们手里有 10000 “意义配料”,每种配料都用一种颜色表示



“狗”和“金毛”是两个词,各自用到的意义配料必然不同。但是,它俩肯定有几味主要的配料很相似。

也就是说,在语义的空里间,“狗”和“金毛”的位置会比较近!



“金毛”和“狗”字面上看起来完全无关,但通过对比它们的“意义配料”,咱就知道金毛和狗存在深层语义空间存在一定的关系。

要是能写一个 AI 程序,精确提取出各种词汇的“意义配料”,到时候不就能用于精准匹配“查询”和“内容”了吗?

就像酱



何晓冬眼前渐渐浮现出“两座塔”

一篇内容也许有几百个词,把这几百个词剁碎,一股脑扔给 AI,算出这篇文章的“配料”;

一个“搜索”可能有十几个词,也同样剁碎,一股脑扔给 AI,算出它的“配料”。

这里的配料最初有上万种,但是我们要层层归纳,最后归为 128 种。这个层层归纳的过程,就像是“盖塔”。

每上一层,配料就少一些,计算量也小一圈



此时,“查询”成为一座意义之塔,“内容”也成为一座意义之塔。

最后神操作来了:只比较两座塔的塔尖,这 128 味配料的相似度。

这不就省事儿多了?

而且,你日常就可以把所有“内容”的塔算好,用户来了一个“查询”,马上就能和这些塔尖比对,找出最匹配的那些“内容”!

这就是 DSSM 模型(基于点击数据学习用于网络搜索的深度结构化语义模型)



11 年时间弹指一挥间,君且看,如今 DSSM 双塔结构已经遍地开花,大小互联网公司,只要有“搜索、推荐、广告”业务的,就一定有这“两座塔”。

一篇论文,奠定了互联网“搜推广”的基本业务模式,让后来的电商、短视频等等帝国,都建立在这块砖石之上,“最佳时间检验奖”妥妥实至名归。

但真正凶狠的是, 有关“意义调味机”的故事并没有结束,而是刚刚上路。

时间检验奖的“奖状”。



(二)万物皆“配料” 


造出《终结者》里 T-800 那样的通用人工智能,是 AI 科学家的人均野望,但很长时间他们眼前的 AI 都是花式智障,烂泥扶不上墙,只能掩面长叹。

如何在一片没有任何标志的荒原里找到通往终点的“那条路”,才是个真问题。

2018 年,何晓冬离开微软雷蒙德研究院,回国加入京东。

在我看来,这背后恰恰隐藏着一类 AI 技术人寻找这条路径的品味。

简单来说就是:要想 AI 进步,得不断让它在*真岗位**真活*

这里有“两个真”:

真岗位,是说 AI 必须在生产活动中参与人类的一项或多项工作。(否则就是玩具嘛。)

,是说 AI 做这件工作(相同效果下)的成本必须低于人类。(否则就是作秀嘛。)

按照这个品味来说,京东还真是个好去处。

因为京东能掰成两半:一半是个互联网电商公司;另一半是运行着庞大供应链、仓储、物流、客服的实体产业。

两边加起来有几十万员工,上千种岗位,而且很多岗位是比较基础的体力和脑力劳动,特别适合 AI 来做嘛。



也就是在这个节骨眼上,京东提出了“技术、技术、技术”的口号,准备拉开阵势挖掘自己的 AI 金矿。

智能客服,就是他们挖的第一批“矿坑”。



很多人觉得“智能客服”和我们上一章讲的“搜推广引擎”是两个风马牛不相及的东西,其实不是的。

你还记得我们之前反复说:“AI 的本质是意义调味机”吗?

“搜推广引擎”的本质是把“查询需求”和“内容供给”在味道上匹配,把适合的内容展现给适合的人



智能客服本质上是把“问题”和“解答”在味道上匹配,把适合的回答展现给适合的问题↓↓



它们干的活都是:用神经网络去找到一个东东在意义空间里的位置。

只不过这些解答不是简单的词汇,而是词汇串起来的句子。所以,“智能客服”显然要比“搜推广引擎”有更多的意义配料

这也意味着要用更大的模型,耗费更高的算力去计算。



客服解决一个问题,显然要比提供一次搜索结果的价值高得多。只成本合得上,就是“干活”嘛,没毛病!

但把模型做大,只是水面之上的冰山,如果站在人类客服的“真岗位”上看,你会发现很水面之下还有更多棘手的问题:

首先,客服接收的询问可以是文字,但有可能是图片,也有可能是语音;

其次,客服要去寻找的答案,也可能来自文字、图片、视频、音频杂糅的页面。

比如我发给京东客服一张衣柜的照片,问还有没有其他类似款式的。

人类客服可以轻易感知这张图里的内容和“衣柜”这两个字在意义空间里是对应的。



要想上岗干活儿,AI 也必须做到。

这就要求 AI 不仅要(像搜索引擎那样)把文字放在意义空间里,还要把语音、图像等等都对应在*同一个*意义空间里,用同一套意义配料来表示。

用专业”黑话”来说就是:多模态语义对齐

问题来了:

人类 AI 技术一直是摸着石头过河,走一步看一步,导致虽然都是使用深度神经网络技术训练,但用于视觉识别的 AI 和用于语言理解的 AI 训练方法走了两条完全不同的道路。

假如中国人看到英国饭,虽然觉得不好吃,但起码能理解他们在吃啥,因为配料能对得上。

但如果一个中国人看到了三体人吃的饭,配料完全对不上,就很难理解了。

配料对不上,意义就对不上。


那咋办?

这里就不得不抬出何晓冬博士十年前的另一项工作:DMSM(语言 - 视觉深度多模态语义模型)。

道理也简单,就是要从头训练视觉和语言 AI,并且在训练成型的各个阶段不停地比对,确保它们的意义配料在每个阶段都能准确对应。

配料一样,就能想办法对齐。


这就可以了吗?

在这个岗位上真试一试,你会发现并不可以。

因为一张图片里会出现很多物体,而人类客服可以轻而易举地注意到图片里的“主体”,但是 AI 就会混不吝地把所有物体都平等地识别出来。

这样不仅浪费巨大的计算力,还会让识别变得非常不准确。

那咋办?

这里就不得不抬出何晓冬博士五年前的另一项工作:“Bottom-up and top-down attention”(自下而上和自上而下的注意力机制)。

这个技术其实就是受到人类注意力机制的启发而想出来的,简单说就是:通过图像和文字中的一些蛛丝马迹,提取出 AI 应该重点注意的主体。



有了这两个技术打底,再加上亿点点工程优化,就做出了一个多模态模型,不仅能用一套“意义配料”来表示图像和文字,还能做到成本低廉。

虽然远谈不上完美,但它可以干活了!

就像这张图所示:AI 看到“狗”,就能马上联想到狗的各种关联词,还有狗的样子,还有狗的发音。


你看,只要人类认为*可以有意义*的东西,甭管是文字、图像、语音,都可以塞进同一个意义空间,用同一套意义配料来表示。

理解并且做到这一点,我们才迈过了通往通用人工智能的一个重要的里程碑!

在 2020 年时,这个多模态模型已经被干到了 10 亿参数量。

这样的模型不仅可以做客服,也能做销售。比如打电话给老用户,通知他们新的促销活动。

言犀的师傅们发现一个有趣的心理规律,大多数用户会在接到电话的第一句决定是不是要挂断。如果没挂断,大多就会和你多聊几句。

于是他们制定了一个指标——“首句挂断率”。为了让 AI 客服撑过第一句,他们拼命优化说话的口气,甚至还用上了方言。

人们听到乡音,就会倍感亲切,也会更愿意倾听和交谈。

你听一段感受下

来自浅黑科技音频:AI 客服用四川话打电话



也正是从这个时候开始,京东启动了 AI 能力大规模对外服务。

不仅给京东当客服,也可以出去打工,甚至被雇去给一些城市的政务热线 12345 去做话务员。在这么重要的岗位上服务,可见能力还是颇受信任。

不过,如果此时把视野拉开,一个怪兽正在撕开帷幕,准备搅动舞台。




(三)做出世界上不存在的蛋糕 


2020 年夏天,就在全世界公司都在一脑门子官司,用小皮鞭抽打 AI 去各行各业打工时,大洋彼岸的 OpenAI 祭出了一个“怪兽”——拥有 1750 亿个参数的 GPT-3 模型。

算起来,它比京东的模型 10 亿参数大了一百多倍。训练它消耗了 500 万美元。

但。。。它只会聊天,创造不出啥经济价值,完全不符合咱们一直鼓吹的真岗位干真活的“赛博牛马”气质。

这当然不能说明 GPT 没有价值,这恰恰说明,没有一种 AI 路径是绝对正确的。

历史有时进入迷局,真就得靠疯子撞开一扇门。

这一波 OpenAI 的折腾,言犀的师傅们从专业角度悟出了一个“门道”。

那就是,GPT-3 模型把全世界互联网上的文字拿来学习,用极多的意义配料来表示这些词汇和语句,超过一定程度,它突然就“涌现”出生成内容的能力

咱们不妨想象一个蛋糕店:

过去,你是个打工学徒,有顾客形容他想要一个什么口味的蛋糕,你只能尽量理解,然后从货架上选一款最贴合他描述的;



现在,经过十年苦练你成了糕点仙人,顾客说他想要什么口味,无论多么离奇,你都可以微微一笑,现场拿配料给他做一个。



你完全可以把以上两种情况都看作是“匹配”。

只不过一个是在成品层面匹配,一个是在配料层面匹配。

用无数已有的意义配料做出世界上原本“不存在的蛋糕”,其实就是我们现在熟悉的大模型 AIGC(人工智能生成内容)。



虽说在 2020 年,大模型的成本还在天上,没啥实用价值;但随着 2022 年底 ChatGPT 3.5 捅破天,大模型的能力迅速抬升,成本迅速下降,它就落入了真岗位干真活的轨道。

这也是为什么从 2023 年开始,全世界的大公司全都疯狂地杀入大模型。

虽然各家大模型都可以 AIGC,但如果还拿蛋糕店打比方,你就会理解一个问题:能不能做出好吃的蛋糕,是由“原料种类的丰富度”“你对原料掌控的精细度”决定的。

对于京东来说,他们的“原料”里有大量的采销信息、产品介绍、营销方案、用户对话,把这些东西揉碎在意义空间里,能出来个啥?

这要不出来个赛博牛马级的带货主播,都对不起这些独家数据呀!

京东直播间的数字人主播


话说,很多人都看过数字人的带货直播,但却不太容易条分缕析理解背后的技术。

告诉你一个小妙招,从“意义配料”的角度下手,分分钟就能“庖丁解人”:

想想看,一个人,只要精神正常,在同一个时刻,他的所有语言、嘴型、表情、动作都只为同一个意义服务。

人是如此,数字人更是如此。

现在我们假设:一个数字人在直播,他正好要揭晓某款空调的价格。



这一刻,把时间定格,钻进这个数字人主播的身体里——她全身上下所有的表达必须都凝聚在“揭晓价格”这个意义上:

的脑海里正流淌着一句:“这款空调双 11 的惊爆是 2699 元。”

她发出的声音,就是这句话的中文发音。

她使用的语气,必须是和这句话意义相匹配的(此处也许要神秘的、激动的);

她的嘴型,也必须和这句话的发音相匹配;

她的表情、手势也都必须和这句话揭晓价格的情绪相匹配;



那么问题就简化了:一切树枝攀附的树干——这句话——是怎么来的呢?

当然是大模型的语言能力+京东电商数据的特训+商品的基础信息,然后“AIGC”出来的!

这段销售的语言被生成出来,声音、语气、嘴型、表情、手势才能被顺次生成,他们一起在时间线上向前移动,在每个时间切片上,所有的树枝和树干都要表达同一个意义。



客观上来说,以目前的人类技术,还不能用一个模型来生成这么多模态的内容:

必须用一个大模型生成语言,一个专用模型生成声音,另一个模型生成嘴型,还有一个模型生成身体动作,等等。

但没关系,还记得我们手上已经有一个传家法宝了么?

没错,多模态语义对齐

只要让语言、声音、语气、嘴型、表情、手势等等各种东西都在同一个语义空间里对齐,用同一套意义配料来表示,那么数字人在说一句话的时候,自然就知道应该对应哪个声音和动作了!

就像下图所示



说到这里,我们不妨驻足回看。

你会发现这些年言犀老师傅虽然做的东西五花八门,但却一直在这场旷日持久的“意义战争”里拼杀,从未离开。

每一次蹦高才能 get 的新技能,后来都成为更炸裂技术的“垫脚石”。

2013 年,他们在空间里为文字寻找意义配料,诞生了千人千面的搜推广引擎;

2018 年,他们开始把文字、图像、声音用同一种意义配料表示,诞生了 AI 情感客服;

2023 年,他们开始用大模型精细的意义配料来调配不存在的东西,并且把文字、语音、动作等等更多的模态在用同一套意义配料对齐,于是才诞生了——“言犀数字人”

从一开始,完全看不出和人有什么关系的专用 AI 系统,到后来意义配料逐渐增多,模态逐渐堆垒,一个人的雏形就这样浮现,这才是技术进步最浪漫的剧本。



不过,我们不能沉溺于浪漫,回到开头的故事,言犀同事们为何晓冬制作数字人时,让他不要做意义明确的手势,就足以证明现实的残酷:

模型对于语义配料的分析能力还有很大的欠缺。

话说在 2023 年,业界数字人的前沿能力大概是:

1、文字、语音和唇形能够用“配料”自然生成,即便如此还是有某一刻不那么像真人;

2、人物的表情和手部动作无法随意生成,只能在最初的录像里“挑选”;

3、人物的大幅度动作,比如喝水、 站起来走动、摸脸等等还无法做到。

所以整个 2024 年,京东师傅们都在意义海里深潜,就研究一件事——怎么让数字人更!像!人!




(四)“不出戏”的数字人 


说到这,就不得不给你介绍一位我新认识的凶悍产品人,飞姐。

飞姐确实给我随时准备解决一场战斗然后“飞”到下一个战场的感觉。而且我发现这不是她一个人的气质,而是数字人产品团队的气质。

技术一定有不完善的地方,主播被用户发现是个数字人也在所难免。

但我们能做的是想尽办法让用户晚一点儿“出戏”。只要停留在数字人直播间更长时间,自然货卖得也会更好。

她开门见山。

“出戏”,其实是人类意识一个很玄妙的特性。某个说不清道不明的细节,就会让你意识到“哪里不对”,一旦意识到“哪里不对”以后,你就没办法再回到“对”的状态了。

为了让数字人不出戏,团队工作的主要内容之一就是“看购物直播”。(怎么样,羡慕么?)

当然,他们是专业的,只看,不买,除非忍不住。。。

出乎我意料的是,他们大多时间居然看的是人类直播,而非数字人直播。

他们是在“逆向思考”——人类主播做了一件事,让观众 DNA 动了,他们马上就拿小本本记下来。

然后开始逼问自己,为啥主播干了这个我就觉得好呢?我家数字人能不能也干这个?

飞姐


比如:小动作。

一个主播是端坐在那里一直说更好,还是时不时撩头发、看手机、瞅瞅旁边更好?

看直播的时候他们发现,主播的各种小动作看上去没啥意义,其实处处都在传递“意义”。

比如刚说错了什么,为了缓解尴尬来个“战略喝水”;比如刚才一通输出信息量太大,撩撩头发缓一缓。

这些都是数字人


小动作,其实可以归为直播中的“瑕疵”。可这种瑕疵恰恰给我们更真实的环绕感。

这种奇特的结论,如果不是真的天天泡在人类直播间,真的很难得出。

比如有同学在来回切换人类主播和数字人主播观察时,发现了一个更隐秘的区别,那就是:人类主播会时不时盯一下手机,看评论区留言。

数字人主播当然也能“看”留言,但显然是通过程序接口输入的嘛!它才不用浪费时间,把屏幕上的光点儿传到视网膜,然后用大脑解析出文字的含义。

但是!只要它没有身体前倾默默看留言的那个的过程,观众就觉得你不像个人!

你说说。。。人类是有多难伺候?

诶,意识到问题所在,它就已经解决了一半儿。

在录制数字人的时候,团队会提前跟被录制者说明,你必须得用放松的口音说话,如果带点自己的口音、腔调那最好。而且还要专门录制一些喝水、摸头发、聆听状态之类的小动作,就是为了让屏幕前的观众感觉到自然交互,不出戏!

下面这个直播片段,你猜哪个是数字人



答案是:两个都是数字人!效果还算 OK 吧?

但是,到这里问题都解决了吗?

还差得远呢。

话说,直播就像一部电影,它吸引你的程度也可以用电影评分表示:

“不出戏”,只是三颗星及格线,你起码不会把注意力抽离到屏幕以外的地方;

接下来是“尿点少”,也就是四颗星,比如你即使憋尿也忍不住要看接下来会发生什么;

如果“全程无尿点”,尿裤子也忍不住要看,那就接近五星好评了。

怎么能让一场带货直播像精彩的电影一样“全程无尿点”,这才是终极命题。

而且这恐怕不是战略喝水、撩撩头发、看看手机就能解决的,甚至也不是对每个词句精细打磨能解决的。

飞姐团队苦思冥想,发现了一个问题:

有些主播长得不算美,说话口音还是塑料普通话,遣词造句也不用那么标准的语法,甚至语速也不均匀,但作为观众,就是觉得他/她是个人才,说话好听。。。

虽然没完全想明白是个啥道理,但飞姐决定试试。

找到技术团队的算法总监老吴,提出了非分的要求:咱家数字人能不能多点儿“主播感”?

老吴皱眉:“主播感是啥?”

飞姐给他看视频。

老吴推推眼镜:“可以试试。”

团队直接把数字人的训练库从字正腔圆的模特天团升级到了金牌主播大军。

一试吓一跳:AI 把这些人的特质都学习下来之后,数字人主播身上果然多了一些微妙的“人味儿”。

飞姐决定顺着这个思路继续得寸进尺。

“无尿点主播”不仅每句话说得让人爱听,更是在直播的“整体结构”上有精巧的设计

飞姐头顶突然亮了灯泡:“直播中的整体话术设计,也是可以被大模型学习的吗?”

她又忐忑地找到技术团队。

老吴推推眼镜:“可以再试试。”

他们试着找来了各行各业的头部主播的大段直播视频,让大模型分析整场直播前后逻辑设计的奥秘。

果然又吓一跳:数字人主播居然真的学会了一些直播套路,卖 3C 的时候说一套技术宅喜欢的嗑儿,卖衣服时又会说集美们爱听的词儿。



飞姐说,经过这个调整,数字人从一个“播报员”变得更像“销售员”了!

它上道了,它变成了她/他。

站在技术空间,你会发现这个转变的迷人本质:理解正在向意义空间更深处漫溯

在大模型出现后,学界有很多大佬泼冷水:人能理解自己在说什么,可大模型的原理却是预测下一个字的概率——这意味着 AI 永远无法和人匹敌。

但正如辛顿所说:人工智能看起来只是一个预测下一个字的机器,但如果你能预测得极其精确,只有一种情况,那就是“理解”了。

其实,人也是被训练出来的。

飞姐提醒我。

人生下来没有任何能力,说话是训练出来的,开车也是训练出来的。三百六十行的专家,也都是经过训练才习得这个行业的工作模式。

不仅如此,就连公认与“灵魂”最接近的情绪,快乐、悲伤、忧虑、愤怒,舔舌头代表迟疑、双臂交叉反应防御,也都是在和环境互动的过程中被训练,随之被刻在基因编码中的反射模式。

话说,越是在人工智能领域深耕,人们越会同意一个大逆不道的“暴论”:机器没有灵魂,但人也没有灵魂——就没有灵魂。

秉持这个判断的好处很多,但最重要的一个是:你可以心安理得地把数字人和人放在同一个高度去平视




(五)当机器平视人 


中国电商巨头有很多,但它们在对待数字人主播的态度上有细微而深刻的区别。

比如一家以短视频为主业的头部电商,只接受人类主播,发现你用数字人直播甚至会封号;

另一家以 C2C 为主的头部电商,目前只让数字人对私域流量开放,也就是你无法自然刷到数字人主播,只有关注店铺后才能刷到它的数字人直播。

而京东的态度最为激进:它并不区分这个店铺是人类在播还是数字人在播。

也就是说,在这个平台上,数字人主播和人类主播拥有同等的权利。

这个策略让人惊讶,因为看上去它两头得罪:

一方面,这对数字人来说是残忍的。

因为数字人技术像个孩子一样稚嫩,但系统没有给它任何保护,直接无差别面对挑剔的顾客。

另一方面,这对人类来说也是残忍的。

因为在精力上,人类不可能像数字人一样一秒都不休息;在记忆上,人类要想成为专家,需要十几年刻苦练习,但数字人可以瞬间学习,零成本分裂。

血肉牛马怎么卷得过赛博牛马?

那京东这么选的道理何在?

如果你把视野局限在数字人和人的关系上,就很难理解。一旦把头抬起来,看向远处,一切都朗若列眉。

我们举个例子:

发展电动车,就是为了取代燃油车,节省能源吗?当然不是。

电动车普及,自动驾驶才有可能普及;自动驾驶普及,大规模的机器人才可能普及;机器人普及,人类的生产制造、物流传递、家庭服务成本才会巨幅降低;这些成本全部降低,人类才有机会调动巨大的能量推动新一轮基础科学进步,从而加快可控核聚变技术、星际飞船技术,飞向下一个纪元。


同样道理:

发展数字人,只是为了在直播间多卖几件东西吗?当然不是。

数字人普及,人类体力和脑力的物理天花板才能打破;物理限制打破,一个生命就可以在躯体上随时分身,在脑力上同时成为三百六十行的专家;有了这样新的生命形态,才能在人与人之间插入无数新的协作者,让生产力突破天花板。

站在未来回望,你才能感受到,数字人平视人类的那一瞬间有多么可贵。



何晓冬告诉我,他想象中数字人的未来就像《红楼梦》中所描述的“太虚幻境”。

你闭一下眼睛,就像做梦一样穿越到一个虚幻的世界:

你只要意念一动,身边就能闪现出一个形象,和你交流,互动;交流完毕,他又瞬间消失。一切沟通都不受沉重的肉身所限制。

而且这些出现在你身边的人,就是专门为你的需求创生的,别人既不需要,也看不到。

这种体验,是我们依靠肉身永远无法创造出来的。

“人到不了的疆域,机器人可以抵达。”

何晓冬说。



我们离“太虚幻境”还远,但我们在向那里行进。

今年春天,东哥把自己也做成了数字人,这是一个极强的信号——京东在 AI 上 All in,不准备回头了。

市场敏锐地接收到这个信号,天平从微小的震颤到迅速倾斜,很多店铺和直播代运营机构开始用言犀数字人直播,不仅在京东平台上播,也在其他平台上播。

数字人主播的成本相当于人类主播的十分之一,甚至更少。省下来 90%,意味着商家可以大幅降价却依然维持利润。

京东用这种方式再次杀入了电商江湖的腹地。

今年 11.11 前,言犀老师傅们兴奋地告诉我,他们把数字人的语音模型进行了升级,说出的话更接近真人的语调。

而且他们还做了“双主播”技术,两个数字人可以在直播间里实现交流,虽然这种互动还很简单,但第一步已经迈出。

这是 2024 年 11.11 直播间的片段,你可以听一下声音,看一下动作。


实话说,在我这个轻度用户看来,这些进步都是微小的创新,好像并不意味着什么,但是从老师傅闪光的眼神里,我看到了他们眼中的汹涌未来。

历史总在押韵。

当年,何晓冬博士最初搞出 DSSM 时,业界的反应平平,甚至学术机构犹豫再三,让他把论文大幅改短才勉强同意发表。

但何晓冬本人并不纠结,因为他笃信时间会给予自己应有的奖赏,所以能静静等待,默默前行。

言犀的同事们告诉我,何晓冬反复说:技术人要有高目标,如果每天仅仅盯着眼前的问题就会陷入迷茫。

如果把自己的工作仅仅看作是怎么让数字人主播的销量再提高 1%, 难免会觉得疲惫。

如果把自己看作是一个在意义空间里冲杀的战士,赢得人工智能旷日持久的战争后,自己的名字会镌刻在人类文明的史诗中,你就会跨越搜索引擎、跨越 AI 客服,甚至跨越数字人,走向更远的地方。

在短剧《爱、死亡、机器人》中,有一集名为《齐马蓝》(Zima Blue)。

一个旷世的艺术家齐马,以远超常人的激情创造了无数震撼诗人的艺术作品。他深居简出,从不与人对话。

世人只知道,他为了更深地体会这个宇宙的真理,把自己的身体都改造成了机械。

从某一天开始,在他的画作中,出现越来越多的蓝色的方块。这个颜色精准而动人,人们想尽一切办法理解其中深意,但终无所得,只好称之为“齐马蓝”。



在完成最后一个作品前,他向一位记者袒露了真相:他是一个 AI。

在“他”还是“它”的时候,它只是一个清洗泳池的工作机器人。

但正是从这样专业且微小的工作开始,经过无数次进化,他成为了现在的自己。

而在画作中反复出现的蓝色方块,正是在水下看到的游泳池瓷砖。



被人歌颂的伟大顿悟,来自渺小而微的劳作;

渺小的劳作,穿越恒久的时间,成为被歌颂的伟大。

这种恒久的耐心或许并非 AI 专属,而是 AI、人类以及所有智慧生命所共同擎起的一把火炬。

在这个意义上,我们无比平等。



往期推荐:
👉辛顿的冬与春
👉抠门的京东,凭什么扛春晚?
👉京东云在荒岛上迎接黎明
👉当 AI 活成了你的样子,而你活成了狗
👉人类抖M计划:如何造出一个会反叛的机器人?
👉2023:当我们都活成了“大模型”
👉2022,我们在幽暗的谷底守护一朵花




理解自己

造出自己


再自我介绍一下吧。我叫史中,是一个倾心故事的科技记者。我的日常是和各路大神聊天。如果想和我做朋友,可以搜索微信:shizhongmax


哦对了,如果喜欢文章,请别吝惜你的“在看”“分享”。让有趣的灵魂有机会相遇,会是一件很美好的事情。


Thx with  in  Beijing


阅读原文

跳转微信打开