浅友们好~我是史中,我的日常生活是开撩五湖四海的科技大牛,我会尝试用各种姿势,把他们的无边脑洞和温情故事讲给你听。如果你想和我做朋友,不妨加微信(shizhongmax)。
2025-04-23 10:59:00
原创 史中 浅黑科技 2025-04-23 10:59 美国
AI 背后的硬汉,国产技术的狠活儿。
浅友们好~我是史中,我的日常生活是开撩五湖四海的科技大牛,我会尝试用各种姿势,把他们的无边脑洞和温情故事讲给你听。如果你想和我做朋友,不妨加微信(shizhongmax)。
AI 能陪你亲亲热热,
多亏了“存储硬汉”输出狠活儿!
文 | 史中
你有没有想过,这些国民级的 AI 应用凭啥能免费给你用?
现在咱人均都有四五个“在线卑微”的 AI 秘书。
她们化着淡妆站一排,从“霸王龙怎么搓澡”到“丧尸围城靠一根牙签如何突围”,无论多奇葩的问题,只要你问得出口,她们就必须捏着鼻子答。
而且,豆秘书(豆包)的答案不满意,你扭头就去找 D 秘书(DeepSeek),是一点儿情面都不看,比皇帝选妃还凶残,属实膨胀。
要知道,这些秘书们可都是免费的啊!一个个用爱发电、自带干粮住你家、 24 小时侍寝还被你挑三拣四。
可见 AI 这行有多卷。
当然,免费背后肯定是 AI 厂商在补贴嘛。但这里有个前提:成本不能离谱,太高谁也补不起呀!
AI 厂商的师傅们每天研究一件事儿——怎么高性价比地“开学校”!
教学质量要好:隔三差五把自家模型送学校回炉,争取学完之后色艺双绝,艳压群芳;
学费还得便宜:毕竟就算学出来是学贯中西博古通今的花魁,打工的收入还是辣么微薄。。。
从 2023 年开始,各家 AI 都狂暴地请来更好的名师(算法),研发新的教材(数据),盖更多的教室(GPU),使用更先进的教学管理制度(训练框架),争取让学生们学得又好又快又便宜。
忙活了一两年,赛博世界里一座座崭新的学校挺立,”教学性价比”嗷嗷提升。
够了吗?够了。。。又好像不够。。。
老师傅们不约而同地缓缓移动怀疑的目光。
他们发现,角落里不起眼的“图书馆”。。。仿佛似乎竟然。。。成了支撑 AI “性价比”的一根重要支柱!!!
此时从天空俯瞰,历史恰行至拐点,惊雷炸响,国产存储技术的命运齿轮开始缓缓转动。
我们开动时光机,去往 2023 年的北京西二旗。
那真是平静的日子,袁清波还有空研究“保温杯里应该泡哪种枸杞”。。。不光是他,整个曙光存储的技术团队都在“泡枸杞”。
澄清一下,不是老师傅集体躺平摸鱼,正相反,他们有点儿“独孤求败”的意思。
这帮师傅就是“图书馆”的施工队。
所谓图书馆,就是——企业级存储系统。
那时候,曙光存储系统主要服务于大型的国企央企。这些企业的数据固然很重要,但要求和图书馆类似:存下来,别丢,想要的时候能找出来。
至于一个数据是 0.1 秒找到,还是 0.0001 秒找到,同时能找 10 万条数据还是 100 万条数据,还真没啥极致的讲究。。。
再看袁清波,是中科院计算所的博士后,主攻系统架构,他的很多同事都是中科院师兄弟,放眼全中国这是妥妥的明星阵容。虽说要正心诚意地开发每一代产品,但这个团队多少有点儿“性能过剩”的意思。
袁清波
灵明石猴栖身花果山,可不是为了量贩吃桃,而是有朝一日成为“天命人”。
这不,2024 年春节刚过,分布式存储产品 ParaStor 的产品经理乔雅楠就找到了袁清波,上来一顿虎狼之词:
“下一代分布式存储产品,能不能把带宽做到 190G 每秒,把 IOPS 做到 500 万?”
先按下暂停键,科普一下。
这句话的意思是说:
1)每秒钟传输的数据量是 190GB,这相当于 38000 张照片。这么说吧,你微信里所有朋友一年的自拍,都能在一秒钟内帮你存好!
2)每秒钟存取的动作能做 500 万次,相当于天南海北的 500 万人同时给你小红书点赞,能在一秒之内一个不差地帮你记录清楚!
不夸张地说,曙光是中国存储产品的扛把子,性能本来就是“姚明级”的。但下一代产品的要求却要比现在翻两番,妥妥是让姚明穿着增高鞋踩高跷蹦起来扣篮。。。
这么强悍的性能,是准备存啥??
咱们继续按下播放键。
袁清波听到这话,并不惊诧,而是 45 度仰天长叹,一副“该来的总算来了”的神情。。。
虽是久居山林的扫地僧,但技术师傅早有耳闻,曙光存储正在和很多头部 AI 厂商勾兑,要帮他们的“AI 学校”建“图书馆”。
这里,话头就和最开始接上了:训练个 AI,到底跟图书馆有啥关系嘞?
不妨跟着中哥钻进一座 AI 学校,咱们实地观摩下目前人类最牛的“万亿参数大语言模型”是肿么训练的!
我们先来到教学楼,这里热火朝天,有 1 万间教室,每个教室里都能坐下 1 亿个葫芦娃,他们在一本一本地飞速看书。
每个葫芦娃其实就是 AI 大脑的一个神经元。他们看的书,就是训练语料。
每看一本书,他们都会刷新一次自己对世界的认识,然后改一下手里的参数。
当所有的教材都看完之后,每个葫芦娃手里的最终参数也固定了下来,一万亿个参数汇合在一起,就组成了一个水灵灵的 AI 大秘书!
喂养这么一个怪兽级的模型,大概需要消耗 10PB 的语料。这是多少呢?
换成纸质书有 220 亿本,一本一本竖着放,也能绕地球赤道一圈。比香飘飘还狠。
一万亿个葫芦娃同时看书,场面如风卷残云:
可能这一秒要从图书馆调拨 500 万册语文书;下一秒钟就调拨 500 万册英语书。。。
这时候,压力给到了图书馆,如果供不上这么大的量,那学校只能停课干等,不就浪费了教学资源吗?!
所以,要想支持世界最强 AI 的训练,500 万 IOPS(也就是每秒 500 万次读写)的能力还真就是必须的↓↓↓
即便如此,还远远不够。
AI 学校并不真实,而是在赛博世界里构建的,每间教室其实就是一张显卡。这一万张显卡同时进行巨量又细密的计算,难免会出现 Bug。
这就好像:一万间教室突然有一个停电了,葫芦娃同学一慌,把之前看的书给忘了。。。
这一忘不要紧。因为最终的 AI 秘书由每一个葫芦娃手里的参数所共同支撑,有一个教室的学生学岔劈了,所有教室的学生都得重头再来。
没错,是倒回到新学期第一天,从第一本书开始。。。
就像下图↓↓↓
不用怀疑,现在人类的技术就是这么水。
为了让 AI 好歹能训练完,老师傅摸索出了一个并不优雅的办法:
每隔一段时间,就让所有葫芦娃暂停下,把手里的参数统一抄在本本上,作为一个“检查点”放在图书馆备着。
万一后面哪个教室掉链子,就全体滚回到最近的“检查点”开始,总比从头来要好!
就像酱↓↓↓
这里,压力又给到了图书馆!
检查点包括万亿参数,是一个巨巨巨巨大的文件,最大能到 5TB,相当于 3 套《四库全书》。
图书馆存这么多书,可得要点儿时间呢。。。关键是,如果完成这个存档需要 1 小时,那么下一个存档最早也要 1 小时之后才能开始。
这中间万一学校那边出错了,就相当于一个小时都白学了。一退就退一个钟头,这不又浪费了教学资源吗?!
也许有人觉得,一个小时还好吧。
给你算算,万卡集群的成本是几亿美元,核算折旧,加上电费、人力,每回滚一秒就是上百美元的损失,回滚两分钟就是近万美元的损失,回滚一个小时几十万美元就没了。。。
几十万美元用来买泡面,得吃几辈子呀?!
如果图书馆(存储系统)每秒能存储 190GB,那情况就完全不同了——存完一个 5TB 的检查点只需要 26.32 秒。
这意味着,每分钟都可以存一次档!存两次都行!
这就相当于开挂了呀↓↓↓
OK,科普结束,跳回现实。
乔雅楠粗略算了一下,如果达到每秒 190GB 吞吐能力,500 万 IOPS,对于 AI 厂商来说,每投入 1 快钱在这样的存储上,就能得到 10 快钱的收益。这种“一本十利”的买卖,谁能拒绝呢?
这笔账算完,技术团队的命数就定了——搞得出来要搞,搞不出来也得搞!
此时,镜头缓缓转向对面的袁清波。背景音乐的鼓点儿已经由远及近,保温杯里震起涟漪。。。
生活不止眼前的枸杞,曙光存储团队的师傅们已不再是花果山散仙,而是拯救人工智能于水火的“天命人”。
Mission Accepted!
话说,曙光存储老师傅之所以敢接这么凶残的任务,还有个朴素的原因:当时某顶尖美国存储厂商已经放出风来,他们的下一代产品可以达到 190G 带宽。
呵,都是一个鼻子两个眼,美国人能做出来,中国人做不出来??
原地鼓捣了俩礼拜,技术团队已经非常有信心了:
基于现有的服务器硬件,每秒要吞下 190G,只有一个办法,让电流传输超过光速~~
所以,做不出来。
今天的浅黑故事就到这里,再见。
等等。。。刚才好像有个限定条件:“基于现有的服务器硬件”。
“如果咱自己从头设计一套‘存储专用服务器’,有没有戏呢?”
袁清波被自己的想法吓了一跳。
他们可是软件工程师啊!过去对图书馆做升级,从来都是在既有的房间里改“软装”,现在竟然要把“图书馆本身”推倒重盖,这也太膨胀了。
但老师傅冷静一想,几乎可以肯定:美国同行如果没有推翻相对论,也必须得重新设计服务器。。。至于他们咋设计的,咱也不知道,咱也没法问。。。
然而,既然做了中国存储行业的扛把子,摸石头过河不就是曙光的“天命”吗?!
估计你已经好奇图书馆里是啥样子了。
咱们这就钻进去,和老师傅们一起设计设计。
先介绍主要人物:
书:数据
书架:硬盘
图书管理员:CPU
管理员的桌子:内存
借书还书的窗口:网卡
咱们一步一步来。先讲讲过去“旧图书馆”的样子:
简单说,通用服务器的设计目标不是“图书管理”,而是“算数”。
所以,这里的 CPU 不应叫图书管理员,更应该叫算数员。
只要有题目从窗口进来,算数员就算,算好后返回给窗口。
大多中间步骤数据用完就扔了。只有重要的结果才会归档,所以书架放在旁边即可。
(这里的金色地毯代表硬件通路,数据只能从这里走。)
但是,如果用这个布局直接做图书馆,就有一点儿别扭了。
因为图书馆的管理员没有那么花哨的计算,主要职能就是“搬运”——把从窗口送进来的书籍放到书架上,以及把书架上的书籍送到窗口。
搬运,讲究个丝滑。
大家经常争抢线路,就不好了。
于是咱可以把布局微调,把图书管理员的桌子做大一些,让书架和桌子之间的路宽一些。
这样想要什么书,管理员放在桌子上“滴”一下,就直接送到窗口了。
除了基础布局,额外的通路设计也很有讲究。
袁清波给我举了个例子:
图书馆里其实有两组管理员(两颗 CPU),每组管理员都有距离自己较近的窗口(网卡)、桌子(内存)和书架(硬盘)。
假设:一个找书的需求从窗口 A 进来,可它要找的那本书离 B 组 4 号管理员更近。
那么,B 组 4 号管理员就得先从架子上把书拿下来,放在自己面前的桌子上,A 组再过来一个管理员,绕到 B 桌,把东西拿回来 A 桌,再从 A 窗口送出去。
这会导致一个问题:这本书会有相当一段时间滞留在桌上。
要是只有一本也就罢了。在每秒几百万次的请求中,如果很多书滞留在桌面,就会让桌面空间吃紧。
它们像管道里的淤泥一样,影响整个图书馆的周转速度。
估计你也想到了办法:
如果想办法在这里加几条通道,让 A 桌管理员能更方便地拿到 B 做的东西,不就能大大减少桌面面积(内存)被占用的时间了吗?
以上只是为了画小人方便,把情况进行了极端简化,真实的解决方案并非如此显而易见。
但相信你已经有了感觉:硬件布局和通路设计,这两件事儿对整个存储系统的*性能上限*影响巨大。
OK,我们继续回到技术师傅身边。
他们仰头,前面出现三座大山:
第一座,把这个服务器给设计出来;
第二座:说服领导同意用“专用存储服务器”开发下一代存储产品;
第三座:说服工程技术中心把这服务器给造出来。
先搞“第一座山”。
设计硬件,好像就是在纸上画画图,但实际远非这么轻松愉快。一颗 CPU 或者一条内存在某种情况下的具体性能,是很难估算准确的。
要想确切了解,只有把硬件拿来实地测试。
袁清波他们开始搭建环境,一点点儿调整图书馆里“桌椅板凳”的位置和远近。通过观察性能变化,罗列出所有瓶颈,再从所有瓶颈里寻找最“卡脖子”的部分依次解决。
这种微调,很像玩儿华容道,在方寸里里左挪一下右挪一下,每挪一下都牵连到最终结局。
越做实验,袁清波他们就对硬件的脾气越清楚;越清楚,信心就越足。
这些信心在翻越“第二座山”的时候派上了大用。
团队在肝设计方案
老师傅私下憋了很久才敢和领导提出“把图书馆推倒重盖”。
听到这个“非分请求”,领导提出疑问:“新搞一套服务器肯定要成本,团队努努力,还用标准服务器克服一下有没有可能?”
“绝不可能!”袁清波拍案而起。
噗地一声,他从怀里掏出电脑,把最近几个月做的各种实验数据一一列举,跟打辩论一样,摆出了十来条“旧硬件存在物理极限”的证据。
领导还没来得及反应,他又话锋一转:“再说,咱也不是没这个实力!”敲下键盘,肝了几个月搞出来的新服务器设计图出现在屏幕上。
釜底抽薪+贴脸杀,领导好像没有不答应的道理。。。
拿到了金牌令箭,接下来就要挖“第三座山”——找工程技术部商量生产问题。
这是“外交大使”乔雅楠的任务。
工程技术部的同事听明来意,其实有点儿错愕,设计硬件,不是我们的活儿吗?你们咋给干了?
本来愉快地答应就行,但他们发现一些小问题:
存储团队设计的硬件,有很多附加的逻辑和通路,这会提高硬件的制造成本呀!
这些额外的连线,真的有必要吗?
乔雅楠赶紧把测试软件拿来,逐一现场演示这些附加的线路都是干啥用的。工程技术部的师傅们点了点头,随即又摇了摇头:“应该还有性价比更高的设计方法吧?”
他们说得有道理,但现实情况是门外的 AI 客户已经嗷嗷待哺,来不及了呀!!存储团队干脆一拍胸脯:“先这么生产,多出来的成本,我们包了!”
就这样,第三座大山终于被推为平地。
新的服务器拿去量产时,已经到了 2024 年秋天。190G/s 带宽终于稳了,老师傅回头一看,这边还剩一位爷——500 万 IOPS!
乔雅楠
我猜还有浅友没搞清带宽和 IOPS 的区别。
这里再用图书馆打个比方:
IOPS,指的是图书馆每秒借出去的书有“多少本”;
带宽,是指图书馆每秒钟借出去书的总厚度有“多少页”。
有啥区别呢?
假设图书馆每秒借出的书摞在一起是 1900 万页。
如果大多数书都很厚, 每本书有 1900 页,那 1900 万页总共也就 1 万本。把这些书借出去,管理员们每秒只需要“滴” 1 万次。这对于光速工作的 CPU 来说压力不大。
但同样总共 1900 万页,如果每本书只有 5 页,那每秒钟管理员就得“滴” 400 多万次,工作量瞬间多400倍,比在产线上打螺丝还累了!
肿么办?
一个所有人都能想到的办法就是:加管理员(CPU)呗。。。
但袁清波的“加”字还没说出口,就被乔雅楠的 PUA 给打断了:“我对你们这群大神有信心,现有资源肯定能撑住 500 万!”
袁清波点点头:“嗯,我也对自己有信心!”
咱们继续钻进图书馆里,看老师傅要怎么搞 IOPS。
话说,在图书馆(服务器)里拢共有 256 个管理员(CPU 核心)。这些管理员如果被充分调度,干到 500 万 IOPS 是绰绰有余的。
但问题恰恰是:图书馆的日常工作中,调度并不充分!“等待”和“绕路”是常态。
举两个🌰:
1)同一时刻,1 号管理员要找 A 书,2 号管理员要找 B 书。可恰巧 A、B 两本书在书架上挨得很近。
为了防止两个管理员打架,图书馆就得有规章:一个管理员站在书架前面操作,另一个必须站在一边等。
2)明明要找的书在 1 号书架上,可是系统随机指派了距离 1 号书架比较远的 4 号管理员去取。
4 号就得“跳”过好几个管理员的位置去拿书。路线一绕,耗时当然就长。
从微观来看,这些操作真的只多了一丢丢时间,但几百万个一丢丢叠加起来,浪费就相当明显。
要解决这些浪费,就必须到最微观的细节里动手术。
技术老师傅开动脑筋,琢磨黑科技:
一个黑科技叫“各管一摊”。
比如,1 号管理员,只允许操作 1 号书架,也只允许坐在桌子的”1 号区域”,不能乱跑;2 号管理员只能操作 2 号书架, 只能坐在桌子的“2 号区域”;以此类推。
老师傅把每个独立的区域称为“IO 域”。
这样一来,管理员等待的问题就消失了——一个书架就我一个人负责,哪还会有人跟我抢?
还有个黑科技叫“接力赛跑”。
简单来说,就是几个管理员可以共同完成一个借书任务。
例如:1 号管理员站在窗口,只负责接任务;它把任务推给最靠近这本书的 4 号管理员,后者负责把书找回来;如果 4 号管理员比较忙,他就会委托离自己最近同时也有闲的 3 号管理员把书送回到窗口。
就像下图所示↓↓↓
实际上,“调度”是整个存储系统中最硬核的部分:
每一个 IO,可能有四五个管理员负责接力。一旦系统指派的管理员之间的距离很远,或者走的路线很别扭,最后肯定还不如一个管理员全干下来快呢!
每一次调度,都像是在 0 和 1 的世界里做微雕。策略用不对,就像刻刀抖了一下,满盘皆输。
但我之前介绍过,曙光存储的师傅搞操作系统可是纯纯童子功,人均”微雕大师“。
十年饮冰,终于等到一朝喷火,此时不干,更待何时?他们撸胳膊挽袖子,各种眼花缭乱的调度策略都往上招呼!
这时,袁清波突然庆幸去年“把图书馆推倒重盖”的选择是多么正确——很多调度策略必须通过特定的通路才能实现,要不是坚持做了专用服务器,这些骚操作有一多半儿都玩不出来。。。
你看,真正的高手,每一招都不是独立的,而是承接前手,招招相连,不是加法是乘法。(战术后仰)
一次次测试中,500万 IOPS 的目标逐渐逼近。
就在老师傅紧锣密鼓地在 0 和 1 的世界里雕花的时候,门外突然杀来几个神秘壮汉。
开门一看,这。。。可是曙光存储期待已久的贵客。
敲响大门的,是几家头部的云计算厂商。
按理说,计算和存储本是榫卯不离的好基友。但实际情况是,在过去几年云计算蓬勃发展的历史里,它和企业级存储却并没有很榫卯的合作。
原因也简单:云计算厂商自己也有”云存储”产品,云存储玩的是一个“容量巨大,价格低廉、兼容各种硬件”。
但有得必有失:既然选择了性价比和兼容性,极限性能就会受限。
好在过去几年,大多云上用户并没有对存储有特别凶残的需求,云存储游刃有余。
但 AI 时代的朝霞突然降临,“云上图书馆”支撑高级的 AI 学校开始吃力。
AI 客户拍拍钱包:兄嘚,还有没有更高性能的存储产品?多少钱,我买!
这么一来,云厂商就得主动去市场上寻找更专业的存储系统,于是敲响了曙光存储的山门,请大佬出山!
表面上刘备三顾茅庐,其实孔明也同样需要刘备。。。
因为存储系统自己孤芳自赏是不够的,它要知道自己的上家——计算系统——需要什么姿势!
云计算是前沿计算的“主战场”。武器只有开进主战场,才会面对最复杂的战情,才能看到最真实的需求,才能成为更强的武器!
主战场的战况很复杂。
咱就说一个角度:“CPU 和 GPU 的暗战”。
话说,在过去的几十年里,CPU 都是赛博世界的王,所有的资源都是围绕它来设置的。
比如:内存是 CPU 的小弟,CPU 手里抓不下的数据,就放在内存上。网卡也是 CPU 的小弟,它接到的数据都得由 CPU 先临幸一下,再进一步分配。
但 AI 崛起后,GPU 这个“新王”苏醒。
计算的重担虽移到了 GPU 身上,可数据通路却仍由 CPU 霸占。
GPU 查看内存里的数据,需要 CPU 点头;
GPU 要用硬盘里的数据,不仅要 CPU 点头,还得从内存里涮一水,才能进自己的显存。
关键是,你 CPU 和内存的速度都不如我快呀。。。
“新王”不开心,思考各种办法绕开 CPU。
英伟达研发出了一个名叫 GDS 的协议——GPU 能直接把数据从存储系统拉到自己的显存里。这样就能和 CPU 说白拜,数据传输大大加快。
当然,前提是存储系统也得支持这个 GDS 协议。
曙光存储也支持 GDS 就行了呗?
行,但不够。
因为你懂的原因,中国的 AI 训练早已不止用英伟达 GPU,越来越多国产 GPU 在奔赴战场。
曙光存储索性一波带走,支持市面上所有的 GPU 直读协议,起名叫做 XDS。
即使绕过 CPU 和存储系统直接沟通,新王 GPU 还嫌不够快。
毕竟 GPU 和存储系统中间还有一根网线相连,这里网络的速度也可能限制 GPU 发挥实力。
能不能把这根网线也去掉?
当然那根实际的网线没办法去掉,但是有些黑科技可以让网线“变粗”。
曙光老师傅从超算中借鉴了一个技术——Burst Buffer。
简单来说就是,在网络不太忙的时候,把将来可能用到的数据先从存储系统倒腾到 GPU 所在服务器的本地硬盘里。
这样,接下来的事情就都发生在 GPU 的机箱内部,就没网线什么事儿了,速度超快。
注意,Burst Buffer 只是存储系统在计算系统里的飞地,本质上还属于存储系统的一部分。
这意味着,老师傅的责任变多了。。。不仅要让数据能够稳定转移到这些飞地上,还要保证这些数据能实时同步,不出现错漏。。。
以上种种,其实都可以称为“AI 加速技术”,属于存储系统的“高阶技能”。
说到这些高阶技能,乔雅楠很感慨。
她带曙光分布式存储产品已经7年了,就在2023年以前,她一度觉得存储系统变成了“价格的厮杀”:
当时即便我们做了高阶功能,远程复制,各种克隆快照,业务用的也不多。
说到底,存储系统再厉害,业务发挥不出来,就无法感受到存储真正的价值。
但这一切都在 2023年反转。
AI 全民化时代的降临,让存储性能成了关乎生死的“大杀器”;
云计算,又让存储的各种高阶功能真正成了刚需。
在我探访的时候,有一个明显的感觉:团队师傅虽然比过去几年忙了十倍,但大伙儿心里有种说不出的美滋滋。那是一种“被需要”的幸福。
在时光中漫长等待,他们不再是谁的附属。
存储有了自己的主战场!
就在 2025 年 3 月,曙光骄傲地推出了最新一代分布式存储产品 ParaStor F9000,不仅达到了190GB/s 带宽和 500万 IOPS 这两个核心性能,还带着 XDS、BurstBuffer 和各种 AI 加速特性。
它看上去只是一个性冷淡的“大方盒”,但当你了解了这些细密电路中缠绕的点滴故事,也许会从嘶嘶电流的吟唱中,听到“天命人”对自己的回答。
ParaStor F9000
2025 年,DeepSeek 横空出世,给曙光存储的师傅带来一个好消息和一个坏消息。
好消息是:“AI 秘书”的成本有望大幅下降,长期看对存储的需求更旺盛;
坏消息是:AI 对存储的要求也在剧烈变化,存储产品稍不留神就会掉队。
但无论科技树的枝丫怎么生长,它的根基永远不会变。
我们不妨从生命的角度来理解数据。
AI 的灵魂是从数据的母体中浮现的。这意味着,要想孕育一个强大的 AI 生命,数据本身的生命周期要更长、更宽广。
这就引出了存储在时间线上的左右延展:
在训练 AI 之前,要满足数据的收集和清洗。
在训练 AI 之后,要满足数据的归档和冷却。
先说 AI 训练之前。
乔雅楠告诉我,数据存储有很多种格式。
在数据收集阶段,会大量提取互联网上的数据,它们以“对象”的形式存储;但这些数据却不能直接训练 AI,AI 用到的课本以“文件”的形式存储更合适。
所以,存储系统就必须具备一个能力:
同一套数据,能用对象的格式读写,也能用文件的格式读写。
老师傅于是做了一个“翻译官”,底层使用文件存储,当你要用对象的格式提取时,翻译官就把“文件”翻译成“对象”。
但袁清波并不满意,因为翻译不够优雅,也存在资源损耗。
最近他们在想办法踢掉翻译官,让存储系统自己学会”双语“:你用对象格式请求,它就给你对象数据,你用文件格式请求,它就给你文件数据。
再说 AI 训练之后。
好不容易收集的数据,训练之后肯定不能丢,应该存起来,以备将来再次训练或者不时之需。
于是,怎样让数据以最低成本沉睡归档,就成了一个问题。
目前存储的介质主要分为两种:“成本高但速度快的闪存”和“成本低但速度慢的机械硬盘”。
在训练的时候,当然必须放到闪存介质中;但在训练之后,再霸占闪存里就有点儿浪费了。
乔雅楠告诉我,为这事儿曙光存储专门搞了一个 S6000 “分层存储”混闪产品,里面有一小部分闪存盘,一大部分机械盘。
在训练时,会自动把数据推到闪存中,训练完毕,又会自动落回到机械硬盘中。
他们称之为“冷热数据分层技术”。
由于冷热数据是由系统自动挪移的,所以只要在合理的负载范围内使用,你会发现 S6000 的性能会和纯闪设备一样,但存储成本却比纯闪设备低很多。
ParaStor S6000
这种自由游动的感觉,昭示了存储系统的未来:
也许某一天,只用一套存储系统就可以承载“AI 秘书的一生”:
无论在训练之前、训练之中、训练之后,AI 师傅都只需要关心自己的学校。完全不用操心图书馆这边的吞吐带宽、读取速率、存储成本、数据格式等等乱七八糟的事情。。。
数据有了生命,它会自己寻找道路。
告别前,袁清波悄悄告诉我,他已经领到了新任务——在下一代存储产品上让性能继续暴涨。为此,老师傅不止定制了新服务器,还定制了 CPU。
CPU 是说定制就定制的吗?
没错,因为它是国产的。
多说一句,由于美国实体清单的制裁,曙光从 2019 年以来就已经无法使用美国的关键技术了,所以今天讲述的曙光产品全部是基于国产芯片研发的。
无独有偶,中国存储行业的另一个巨头华为也享受了同样的待遇。
这意味,整个中国高端存储行业必须在国产技术栈之上生根发芽,而且已经枝蔓粗壮。
回望来路,技术老师傅从没有能力左右世界局势,也没有能力解决政治纷争。他们能做的,只是在漫长的冬季守护花朵,期待它们在春天绽放。
而所谓天命人,也无非是让汹涌的扼杀之刃穿过身体,化作滂沱的成全之雨。
方寸腾挪
再自我介绍一下吧。我叫史中,是一个倾心故事的科技记者。我的日常是和各路大神聊天。如果想和我做朋友,可以搜索微信:shizhongmax。
哦对了,如果喜欢文章,请别吝惜你的“在看”或“分享”。让有趣的灵魂有机会相遇,会是一件很美好的事情。
Thx with in Beijing
2025-03-21 11:08:00
原创 史中 浅黑科技 2025-03-21 11:08 北京
有人把数据化成歌,有人把它存在山河。
浅友们好~我是史中,我的日常生活是开撩五湖四海的科技大牛,我会尝试用各种姿势,把他们的无边脑洞和温情故事讲给你听。如果你想和我做朋友,不妨加微信(shizhongmax)。
银行数据库的存储系统如果出现 1 秒故障,就会有 2000 笔跨行转账无法被记录,需要手动对账; 电信计费的存储系统如果出现 1 秒故障 ,就会造成 1000 个用户流量超标时无法及时提醒,导致资费损失; 证券报价数据库存储系统卡顿 1 毫秒,在上面购买沪深 300 基金的用户损失就是 78 万元。
所谓“全闪”,就是承载数据的硬盘不能是普通的 HDD 硬盘,而要使用更快速的 SSD,也就是我们说的闪存盘; 所谓“集中式”,就是不使用零散的服务器,而是定制一套机柜,里面的板卡和芯片都是专门设计的,把闪存盘放在一起“军事化管理”,从而让系统达到极限性能。
1)你的老板一下给了你 100 条指令,要你从仓库里找出这 100 件东西,越快越好。 2)你拿出 1 号指令,对一个货架说:你去给我拿这个 A 货物。 3)货架收到指令开始寻找,由于机械臂速度有限,可能得半小时才能找到。
1)你布置完一个任务,马上去布置下一个任务。 2)直到哪个货架找到了,就来“钉”你一下。 3)被“钉”后,你暂停布置任务,把这个 A 货物拿给客户。 4)然后你再回来继续布置任务,直到下一个 B 货物被找到。 以此类推。。。
1)你给第一个货架布置完任务,让它去找 A 货物,然后你跑去给第二个货架布置任务。 2)结果你第二个任务刚布置一半,就听“钉”的一声——第一个货架已经把东西送来了。 3)你只好先把 A 货物送走,回来继续布置任务。但这么一折腾,你已经忘了刚才说到哪了,还得回忆半天。
货架:硬盘 箱子:数据 管理员:CPU 管理员的小本本:内存 快递站:网卡 仓库的老板:操作系统
1)一个一个来,等货架把这个箱子放好了,再去取下一个箱子。 2)穿插着来,货架正在摆放这个箱子的过程中,他就直接回到快递站取下一个箱子。
我们将会把结果发布在 SPC 的网站上,并且给所有邮件列表上的成员发送通知。 我还会在首页上添加一个通知;并非每一天都有人能刷新 SPC-1 纪录。
现在的信息流通非常自由,全世界的技术人正在同一片土地上耕作,过去那样的严密封锁再也不会出现了。 冲击最高点不是不可能,只是以前没敢想。
有人把数据化成歌
再自我介绍一下吧。我叫史中,是一个倾心故事的科技记者。我的日常是和各路大神聊天。如果想和我做朋友,可以搜索微信:shizhongmax。
哦对了,如果喜欢文章,请别吝惜你的“在看”或“分享”。让有趣的灵魂有机会相遇,会是一件很美好的事情。
Thx with in Beijing
2025-03-20 11:04:00
原创 史中 浅黑科技 2025-03-20 11:04 北京
一群师傅正在把大模型做成机甲战士。
浅友们好~我是史中,我的日常生活是开撩五湖四海的科技大牛,我会尝试用各种姿势,把他们的无边脑洞和温情故事讲给你听。如果你想和我做朋友,不妨加微信(shizhongmax)。
设计师得懂得视觉语言,理解空间规划; 文学编辑得理解语义空间,懂得搜索和引用信息; 工程师得有严谨的决策和推理能力。
因为现在的 AI 训练方法的基础是统计学,所以 AI 对世界的理解也是“统计性理解”,而非“本质性理解”。
这种玩意儿大概率是矮圆柱形,滑滑腻腻的,插着一些可燃物。
在里面是一坨软软的带有空洞的物质,外面才是滑滑腻腻的材料。
1、学生不是想学啥就能学,而是只有本体的某种性质展现出了统计上的特征,才能被学生注意到,才能被学会。 2、随着描述本体的数据不断增加,可能会有新的特征凸显出来,学生学到的特征越多,表现就越接近本体。
你在丛林里遇到一个长条形的东西,形势容不得你花时间分析它到底是啥。快思考会在第一时间输出“危险”这个信号,给你的指令就一个字——跑! 等你跑开了一段安全距离,慢思考才跟上来。你可以详细观察这个东西的纹理、动作,然后综合判断它到底是蛇还是翔,以决定接下来的计划。
1、每类任务都交给一个特定的“专家脑区”,平时把这个脑区外挂在大模型底座上训练; 2、每次训练的过程中,把底座大模型的参数锁死,只改动“外挂脑区”的参数; 3、训练好 A 专家脑区,就把 A 从底座上拔下来,再插上 B 脑区,训练 B 任务。
一来,可能误伤好人,次数多了人家会投诉你,保安就得下岗; 二来,坏蛋痛定思痛,下次乔装打扮得更好,你可能又给放进去了,保安还是得下岗!
第一级:类似于 GPT-4o 这样用直觉输出答案,是“快思考”; 第二级:类似于 DeepSeek 和 GPT-o1 这样有向内看能力的思维链,可以叫“深度思考”; 第三级:在反思型思维链的基础上,还能主动吸收外部信息,一边向外看一边想,才是更完整的“慢思考”。
1、精确的通识。比如:网络安全行业处理黑客攻击的《最佳流程手册》。 2、专有的数据。比如:L 黑客组织,360 公司历年捕获到的它曾用过的攻击手法。 3、实时的事态。比如:W 系统最新爆出的漏洞详情代码。 4、工具的输出结果。比如:利用扫描工具检查网域内的设备后,绘制的网络地图。
我们应该如何看待人工智能在当代国际竞争中的作用?哪些国家在这一领域拥有领先的优势?
在思考中添加外脑的信息,并不一定总是会让思考结果更好。 原因很简单,如果汇入的支流里面有泥沙,就会让本来一条清澈的河流变得浑浊。
在网络安全领域,对思维链的聚焦度要求比较高,就可以决定只在关键节点汇入支流,汇入的水流也少而精确; 而在其他领域,比如辅助写作,完全可以更多地汇入信息,每次加入丰富的数据,让结果变得更加发散,更有趣味。
有些任务大模型能干,小模型也能干,但小模型的性价比更高; 有些任务小模型确实干不了,但人干更便宜,性价比仍然比大模型高。
人有多骚
再自我介绍一下吧。我叫史中,是一个倾心故事的科技记者。我的日常是和各路大神聊天。如果想和我做朋友,可以搜索微信:shizhongmax。
哦对了,如果喜欢文章,请别吝惜你的“在看”或“分享”。让有趣的灵魂有机会相遇,会是一件很美好的事情。
Thx with in Beijing
2025-02-12 11:03:00
原创 史中 浅黑科技 2025-02-12 11:03 北京
宇宙中所有的智能,都共享同一张“设计图纸”。
AI 的“终极设计图”是什么样子?
文|史中
能源的化学能转化成了动能,汽车就能走。
发动机的四个冲程让燃料燃烧,推动了传动杆,传动杆又连通了底盘和车轮,车轮转动,与地面摩擦,汽车向前。
分子层面的化学反应,刚体物理的诸多性质。
汽车的微观层面就是一堆原子。。。它们在遵循特定的规则震动。无数震动效果的总和就是汽车向前移动。
1、微观粒子遵循基本规律; 2、宏观世界是微观粒子的直接累积,无法被简化。
首先,我们的大脑真的不擅长算数,两位数都容易算错,而计算机最擅长的就是算数。 其次,大脑如果真的是计算机,一定会经常死机,但大脑从不死机。
这就是一种规则集(包含 27 条规则)。
1、我们的宇宙充满了逻辑碎片。 2、简单的逻辑碎片通过排列组合,可以成为拥有特定功能的工具。 3、用逻辑碎片组合出特定工具的方法并不需要多高的智慧,仅仅通过“突变”+“筛选”就可以。
1、它是自然的产物:没有经过人类设计,是通过演化得来的,基本结构和我们的大脑更接近。 2、它的性价比极高:哪怕它得到的结果不太准确,但运行时耗费的计算力非常非常小。
第 0 排带红圈的点位就是噪音; 下面所有带红圈的点位就是噪音产生的扰动,也就是相对于没有噪音的区别。
白色横条,意味着输出和原本的一致。没有受到噪音影响。 粉色的横条,意味着输出和原本不一致了。受到了噪音影响。
“智能”的微观结构,到底是什么?
在细腰部分传递的信息,其实就是数据的压缩版本; 腰部以上,是压缩过程; 腰部以下,是解压过程。
1、我们永远有机会做出更好的人工智能; 2、我们永远无法抵达人工智能的“极限”。
人类,作为一个智能体,永远无法理解宇宙的所有真相。 AI,作为一个人造的智能体,同样永远无法理解宇宙的所有真相。
再自我介绍一下吧。我叫史中,是一个倾心故事的科技记者。我的日常是和各路大神聊天。如果想和我做朋友,可以搜索微信:shizhongmax。
哦对了,如果喜欢文章,请别吝惜你的“在看”或“分享”。让有趣的灵魂有机会相遇,会是一件很美好的事情。
Thx with in Beijing
2025-01-02 15:43:00
原创 史中 浅黑科技 2025-01-02 15:43 北京
21 世纪,终于来了。
战车的骨架就是 X 平台。 战车顶上,特朗普和马斯克各自抱着吉他,背靠巨大音响,弹奏出洗脑的迷因。 战车之下,全球服务器供养着不眠不休不可篡改的区块链车轮,向前狂奔。
硅谷输出技术; 中国沿海输出产能; 华尔街协调利益; 军工复合体保证没人轻易掀桌子。
源自于二战的计算机技术积累开始集中释放,“0 和 1”渗入产线,生产力左脚踩右脚梯云纵,人类经历了强制暴富的 20 年。
1、想象一个牧羊人,手执皮鞭,脑子里计算着各种数据; 2、只要大多数羊群“按规矩行事”——躲避皮鞭,钻向有更多羊的安全地带,“牧羊游戏”就能继续。 3、概率模型越简单,执鞭者的收益就越确定——不怕有羊不听话,只要能预测多少羊不听话,他就知道这一鞭子该怎么挥。
全球化,让商品价格稳步下降,羔羊们虽然相对境遇不佳,但却不必为绝对意义上的温饱发愁,对他人的依附达到了史上最小值。 互联网,透过小小的屏幕,在一个个羔羊之间搭建了前所未有的平等而细密的连接。
第一,他们人均有一个地球上最精密的设备——大脑,连接成了这个星球上最大的“想象力水池”; 第二、他们中有大神。建制派不收留“鸡鸣狗盗”之徒,很多能人异士都散落在羊群中; 第三,他们总体上有大量的资源,包括时间、精力、金钱、思考力和行动力。
电脑上用的廉价电池,能不能串起来驱动汽车? 不锈钢板用铆钉钉起来,能不能做成火箭外壳? 一个印着狗头的区块链上的字符,能不能成为一般等价物?
首先,模型训练的基本原理是“无监督”。 人类即便知道很多道理,也不把预设告诉 AI,只把海量的素材扔给它,让 AI 在混乱中用自己的方案参悟奥妙。 其次,ChatGPT 的训练模式是给他一些句子,让它预测下一个字的概率。 只凭预测下一个字就能拥有智能?这听上去完全不可行,OpenAI 这群人同样没有预设,花了几百万美元训练出来看看,竟然他喵的可行!
比如 Airbnb 最初就是想用客厅闲置的气垫床赚顿饭钱, 比如 Unix 操作系统最开始就是为了玩一个游戏, 比如 DOGE 的诞生就是为了嘲讽比特币。
通向一个遥远的目标,唯一可行的方法就是“胡逼试”。 让事情尽可能在各种方向上发生,能碰到“好结局”的概率就会大。 而如何让羔羊们甘心在各种方向上积极尝试呢?调动他们内心的 Passion。 如何调动 Passion 呢?依靠迷因恐怕是目之所及最好的答案。
相比特朗普本人,他更支持特朗普背后抽象的意识形态——反建制、彻底推翻重构的“特朗普主义”。
技术自由主义、民粹主义与特朗普主义相杂糅。
羔羊们冲向华尔街败军时,可以提剑追随,也可以暂且观望; 暴论在羊群中流传的时候,可以怒发冲冠,也可以仔细甄别。
或许,每一代人都自负能重构这个世界,而我们这一代人却明白这是痴人说梦。但我们的使命也许更伟大,那就是要防止这个世界分崩离析。
21 世纪
再自我介绍一下吧。我叫史中,是一个倾心故事的科技记者。我的日常是和各路大神聊天。如果想和我做朋友,可以搜索微信:shizhongmax。
哦对了,如果喜欢文章,请别吝惜你的“在看”或“分享”。让有趣的灵魂有机会相遇,会是一件很美好的事情。
Thx with in Beijing
2024-12-05 10:59:00
原创 史中 浅黑科技 2024-12-05 10:59 北京
AI 和人脑一样,都是一个“意义调味机”。
浅友们好~我是史中,我的日常生活是开撩五湖四海的科技大牛,我会尝试用各种姿势,把他们的无边脑洞和温情故事讲给你听。如果你想和我做朋友,不妨加微信(shizhongmax)。
真岗位,是说 AI 必须在生产活动中参与人类的一项或多项工作。(否则就是玩具嘛。) 干真活,是说 AI 做这件工作(相同效果下)的成本必须低于人类。(否则就是作秀嘛。)
首先,客服接收的询问可以是文字,但有可能是图片,也有可能是语音; 其次,客服要去寻找的答案,也可能来自文字、图片、视频、音频杂糅的页面。
来自浅黑科技音频:AI 客服用四川话打电话
过去,你是个打工学徒,有顾客形容他想要一个什么口味的蛋糕,你只能尽量理解,然后从货架上选一款最贴合他描述的;
现在,经过十年苦练你成了糕点仙人,顾客说他想要什么口味,无论多么离奇,你都可以微微一笑,现场拿配料给他做一个。
她的脑海里正流淌着一句话:“这款空调双 11 的惊爆是 2699 元。” 她发出的声音,就是这句话的中文发音。 她使用的语气,必须是和这句话意义相匹配的(此处也许要神秘的、激动的); 她的嘴型,也必须和这句话的发音相匹配; 她的表情、手势也都必须和这句话揭晓价格的情绪相匹配;
2013 年,他们在空间里为文字寻找意义配料,诞生了千人千面的搜推广引擎; 2018 年,他们开始把文字、图像、声音用同一种意义配料表示,诞生了 AI 情感客服; 2023 年,他们开始用大模型精细的意义配料来调配不存在的东西,并且把文字、语音、动作等等更多的模态在用同一套意义配料对齐,于是才诞生了——“言犀数字人”。
技术一定有不完善的地方,主播被用户发现是个数字人也在所难免。 但我们能做的是想尽办法让用户晚一点儿“出戏”。只要停留在数字人直播间更长时间,自然货卖得也会更好。
“不出戏”,只是三颗星及格线,你起码不会把注意力抽离到屏幕以外的地方; 接下来是“尿点少”,也就是四颗星,比如你即使憋尿也忍不住要看接下来会发生什么; 如果“全程无尿点”,尿裤子也忍不住要看,那就接近五星好评了。
其实,人也是被训练出来的。
理解自己
再自我介绍一下吧。我叫史中,是一个倾心故事的科技记者。我的日常是和各路大神聊天。如果想和我做朋友,可以搜索微信:shizhongmax。
哦对了,如果喜欢文章,请别吝惜你的“在看”或“分享”。让有趣的灵魂有机会相遇,会是一件很美好的事情。
Thx with in Beijing