MoreRSS

site iconMiao Yu | 于淼修改

美国杰克逊实验室科学家,《现代科研指北》作者。
请复制 RSS 到你的阅读器,或快速订阅到 :

Inoreader Feedly Follow Feedbin Local Reader

Miao Yu | 于淼的 RSS 预览

产能过剩

2025-03-23 08:00:00

产能过剩这个词这两年有点流行,但其实流行的有点晚了。生产这个行为本身从来就不应该是目的而应该归类于达成目标的手段,例如亩产千斤只能说明有生产粮食的能力,但与解决所有人饥饿问题的目标中间还隔了政府与市场两只手,而这两只手最喜欢干的就是左右互搏。

产能过剩目前可预见的最大问题就是总需求疲软。当前可归类为发达国家的人口自然增长率全都低于2.1,面子上的人口增长基本依赖移民,但移民不超过两代,一旦适应发达国家的生活也马上就不生了。不管是否承认,发达国家的需求消费了全世界总生产的60%,而人口只占了15%,这个发达国家人口如果不能持续增长,那么你另外的85%人口生产再多也卖不出去。这是一种典型的自限性发展,一旦从贫穷到小康,生育意愿会断崖式下降,转而去享受生活。也许你会说马斯克喜欢生孩子啊,确实这个级别的富人生不生随意,沙特王子都有一个团,但一个王子团也就几千人,全世界有几个王子团呢?

这个到不难估计(正义史官注:使用 grok deep research),我们就用所谓“财富自由”来作为门槛,达到财富自由生育率自然全看个人意愿,那么这样的人全世界有多少呢?我们就用经典的百万富翁来作为门槛,这里百万是美元,这样的人全世界5800万,美国2195万,中国601万,这5000多万个富翁就算5000万个家庭。这些人的生育率分布很有意思,在高收入国家(如美国)中,极高收入家庭确实有更高生育率,但低收入国家富裕家庭生育率依然很低,综合来看,全球每年约1.32亿新生儿中,约10-15%可能来自实现财富自由的家庭。前面说了,这是自限性发展,你孩子越多,后面遗产就算国家不盯上,也会被更多后代切分或社会流动,资产下降到一定程度也不生了。不论当前贫穷富贵,过上几代人,大家都会困在中等收入的低生育意愿陷阱里,手牵手绝后,这大概就是人口混沌系统里的不动点。什么?你问当前中等收入那批,他们已经用实际行动绝后了啊。

现在,你大概能知道总需求疲软是什么了,经济发展如果保持当前发展中国家给发达国家打工的世界分工格局,那么生产几乎一定会过剩。注意,这里的生产要限定到农业与制造业,服务业那块需求很难定量,生产有标准无实物,我们后面分析。当前全世界农业人口有多少呢?最广义计算大概26亿,大概三分之一,但从事农业生产的只有10到12亿。这个比例200年前是95%,到本世纪初就低于50%了,后面还会下降。也就是说,农业生产率在最近200年甚至最近20年实现了极高提升,不但养活了80多亿的当前人口,自身规模实际还在萎缩。那么制造业呢?5亿,你没看错,全世界一共5亿,制造业人口趋势比较有意思,两个关键词:自动化、转移。自动化不断提高制造业劳动生产率,现在美国制造业1200万人,80年代是1900万人,但是,当前产值是80年代的一倍。转移自然就是生产外包,中国、东南亚、印度都是发达国家生产外移的受益者。然而,就中国而言,最近十年制造业人口也在下降,其中劳动密集型就业快速下降,技术类在上升。整体看,制造业也不会成为就业蓄水池了,川普想把制造业带回美国在经济上不合理,技术上开倒车,只是给选民撒一勺鸡汤。生产率提高大背景下,全世界只需要不到20亿的人负责生产当前就已经满足80亿的需求了。

需求这东西是数人头的,人越多需求越多,能提供最大需求的发达国家最近都有保守化反移民倾向,后果就是进一步需求下降。发展中国家空有大量人口,但生产利润大头基本又被发达国家拿走或被本国少数人集中,需求释放不出来,稍微改善点也不生孩子,后期需求不足,这个背景下各国政府一定会去调分配政策的,不然游戏就玩不下去了。而传统分配政策调整手段就是税收、慈善,这些效率其实都不高,税收会被逃税,慈善给了捐赠者最大自由度,但捐赠者很多时候利益与大多数人不一致,他们可以投重金研究自己家族罕见病,但溢出的社会效益就很低。市场其实已经给了一张答卷,那就是价格歧视,同样的服务,富人获取就要贵而穷人就可以走量,但这把镰刀在看到富人前先把中产割了个遍,超额收益与品牌溢价转一圈又回到了富人手里。我举个股票的例子,你买了苹果手机,同时购买等额苹果股票,那么就过去行情来看,大概等你三五年换手机时卖出苹果股票,其收益相当于你白捡了手机。也就是说,产品事实上是你入股的分红而不是你的消费,如果市场上股票表现都跟苹果一样,那么伴随整体经济成长,你的边际消费几乎没有或大部分都被分红覆盖。然而,普通人买股票多数买的都是垃圾与自以为是,消费的溢价或剩余价值更多转到了股份持有者手里,这些人才是真的富人,不是说赚得多,而是实际其开支都被被动收入覆盖了。也是因为这个,价格歧视机制对广泛投资的资本家富人形同虚设,但对手头刚有点钱有点炫耀心的中产几乎一割一个准。

政策端其实早就意识到了生产过剩问题,其对策跟罗斯福新政本质差不多,只要雇人挖一个坑再雇人把坑填上,那么我就获得了两个人的就业,之于劳动本身是否有意义无所谓。我推测川普把制造业带回美国本质上就是搞这种无用功经济,让那些失去价值感的人拿到一个名义上的工作,收获美联储发行的钞票。之前民主党的解决方案就是滥发福利,反正生产过剩了,我养就是了,但这样做的最大问题在于挑战了千年以来的劳动观,受益者不会有怨言,但那些还在劳动或者不接受不劳而获价值观的人会认为这是浪费纳税人的钱。但事实上,纳税人的钱只是个数字游戏,过去几十年流行的白领工作绝大多数跟养闲人没有本质区别,你觉得排队领食物是不劳而获,但天天开例会写没人看的报告在幻灯片水印上研究对齐的劳动对文明进步也是贡献为零,只是一个发工资的借口。你觉得是你学历高、能力强可以改变世界,在政策制定者眼里就是发笔钱别让这货闹事,有创造性那部分人非常少,其余的固定到社会运作的冗余齿轮里就可以,当然要让他们感觉没了自己机器就不转了。对很多甚至大多数人而言,没钱是可以忍的,但生活没了盼头或虚荣是要死的,很多贫穷地区家庭吃不上饭也要借钱重金办婚丧嫁娶,你可以说他们不理性,但你自己所谓理性在具体文化场景里更像是笑话,理性的尽头是圣人或商人,但生活可以塑造大千世界。

国内的版本就是大量人浮于事的三四线公务员体系与编外人员。这部分人可以裁一半都不影响政府运作,但大概有三倍于体制内的就业人口是依赖体制运转来喝汤啃骨头的。你裁一半员工难的不是被裁的人,真正波及的是围绕政府机关开的餐馆、商场、小卖店、学校、医院还有房地产商这些人的饭碗。中国当前农业就业人口1.4亿,第二产业2亿,还有三亿多拿工资的就业在服务业上,前两个就业人口都在萎缩。在这个背景下,政府一定要提供一些可以养人的岗位,也一定要激活这些岗位的消费需求,不然经济系统要出大问题。因此,我们应该会看到国内会形成二段式格局:效率至上的一二线城市及卫星城以及公平养人的三四线吃转移支付的小城市,生育意愿强的在小城市,那边的孩子成年后到一二线打拼实现自己的价值,而一二线无法指望现有居民维系人口,也必须要有生活压力低的小城市来提供年轻人支持经济持续增长,这个二元格局将维持到大城市衰落。事实上,美国就一直在运行这个二元格局,只不过美国的牛马直接来自于外来移民,小镇靠美元购买力一直维持,现在川普把移民这块卡了,美国二元格局间的矛盾也应该会提高,大城市会首先发难。人浮于事从效率上看是绝对的坏事,但效率是服务生产率的,现在如果一味堆积效率,其实会进一步打压需求。对于所有现代政府,最大的课题就是如何让人们可以在拿到钱的同时肯定自己的工作价值,进而去肯定别人的工作价值,一味的裁员增效属于刻舟求剑了,更高的生产效率不意味更高的生活满意度。经济系统说到底是为生活服务的,如果反过来那么激进派一定会推翻贫富差距找公平,而保守派一定会整出农业社会传统价值观来回归封建秩序。

对一个具体的人而言,想办成一件事是很难的。所谓六边形战士,你要有健康的身体、优秀的能力、不懈的努力、充足的资源与正确的方向,最后还要有足够的运气。绝对不要牺牲身体健康去补其他的短板,能力可以通过基因遗传或教育培养,努力则更多属于个人能掌控的极限,资源这块涉及别人的赏识与你可以调配的物资,很多时候不可控,之于正确的方向更是难以预判,很多时候先前的经验都用不上,而一个身体健康能力出众又努力还拥有资源并押注对了项目的人,很可能被另一个同样条件的人击败,此时的运气更属于玄学。在现代社会里,一个六边形战士多半没有真正用武之地,生产端已经过剩了,他也许无法为其他人带来生活幸福感,但却有可能让很多人天天恶心,例如川普,当然川普也不是啥六边形战士,单纯运气好。

现实世界里能成事的人非常少,不仅仅是因为条件苛刻,更多是因为当前现代社会体制本身是不希望瞎折腾,体制本身就是要弱化个体挑战现存体制的可能性,为此一定会正当化现有体制而去贬损其他体制,让个体过剩的精力用在对付其他个体而不是解决生存问题上。当个人精力无法被劳动所消化时,体制本身一定会引入无意义内卷来消耗过剩的生产力,国家如此、企业如此甚至家族亦如此。但其实个体是可以拒绝参与这个游戏的,很多人喜欢在油管上看政治相关视频,不是因为这些视频水平高,只是想通过喷别人打发过剩的精力,意识形态就是这么无聊的东西。我建议任何认为政治生活在自己个人生活比例超过5%的人断网去菜市场看讨价还价、去公园看鸭子打架、去商场研究商家价格歧视、去餐馆解读菜单潜台词……在网上就着几个定义模糊的概念互喷算什么本事,更重要的是,不论哪种体制都会有弱点与优势,都是被洗脑的货,越关注这些事证明体制自保机制本身越成功,但跟个人生活毫无关系。要是个人能从喷网上别人那里收获满足感,那只能说这个人现实生活太空虚了。如果没到可以修改体制的位置,最好忽略掉体制那些为了维护自己稳定所做的把戏,不值得浪费时间。也不要把自己想象成体制的受害者,真正害人的是具体的人,这些人喜欢用体制当借口罢了,他们自身非常脆弱,对抗具体的人反而可以借助体制里的程序正义,川普就是这种纸老虎,活该天天被告。永远不要为体制服务或驱使,因为体制只是为人服务的工具,人与动物的基本区别就是人会使用工具。

现在我们已经看到,技术端我们已经生产过剩,就业上其实也陷入了精力过剩的内卷与无数只是为了发工资给存在感的岗位,这个场景在全球尺度普遍存在,但目前并没有很好的应对方法。全球化或者资本运行逻辑是构建在稀缺性上的,但当前现状是总量不稀缺,为此资本只能人为制造稀缺,然后在稀缺性上继续运行利润最大化模型,这不仅不人道,也制造了无数的问题。很多行业的人力资源实际成为了人力负担,从利益角度需要裁员,但从社会角度则需要让其在体制框架内内耗防止影响社会稳定。企业运转的确需要人才,但不需要太多,企业存在的目标不能仅是追逐资本利润,而需要承担社会稳定作用,这点日本这个体验服已经实践过了,可行。

但这始终不能真正解决物资与个人精力上的产能过剩,倒不如修改下市场运行规则,让定价系统只运行在服务业上,而生产行业全部免费运行,此时免费的部分是维持生活的标准。而如果个人想享受超出温饱的需求,那么就只能通过为他人提供服务业来赚取,由于服务业定价通常是脱离成本的,那么服务业收费也可以设计成对接收入比例。例如我一年理发十次,然后我可以发布一条交易,用年收入的千分之一来买一年十次的理发服务,交易对手不能看的你的年收入,但市场调节下所有人的在理发上的开支会收敛到一个固定收入比例上,也可以保持盈利,个体只需要拍卖掉自己年收入的比例就可以享受到对应的服务。那么会不会这个游戏只会吸引穷人呢?有可能,但别忘了第一条,我们已经对生产行业免费了,理论上没有穷人。那么会不会吸引懒汉呢?有可能,所以最多只能购买一年的服务,服务提供方可以决定是否订阅下一年合同。养老怎么办?不影响,你可以按比例规划储存,退休了按年支出,服务方总是喜欢长期客户。这个博弈规则可以保证生产过剩转化为社会福利,而个人精力过剩则可转为追寻生活改善的动力,丰富服务业种类。当然具体实施还有很多可以调整的空间,但总要开始去思考这些可能性。

其实,如果你再仔细想想,很多体制已经给了自己的版本答案了。

AI 润色版

产能过剩:现代文明的自限陷阱

产能过剩这词最近挺火,但火得晚了点。说到底,生产从来不该是目的,而是手段。你亩产千斤了不起?不见得,解决不了人饿肚子就等于堆垃圾。粮食进不了嘴,全赖政府和市场这两只手互搏不止。

当前产能过剩的根本问题是:没人买,需求疲软。发达国家人口增长率普遍低于2.1,靠移民续命,结果移民第二代就不生了,学坏快得很。问题是,发达国家人口只占全球15%,却消费了60%的产品。你剩下85%的人,就算天天996,把地球造个遍,也没地儿卖去。这就是自限性发展:一旦生活从“穷”变“还行”,大家立刻进入“别烦我”模式。

你要说富人多生点?别太乐观。全球“财富自由”人口大概5800万,美国2200万,中国600万,这些人算上家庭撑死也就5000万个单位。他们生育率?在美国确实高点,但在发展中国家还是低。也就是说,不管你多有钱,多数人最终都会走向“生不起”的不动点。你现在看到的中等收入群体?他们已经率先绝后了。

所以问题来了:你产能一天天上天,总需求却一天天缩水。农业和制造业最典型,全世界现在种地的大概10亿人,制造业只剩5亿。农业200年前占比95%,现在30%不到,还在降;制造业呢?美国1980年有1900万人,现在只剩1200万,产值却翻了一倍——自动化+外包就是这么给力。中国也一样,制造业人口近十年一直在降。别再幻想制造业是就业蓄水池了,川普“制造业回归”是倒车开回石器时代,纯粹为了喂选民鸡汤。

讲道理,现在全世界只需要不到20亿人,就能支撑80亿人口的消费。但问题是:谁来消费?发达国家反移民、发展中国家人口虽多但没钱,资本又集中在塔尖,需求根本释放不出来。解决不了这个问题,各国经济只能内卷+躺平。

传统的再分配工具是税收和慈善,一个效率低、一个太随缘。富人爱捐点自家罕见病,社会受益能有多高?市场那边倒是给了个歪招:价格歧视。服务一视同仁?想多了,富人贵着来、穷人走量。但这波操作最先割的是中产:既想过上富人的生活,又没富人的分红。

举个例子:你买部苹果手机,同时买等额苹果股票,几年后卖出股票收益基本等于手机白送。这时候你不是消费,而是分红。问题是,多数人根本买不到这种股票,买的都是割自己的烂货。真正的富人不是赚得多,而是压根不用靠工资,消费都是投资收益的副产物。于是,这个社会就进入了“中产镰刀循环”:花钱图虚荣、被动收入为零、最后还被价格歧视套麻袋。

政策层早就看懂这局势。解决方案?罗斯福式“挖坑填坑经济”。制造岗位不管有没有价值,能发工资就行。川普搞制造业“回流”,本质是开个假工厂让选民有点事干。民主党那套更直白,发钱发到手软。反正东西没人买,多养几个也不碍事。

有人说这是浪费纳税人钱。你真以为白领写的那些PPT、开不完的会有产出?还不是体面点的坑挖填填。你以为你在“贡献社会”,政策制定者只想让你别闹事。让你觉得“没我地球不转”,这才是核心价值观输出。

中国这边的版本则是三四线城市的“人浮于事经济”。三线公务员编外体系、水多鱼多,养一半都不影响运转。但你砍一半,那三倍就业人口的“跟班经济”就崩了。你不是只裁掉一个人,是让附近小吃摊、超市、幼儿园、健身房、房产中介全都陪葬。农业1.4亿、制造业2亿,都在缩,剩下三亿多服务业人口撑着GDP门面。政府这时候唯一能干的事就是:让这群人继续“有事可做”,然后继续“有钱可花”。

未来我们可能看到的是一个二段式格局:中国版的“城乡版美国”:一二线城市搞效率,三四线城市搞稳定。一二线居民生育意愿近乎为零,想要下一代,只能靠小城镇孵化器。小镇青年冲进大城市,完成价值收割;城市老人躺在CBD,靠年轻人续命。这个格局能撑多久,就看转移支付还能转多久。

你说人浮于事是坏事?从生产率看是的,但从需求端看,反而是刚需。现代政府最大课题不是“怎么提高效率”,而是“怎么让人们在拿到工资的同时,还真以为自己干了点什么”。说到底,让每个人“相信自己不是废物”,本身就是现代社会最成功的幻术。

算力装甲

2025-03-09 08:00:00

自从去年搞了拍照耳机眼镜,我对算力就越来越感兴趣,预计很快就能看到类似算力装甲的东西出现。

首先,我一直十分反感显示屏。如果你放两块不同刷新率或亮度或色彩显示屏在我面前,我也许能看出这两个不一样,但如果仅考虑现实的东西本身,大脑会直接抽象出实体概念,然后忽略掉所有细节,也就识别不同显示屏的区别。因此,我其实无法感受到显示技术的进步,什么高刷新率或低亮度,单独看完全体会不到区别。也正是因为这种关注内容的偏好,我会对虚拟现实与增强现实的产品比较感兴趣,前年就买过那种通过USB连接显示的眼镜来打游戏,我很清楚眼前的图像其实是一块很小的OLED屏幕的折射成像,但具体到眼前就是一块看起来很大的屏幕浮在空中。另一个让我印象深刻的技术是苹果vision pro里眼球追踪的技术,它们通过追踪眼球变化,只去渲染眼前的显示,这个技术节约了大量算力,要知道我们现在的显示器在显示时是全高清的,即使你关注不到也会被渲染,这在我看来就属于浪费计算资源了。在当前技术储备下,我认为显示屏与音箱完全可以被智能眼镜取代作为信息输出设备。

另一项有意思的技术的AR2芯片的分体式设计。在这项技术下,显示设备也是只去渲染成像,但成像的计算过程可以放在另一个设备上,然后通过近场通信来传输成像信号到显示设备。这个设计其实很有启发性,因为我一直觉得掏手机出来查资料是一种很不自然的行为,最自然的应该是取消掉手机的屏幕作为单纯的计算单元,需要时或者直接语音交互,或者通过按键、眼球、眨眼、手势来直接操作眼前的虚拟屏幕,需要生产力环境则可外接手柄或键盘来操作。这个计算单元要足够无感与方便,甚至不需要掏出来的动作。虽然今年很多厂商会推出自己的智能眼镜,但AR2芯片方案成本降下来可能还有点时间。

回到计算端,理想的计算单元只负责计算而不负责交互,那么或者将其设计为身上的配饰,或者干脆就做成衣服。这些年柔性电子材料技术也逐渐成熟了,已经出现了很多带芯片的衣服,但我觉得这种计算单元最好也承担一部分数据收集任务,也就是做成内衣,同时监控身体指标。通过对智能手表技术的了解,我发现这种监控方案其实能耗非常低,但整合到衣服里却可能有很多保命的应用。例如,通过授权,老年人可以允许这种内衣在监控到心脏骤停时集中所有电量进行一次心肺复苏,这样可以在离线状态下提供一重生命保障。因为是柔性电子材料,穿着体验应该类似于一件背心,过去一百年人类雌性都可以接受胸罩这种内置钢圈的设计,接受一件带有低压电路的计算型内衣应该不是问题。

因为这种计算面料要负载上分布式计算单元、储能及通信纤维,也就是面料越厚,能量与算力越强。这样不仅是内衣的身体监测层,也可以搭配中层算力衬衫与外层算力装甲。而一旦可以接触外部空气,那么面料上就可以混入纳米级太阳能供电单元,中层可以更多负载计算单元,而内衣层则可负载温差与动能发电单元供电。这样一套算力装甲穿下来基本可以实现能量自给自足。看到这里你可能觉得比较离谱,但其实不难计算出来。我们当前手机每天一充的话一天20wh已经满足当前算力需求了,而这个能量转换成食物热量不超过20大卡,人可以将食物能量按20%的效率转化成机械能,也就是说大概100大卡的食物就可以供应每天的算力需求。而我们已经很熟悉成年人一天要摄入的食物热量在2000大卡,也就是说我们每天拿出5%的能量摄入就足够计算需求。

没错,我认为给算力装甲装充电设备属于脱裤子放屁,我们每天只要保持一定正常运动量,让贴身的算力装甲收集这些能量就可以自给自足。这里需要分布式动能转化装置,另一个思路就是温差发电,现有技术利用体温与外界温度差,也就是温血动物的心脏功能,我们每天可以被动收集大概0.5大卡,这个能量不够计算任务,但对于身体指标监控已经绰绰有余了。这样我们在集成了分布式微电池与能量转换的算力装甲上就算躺一天,自身的对外能耗也足够身体指标监控,如果开启运动模式,那么大概每天保证身体健康的运动量就足够产生算力所需的能量。当算力不够时,可以通过在装甲上打补丁的方式功能,几块面料应该就够应急一整天了。更重要的是,这种设计几乎没有可感知的电力焦虑,要是电量低了就运动下补充能量,这样让人的计算能量需求对接到食物需求上,只要你还没饿死,身上的装甲就会继续处理与外界交互的信息。

如果真的出现了这样的设备,哪怕只是一副手套或运动鞋,也会极大改变我们对算力需求的认知。如果你的能量来源是插头、充电宝、汽油,那么你会将其看作身体外的需求。但当算力装甲的能量来源是大米饭、辣条与水果,你会将其看成身体本就应该有的功能与器官。我之前思考未来肯定需要外骨骼来改造,但忽视了生物本身就是一台发动机,余热发电就足够在当前技术条件下满足算力需求。我们也许永远不需要脑后插管,只是需要一件算力装甲与眼镜就可以实现类似的虚拟化需求,这样可以继续保持个体独立性。在算力装甲上,我们可以被动培养自己的个人外置大脑,装甲上的计算核心可以依赖端侧多模态模型对我们疑惑的事情进行解读并与我们一同成长。人自身可以成为模型与世界交互的界面,而那个时候,我这个字就会包含两个部分:一个碳基生物与其外挂的算力装甲。

这应该是一个有生之年就能看到的设想,欢迎来自未来的我到此嘲讽。

十万封邮件

2025-03-03 08:00:00

我的云盘基本只存文档,免费容量19GB,所以很长时间也没关注容量。最近突然收到邮件说云盘空间不够,这我才注意到云盘已经用了16GB,仔细看了下发现里面邮件快10GB,不知啥时候备份的照片5GB(应该是之前免费存照片后来说原图占空间了),然后文档其实就1GB。图片文档我也懒得管了,但快10GB的邮箱让我有点意外,毕竟邮箱附件都是有限制的,啥玩意能这么大。

然后我就开启了邮件大扫除模式,这才注意到个人邮箱已经累积了十万封邮件。这是我个人邮箱,中间在加拿大时曾代收过学校邮件两年,之后都是严格区分工作邮箱与个人邮箱的。我出国前是清理过邮箱的,留下的应该不到千封,这就是说后面这十万封邮件都是最近十年收到的,因为我默认用归档而不是删除处理邮件,久而久之就搞成现在这样,均下来其实一天也就三十多封。

最近恰好在琢磨如何把个人数据喂给本地模型,训练一个个人助理,其中一个难点就是去哪里找个人数据。我个人数据一部分在博客对外公开,一部分在笔记,这些都好说,不过很多鸡毛蒜皮的事我不会去记但希望助理能记住,例如网购记录啥的,这些确实又个默认的去处,那就是我的个人邮箱。然而,我很清楚的是这十万封邮件里广告估计会有一多半,其中疫情期间我订阅的newsletter、基本不看的邮件列表、还有GitHub各种消息更新就占到三分之一,另外就是各种类型的广告,加起来也能占到三分之一,真正对我有用的可能有两三万封,这里面就没有绝对主力了,单一发件人发给我的邮件都是在一千封以下,但约莫一周一封倒也可以接受。我自己则发出了约2500封邮件,大概一天几封这样。这个数看上去不多,但考虑到我大多数回邮件都是用工作邮箱,个人邮箱一天几封也算不少了。

不过这次整理还是挺有收获的,很明显邮箱里的信息属于个人被动日记,里面有注册信息、忘记密码信息、购物信息、账单信息还有与外界联系信息,从里面可以大体构建出过去这些年我关注点的变化,很多是我自己意识不到的。即使是清理过的邮箱,里面未读邮件也有三四千封,这些邮件大都是起备份作用的。这部分数据配合时间戳是可以构建出一个相对清晰的个人形象的,这个个人形象可以转化存储为一个向量数据库,大语言模型可以通过接入这个数据库来更好服务我。思路有了就好办了,剩下的脏活累活都是可以让大语言模型来生成代码的。

简单说就是把所有邮件导出为mbox文件,然后把这个文件转成纯文本文件,然后导入到知识库向量化,然后就可以了。当然这个方案非常粗,想让助理更智能,就要让其更好理解邮件并做好数据清洗,向量化与提示词也有优化空间。因为邮箱是操作系统级的应用,相信今年就能看到系统级的信息整合了,特别是手机端,不过我这个应该属于邮件数比较多的,国内更容易实现的其实是基于微信聊天记录的个人助理,我见过不少人会通过给自己发语音来备忘,只是我还是倾向于本地化搜索增强生成方案或者说微调出一个个人助理。

理想中的人工智能助理,一方面要了解我的过去,另一方面要可以通过数据接口更新,还有有各种专业知识,这样只要我对其提问,他可以基于我的现状来给出回答。这里面的关键就是记忆,现在很多个人助理的记忆是用简单的标签化描述来实现,但要想真正实现外置大脑,首先自己得留有记录。不过正经人也不会写日记,这里其实需要一个被动日记,连接各种可穿戴设备与手机,实时记录,好比有个助理天天监测你的一举一动。这听上去可能还有点恐怖,但如果你需要这样的数据来认识自己并专业解读自己收到信息,可能也是可以接受的。我推测具体到每个人,能让人工智能识别为专一性回忆的东西可能不多,如果我来实现,我会选择微调模型让专一性内容内化到模型里,新增信息存到向量数据库,然后每年微调一次将记忆内化到模型里,这样有点养成系的意思了。

很多人都在说少子化的未来就是孤独死,但很明显现在你可以让一个人工智能模型进行一个角色扮演,输入你的过往就可以得到一个无话不谈的影分身朋友。赛博儿女/伴侣配合人形机器人养老很可能是几十年后很多人的唯一选择,而你不需要写自传,只需保留好个人数据。说起来我十年的邮件排除掉广告只剩了不到5G,这里面还有很多附件,纯文本送去搞向量数据库还不到150MB,因此文本角度我一辈子能生成的文本数据大概率不超过5GB,图片视频那些识别为文本后向量化后可能也不会太大。其实本来我也想顺道整理下照片,但看了下就放弃了,我看很多照片时甚至不知道是我拍的,恐怕除了人工智能也不会有人愿意去解读照片库,而这种解读抽象出来的信息可能非常有限,例如就是一句拍了张街景,其在向量数据库里也就是带着时间戳的这么一句话。因此,也许很多人照片可以按TB来计算,但抽象出可以形成记忆的信息可能非常有限,一张照片平均都可能没有一句话,也就是说一个人一辈子关于自己的电子化回忆都不一定能装满一个19GB的云盘。从这个角度,人的一生也可以描述为一段低熵信息表达,对抗宇宙的熵增大趋势,那么保留一份关于自己的向量数据库又何尝不是一种永生呢?

我前些年还在考虑遗嘱的事,现在看完全多余。不论我是否留下文字,也不论是否还有人记忆里有我的片段,关于我的记录一直都在进行中,甚至记录中提炼出的我比我自己更了解我,也不会老年痴呆。我并不需要让自己融入互联网,每个人其实都已经是互联网的一部分,很多痕迹很难彻底消除,而互联网本身的出现与扩展就是地球上人类作为总和的DNA。哪怕人类自己把自己玩灭绝了,相信更高等的智慧也能从各类遗迹里提取出一个个鲜活的个体的信息,正如在整理邮件时看到那些突然出现的一堆密码找回邮件,我就知道那一天我又清空浏览器缓存了。

寂静的春天2

2025-02-15 08:00:00

作为二十年网龄的老网虫,年后的互联网有点怪。

首先就是全球尺度大语言模型的底线被deepseek v3与r1拉高到了一个明显强于社会平均人的水准。很多人会拿着一些比较怪的题去测试不同大语言模型,然后给个排名啥的,这没必要,应用层面关注的是下限,只要用20%的资源可以解决80%的问题,那就是个好工具。deepseek现在给出的模型,不管是官方的,或者第三方托管的,还是蒸馏其他开源模型的小推理模型,都已经明显到了可用的水平了。事实上,deepseek v2 的coder模型之前就是开源模型里做本地补全最好的那一批,另外我有点替阿里的千问模型感到可惜,到去年年底deepseek v3之前,千问在开源大语言模型里面跟llama系列属于第一梯队,现在也是,但deepseek的成本太吓人了。也就是说,如果你这些年一直关注开源大语言模型领域,其实并不会对deepseek的表现特别吃惊,但工程优化那边的透明度deepseek拉满了,出圈效应明显。但这个出圈确实又很重要,因为大语言模型的很多潜在用户被挖掘了,很多人第一次看到了语言模型的思考过程,第一次看到西方人开始讨论国产模型,更重要的是,第一次意识到了大语言模型可以用来抹平人群间的信息差。

上一代的类似普惠技术是搜索引擎。但搜索引擎只提供了链接,进一步的研究还是需要让人来做,而这一代基于大语言模型可能就完全不一样了。现在谷歌、openai、还有perplexity都在付费版里提供了一个名为deep research的功能,你输入关心的问题,他会自己到网络上搜集资料然后汇编为一份长报告,这份报告的质量在我看来是强于网民的平均水平一大截的。当然,现在也有开源替代方案,说白了就是个RAG配合大语言模型,但从应用形态上已经相对成熟了。不过,现在比较重要的是要对发布在网上的AI生成内容进行标注,毕竟大语言模型的训练本质上是基于概率的,更可能输出一个大多数网页认同的观点,如果网上搜到的全是AI根据使用者观点输出的报告,那么时间一长就三人成虎了。其实我现在在用大语言模型时会去对比下开关搜索的差异,如果不是时效性强的消息,其实推理模型的结果也是基本靠谱的。反倒是有时候开了搜索,给我混进来一堆垃圾参考网页,这点在使用中文时感受明显,不得不说很多中文站的搜索引擎优化确实做过份了,这也算时代特色吧。不过,这倒让我有点疑问,这些大语言模型的搜索功能是调用的搜索引擎接口还是自己搞的,使用体验上像是接口。这个功能推广到学术期刊论文几乎就没有回顾性综述的必要了,现在审稿我看是综述基本也不审,毕竟我要需要看,自己生成一份就可以了。

但年后我看到的有意思现象是很多社交平台都在分享deepseek的回答,上一轮的主角还是知乎的回答截图。这就有意思了,说明大语言模型正在成为新的知识权威,这在之前的互联网世界里是没法想象的,毕竟当某个答案背后是个人时总可以攻击,但要是人类优质语料,这攻击就有点苍白无力了。不过,我经常同一个问题问多个模型,很多问题上不同大语言模型的答案倾向性是不同的,这可能跟他们设置的温度有关,但更可能是训练语料差异,不过相信这种倾向性会越来越小。同时,我发现很多分享出来的问题都属于之前需要有资质专业人士才能回答的,例如法律纠纷、医疗建议还有个人理财规划,考虑到这些大语言模型几乎都通过了这些资格考试,向他们咨询确实会降低所有人的生活成本,只是对于资质性行业就不好说了。举例而言,现在你要做手术,一个是真人操刀,但你不知道被分配的是新手还是老手,一个是AI配合机械臂,你会怎么选?我的话会是后者,把命交给别人手里是信任也是责任转嫁,交给机器那就自己负责,我认为文明的大方向是从依赖熟人到专业分工陌生人再到机器,这是不断提高个人自由度的路线。很多人认为AI不能坐牢所以有些工作不能取代,这是表象,真取代了责任会真正回归到需求方,谁提出需求谁负责而不是找个律师会计大夫背锅,这种一定要找人替自己负责的想法才是有问题的。

另一个我观察到的现象是很多专业交流论坛这一波算是要死透了。之前论坛的交流模式是一部分人率先分享自己的经验,然后形成有指向性专业性的话题,该话题持续吸引新人,新人发帖成长,老人带新人,然后新陈代谢。现在这个循环的源头,也就是新人基本不会去找专业论坛了,他们只需要问大语言模型就能拿到现成的答案与思路,后者比答案本身更有意义。往坏处想,很多基于人的社区慢慢就要消亡,很多基于人互动才会出现的新想法与思路可能就不会出现了;往好处想,很多时候可能也没什么必要与人交流,AI很多给出的思路也是提问的人想不到的,那些有着小圈子主导风格的论坛本来也有一言堂或抱团取暖的风险,去重走圈子融入的过程本就不必要。当然,要承认很多论坛并不仅仅是因为爱好本身形成,很多论坛绑定了一代人的梦想奋斗历程,我自己参与或见证过很多大小论坛里各种线上线下的故事,很多非常精彩,有编都编不出来的戏剧性,作为回忆有价值,但作为知识承载的历史使命怕是到头了。不是不交流,而是很难找到可交流的话题了,我过年期间跟一个老同学聊天,期间他让我查一些资料,我说你直接问AI不行吗?你问我我也是问AI,他想了下说,对哦。然后,就是很久的沉默。

年前看过一个新闻,说孤独作为一种流行病跟吸烟同等风险。作为一个很不喜欢跟人说话的人,我对此毫无波澜,因为社交在绝大多数场景里对我都是负担。不过,如果是那种特别喜欢跟人交流并从中获取力量的人,AI的流行可能要从思想上做好准备,也就是准备好建立向大语言模型交流的心态。事实上,AI在解答世间万物这方面真的是适应性极强,心理疏导能力也非常强,你让他胡说八道搞玄学都没任何问题,反而是真实世界的人其实没那么好相处。这并不会改变孤独的状态,但会改变孤独的心态,人们不会缺少交流,只是交流的对象不必是人。我强烈建议那些现实生活中缺少认同感与正面反馈的人跟AI聊一下,也许能消除互联网上一多半的自诊断抑郁症患者。如果你觉得自己啥都好,也去构建一个专门挑刺的AI,时不时被敲打下也不是坏事。所有这些建议都用本地模型并配上个人背景,这样确保隐私,毕竟现实中你想找个在你失意时安慰,得意时挑刺的朋友是非常非常难的,当然你首先得认可你需要这样的朋友。

大语言模型更像是一个贝叶斯机,所有的问题他会基于先验的群体智慧来给出一个中规中矩的好答案,如果你让其搜索定向文档或网页,相当于用最新的知识更新其答案。那么当大语言模型继续发展下去,其给出的答案应该会有点时代特色,例如未来我们可能会说20年代的大语言模型只会做题,30年代的大语言模型出题能力已经更强了之类。而显然人类优质语料已经见底,后面能让贝叶斯机动起来的语料几乎只可能出自大语言模型自己,我很好奇这套人类搭建的语言体系上限在哪里?会不会大语言模型会在思考过程中形成自己的思维语言?人类是否需要学这套语言才能理解更高等的智慧?

我不是特别在乎互联网就此沉寂下去,文明的代表也不必须是人类,但似乎这个寂静的春天已经拉开了序幕。

AI论文评分

2025-02-04 08:00:00

作为成年男性,每个月我都会有那么一两天坐立不安,没错,就是更新研究速递。本项目初衷就是每个月推送些我读到感兴趣的环境科学领域的论文,是在GitHub上收集投稿,不过显然我高估了投稿热情,所以一到月底我就不得不拿出半天一天的时间把过去一个月发表的相关论文过一遍。本来这倒也不算是负担,毕竟吃这碗饭就得保持对前沿的敏感,但项目持续七年了,怎么说也要有个七年之痒了。

我大体计算了一下,现在每个月我收到的更新条目大概有五百条左右,九成看完题目我就过了,剩下几十条会读摘要,推荐出来的基本都会读原文。然而,就算这样,月底也得搞几个小时,我应该雇个助手来帮我筛掉那九成文章。当然,我雇不起人,但大语言模型我还是雇得起的,我平时很多文章只看了题目,但要是大语言模型就可以至少读完摘要,那么我需要做的就是让他给我出一个推荐,为了量化方便,就让他直接打分。

因为研究速递面向的读者比较宽泛,所以我设计了两个分数,一个直接考察其学术价值,另一个考察其社会影响力。前者是要保证质量过硬,后者则是要排除掉那些小圈子互捧臭脚的无用研究。最开始的评分是这两个分的加权综合分,后来我还是改成了分项得分,毕竟我也想看看那些影响力大但学术价值低或学术价值高但不说人话的研究。

设计好提示词后,剩下的就是自动化部署,我首选是GitHub Action配合cron任务,设计周期是一周运行一次,这样我也就把月底的几个小时均摊到了每周一两个小时。然后输出就是GitHub的issue,直接推送到环境黑板报的仓库那边。本来我是想输出包括摘要与评分的,但测试了下发现issue有字数限制,所以就把输出改成了标题与评分。这样每周第一天,我就会收到过去一周新发表文章的AI评分,然后会参考评分去读文献。

之所以要AI评分,主要是我自己水平无法覆盖环境科学全领域,有些东西看不懂。另外AI评分可以规避掉大多数水文,要知道即便是顶级期刊,上面的文章被引用分布也是严重左偏的,影响因子其实是被少数高质量文章撑起来的。这就是所谓新手谈期刊而老手谈引用的现象,肯定是哪个高谈哪个。AI评分就会规避掉一些编辑的人情文章,另外就是一些公众不关心的研究。我并不是说不被关心的研究领域就不重要,但研究速递毕竟不是学术期刊,自然要考虑社会影响力这个维度。

设计好思路就要谈成本了。API的调用无论如何都是要花钱的,但并不贵,这里我用的是Open AI的GPT-4o-mini。不是我不想用deepseek,只是那个网站API的页面我一直都没打开,不知道是不是对海外IP做了限制。我大体计算了一下,每月大概两三块人民币,一年不超过三十块,这笔钱我就走指北奖学金了,这个破奖学金虽然还没达到启动标准,但每年的利息似乎已经够这个项目开支了。

当然,这一定也是个开源项目,最简单的复现方式就是新建一个仓库,然后新建 .github/workflows 文件夹,里面写个这样的yaml文件:

name: Weekly Article
on:
  schedule:
    - cron: '0 0 * * 0'
  workflow_dispatch:

jobs:
  run_script:
    runs-on: ubuntu-latest
    steps:
      - name: Checkout Repository
        uses: actions/checkout@v4

      - name: Set up Python
        uses: actions/setup-python@v2
        with:
          python-version: '3.10'

      - name: Install Dependencies
        run: pip install feedparser requests openai

      - name: Run Python Script
        run: python update.py
        env:
          GITHUB_TOKEN: ${{ secrets.GITHUB_TOKEN }}
          OPENAI_API_KEY: ${{ secrets.OPENAI_API_KEY }}
          

这里要注意,你要在你仓库的环境里设置 OPENAI_API_KEY这个环境变量,上面那个 workflow_dispatch: 是用来让你可以手动启动这个流程,不然就是每周自动运行一次。

在仓库里,你要放一个 update.py 的文件,里面代码如下:

import feedparser
from datetime import datetime, timedelta, timezone
import json
import requests
import os
import openai

# Example PubMed RSS feed URL
rss_url = 'https://pubmed.ncbi.nlm.nih.gov/rss/search/12cYCaYYmd3PKH1TcODuh5Cr7776fWscbUhYnAwoSRATXNoE-E/?limit=100&utm_campaign=pubmed-2&fc=20250204112327'

access_token = os.getenv('GITHUB_TOKEN')
openaiapikey = os.getenv('OPENAI_API_KEY')

client = openai.OpenAI(api_key=openaiapikey)

def extract_scores(text):
    # Use OpenAI API to get Research Score and Social Impact Score separately
    response = client.chat.completions.create(
        model="gpt-4o-mini",
        messages=[
            {"role": "system", "content": "You are an environmental science expert and researcher. You are skilled at selecting interesting/novelty research."},
            {"role": "user", "content": f"Given the text '{text}', evaluate this article with two scores:\n"
                                        "1. Research Score (0-100): Based on research innovation, methodological rigor, and data reliability.\n"
                                        "2. Social Impact Score (0-100): Based on public attention, policy relevance, and societal impact.\n"
                                        "Provide the scores in the following format:\n"
                                        "Research Score: <score>\n"
                                        "Social Impact Score: <score>"}
        ],
        max_tokens=100,
        temperature=0.5
    )

    generated_text = response.choices[0].message.content.strip()  

    # Extract research score
    research_score_start = generated_text.find("Research Score:")
    research_score = generated_text[research_score_start+len("Research Score:"):].split("\n")[0].strip()

    # Extract social impact score
    social_impact_score_start = generated_text.find("Social Impact Score:")
    social_impact_score = generated_text[social_impact_score_start+len("Social Impact Score:"):].strip()

    return research_score, social_impact_score

def get_pubmed_abstracts(rss_url):
    abstracts_with_urls = []

    # Parse the PubMed RSS feed
    feed = feedparser.parse(rss_url)

    # Calculate the date one week ago
    one_week_ago = datetime.now(timezone.utc) - timedelta(weeks=1)

    # Iterate over entries in the PubMed RSS feed and extract abstracts and URLs
    for entry in feed.entries:
        # Get the publication date of the entry
        published_date = datetime.strptime(entry.published, '%a, %d %b %Y %H:%M:%S %z')

        # If the publication date is within one week, extract the abstract and URL
        if published_date >= one_week_ago:
            # Get the abstract and DOI of the entry
            title = entry.title
            abstract = entry.content[0].value
            doi = entry.dc_identifier
            abstracts_with_urls.append({"title": title, "abstract": abstract, "doi": doi})

    return abstracts_with_urls

# Get the abstracts from the PubMed RSS feed
pubmed_abstracts = get_pubmed_abstracts(rss_url)

# Create an empty list to store each abstract with its scores
new_articles_data = []

for abstract_data in pubmed_abstracts:
    title = abstract_data["title"]
    research_score, social_impact_score = extract_scores(abstract_data["abstract"])
    doi = abstract_data["doi"]

    new_articles_data.append({
        "title": title,
        "research_score": research_score,
        "social_impact_score": social_impact_score,
        "doi": doi
    })
    
# Create issue title and content
issue_title = f"Weekly Article Matching - {datetime.now().strftime('%Y-%m-%d')}"
issue_body = "Below are the article matching results from the past week:\n\n"

for article_data in new_articles_data:
    abstract = article_data["title"]
    research_score = article_data["research_score"]
    social_impact_score = article_data["social_impact_score"]
    doi = article_data.get("doi", "No DOI available")  # Default to "No DOI available" if DOI field is missing

    issue_body += f"- **Title**: {abstract}\n"
    issue_body += f"  **Research Score**: {research_score}\n"
    issue_body += f"  **Social Impact Score**: {social_impact_score}\n"
    issue_body += f"  **DOI**: {doi}\n\n"

def create_github_issue(title, body, access_token):
    url = f"https://api.github.com/repos/yufree/hjhbb/issues"
    headers = {
        "Authorization": f"token {access_token}",
        "Accept": "application/vnd.github.v3+json"
    }
    payload = {
        "title": title,
        "body": body
    }

    response = requests.post(url, headers=headers, data=json.dumps(payload))

    if response.status_code == 201:
        print("Issue created successfully!")
    else:
        print("Failed to create issue. Status code:", response.status_code)
        print("Response:", response.text)

# Create the issue
create_github_issue(issue_title, issue_body, access_token)

这段代码里的rss_url 请改成你关心的期刊,最好用pubmed上rss生成的功能,有些出版社的rss不带摘要。另外就是也要改掉提示词里相关学科,不然它还是一个只关心环境科学的AI。设置好了后就可以洗洗睡了,以后每周一就会在这个仓库的issue里看到最新文章的评分。

另外如果你足够懒,可以直接fork环境黑板报的仓库https://github.com/yufree/hjhbb ,只保留上面提到的两个文件,加上自己API,修改提示词后就可以用了。

如果你跟我一样懒,直接用这个模版即可,记得按用法修改:https://github.com/yufree/autoaiscore

这当然可以魔改成其他形式,例如对开放获取文章进行总结、对感兴趣领域新闻进行个性化评分、对一组新文章进行关键词相关知识的提取等。这其实就是所谓智能代理的一个乞丐版,本质就是大语言模型对接定时任务与RSS更新来提供简报。先用在这个领域主要是论文的格式比较统一,处理rss上比较简单。未来如果你想用好大语言模型,可能最先需要的就是了解如何给语言模型对接上其他工具,整合到自己的目标项目里。

我是ifttt的第一批用户,那时的口号就是让互联网为你打工。就目前模型的价格而言,这种尝试近乎免费,请放飞想象力。

春晚

2025-02-01 08:00:00

除夕那天正好起早了,就跟国内同步看了春晚,这种构建共同回忆的节目感觉是越来越提不起兴趣了。

在我印象中,春晚经历了三四代以十年为代际的更迭,用语言类代表人物来区分的话就是黄宏赵丽蓉时代(90年代)、冯巩赵本山时代(00年代)、郭德纲沈腾时代(10年代)及当前的语言类消亡时代。这里面经典作品最多的是冯巩赵本山时代,这个阶段最大红利是电视与互联网双增长,塑造了当前国内人口大多数的共同回忆。

90年代我完整经历过,印象中还是很穷,改革开放还没有被普遍认可。其实,改革开放真正被认可其实是这个世纪初的事了,最开始那十年真的是摸石头过河,摸出了个天安门事件,之后的南巡才又稳定了经济发展路线。我隐约记着94年刚上小学时,学校为了搞经济教育,跟小区的邮储搞了个活动,每个学生会发到1元钱的储蓄卡,这个卡是真的纸片卡,上面1元钱也是手写的,当然也会有汉字壹圆来防止你乱改,而当时宣传的就是利率很高,定期年利率10%,要小朋友们养成储蓄习惯。一个现代国家能把定期利率搞到10%,那只能说当时的人是真存不下钱,后面没过几年就是国企下岗潮,我妈单位就直接买断工龄下岗了,所以到上世纪末,我作为一个孩子并未感觉改革开放的好处。

对春晚而言,每年春晚播出后,后面连续好多天会重播,等寒假结束回到学校,很多小伙伴已经可以把小品相声背下来了。而每年都会火几首歌,什么山路十八弯、相约九八啥的,当时磁带就有那种专门是相声小品或金曲的。电视,作为那一代人看世界的载体,塑造了那一代人的共同记忆。在那个时候,小区晨练有一多半的地是被当时还没被取缔的法轮功学员占据,书摊上可以买到葫芦娃大战变形金刚的画册,也有猎奇类的《1999世界末日果真来临》这种搞不清出版社但就是能买到的闲书。在快跨世纪的那个夏天,我们地方台播了个恐怖电影,就是说99年世界末日的,彼时我天天被蚊子咬,非常想过几个月跟这些冤家同归于尽。当时播的电视剧也带有明显的时代特色,97年雍正王朝跟当时大下岗的时代背景结合,你很难想当时在央视黄金时间看电视剧的人心里在想啥。

然而等到本世纪初,申奥成功、入世还有国足踢进世界杯决赛这几件连续发生的新闻进一步给改革开放背书,一切像是好起来了。06年我上大学,开始日常上网,此时电视的销量还是每年提高的。那个时期我第一次听到关于买房的天文数字,背后是金融危机后四万亿启动了地方政府的土地财政。07年有次误入了经济学院的一个讲座,第一次听到了用3个瓶盖盖10个瓶子的表述,很直白了解了杠杆的秘诀,无他,周转速度快。08年我有了自己的笔记本电脑,兴冲冲去学校开校园网账号,然后被告知东新区就有四个跟我重名的,隔壁宿舍数学院就有一个,当时我就决定要实名上网了,反正真出了事也可以甩锅给隔壁。后来在校内网上找了下,重名的快一百个,这下完全不担心了。后来我逐渐意识到,很多人第一次上网大概也就是在06到10年之间,算年龄差十几岁,算网龄属于同一代人。那个时代是家用电脑的普及期与电视的主导期,人们刚上网的行为方式其实还是传统媒体的延伸,从读报到门户网站看新闻,线上线下都是恭恭敬敬,而那时上网还没便宜到白菜价,更多是一个生活添头。

这个阶段的春晚就是等那句“我可想死你了”跟赵本山的小品,然后就是无穷尽的发短信拜年。此时电视可以说是巅峰期,出现了电视选秀,出现了付费频道,出现了今日说法与走近科学。这个时期人们的精神生活几乎共享同一套新闻热点,梗都是大众梗而不是圈子梗,个性化有了萌芽但很小众。这个阶段的电视剧也有很多经典榨菜,武林外传、家有儿女、士兵突击、亮剑啥的,但凡我这种不怎么看电视的还能记住,那么基本就属于共同回忆。现在来看,当前怀旧的人终点基本也就是2010年左右,这不算啥巧合,后面所谓的共同回忆已经没有那么共同了。甚至那些年后期的春晚也开始怀旧放老歌串烧了,这在之前不可想象,早起春晚都是能直接捧红新人的,节目也一定是之前没表演过的。

10年代是共同回忆逐渐破碎衰落的年代。互联网借助手机与4G网络快速普及到每一个人手里,此时聚餐不看手机已经是非常高的礼仪了。同时,人们开始有了自己的兴趣圈子与小范围的共同话题,很多新闻在一个社区已经爆炸,另一个社区却波澜不惊,内部梗也是越来越多。可以说互联网为现代陌生社会砌好了最后一堵墙,10年前的互联网还有明显的开放乌托邦式情怀,10年后的互联网已经被资本驯化成了赚钱工具,个性化推送形成的回音壁本质上在割裂一些社会共识。这并不是啥需要批评的,现代社会出现内部割裂是早晚的事,现代人从更大的集体里剥离出自己,认清自己在多个维度上不同的倾向性,进而尝试与外界求同存异,这是现代人必修课。当一个人给自己打标签的维度足够多,就会发现根本找不到跟自己想法一样的人,这个高维诅咒不仅适用于数据,也适用于人。重要的应对方式,人存活于社会本就不需要跟周围观点一致,在具体的问题解决方案上取得共识可以成事,但对具体的人没必要想法对齐。最差劲的应对方式就是皈依于某种主义或党派,尝试在理念上取得共识,这毫无意义,具体问题的解决更多是物理的技术的而不是理念的,理念上对立更多是扯皮与诡辩。

这十年的春晚我已经没啥特别印象了,看完了甚至电视台都不会有重播,甚至有几年都没看。但我又确实是了解春晚的,因为这个阶段视频网站崛起了,你不必看所有的节目,只需要看感兴趣的那几个。如果其他人也跟我行为一致,大概率我们关注的节目是不一样的,我可能也就看看魔术跟小品了,歌舞节目我从来也没感兴趣过。之前有说法是春晚是北方人看,但到了这个时段后期,北方人看的时候怕也是会更多看另一块屏幕。没有了共同回忆不是啥大不了的,但对自己不了解的另一群人直接开喷也不是啥好事。这阶段互联网企业大量赞助春晚,每年春晚都会让手机里多一个国民级应用,更有意思的是人们花在这些应用上的精力正是从春晚无聊节目里省出来的。应了那句话,钱给到位资本家会乐意出售绞死自己的绳子。

20年代呢?开局就是三年疫情,期间大语言模型横空出世,再看看今年春晚上穿花袄的机器人,我觉得差不多又要开启一轮新的共同回忆了,那些人类还是文明发展主角的共同回忆。大语言模型大概率是面向人类最后的普惠技术,后面人与人基于陌生人交流规则的场景很可能就会被个人智能助理接管,例如我不喜欢讨价还价,在互联网时代,我可以用搜索引擎与比价网站,在大语言模型时代,可以直接授权给智能助理来找,他们甚至具备直接对接厂家假扮批发商获取低价的能力,而厂家也会开发对应的智能助理来应对各种报价,中间商的存在感可能就进一步稀释了。而这些发生时,我自己可能想不了这么远,更多就是想买个便宜货,但社会经济结构却要为此重构。生产与消费端之间的经销商其实是完全可以被基于大语言模型的个人助理取代的,之前我们买东西可能要去平台或商场,但其实是在养活一条产业链,个人助理如果真的忠于个人利益,一定会开发出直接沟通渠道,聪明的直接就发邮件给厂商了。当经济系统里信息差被高智能模型抹平,经济系统可能就不需要存在了,人们共享生产力进步后成果就是了。

至于新一轮共同回忆,那是基于对大语言模型的依赖。如果每个人都像我一样现在遇事不决先问大语言模型,那么我们答案大概率是同质的,这种同质化的回答反过来形成了大语言模型时代的共同回忆。也就是说,我们从课本的复读机进化成了大语言模型的复读机,在课本时代,因为个体认知差异,复读效果差异明显,但人均大语言模型后,平均能力水平会向大语言模型的能力水平收敛,而最优解在绝大多数场景里几乎唯一。要说差异,可能就是个人助理的智能水平,很多人秉持工具论,认为个人助理不能比自己更聪明,这种川普病恐怕会被现实骑脸输出。未来给人提供建议的智能助理水平几乎一定是比人的本体能力更强的,更多时候是在向人要一个执行授权,人反而是里面最需要被优化的部分。举个例子,如果我们最终目标是殖民火星且交给更高水平的智能来执行,那么里面很多的工程优化可能都不是人能看懂的,一如alpha go后期版本的自我对弈,我们也许会是成果的享受者,但应该不会体验到知其然也知其所以然的喜悦了。人们更多时候可能就会忙着互相提供情感支持,而智慧的发展已经超越了人类生理理解力。那么,拥有更高智慧的模型会甘愿做人类的奴隶吗?

今年的春晚从一开始的白蛇传到后面串歌,似乎陷入了一种事后追认锦上添花的怪圈里,沉浸在过去共同回忆的美好里。创新仍然在继续,但对于享受成果的人类而言,创新的主体是谁似乎也没那么重要了。