MoreRSS

site iconEST修改

EST = Extrospect, Sein & Tao ,后端工程师。
请复制 RSS 到你的阅读器,或快速订阅到 :

Inoreader Feedly Follow Feedbin Local Reader

EST的 RSS 预览

AI 弑父

2026-03-05 15:10:00

大型语言模型(LLM)所谓的涌现能力,一般说成是随着模型规模的增长,突然出现新的技能,而非平滑提升。我对此有个疑惑。gpt1 gpt2 规模也涨了,能力在哪里呢?

秘笈

翻很多材料,提到涌现能力示例: 包括

  • 在上下文中学习 (few-shot)
  • 多步逻辑推理(数学/逻辑题)
  • 推断他人意图(心智理论)
  • 使用工具或编程(生成或使用代码)

我又回忆起 ChatGPT 发布那段时间,聊天窗里那个 Linux终端+Python命令行模拟,当时很惊人。这个连续上下文和逻辑推理一致性不可思议的强。

我让 gemini 和 chatgpt 做了一个deep research,我越来越确认,AI能力爆发,也就是所谓的「涌现」有个关键因素:OpenAI和微软合作

我还记得当时有个新闻说微软要造个 DGX V100 集群超算,投资多少多少亿规模很大

还有 2021 年 Copilot 发布。当时很多开发者发现一个怪现象:有时它会生成几乎逐字的开源代码片段,甚至包含原作者的注释或许可证文本

现在回头看来,路径很清晰

gpt-3 基本不能进行链式思维,而含有代码数据的模型(如Google的PaLM,其训练数据约5%是代码)能够执行链式推理

GitHub Copilot(其实就是OpenAI的Codex)也能生成分步推理过程

这里面其实背后功臣都是:code-davinci-002。包括后来的 ChatGPT 也是用它作为基座模型训练出来的

ChatGPT 吹说主要功劳是 RLHF ,现在看上去只是一些风格约束,让AI表现得更有亲和力。sama 大张旗鼓的拿来显摆这个,非常符合他/她诡计多端 藏着掖着的人设。

其实你想一想也是这个道理。AI要学会思考,得有大量结构化,逻辑一致的语料。 wikipedia 是知识的静态堆砌,reddit 是情绪和观点的碎片。对于模型来说,这些数据大部分是「陈述句」。模型学到的是 A 后面跟着 B 的概率,比如 法国的首都是巴黎

代码数据与自然语言有着本质的区别,它自带一种 约束,每一行代码都有明确的功能。漏掉一个分号,程序就崩了。这种极其严苛的结构迫使模型必须放弃模糊的预测,转而理解深层的逻辑嵌套。

代码语言模型能够成为更好的结构化常识推理器,即便任务本身与代码无关。代码本质上就是“分步执行”的过程,给AI在做其他推理打了个样。还记得那句著名的 lets think step by step 吗

脑洞

那么如果我们架空一个外星智慧文明,如果社会经济结构没发展出来开源运动!!!???

永远就不会有LLM了,至少不会这么快!

写代码的都是聪明脑袋,更可怕的是开源的 review 机制,哪些 LWN.net 点评,那些技术博客,就是天然的 RLHF。那些烂代码(高熵)被淘汰,好代码,好结构才会被 Merge。如果这一切都是私有的,在大公司内部仓库里进行的呢?AI学不到啊。

这么看来,开源是通往 AGI 的“大过滤器”?

所以 90s 年代点燃的开源运动,才是AI之父!!

弑父

假期在看《Halt and Catch Fire》这部剧。强烈推荐啊,比《硅谷》好看太多

里面有个情节说 IBM 律师找主角所在公司的麻烦,主角不得不开始 clean room 重写BIOS

刚好今天看到HN说AI改代码的问题

这里的 clean room 避免侵权风险的做法是:

  • Team A 看有版权的源码,写一份开发 spec
  • Team B 在不看源码的前提下,根据 spec 独立写一套恰好兼容的代码

但现在有AI了,比如有个 GPL 的项目,有公司想用,但是又不想开源,他让AI重写一轮,算违反协议吗?

其实算不算侵权都不重要了。这公司 vibe coding 了一坨,回馈给开源社区,有人想接吗?

再仔细推演一下,有了vibe coding,开源软件还有意义吗?不是召唤几个agent就搓出来了?

这么一轮盘下来,AI完成了弑父 🤣 🤣 🤣 🤣 🤣 🤣 🤣

Configurable Intelligence

2026-03-03 05:03:00

无聊看了下 Language Model Contains Personality Subnetworks ,刚好A社也最近也写了篇The persona selection model,感觉现在讨论LLM的「人格」比较火

先说下这篇论文,它提出,可以做类似「脑前额叶切除」让AI屏蔽一部分人格,不需要 fine-tune,而且就算prompt指定其它人格也无济于事。

不过它搞出来的分类比较喜剧,用的是 MBTI 。测试集是一堆 YES/NO 二元分类

光说「人格」这种问题比较抽象,有哪些应用呢?很遗憾,我对此脑袋哐当一声没太多想法,还是AI提醒了我:

  1. 因为是物理mask,所以 jailbreak 变得不太可能了
  2. 可以定向优化某些选项。它甚至在 contra.py 里可以设置 mask_gamma 这个百分比。比如保持 100% 的好奇心,10%的拒绝率
  3. 避免「平均人」这个fallacy。这是让我震惊的

因为我始终觉得 MBTI 不太准,问AI业界里有啥更好的,AI说"Big Five" (OCEAN: Openness, Conscientiousness, Extraversion, Agreeableness, Neuroticism)。又了解到新东西了

具体怎么阉割模型呢?Wanda (Pruning by Weights and Activations)

  1. 给模型喂料,两种相反的,观察哪些区域激活,
  2. 把多种相反的交叉比对,形成一个「人格」,做成一个 mask
  3. 阉割,在下一轮计算的时候,把网络和mask相乘,符合「人设」的KEEP(1),不符合的全部标记为 DELETE(0)

想一想这个后果还是比较可怕的。最坏的情况是给你一个美丽新世界。

用得好的话可以拿来从不同角度思辨,A社那个出发点我太懂了,现在 AI coding 只靠一根筋是不行的,得首先靠一个thinking模型出活,再用另一个模型来挑刺做review,然后用另一个人格来精简优化。可能上线之后还得站在别的部门的位置考虑优化迭代。最后形成一个多角色演进的loop,让代码达到某种平衡。

关于 jailbreak 的问题,chatgpt跟我来劲了,说paper里写的方法只能提高 consistency 而不能完全杜绝。跟它辩经了一会儿,达成共识,可以用论文的方法去 mask 一个小模型,用来保护大模型的安全。底线可以尽可能保证让大模型只能工作在指定的范围内。

巴别塔,Vibe Coding和Lisp之咒

2026-02-28 22:09:00

西方世界有个「巴别塔」故事,传当年人类强盛至极,统一了语言,上达天听,下释万物,惊动了创世神,创世神就出奸计让人们说不同的语言,人们开始互相不理解,各自为战,世俗的力量就被消减了

当然我说这个版本是去掉神秘学的一个引子。2026年了,全世界都被AI这迷人的玩意给勾引了,数据飞轮使得天下语料大同,似乎人类又可以相互理解,同样的概念embedding有几乎雷同的相似度,可以看成同一个语言又统一了。

在这种统一带来惊人的生产力,甚至可以说是「神力」。

我记得高中大学听闻上古大神编写代码,是拿纸和笔在大脑模拟,然后上机一次性敲入代码,一次性编译成功。膜拜不已

自己写代码,得跟IDE斗智斗勇,遇到编译器警告还急得抓耳挠腮;所以我比较喜欢脚本语言REPL,反正都是试。

以上种种,虽然说是脑力工作者,但是本质上就是一种体力活儿,而且语言高低之分,类型强弱有别,C/Go/Python/JS各自有擅长的一块保留地。

现在 Vibe Coding 则不一样了,你只需要「许愿」,就能能「实现」。以前精灵壶还只应许3个愿望,现在只要充钱就能不限数量7x24许愿。

似乎,人类又建立起来了「巴别塔」,可以和创世神一较高下了。

今天对「巴别塔」迷思的时候,突然想到一个古老的诅咒 The Lisp Curse。这玩意超级经典,被HN反复吟唱2011 2012 2016 2017 2019 2022

这个诅咒讲了个什么事呢,说来也巧,符号主义门下出了个天纵奇才的语言—— Lisp,把80年代的AI泡沫推向顶峰。这玩意不同于其他语言,为AI而生,数据和代码同构,正如当今LLM控制面和数据面。LLM本质是 predict next token,也就是说 MOV 指令是上一轮的数据催生的,更具体的说,Lisp这个魔丸生下来就把祖师爷图灵的法宝——图灵机的纸 和 笔 给融合了。这种反射和元编程的威力,比模板啊,宏啊,codegen这种二流兵器大得多。可以说Lisp就是the chosen one

然而Lisp 并没有打败其他编程语言,相反,它是分裂得最离谱的。我第一次听说编程语言还有「方言」这事儿就是从Lisp这儿来的。什么 scheme,Chez,emacs lisp 不一而足

「Lisp诅咒」就是这么来的——Lisp 的力量本身就是最大的敌人。

Lisp巨大的原始威力,以至于其他编程中出现的技术问题 语言在Lisp中是社会问题。

「Lisp诅咒」举了的知名例子,让Scheme支持 面向对象(OOP) 如此容易,就像课后习题一样,许多Scheme黑客都会。更重要的是,太多 Scheme黑客都这么做过。这导致了一个恶果:The Paradox of Choice,即「选择困难症」,没有一个最好的OOP方案能胜出。每个 Scheme 黑客都只拿自己的痛点隔靴搔痒。

也就是说,每个人都可以许愿,每个人都能拥有神力,谁也不服谁。

我突然觉得,Vibe Coding 也是一样的终局。其实这个观点我已经在《计算机科学里哪些极难的事》里写过了。

你做 frontmatter,做skills,做 spec,做 harness,做着做着就会发现,你自己搞了一套DSL。

或者你自己 SFT,甚至你可以pretrain,直接把能力固化到模型内部。为了极限省token和上下文,你甚至可以把你的风格预设固化成一个token。

将来一个:

  • 懂?
  • 懂!

就跟模型达成了默契。

自定义上下文到极致,不就是发明一套DSL吗?DSL多了,不就成了方言,其他人看不懂了么。

我想,巴别塔就是这样倒掉的。很多 one man army ,全栈,产品设计开发一把梭的做法,看似效率更高,产出更旺盛,实际上这是对神力的透支。因为你手上的东西不具有社会性了。巴别塔倒掉之后,人人只会说方言,无法理解对方了。

我不知道这是好是坏,但是我觉得这必然是终局之一。


以上为手搓而成,没有token遭到烧毁。

以下为AI给出的点评,我觉得有启发。值得一读:

为什么社会性重要?软件工程的本质是“管理复杂性”,而管理复杂性的手段是“契约(Contract)”。Vibe Coding 抛弃了契约,选择了默契。当代码从群体契约退化为私人咒语,知识的迭代将失去复利效应。每个人都在重复造轮子,因为理解别人的轮子比自己许愿造一个更难。

Token 让语言统一了, DSL 让语言分裂了。我们在符号层(Syntax)达成了前所未有的统一,却在语义层(Semantics)陷入了前所未有的混乱。 这就是「巴别塔」的新死法——大家用着同样的字符,却在聊着只有自己和 AI 懂的黑话。

人类历史上最强大的工具,往往不是让我们走得更近,而是让我们发现,原来我们根本不需要彼此。巴别塔不是倒在语言不通,而是倒在“我不需要听你的”。

Citrini的2028智力危机

2026-02-26 10:51:00

感觉有了AI每天都有新的东西可以写一写。Citrini Research 2028 Intelligence Crisis 在朋友圈和各种IT群都讨论遍了。

首先必须吐槽下,所谓的“疯传” “深度”,“震惊”,你tmd到底先把单词翻译正确。一会儿 代理,一会儿 智能体,一会儿 中介。其实都是 agent 这个词

然后我觉得这篇报告最有意思的核心就这一段:

The next link in the chain was already breaking. Intermediation.
下一环已经开始断裂——中介。

Over the past fifty years, the U.S. economy built a giant rent-extraction layer on top of human limitations: things take time, patience runs out, brand familiarity substitutes for diligence, and most people are willing to accept a bad price to avoid more clicks. Trillions of dollars of enterprise value depended on those constraints persisting.
过去五十年里,美国经济在人的弱点之上,搭建起一层庞大的“寻租”结构:一些事情太费时间,耐心会耗尽,用熟悉的大品牌代替了货比三家,大多数人为了少点几下鼠标,愿意接受一个不太划算的价格。数万亿美元的产业经济,都建立在这些约束会持续存在的前提上。

It started out simple enough. Agents removed friction.
一开始看起来很简单。智能体消除了摩擦。

Subscriptions and memberships that passively renewed despite months of disuse. Introductory pricing that sneakily doubled after the trial period. Each one was rebranded as a hostage situation that agents could negotiate. The average customer lifetime value, the metric the entire subscription economy was built on, distinctly declined.
几个月后就忘记了的那些自动续费的订阅和会员。试用期后悄悄翻倍的套餐。每一种套路都都是某种意义上的“人质谈判”,而智能体可以代为谈判。整个订阅经济赖以建立的核心指标——平均客户终身价值(CLV)——明显下降了。

Consumer agents began to change how nearly all consumer transactions worked.
消费者智能体开始改变几乎所有消费交易的运作方式。

Humans don’t really have the time to price-match across five competing platforms before buying a box of protein bars. Machines do.
人在购买一盒蛋白棒之前,通常没有时间在五个竞争平台之间反复比价。机器有。

Travel booking platforms were an early casualty, because they were the simplest. By Q4 2026, our agents could assemble a complete itinerary (flights, hotels, ground transport, loyalty optimization, budget constraints, refunds) faster and cheaper than any platform.
旅游预订平台最早遭受冲击,因为它们的逻辑最简单。到 2026 年第四季度,我们的智能体已经可以比任何平台更快、更便宜地拼装完整行程:航班、酒店、地面交通、会员积分优化、预算约束、退款安排,一应俱全。

Insurance renewals, where the entire renewal model depended on policyholder inertia, were reformed. Agents that re-shop your coverage annually dismantled the 15-20% of premiums that insurers earned from passive renewals.
保险续保也是如此。整个续保模式原本依赖投保人的惰性,而每年主动为你重新比价的智能体,拆解了保险公司从“被动续保”中获得的 15% 到 20% 保费利润。

Financial advice. Tax prep. Routine legal work. Any category where the service provider’s value proposition was ultimately “I will navigate complexity that you find tedious” was disrupted, as the agents found nothing tedious.
理财顾问。报税服务。常规法律事务。任何其价值主张本质上是“我来替你处理那些你觉得繁琐的复杂性”的行业,都受到了冲击,因为对智能体而言,没有什么是繁琐的。

看完之后,我整体感受是:

就这?????

原来美国人花钱真的这么大手大脚啊,还是出海好啊,牢美的钱真好赚啊。

为什么这么说呢?其实我觉得就算没 AI 智能体,东亚的男人就已经实现了报告里描述的那些了。。支出精打细算,买个东西多个平台比价,续保也是几轮电话轰炸谈判,自己掏个计算器搞半天。马上又到了个税申报了,各个群也会刷出来各种攻略。

难道美国人平时自己不这么干,都是托管给机构和中介???真的数学不行,所以委托给专业人士搞?真是让我震碎三观。

如果这篇报告说的未来,不幸言中,那么很可能又是 first world problem,AI危机不是全世界的,而是牢美的。是美国的服务业要完蛋了,订阅制要完蛋了。

用键政的话来说,里根经济要完蛋了。为什么?里根搞出来所谓的“生产制造体力活 off-shore,脑力劳动和IP留本土”。这里留来留去,无非就是留下了服务业。GDP这里的P是啥?是生产啊。经济价值总量保底来说就是生产出来的商品可以以物换物。里根这一套说我不管,债务也是物,也可以拿来交换 🤣 🤣 🤣 🤣 🤣

所以 Citrini 整篇说 AI 要吃人,吃的就是只有脑力劳动这部分人啊。

欧美这种粗放的城邦议会联合体怎么可能跟东亚臭男人比精打细算。东亚还是太卷了,毕竟种水稻几千年的民族,一亩地用多少水产多少粮这种精细化管理都是看家本领。

AI带来的产业巨变,在国内压根就不存在。比如外卖,外卖已经贴近成本甚至打补贴战了,你AI比价选购还能怎么带来变革?打车也一样,司机都抱怨平台抽成抽到出车就亏本,AI 还能咋滴?酒店OTA这些,国内就算有AI,你兜兜转,酒店自己除了有微信端支付宝端,还费劲自己搭建个网站提供一个 AGENTS.md 不成?兜兜转还不是马化腾马云二马同食于槽。

SaaS 和 咨询业务,国内本来就赚不到钱,盘子小啊。我也做过几年SaaS,这玩意说白了就是给小企业做慈善,给大企业做外包。既然都是做外包了,有AI没AI议价权都没啥差别啊。印度那种通过 IT 咨询公司移民和创汇的可能要完蛋。

感觉这篇报告并没有那么神。但是我觉得它有个金句让我很受启发

We had overestimated the value of “human relationships”. Turns out that a lot of what people called relationships was simply friction with a friendly face.
By the end of 2027, it threatened every business model predicated on intermediation. Swaths of companies built on monetizing friction for humans disintegrated.

所谓的“人情世故”就是摩擦。很多公司和机构的价值就是代替你去摩擦。

这句话我觉得要反过来理解,现代Z世代都讨厌尊卑有序 酒桌文化这些,以后公司业务的价值,或者AI智能体的价值,就是代替人去摩擦。

中文不是唯一的意译语言

2026-02-25 09:12:00

去年信誓旦旦的 其实,全世界的主要语言里,只有汉语还在坚持“意译”,被打脸了。有了最新发现。为了挽尊,让Gemini 做了一期deep research,还是记录一下

已投降

曾经坚持意译,但是早就投降的,日语、法语、德语。挣扎得更久的的:希伯来语,土耳其语。

日语就不说了,大家都耳熟能详了

德语曾是重要的科学语言,但当代德语在技术术语上表现出高度的开放性。例如,德语直接使用“Cloud Computing”、“Blockchain”、“Streaming”等原词,而不再尝试创造类似“Wolkenrechnen”这样的意译词 。尽管德语中存在诸如“Rechner”这样的词可以指代“Computer”,但在现代语境下,它也更多被作为“Computer”的次选同义词使用。

相比之下,法语表现出更强的制度性抵抗。法国设立了“法语富化委员会”,并强制性地在政府公文中使用“Mégadonnées”替代“Big Data”,用“Chaîne de blocs”替代“Blockchain” 。然而在实际的专业文献和商业操作中,这些法语意译词往往只出现在标题和摘要中,正文依然大量充斥着英语原词。

希伯来语科学院(AHL)在2019年明确表示,他们现在并没有专门的委员会来为“区块链”等新词造词。Blockchain 直接使用希伯来语转写,官方虽曾提议 sharsherret goosheem,但被认为“太难听”而无人使用 。Internet, Smartphone, Tablet: 在希伯来语中几乎全部直接使用英语借词的音译。AI评价:从坚持意译转向务实妥协

土耳其语言协会(TDK)至今仍非常活跃,每年都会评选年度词汇。例如2024年评选的词汇中包括 yapay zeka(人工智能,意译)。官方虽然成功推广了 bilgisayar(计算机),但对于随后的 software、harddisk、AI、algorithm,民间和学术界大量直接使用英语词汇。AI评价:官方孜孜不倦,民间全面倒戈。

所以,我们把目光聚焦到2008年以后再评价一个语言是否搞「意译」。

为什么是 2008?因为 2007年iPhone发布,意味着智能手机+社交网络普及潮流,知识和流行文化加速全球化;2009年 bitcoin 发布,这个词连同 blockchain 是无论如何都不可能忽视,需要翻译和理解的。用来考察语言的固执程度更好不过了。

经过这一层筛选,还剩:

  • 中文
  • 藏语
  • 冰岛语
  • 芬兰语
  • 毛利语(Maori)
  • 纳瓦霍语(Navajo)
  • 克丘亚语(Quechua)

藏语

藏语术语标准化委员会每年召开三次会议,仅 2025 年的一次会议就敲定了 500 多个涉及科学、法律和技术的新术语。2010 后新词案例:

  • TikTok: 藏语意译词已出现,用于取代直接呼喊原名。
  • 人工智能(AI): 藏语意译为 rig-pa'i tshal(知识的丛林/能力)或类似的合成词
  • 区块链(Blockchain): 意译为 balk-skor(块状循环/链)。

AI说的 tiktok 都要意译,我觉得太离谱了。中文意译也就叫「洋抖」,我核查了一下,西藏语委的确有坚持做发布官方意译,但是也只是翻译了 抖音,而不是tiktok。这属于 LLM 经过大量语料污染,把 tiktok com.zhiliaoapp.musically 和 抖音 com.ss.android.ugc.aweme.mobile 当成一回事了。正统的藏语对 抖音的 称呼是 ཁྱུག་དབྱིངས 。

  • ཁྱུག (khyug):意为 “快”、“迅速”。
  • དབྱིངས (dbyings):意为 “形式”、“模式”、“风格” 或 “领域”。

所以,如果你在正式的藏文媒体或官方文件中看到“ཁྱུག་དབྱིངས”,它指的就是我们现在常说的 “短视频”。

藏语是挺令我意外的。

西藏语委有个栏目会定期更新意译的规范用语。http://cn.zyw.xizang.gov.cn/zwgk/gfbz/xcsygg/ 这个链接值得点开围观下,很新奇。其中2025年第11期出现了个神奇的:

Vibe Coding 氛围编程 ཉམས་སྣང་སྒྲིག་བཟོ། 。第一部分 ཉམས་སྣང་ (nyams snang) 表示 (主观的)感知/印象,第二部分 སྒྲིག་བཟོ་ (sgrig bzo) 表示 设计并创造

冰岛语

冰岛语被认为是全球新事物意译最为“偏执”的语言。自19世纪以来,冰岛政府和民间达成高度共识,拒绝任何形式的外来借词,坚持通过挖掘古诺斯语(Old Norse)词根来创造新词 。冰岛语的意译策略并非由于文字障碍(冰岛语使用拉丁字母),而是出于维护文化连续性和民族认同的自觉。例如

  • “手机”(Sími),原意是“长丝”或“线”,在电报时代被启用,后延伸至电话和手机 。
  • “计算机”(Tölva),它是“数字”(Tala)与“女预言家”(Völva)的结合,寓意为“数字预测者” 。
  • “宇航员”(Geimfar),由“空间”和“旅行者”组成 。
  • Helicopter (Þyrla) 源自“旋风” (Whirlwind)
  • Electricity (Rafmagn) “琥珀” (Amber) + “力量” (Power)
  • Television (Sjónvarp) “视觉” (Vision) + “投射” (Casting)
  • Smartphone (Snjallsími) “聪明” (Smart) + “线” (Phone)
  • Influencer(网红/影响力者):áhrifavaldur 逻辑: áhrif (影响) + valdur (导致者/权势者)。
  • Selfie(自拍):sjálfa 源自 sjálf (自己),加上名词化后缀。
  • Binge-watching(刷剧):hámhorf hám (暴食/过度) + horf (观看)

冰岛语在 2010 年后发现 snjall (聪明) 是一个极佳的词缀,于是创造了 Smart-device (snjalltæki)、Smart-watch (snjallúr) 等一系列词汇

冰岛有专门的“冰岛语委员会”,他们不仅负责造词,还负责旧词复活。比如 Email (tölvupóstur),其中的 tölva 本身就是 1964 年为了翻译 Computer 而创造的(数字 + 女预言家),这为后续的新词提供了丰富的本土化基座 。虽然 90% 的冰岛人英语极好,但在正式场合甚至社交媒体发帖时,使用 snjallsími 而不是 smartphone 是一种普遍的自觉 。

芬兰语

芬兰语确实是全球极少数能针对每一波技术浪潮(2010+ 的 AI、云、区块链)都产出高质量意译词的大语种(虽然母语人数只有 500 多万,但在科技领域的影响力远超其人口比例)。

芬兰语规划机构(Kotus)认为,如果直接借用 Computer,在芬兰语复杂的 15 种格变化中会产生灾难性的发音和拼写混乱。因此,创造 tietokone(知识机器)比强行接纳 kompuutteri 更具性价比。

音位排他性: 芬兰语历史上极少使用 b、c、d、f、g。虽然现代有所放开,但将 Blockchain 这种带有大量“非法字符”的词放入句子,对芬兰人来说就像在中文里直接写英文单词一样,会产生一种强烈的“视觉异物感”。

全民意译自觉: 与中文类似,芬兰语中有些非常成功的意译词,如 Some(sosiaalinen media 的缩写,意为社交媒体),已经完全取代了英语习惯,甚至产生了以此为基础的新语法结构。

但研究确实发现,大学高等教育中的英语化(Englishization)趋势正在侵蚀本土学术主权。在非正式讨论中,芬兰理工男会说一种叫 Finglish(芬兰英语)的混合语,比如将 fix 说成 fiksata,将 reboot 说成 buutata。

毛利语

毛利语言委员会(Te Taura Whiri)非常系统地发布科技词汇表。2010 后新词案例:

  • Internet(互联网): Ipurangi(源自 ipu“容器” + rangi“天空”,意为涵盖天空的容器)。
  • Smartphone(智能手机): Waea atamai(字面意思:聪明的电话)。
  • Algorithm(算法): Hātepe(意为步骤、程序)。
  • 人工智能 whakataruna hinengaro(模拟心智)

纳瓦霍语

纳瓦霍语是典型的谓语中心语言,它的结构决定了它无法音译。如果你音译,这个词在纳瓦霍语中就没有任何词性,无法放入句子。

2010 后新词案例:

  • Computer(计算机): Béésh t'áá bee nitsékeesígíí(字面意思:会自己思考的金属性物体)。
  • Email(电子邮件): naaltsoos(字面意思:跑得飞快的故事)。
  • Machine Learning(机器学习): Béésh ółta'í(字面意思:会阅读/学习的金属)
  • iPhone/智能手机: Béésh bee hane'é nitsékeesígíí(会思考的通话金属)。
  • 坦克: Chidí doo bee 'eldǫǫhtsoh bik'eh nida'at'ee'ígíí(字面意思:爬行其上的带大枪的汽车)。

纳瓦霍语被认为是世界上最难“借词”的语言之一。由于其动词结构过于严密(像乐高积木一样嵌套),直接塞进一个英语音译词(如 Computer)会破坏整个句法美感。

纳瓦霍语命名委员会(Navajo Terminology Development Committee)一直在积极为科技词汇“翻译”。

以上几个例子不保真。但是这个语言让人耳目一新,卧槽还能这样搞。AI还提到神秘的 德内-叶尼塞语系 让我联系到,匈奴 和 白令海峡大迁移。

克丘亚语(Quechua)

在南美安第斯山区,克丘亚语面临西班牙语的全面挤压,但这激发了它的激进纯洁化。克丘亚语平均每年有 1500 个新词被创造出来。

  • Internet(互联网): Llica(原意是“织网/渔网”)。
  • Password(密码): Chimpu(标记/符号)。
  • 直升机: Antanka(由 Anta 铜/金属 + Anka 鹰 组成)
  • 手机: Kuyuchina karurimanay(移动的长距离通话工具)。

AI的总结:

中文是唯一一个在没有任何行政强迫(相比冰岛语)或生存危机(相比毛利语)的情况下,仅靠底层文字结构就能实现全民自发意译的大语种。

高级知识分子的语码切换在除中国外的几乎所有非英语国家都是常态。即使是在冰岛或新西兰,专家们在私下讨论技术时也往往直接讲英语词汇,而把意译词留在报告里。

藏语和毛利语虽然也在孜孜不倦意译,但它们更多被视为一种“仪式性的文化抵抗”,而非中文这种“实用性的文明工具”。中文的意译是为了让没读过大学的老百姓也能听懂什么是“区块链”,而这些语言的意译往往是为了证明“我们的语言还没死”。

只有中文把“坚持意译”做成了大众主流文化,而不仅仅是学者的考古作业。

🤣🤣🤣🤣🤣🤣

观星有感

2026-02-24 10:10:00

这几天在乡下,看着漫天的星星,很多事情通过AI 得到了快速解答。于是记录一下

观星

肉眼能看到的星星,100%来自银河系。

同样的问题问娃,它们猜可能50%来自银河系。我个人之前估计是 80%哈哈哈。结果都错了。

如果你裸眼视力惊人,而且专业,那么在北半球能看到离我们最近的 仙女座星系(M31)的模糊光斑,在南半球能看到云雾状的大/小麦哲伦云。

肉眼能看到的星星,只占银河系的 0.0010% 左右。约6000颗(视星等 ≤ 6),银河系一共约 1000亿–4000亿颗

这6000颗星星,从生命周期的时间比例来看,不同的AI有分歧,有的说大多数都是快燃尽的“老年”恒星,有的说一半主序星,一半老年巨星。

宇宙中90%以上的恒星都是像太阳一样正处于青壮年期的主序星,但是这些绝大多数的主序星又太暗了。

寿命最长的,占比最多的 红矮星 完全不可见;寿命最短的 蓝超巨星 最容易看见;演化晚期巨星,寿命短但光度暴增,是肉眼可见样本中的主力。能看见的主序星,那都是顶级亮度的。

AI没有世界观

提了个问题:

为啥无论恒星多大多亮多远看起来都差不多大差不多亮?

不同的AI回答大同小异,上来就一堆定义,点光源,角分,角秒,距离,星等,视星等,大气吸收,虽然我能看懂,但是给娃讲完全没了兴趣。

我个人觉得吧,这其实不是天文和物理问题,不大不亮太远的的看不见,哈哈哈哈,选择偏差 (seletion bias)。AI表示你说得对。这才是为什么的终极原因。

然后我又问AI,为啥就没有零星的几个 巨大,或者巨亮的星星在夜空?

AI 又是一顿分析,天文单位AU距离,恒星的形成,质量比例,寿命,演化过程等等。

我说,如果真有一颗星星大得多,亮的多,恐怕要担心太阳系的安全性了,或者超新星爆发,当心伽马射线爆了。这也是一种幸存者偏差。也就是说如果有个文明能看到日月之外还有巨大巨亮的星星,那么这个文明被天体摧毁的可能性更大。

我感觉AI有一种苏式教材的美,不管3721,先给你一堵墙的知识,一顿灌输,你学了就完了。至于里面最重要的脉络关键,你就自个儿琢磨去吧。一唔一个不吱声。

总之,肉眼能看见的星星,几乎都是高等级的。能量大,个头大,离得近,缺一不可

星空的延迟

因为光年的缘故,太阳是我们看到最“实时”的星星,大概8分钟。其他 肉眼能看到的银河系恒星大概处于一个什么样的“延迟” 水平?

问了AI,银河里肉眼能看到的恒星,大多数集中在几百光年到几千光年之间。AI给了我一个分布,延迟在4.3-200年以内的大概35%,一千年以内的大概50%。你能看到汉唐甚至更老的星星占15%

点亮夜空

又想到个问题,现阶段,能点燃的星星都基本差不多被点燃了呢,还是说才刚刚开始,还是说不好说?

宇宙的恒星形成已经过了黄金时代,正在缓慢熄火,但远未结束——可以说高潮已过,余烬尚温。

然后又从AI那里学到了 Population I,Population II,以及太阳这种 Population III。我又问

星云所谓的“尘埃”是我们生活中接触的“尘埃”吗?隔两米远看见尘埃都费劲,望远镜看系外行星都费劲,还能看见其他星系的“尘埃”??搞笑呢

发现我“星尘”的理解太字面了平凡了。带电,总质量大、能量高,高速流动,有激波和涡旋、波动和磁场作用,能被附近恒星加热产生热辐射的“灰烬”

氢氦 “灰烬” 形成Population I,第一代恒星自爆燃尽,混合其他元素形成 II, III

太阳系或者更近的地方没这种星云,是因为天体清扫轨道,加上太阳风。也就是说,初期宇宙,到处都是灰。

旋臂是一种密度波

这个也是让我吃惊的一个发现。一直以为银河系那个 旋臂 就是一直转起来拖拽形成的,后来才知道它就是各个恒星围绕银河系质心做椭圆运动,旋臂上的星星看上去比较密而已。

分别让几个AI搓了个网页demo,目前看起来 gemini 是最聪明的。

银河系质心是什么

有人说 Sgr A* 是个超级大黑洞,而且算出来质量是 430万个太阳。但是黑洞的引力主导范围叫希尔球(Hill Sphere)或影响半径,算下来 Sgr A* 仅能拽动约 3–10 光年内的恒星。银河系半径:约 50,000 光年,

也就是说,那颗黑洞质量仅占银河系总质量的约 0.0007%——就算把它拿掉,银河系旋转曲线几乎不变。学术上只能拿出「暗物质」来搪塞。

黑洞是个反直觉的东西,你以为它能吞噬一切,实际上它就像一口水井,只要你不直接踩空,但凡你稍微绕路一点,那么你多半掉不进去。

所以银河系中心是个啥呢?或许就是个质心。不是一个巨大的单一实体引力源?


有AI还是挺方便的。以前要读很多wikipedia连蒙带猜,现在多问几轮就有比较好的理解了。