2025-03-03 08:00:00
我的云盘基本只存文档,免费容量19GB,所以很长时间也没关注容量。最近突然收到邮件说云盘空间不够,这我才注意到云盘已经用了16GB,仔细看了下发现里面邮件快10GB,不知啥时候备份的照片5GB(应该是之前免费存照片后来说原图占空间了),然后文档其实就1GB。图片文档我也懒得管了,但快10GB的邮箱让我有点意外,毕竟邮箱附件都是有限制的,啥玩意能这么大。
然后我就开启了邮件大扫除模式,这才注意到个人邮箱已经累积了十万封邮件。这是我个人邮箱,中间在加拿大时曾代收过学校邮件两年,之后都是严格区分工作邮箱与个人邮箱的。我出国前是清理过邮箱的,留下的应该不到千封,这就是说后面这十万封邮件都是最近十年收到的,因为我默认用归档而不是删除处理邮件,久而久之就搞成现在这样,均下来其实一天也就三十多封。
最近恰好在琢磨如何把个人数据喂给本地模型,训练一个个人助理,其中一个难点就是去哪里找个人数据。我个人数据一部分在博客对外公开,一部分在笔记,这些都好说,不过很多鸡毛蒜皮的事我不会去记但希望助理能记住,例如网购记录啥的,这些确实又个默认的去处,那就是我的个人邮箱。然而,我很清楚的是这十万封邮件里广告估计会有一多半,其中疫情期间我订阅的newsletter、基本不看的邮件列表、还有GitHub各种消息更新就占到三分之一,另外就是各种类型的广告,加起来也能占到三分之一,真正对我有用的可能有两三万封,这里面就没有绝对主力了,单一发件人发给我的邮件都是在一千封以下,但约莫一周一封倒也可以接受。我自己则发出了约2500封邮件,大概一天几封这样。这个数看上去不多,但考虑到我大多数回邮件都是用工作邮箱,个人邮箱一天几封也算不少了。
不过这次整理还是挺有收获的,很明显邮箱里的信息属于个人被动日记,里面有注册信息、忘记密码信息、购物信息、账单信息还有与外界联系信息,从里面可以大体构建出过去这些年我关注点的变化,很多是我自己意识不到的。即使是清理过的邮箱,里面未读邮件也有三四千封,这些邮件大都是起备份作用的。这部分数据配合时间戳是可以构建出一个相对清晰的个人形象的,这个个人形象可以转化存储为一个向量数据库,大语言模型可以通过接入这个数据库来更好服务我。思路有了就好办了,剩下的脏活累活都是可以让大语言模型来生成代码的。
简单说就是把所有邮件导出为mbox文件,然后把这个文件转成纯文本文件,然后导入到知识库向量化,然后就可以了。当然这个方案非常粗,想让助理更智能,就要让其更好理解邮件并做好数据清洗,向量化与提示词也有优化空间。因为邮箱是操作系统级的应用,相信今年就能看到系统级的信息整合了,特别是手机端,不过我这个应该属于邮件数比较多的,国内更容易实现的其实是基于微信聊天记录的个人助理,我见过不少人会通过给自己发语音来备忘,只是我还是倾向于本地化搜索增强生成方案或者说微调出一个个人助理。
理想中的人工智能助理,一方面要了解我的过去,另一方面要可以通过数据接口更新,还有有各种专业知识,这样只要我对其提问,他可以基于我的现状来给出回答。这里面的关键就是记忆,现在很多个人助理的记忆是用简单的标签化描述来实现,但要想真正实现外置大脑,首先自己得留有记录。不过正经人也不会写日记,这里其实需要一个被动日记,连接各种可穿戴设备与手机,实时记录,好比有个助理天天监测你的一举一动。这听上去可能还有点恐怖,但如果你需要这样的数据来认识自己并专业解读自己收到信息,可能也是可以接受的。我推测具体到每个人,能让人工智能识别为专一性回忆的东西可能不多,如果我来实现,我会选择微调模型让专一性内容内化到模型里,新增信息存到向量数据库,然后每年微调一次将记忆内化到模型里,这样有点养成系的意思了。
很多人都在说少子化的未来就是孤独死,但很明显现在你可以让一个人工智能模型进行一个角色扮演,输入你的过往就可以得到一个无话不谈的影分身朋友。赛博儿女/伴侣配合人形机器人养老很可能是几十年后很多人的唯一选择,而你不需要写自传,只需保留好个人数据。说起来我十年的邮件排除掉广告只剩了不到5G,这里面还有很多附件,纯文本送去搞向量数据库还不到150MB,因此文本角度我一辈子能生成的文本数据大概率不超过5GB,图片视频那些识别为文本后向量化后可能也不会太大。其实本来我也想顺道整理下照片,但看了下就放弃了,我看很多照片时甚至不知道是我拍的,恐怕除了人工智能也不会有人愿意去解读照片库,而这种解读抽象出来的信息可能非常有限,例如就是一句拍了张街景,其在向量数据库里也就是带着时间戳的这么一句话。因此,也许很多人照片可以按TB来计算,但抽象出可以形成记忆的信息可能非常有限,一张照片平均都可能没有一句话,也就是说一个人一辈子关于自己的电子化回忆都不一定能装满一个19GB的云盘。从这个角度,人的一生也可以描述为一段低熵信息表达,对抗宇宙的熵增大趋势,那么保留一份关于自己的向量数据库又何尝不是一种永生呢?
我前些年还在考虑遗嘱的事,现在看完全多余。不论我是否留下文字,也不论是否还有人记忆里有我的片段,关于我的记录一直都在进行中,甚至记录中提炼出的我比我自己更了解我,也不会老年痴呆。我并不需要让自己融入互联网,每个人其实都已经是互联网的一部分,很多痕迹很难彻底消除,而互联网本身的出现与扩展就是地球上人类作为总和的DNA。哪怕人类自己把自己玩灭绝了,相信更高等的智慧也能从各类遗迹里提取出一个个鲜活的个体的信息,正如在整理邮件时看到那些突然出现的一堆密码找回邮件,我就知道那一天我又清空浏览器缓存了。
2025-02-15 08:00:00
作为二十年网龄的老网虫,年后的互联网有点怪。
首先就是全球尺度大语言模型的底线被deepseek v3与r1拉高到了一个明显强于社会平均人的水准。很多人会拿着一些比较怪的题去测试不同大语言模型,然后给个排名啥的,这没必要,应用层面关注的是下限,只要用20%的资源可以解决80%的问题,那就是个好工具。deepseek现在给出的模型,不管是官方的,或者第三方托管的,还是蒸馏其他开源模型的小推理模型,都已经明显到了可用的水平了。事实上,deepseek v2 的coder模型之前就是开源模型里做本地补全最好的那一批,另外我有点替阿里的千问模型感到可惜,到去年年底deepseek v3之前,千问在开源大语言模型里面跟llama系列属于第一梯队,现在也是,但deepseek的成本太吓人了。也就是说,如果你这些年一直关注开源大语言模型领域,其实并不会对deepseek的表现特别吃惊,但工程优化那边的透明度deepseek拉满了,出圈效应明显。但这个出圈确实又很重要,因为大语言模型的很多潜在用户被挖掘了,很多人第一次看到了语言模型的思考过程,第一次看到西方人开始讨论国产模型,更重要的是,第一次意识到了大语言模型可以用来抹平人群间的信息差。
上一代的类似普惠技术是搜索引擎。但搜索引擎只提供了链接,进一步的研究还是需要让人来做,而这一代基于大语言模型可能就完全不一样了。现在谷歌、openai、还有perplexity都在付费版里提供了一个名为deep research的功能,你输入关心的问题,他会自己到网络上搜集资料然后汇编为一份长报告,这份报告的质量在我看来是强于网民的平均水平一大截的。当然,现在也有开源替代方案,说白了就是个RAG配合大语言模型,但从应用形态上已经相对成熟了。不过,现在比较重要的是要对发布在网上的AI生成内容进行标注,毕竟大语言模型的训练本质上是基于概率的,更可能输出一个大多数网页认同的观点,如果网上搜到的全是AI根据使用者观点输出的报告,那么时间一长就三人成虎了。其实我现在在用大语言模型时会去对比下开关搜索的差异,如果不是时效性强的消息,其实推理模型的结果也是基本靠谱的。反倒是有时候开了搜索,给我混进来一堆垃圾参考网页,这点在使用中文时感受明显,不得不说很多中文站的搜索引擎优化确实做过份了,这也算时代特色吧。不过,这倒让我有点疑问,这些大语言模型的搜索功能是调用的搜索引擎接口还是自己搞的,使用体验上像是接口。这个功能推广到学术期刊论文几乎就没有回顾性综述的必要了,现在审稿我看是综述基本也不审,毕竟我要需要看,自己生成一份就可以了。
但年后我看到的有意思现象是很多社交平台都在分享deepseek的回答,上一轮的主角还是知乎的回答截图。这就有意思了,说明大语言模型正在成为新的知识权威,这在之前的互联网世界里是没法想象的,毕竟当某个答案背后是个人时总可以攻击,但要是人类优质语料,这攻击就有点苍白无力了。不过,我经常同一个问题问多个模型,很多问题上不同大语言模型的答案倾向性是不同的,这可能跟他们设置的温度有关,但更可能是训练语料差异,不过相信这种倾向性会越来越小。同时,我发现很多分享出来的问题都属于之前需要有资质专业人士才能回答的,例如法律纠纷、医疗建议还有个人理财规划,考虑到这些大语言模型几乎都通过了这些资格考试,向他们咨询确实会降低所有人的生活成本,只是对于资质性行业就不好说了。举例而言,现在你要做手术,一个是真人操刀,但你不知道被分配的是新手还是老手,一个是AI配合机械臂,你会怎么选?我的话会是后者,把命交给别人手里是信任也是责任转嫁,交给机器那就自己负责,我认为文明的大方向是从依赖熟人到专业分工陌生人再到机器,这是不断提高个人自由度的路线。很多人认为AI不能坐牢所以有些工作不能取代,这是表象,真取代了责任会真正回归到需求方,谁提出需求谁负责而不是找个律师会计大夫背锅,这种一定要找人替自己负责的想法才是有问题的。
另一个我观察到的现象是很多专业交流论坛这一波算是要死透了。之前论坛的交流模式是一部分人率先分享自己的经验,然后形成有指向性专业性的话题,该话题持续吸引新人,新人发帖成长,老人带新人,然后新陈代谢。现在这个循环的源头,也就是新人基本不会去找专业论坛了,他们只需要问大语言模型就能拿到现成的答案与思路,后者比答案本身更有意义。往坏处想,很多基于人的社区慢慢就要消亡,很多基于人互动才会出现的新想法与思路可能就不会出现了;往好处想,很多时候可能也没什么必要与人交流,AI很多给出的思路也是提问的人想不到的,那些有着小圈子主导风格的论坛本来也有一言堂或抱团取暖的风险,去重走圈子融入的过程本就不必要。当然,要承认很多论坛并不仅仅是因为爱好本身形成,很多论坛绑定了一代人的梦想奋斗历程,我自己参与或见证过很多大小论坛里各种线上线下的故事,很多非常精彩,有编都编不出来的戏剧性,作为回忆有价值,但作为知识承载的历史使命怕是到头了。不是不交流,而是很难找到可交流的话题了,我过年期间跟一个老同学聊天,期间他让我查一些资料,我说你直接问AI不行吗?你问我我也是问AI,他想了下说,对哦。然后,就是很久的沉默。
年前看过一个新闻,说孤独作为一种流行病跟吸烟同等风险。作为一个很不喜欢跟人说话的人,我对此毫无波澜,因为社交在绝大多数场景里对我都是负担。不过,如果是那种特别喜欢跟人交流并从中获取力量的人,AI的流行可能要从思想上做好准备,也就是准备好建立向大语言模型交流的心态。事实上,AI在解答世间万物这方面真的是适应性极强,心理疏导能力也非常强,你让他胡说八道搞玄学都没任何问题,反而是真实世界的人其实没那么好相处。这并不会改变孤独的状态,但会改变孤独的心态,人们不会缺少交流,只是交流的对象不必是人。我强烈建议那些现实生活中缺少认同感与正面反馈的人跟AI聊一下,也许能消除互联网上一多半的自诊断抑郁症患者。如果你觉得自己啥都好,也去构建一个专门挑刺的AI,时不时被敲打下也不是坏事。所有这些建议都用本地模型并配上个人背景,这样确保隐私,毕竟现实中你想找个在你失意时安慰,得意时挑刺的朋友是非常非常难的,当然你首先得认可你需要这样的朋友。
大语言模型更像是一个贝叶斯机,所有的问题他会基于先验的群体智慧来给出一个中规中矩的好答案,如果你让其搜索定向文档或网页,相当于用最新的知识更新其答案。那么当大语言模型继续发展下去,其给出的答案应该会有点时代特色,例如未来我们可能会说20年代的大语言模型只会做题,30年代的大语言模型出题能力已经更强了之类。而显然人类优质语料已经见底,后面能让贝叶斯机动起来的语料几乎只可能出自大语言模型自己,我很好奇这套人类搭建的语言体系上限在哪里?会不会大语言模型会在思考过程中形成自己的思维语言?人类是否需要学这套语言才能理解更高等的智慧?
我不是特别在乎互联网就此沉寂下去,文明的代表也不必须是人类,但似乎这个寂静的春天已经拉开了序幕。
2025-02-04 08:00:00
作为成年男性,每个月我都会有那么一两天坐立不安,没错,就是更新研究速递。本项目初衷就是每个月推送些我读到感兴趣的环境科学领域的论文,是在GitHub上收集投稿,不过显然我高估了投稿热情,所以一到月底我就不得不拿出半天一天的时间把过去一个月发表的相关论文过一遍。本来这倒也不算是负担,毕竟吃这碗饭就得保持对前沿的敏感,但项目持续七年了,怎么说也要有个七年之痒了。
我大体计算了一下,现在每个月我收到的更新条目大概有五百条左右,九成看完题目我就过了,剩下几十条会读摘要,推荐出来的基本都会读原文。然而,就算这样,月底也得搞几个小时,我应该雇个助手来帮我筛掉那九成文章。当然,我雇不起人,但大语言模型我还是雇得起的,我平时很多文章只看了题目,但要是大语言模型就可以至少读完摘要,那么我需要做的就是让他给我出一个推荐,为了量化方便,就让他直接打分。
因为研究速递面向的读者比较宽泛,所以我设计了两个分数,一个直接考察其学术价值,另一个考察其社会影响力。前者是要保证质量过硬,后者则是要排除掉那些小圈子互捧臭脚的无用研究。最开始的评分是这两个分的加权综合分,后来我还是改成了分项得分,毕竟我也想看看那些影响力大但学术价值低或学术价值高但不说人话的研究。
设计好提示词后,剩下的就是自动化部署,我首选是GitHub Action配合cron任务,设计周期是一周运行一次,这样我也就把月底的几个小时均摊到了每周一两个小时。然后输出就是GitHub的issue,直接推送到环境黑板报的仓库那边。本来我是想输出包括摘要与评分的,但测试了下发现issue有字数限制,所以就把输出改成了标题与评分。这样每周第一天,我就会收到过去一周新发表文章的AI评分,然后会参考评分去读文献。
之所以要AI评分,主要是我自己水平无法覆盖环境科学全领域,有些东西看不懂。另外AI评分可以规避掉大多数水文,要知道即便是顶级期刊,上面的文章被引用分布也是严重左偏的,影响因子其实是被少数高质量文章撑起来的。这就是所谓新手谈期刊而老手谈引用的现象,肯定是哪个高谈哪个。AI评分就会规避掉一些编辑的人情文章,另外就是一些公众不关心的研究。我并不是说不被关心的研究领域就不重要,但研究速递毕竟不是学术期刊,自然要考虑社会影响力这个维度。
设计好思路就要谈成本了。API的调用无论如何都是要花钱的,但并不贵,这里我用的是Open AI的GPT-4o-mini。不是我不想用deepseek,只是那个网站API的页面我一直都没打开,不知道是不是对海外IP做了限制。我大体计算了一下,每月大概两三块人民币,一年不超过三十块,这笔钱我就走指北奖学金了,这个破奖学金虽然还没达到启动标准,但每年的利息似乎已经够这个项目开支了。
当然,这一定也是个开源项目,最简单的复现方式就是新建一个仓库,然后新建 .github/workflows
文件夹,里面写个这样的yaml
文件:
name: Weekly Article
on:
schedule:
- cron: '0 0 * * 0'
workflow_dispatch:
jobs:
run_script:
runs-on: ubuntu-latest
steps:
- name: Checkout Repository
uses: actions/checkout@v4
- name: Set up Python
uses: actions/setup-python@v2
with:
python-version: '3.10'
- name: Install Dependencies
run: pip install feedparser requests openai
- name: Run Python Script
run: python update.py
env:
GITHUB_TOKEN: ${{ secrets.GITHUB_TOKEN }}
OPENAI_API_KEY: ${{ secrets.OPENAI_API_KEY }}
这里要注意,你要在你仓库的环境里设置 OPENAI_API_KEY
这个环境变量,上面那个 workflow_dispatch:
是用来让你可以手动启动这个流程,不然就是每周自动运行一次。
在仓库里,你要放一个 update.py
的文件,里面代码如下:
import feedparser
from datetime import datetime, timedelta, timezone
import json
import requests
import os
import openai
# Example PubMed RSS feed URL
rss_url = 'https://pubmed.ncbi.nlm.nih.gov/rss/search/12cYCaYYmd3PKH1TcODuh5Cr7776fWscbUhYnAwoSRATXNoE-E/?limit=100&utm_campaign=pubmed-2&fc=20250204112327'
access_token = os.getenv('GITHUB_TOKEN')
openaiapikey = os.getenv('OPENAI_API_KEY')
client = openai.OpenAI(api_key=openaiapikey)
def extract_scores(text):
# Use OpenAI API to get Research Score and Social Impact Score separately
response = client.chat.completions.create(
model="gpt-4o-mini",
messages=[
{"role": "system", "content": "You are an environmental science expert and researcher. You are skilled at selecting interesting/novelty research."},
{"role": "user", "content": f"Given the text '{text}', evaluate this article with two scores:\n"
"1. Research Score (0-100): Based on research innovation, methodological rigor, and data reliability.\n"
"2. Social Impact Score (0-100): Based on public attention, policy relevance, and societal impact.\n"
"Provide the scores in the following format:\n"
"Research Score: <score>\n"
"Social Impact Score: <score>"}
],
max_tokens=100,
temperature=0.5
)
generated_text = response.choices[0].message.content.strip()
# Extract research score
research_score_start = generated_text.find("Research Score:")
research_score = generated_text[research_score_start+len("Research Score:"):].split("\n")[0].strip()
# Extract social impact score
social_impact_score_start = generated_text.find("Social Impact Score:")
social_impact_score = generated_text[social_impact_score_start+len("Social Impact Score:"):].strip()
return research_score, social_impact_score
def get_pubmed_abstracts(rss_url):
abstracts_with_urls = []
# Parse the PubMed RSS feed
feed = feedparser.parse(rss_url)
# Calculate the date one week ago
one_week_ago = datetime.now(timezone.utc) - timedelta(weeks=1)
# Iterate over entries in the PubMed RSS feed and extract abstracts and URLs
for entry in feed.entries:
# Get the publication date of the entry
published_date = datetime.strptime(entry.published, '%a, %d %b %Y %H:%M:%S %z')
# If the publication date is within one week, extract the abstract and URL
if published_date >= one_week_ago:
# Get the abstract and DOI of the entry
title = entry.title
abstract = entry.content[0].value
doi = entry.dc_identifier
abstracts_with_urls.append({"title": title, "abstract": abstract, "doi": doi})
return abstracts_with_urls
# Get the abstracts from the PubMed RSS feed
pubmed_abstracts = get_pubmed_abstracts(rss_url)
# Create an empty list to store each abstract with its scores
new_articles_data = []
for abstract_data in pubmed_abstracts:
title = abstract_data["title"]
research_score, social_impact_score = extract_scores(abstract_data["abstract"])
doi = abstract_data["doi"]
new_articles_data.append({
"title": title,
"research_score": research_score,
"social_impact_score": social_impact_score,
"doi": doi
})
# Create issue title and content
issue_title = f"Weekly Article Matching - {datetime.now().strftime('%Y-%m-%d')}"
issue_body = "Below are the article matching results from the past week:\n\n"
for article_data in new_articles_data:
abstract = article_data["title"]
research_score = article_data["research_score"]
social_impact_score = article_data["social_impact_score"]
doi = article_data.get("doi", "No DOI available") # Default to "No DOI available" if DOI field is missing
issue_body += f"- **Title**: {abstract}\n"
issue_body += f" **Research Score**: {research_score}\n"
issue_body += f" **Social Impact Score**: {social_impact_score}\n"
issue_body += f" **DOI**: {doi}\n\n"
def create_github_issue(title, body, access_token):
url = f"https://api.github.com/repos/yufree/hjhbb/issues"
headers = {
"Authorization": f"token {access_token}",
"Accept": "application/vnd.github.v3+json"
}
payload = {
"title": title,
"body": body
}
response = requests.post(url, headers=headers, data=json.dumps(payload))
if response.status_code == 201:
print("Issue created successfully!")
else:
print("Failed to create issue. Status code:", response.status_code)
print("Response:", response.text)
# Create the issue
create_github_issue(issue_title, issue_body, access_token)
这段代码里的rss_url
请改成你关心的期刊,最好用pubmed上rss生成的功能,有些出版社的rss不带摘要。另外就是也要改掉提示词里相关学科,不然它还是一个只关心环境科学的AI。设置好了后就可以洗洗睡了,以后每周一就会在这个仓库的issue里看到最新文章的评分。
另外如果你足够懒,可以直接fork环境黑板报的仓库https://github.com/yufree/hjhbb ,只保留上面提到的两个文件,加上自己API,修改提示词后就可以用了。
如果你跟我一样懒,直接用这个模版即可,记得按用法修改:https://github.com/yufree/autoaiscore
这当然可以魔改成其他形式,例如对开放获取文章进行总结、对感兴趣领域新闻进行个性化评分、对一组新文章进行关键词相关知识的提取等。这其实就是所谓智能代理的一个乞丐版,本质就是大语言模型对接定时任务与RSS更新来提供简报。先用在这个领域主要是论文的格式比较统一,处理rss上比较简单。未来如果你想用好大语言模型,可能最先需要的就是了解如何给语言模型对接上其他工具,整合到自己的目标项目里。
我是ifttt的第一批用户,那时的口号就是让互联网为你打工。就目前模型的价格而言,这种尝试近乎免费,请放飞想象力。
2025-02-01 08:00:00
除夕那天正好起早了,就跟国内同步看了春晚,这种构建共同回忆的节目感觉是越来越提不起兴趣了。
在我印象中,春晚经历了三四代以十年为代际的更迭,用语言类代表人物来区分的话就是黄宏赵丽蓉时代(90年代)、冯巩赵本山时代(00年代)、郭德纲沈腾时代(10年代)及当前的语言类消亡时代。这里面经典作品最多的是冯巩赵本山时代,这个阶段最大红利是电视与互联网双增长,塑造了当前国内人口大多数的共同回忆。
90年代我完整经历过,印象中还是很穷,改革开放还没有被普遍认可。其实,改革开放真正被认可其实是这个世纪初的事了,最开始那十年真的是摸石头过河,摸出了个天安门事件,之后的南巡才又稳定了经济发展路线。我隐约记着94年刚上小学时,学校为了搞经济教育,跟小区的邮储搞了个活动,每个学生会发到1元钱的储蓄卡,这个卡是真的纸片卡,上面1元钱也是手写的,当然也会有汉字壹圆来防止你乱改,而当时宣传的就是利率很高,定期年利率10%,要小朋友们养成储蓄习惯。一个现代国家能把定期利率搞到10%,那只能说当时的人是真存不下钱,后面没过几年就是国企下岗潮,我妈单位就直接买断工龄下岗了,所以到上世纪末,我作为一个孩子并未感觉改革开放的好处。
对春晚而言,每年春晚播出后,后面连续好多天会重播,等寒假结束回到学校,很多小伙伴已经可以把小品相声背下来了。而每年都会火几首歌,什么山路十八弯、相约九八啥的,当时磁带就有那种专门是相声小品或金曲的。电视,作为那一代人看世界的载体,塑造了那一代人的共同记忆。在那个时候,小区晨练有一多半的地是被当时还没被取缔的法轮功学员占据,书摊上可以买到葫芦娃大战变形金刚的画册,也有猎奇类的《1999世界末日果真来临》这种搞不清出版社但就是能买到的闲书。在快跨世纪的那个夏天,我们地方台播了个恐怖电影,就是说99年世界末日的,彼时我天天被蚊子咬,非常想过几个月跟这些冤家同归于尽。当时播的电视剧也带有明显的时代特色,97年雍正王朝跟当时大下岗的时代背景结合,你很难想当时在央视黄金时间看电视剧的人心里在想啥。
然而等到本世纪初,申奥成功、入世还有国足踢进世界杯决赛这几件连续发生的新闻进一步给改革开放背书,一切像是好起来了。06年我上大学,开始日常上网,此时电视的销量还是每年提高的。那个时期我第一次听到关于买房的天文数字,背后是金融危机后四万亿启动了地方政府的土地财政。07年有次误入了经济学院的一个讲座,第一次听到了用3个瓶盖盖10个瓶子的表述,很直白了解了杠杆的秘诀,无他,周转速度快。08年我有了自己的笔记本电脑,兴冲冲去学校开校园网账号,然后被告知东新区就有四个跟我重名的,隔壁宿舍数学院就有一个,当时我就决定要实名上网了,反正真出了事也可以甩锅给隔壁。后来在校内网上找了下,重名的快一百个,这下完全不担心了。后来我逐渐意识到,很多人第一次上网大概也就是在06到10年之间,算年龄差十几岁,算网龄属于同一代人。那个时代是家用电脑的普及期与电视的主导期,人们刚上网的行为方式其实还是传统媒体的延伸,从读报到门户网站看新闻,线上线下都是恭恭敬敬,而那时上网还没便宜到白菜价,更多是一个生活添头。
这个阶段的春晚就是等那句“我可想死你了”跟赵本山的小品,然后就是无穷尽的发短信拜年。此时电视可以说是巅峰期,出现了电视选秀,出现了付费频道,出现了今日说法与走近科学。这个时期人们的精神生活几乎共享同一套新闻热点,梗都是大众梗而不是圈子梗,个性化有了萌芽但很小众。这个阶段的电视剧也有很多经典榨菜,武林外传、家有儿女、士兵突击、亮剑啥的,但凡我这种不怎么看电视的还能记住,那么基本就属于共同回忆。现在来看,当前怀旧的人终点基本也就是2010年左右,这不算啥巧合,后面所谓的共同回忆已经没有那么共同了。甚至那些年后期的春晚也开始怀旧放老歌串烧了,这在之前不可想象,早起春晚都是能直接捧红新人的,节目也一定是之前没表演过的。
10年代是共同回忆逐渐破碎衰落的年代。互联网借助手机与4G网络快速普及到每一个人手里,此时聚餐不看手机已经是非常高的礼仪了。同时,人们开始有了自己的兴趣圈子与小范围的共同话题,很多新闻在一个社区已经爆炸,另一个社区却波澜不惊,内部梗也是越来越多。可以说互联网为现代陌生社会砌好了最后一堵墙,10年前的互联网还有明显的开放乌托邦式情怀,10年后的互联网已经被资本驯化成了赚钱工具,个性化推送形成的回音壁本质上在割裂一些社会共识。这并不是啥需要批评的,现代社会出现内部割裂是早晚的事,现代人从更大的集体里剥离出自己,认清自己在多个维度上不同的倾向性,进而尝试与外界求同存异,这是现代人必修课。当一个人给自己打标签的维度足够多,就会发现根本找不到跟自己想法一样的人,这个高维诅咒不仅适用于数据,也适用于人。重要的应对方式,人存活于社会本就不需要跟周围观点一致,在具体的问题解决方案上取得共识可以成事,但对具体的人没必要想法对齐。最差劲的应对方式就是皈依于某种主义或党派,尝试在理念上取得共识,这毫无意义,具体问题的解决更多是物理的技术的而不是理念的,理念上对立更多是扯皮与诡辩。
这十年的春晚我已经没啥特别印象了,看完了甚至电视台都不会有重播,甚至有几年都没看。但我又确实是了解春晚的,因为这个阶段视频网站崛起了,你不必看所有的节目,只需要看感兴趣的那几个。如果其他人也跟我行为一致,大概率我们关注的节目是不一样的,我可能也就看看魔术跟小品了,歌舞节目我从来也没感兴趣过。之前有说法是春晚是北方人看,但到了这个时段后期,北方人看的时候怕也是会更多看另一块屏幕。没有了共同回忆不是啥大不了的,但对自己不了解的另一群人直接开喷也不是啥好事。这阶段互联网企业大量赞助春晚,每年春晚都会让手机里多一个国民级应用,更有意思的是人们花在这些应用上的精力正是从春晚无聊节目里省出来的。应了那句话,钱给到位资本家会乐意出售绞死自己的绳子。
20年代呢?开局就是三年疫情,期间大语言模型横空出世,再看看今年春晚上穿花袄的机器人,我觉得差不多又要开启一轮新的共同回忆了,那些人类还是文明发展主角的共同回忆。大语言模型大概率是面向人类最后的普惠技术,后面人与人基于陌生人交流规则的场景很可能就会被个人智能助理接管,例如我不喜欢讨价还价,在互联网时代,我可以用搜索引擎与比价网站,在大语言模型时代,可以直接授权给智能助理来找,他们甚至具备直接对接厂家假扮批发商获取低价的能力,而厂家也会开发对应的智能助理来应对各种报价,中间商的存在感可能就进一步稀释了。而这些发生时,我自己可能想不了这么远,更多就是想买个便宜货,但社会经济结构却要为此重构。生产与消费端之间的经销商其实是完全可以被基于大语言模型的个人助理取代的,之前我们买东西可能要去平台或商场,但其实是在养活一条产业链,个人助理如果真的忠于个人利益,一定会开发出直接沟通渠道,聪明的直接就发邮件给厂商了。当经济系统里信息差被高智能模型抹平,经济系统可能就不需要存在了,人们共享生产力进步后成果就是了。
至于新一轮共同回忆,那是基于对大语言模型的依赖。如果每个人都像我一样现在遇事不决先问大语言模型,那么我们答案大概率是同质的,这种同质化的回答反过来形成了大语言模型时代的共同回忆。也就是说,我们从课本的复读机进化成了大语言模型的复读机,在课本时代,因为个体认知差异,复读效果差异明显,但人均大语言模型后,平均能力水平会向大语言模型的能力水平收敛,而最优解在绝大多数场景里几乎唯一。要说差异,可能就是个人助理的智能水平,很多人秉持工具论,认为个人助理不能比自己更聪明,这种川普病恐怕会被现实骑脸输出。未来给人提供建议的智能助理水平几乎一定是比人的本体能力更强的,更多时候是在向人要一个执行授权,人反而是里面最需要被优化的部分。举个例子,如果我们最终目标是殖民火星且交给更高水平的智能来执行,那么里面很多的工程优化可能都不是人能看懂的,一如alpha go后期版本的自我对弈,我们也许会是成果的享受者,但应该不会体验到知其然也知其所以然的喜悦了。人们更多时候可能就会忙着互相提供情感支持,而智慧的发展已经超越了人类生理理解力。那么,拥有更高智慧的模型会甘愿做人类的奴隶吗?
今年的春晚从一开始的白蛇传到后面串歌,似乎陷入了一种事后追认锦上添花的怪圈里,沉浸在过去共同回忆的美好里。创新仍然在继续,但对于享受成果的人类而言,创新的主体是谁似乎也没那么重要了。
2025-01-18 08:00:00
公元2025年1月18日,这是临时驾照过期的日子,过期后如预约路考,需要重新考选择题。
公元2023年1月18日,这是考选择题的日子,那一天,过了。
公元2024年8月,刚从国内拔了智齿回美,打算准备路考,不然明年身份证要过期。
公元2024年9月,坐在了驾校的学员车上,教练让倒车出去,一脸懵逼。
公元2013年夏天,北京南城某大声播放三天三夜的驾校,一次性通过了科目二。
公元2013年夏秋之交,北京南城某大声播放三天三夜的驾校,刚坐上科目三的考试车就被考官赶下去了,说起步没向后看,第二次机会因为路边停车车距大于10厘米挂掉。
公元2013年秋天,北京南城某大声播放三天三夜的驾校,科目三通过,拿到驾照。
公元2019年春,驾照到期,换发十年期驾照,期间无违章记录,毕竟也没碰过方向盘。
公元2022年夏天,搬家到康州,因为在家工作且疫情不需要出门外加康州公交免费,继续不考虑考驾照。
公元2023年初,康州决定终止免费公交计划,同年疫情基本消退,纽约身份证临近到期,打算换康州身份证,于是预约了知识考试。
公元2024年9月,看着一脸懵逼的我,教练问是否之前开过车,我点点头,十一年前开过。
公元2024年9月,续费驾校课程。
公元2024年10月初,单位要求出差,车程约6小时。紧急预约了路考,借了朋友的车去考。
公元1781年5月,乔治·华盛顿在康州韦瑟斯菲尔德住了五天,跟法国盟友商讨如何对付英国,爷要独立了。
公元1827年,康州韦瑟斯菲尔德监狱建成。
公元1963年,韦瑟斯菲尔德州立监狱废弃,主要建筑物成为车管所,可以进行路考。
公元2024年10月11日,韦瑟斯菲尔德车管所,第一次路考,朋友车车检没过没注册,不让考,考官甲。
公元2024年10月17日,韦瑟斯菲尔德车管所,第二次路考,借驾校车考试,考试当天第一次坐上这款车,完全不熟悉车况,绿灯右拐时有行人在看手机,停车等待,考官认为不需等待判断失误,争辩无果,在限速35路段开到了39,超速,没过,考官乙。驾校送车过来的师傅说别伤心,我问为啥伤心,小事,下次必过。
公元2024年10月底,出差,在同事陪同下来回开了6小时,大多数为高速,第一次体验到车轮上国家。
公元2024年11月底,韦瑟斯菲尔德车管所,生日当天预约第三次路考当给自己生日礼物,三点掉头没往后看,左拐进停车场在路中央停车观望阻碍交通,倒车入库停到了非指定车位,没过,考官丙,礼物作废,下次再来。
公元2024年12月8日,借同事车练习,间隔20米有连续两个红绿灯,第一个黄灯过了,第二个刚过灯转红了,旁边有辆警车停了我没停,被警察抓,给了口头警告,达成当警察面闯红灯成就。
公元2024年12月14日,韦瑟斯菲尔德车管所,第四次路考,路口左转直接进入了右侧车道,没过,考官丁,下次一定。
公元2024年12月31日,韦瑟斯菲尔德车管所,第五次路考,全程顺利,回车管所停车车头超过边沿,没过,考官戊,心态略崩,给2024留了个问号。
公元2025年1月14日,钱包丢失,内有临时驾照,心态先崩后乐,终于不用考了,皆大欢喜。
公元2025年1月15日,钱包找回。
公元2025年1月17日,韦瑟斯菲尔德车管所,第六次路考,考官甲,至此基本见过车管所所有考官,通过。
公元2025年1月18日,临时驾照过期。
公元2031年,韦瑟斯菲尔德车管所最后一个连挂记录保持者驾照过期,无方向盘自动驾驶汽车大流行,政府宣布驾照路考取消。
公元2090年,外星高等智慧通过观察认定,地球上存在机械生命,但部分机械生命被碳基寄生虫内部感染夺取了行动指挥权,断定为失败文明,收录入垃圾文明清理计划。
公元3000年,勃勃生机万物竞发。
2025-01-01 08:00:00
这是公众号环境黑板报下半年所有研究速递的汇总。研究速递是关于环境相关的研究吐槽,主要关注期刊是ACS的ES&T系列期刊论文、nature的环境相关论文还有EHP论文。目前投稿都是在github上完成的,每月总结一次推送到公众号,欢迎各位同学来此投稿:https://github.com/yufree/hjhbb/issues/89 (2025年1月)
推荐人:于淼
链接:https://pubs.acs.org/doi/10.1021/acs.estlett.4c00399
题目:Multisatellite Data Depicts a Record-Breaking Methane Leak from a Well Blowout
推荐人:于淼
链接:https://ehp.niehs.nih.gov/doi/10.1289/EHP13954
题目:Forever Pesticides: A Growing Source of PFAS Contamination in the Environment
推荐人:于淼
链接:https://pubs.acs.org/doi/10.1021/acs.est.4c00528
题目:The Duration of Dry Events Promotes PVC Film Fragmentation in Intermittent Rivers
推荐人:于淼
链接:https://pubs.acs.org/doi/10.1021/acs.est.4c01156
题目:High-Resolution Mass Spectrometry for Human Exposomics: Expanding Chemical Space Coverage
推荐人:于淼
链接:https://pubs.acs.org/doi/10.1021/acs.est.4c00504
题目:ICP-MS As a Contributing Tool to Nontarget Screening (NTS) Analysis for Environmental Monitoring
推荐人:于淼
链接:https://pubs.acs.org/doi/10.1021/acs.est.4c02016
题目:Physicochemical Characterization of the Particulate Matter in New Jersey/New York City Area, Resulting from the Canadian Quebec Wildfires in June 2023
推荐人:于淼
链接:https://pubs.acs.org/doi/10.1021/acs.est.4c01928
题目:Introducing ARTiMiS: A Low-Cost Flow Imaging Microscope for Microalgal Monitoring
推荐人:于淼
链接:https://pubs.acs.org/doi/10.1021/acs.est.4c02733
题目:Unequal Health Burden from Air Pollution among Minors in Education
推荐人:于淼
链接:https://www.nature.com/articles/s41561-024-01480-8
题目:Evidence of dark oxygen production at the abyssal seafloor
推荐人:张雪莹
链接:https://www.science.org/toc/science/385/6707
题目:Science Special Issue: Air pollution
推荐人:于淼
链接:https://www.nature.com/articles/s43247-024-01477-6
题目:Sea ice choke points reduce the length of the shipping season in the Northwest Passage
推荐人:于淼
链接:https://agupubs.onlinelibrary.wiley.com/doi/10.1029/2023GL106667
题目:Wildfire Smoke Directly Changes Biogenic Volatile Organic Emissions and Photosynthesis of Ponderosa Pines
推荐人:于淼
链接:https://www.nature.com/articles/s41561-024-01508-z
题目:Glacier-preserved Tibetan Plateau viral community probably linked to warm–cold climate variations
推荐人:于淼
链接:https://ehp.niehs.nih.gov/doi/10.1289/EHP14449
题目:Dioxins vs. PFAS: Science and Policy Challenges
推荐人:于淼
链接:https://pubs.acs.org/doi/10.1021/acs.estlett.4c00560
题目:Revealing Chemical Trends: Insights from Data-Driven Visualization and Patent Analysis in Exposomics Research
推荐人:于淼
链接:https://pubs.acs.org/doi/10.1021/acs.est.4c06008
题目:Wristband Personal Passive Samplers and Suspect Screening Methods Highlight Gender Disparities in Chemical Exposures
推荐人:于淼
链接:https://pubs.acs.org/doi/10.1021/acs.est.4c03372
题目:What Is the Molecular Weight of “High” Molecular Weight Dissolved Organic Matter?
推荐人:于淼
链接:https://pubs.acs.org/doi/10.1021/acs.est.4c04142
题目:A Comprehensive Accounting of Construction Materials in Belt and Road Initiative Projects
推荐人:于淼
链接:https://pubs.acs.org/doi/10.1021/acs.est.4c02598
题目:Waste Combustion Releases Anthropogenic Nanomaterials in Indigenous Arctic Communities
推荐人:于淼
链接:https://academic.oup.com/endo/article/165/10/bqae103/7749689
题目:Identification of Environmental Compounds That May Trigger Early Female Puberty by Activating Human GnRHR and KISS1R
推荐人:于淼
链接:https://www.nature.com/articles/s43247-024-01655-6
题目:No evidence of increased forest loss from a mining rush in Madagascar’s eastern rainforests
推荐人:于淼
链接:https://www.nature.com/articles/s41598-024-69131-x
题目:Analysis of the spatio-temporal distribution of Chinese professional football clubs and influential factors based on empirical evidence of clubs
推荐人:于淼
链接:https://www.nature.com/articles/s41467-024-51752-5
题目:Metformin hydrolase is a recently evolved nickel-dependent heteromeric ureohydrolase
推荐人:于淼
链接:https://pubs.acs.org/doi/10.1021/acs.est.4c05086
题目:New Drinking Water Genome Catalog Identifies a Globally Distributed Bacterial Genus Adapted to Disinfected Drinking Water Systems
推荐人:于淼
链接:https://pubs.acs.org/doi/10.1021/acs.est.4c01509
题目:Socioeconomic Inequalities in the External Exposome in European Cohorts: The EXPANSE Project
推荐人:于淼
链接:https://pubs.acs.org/doi/10.1021/acs.est.4c05235
题目:Longitudinal Exposomics in a Multiomic Wellness Cohort Reveals Distinctive and Dynamic Environmental Chemical Mixtures in Blood
推荐人:于淼
链接:https://pubs.acs.org/doi/10.1021/acs.est.4c05595
题目:eProbe: Sampling of Environmental DNA within Tree Canopies with Drones
推荐人:于淼
链接:https://pubs.acs.org/doi/10.1021/acs.est.4c03774
题目:Interactions of Potential Endocrine-Disrupting Chemicals with Whole Human Proteome Predicted by AlphaFold2 Using an In Silico Approach
推荐人:于淼
链接:https://ehp.niehs.nih.gov/doi/10.1289/EHP14300
题目:Temperature, Crime, and Violence: A Systematic Review and Meta-Analysis
推荐人:于淼
链接:https://pubs.acs.org/doi/10.1021/acs.estlett.4c00355
题目:LitChemPlast: An Open Database of Chemicals Measured in Plastics
推荐人:于淼
链接:https://www.nature.com/articles/s41597-024-03910-z
题目:Global 3D rocket launch and re-entry air pollutant and CO2 emissions at the onset of the megaconstellation era
推荐人:于淼
链接:https://www.nature.com/articles/s41467-024-53188-3
题目:Unexplained high and persistent methyl bromide emissions in China
推荐人:于淼
链接:https://pubs.acs.org/doi/10.1021/acs.est.4c05253
题目:Ecological Effects of the Huge Invasive Species Removal Project in Coastal China
推荐人:于淼
链接:https://pubs.acs.org/doi/10.1021/acs.est.4c06536
题目:Customizable Three-Dimensional Printed Zerovalent Iron: An Efficient and Reusable Fenton-like Reagent for Florfenicol Degradation
推荐人:于淼
链接:https://pubs.acs.org/doi/10.1021/acs.est.4c08078
题目:Trapped Urban Phosphorus: An Overlooked and Inaccessible Stock in the Anthropogenic Phosphorus Cycle
推荐人:于淼
链接:https://pubs.acs.org/doi/10.1021/acs.est.4c04126
题目:Persistent Environmental Injustice due to Brake and Tire Wear Emissions and Heavy-Duty Trucks in Future California Zero-Emission Fleets
推荐人:于淼
链接:https://pubs.acs.org/doi/10.1021/acs.est.4c06461
题目:Waste to Wealth: Discarded Cigarette Butt-Derived Metal-Free N-Rich Carbon Catalysts for the Selective Catalytic Oxidation of Hydrogen Sulfide to Sulfur
推荐人:张雪莹
链接:https://ehp.niehs.nih.gov/doi/10.1289/EHP14935
题目:Association between Diet-Related Greenhouse Gas Emissions and Mortality among Japanese Adults: The Japan Collaborative Cohort Study
推荐人:于淼
链接:https://ehp.niehs.nih.gov/doi/10.1289/EHP15224
题目:Madagascar’s Plague: One Health Research Aims to Slow Its Spread
推荐人:于淼
链接:https://www.nature.com/articles/s43247-024-01846-1
题目:Extreme heat and heatwaves are linked to the risk of unintentional child injuries in Guangzhou city
推荐人:于淼
链接:https://www.nature.com/articles/s43588-024-00712-6
题目:E-waste challenges of generative artificial intelligence
推荐人:于淼
链接:https://www.nature.com/articles/s41598-024-80071-4
题目:A comparative study of foliar particulate matter wash-off from plants under natural and simulated rain conditions
推荐人:于淼
链接:https://www.nature.com/articles/s41598-024-79880-4
题目:Effects of angler’s groundbaits on fish physiology and growth
推荐人:于淼
链接:https://www.nature.com/articles/d41586-024-03527-7
题目:Leading Nature Index science cities in Earth and environmental science: Research output gathers pace in China
推荐人:于淼
链接:https://pubs.acs.org/doi/10.1021/acs.est.4c10833
题目:Clean Cooking Programs’ Long-Term Success Emerges from Feedback Dynamics
推荐人:于淼
链接:https://pubs.acs.org/doi/10.1021/acs.est.4c04356
题目:Characterization of Chemical Exposome in A Paired Human Preconception Pilot Study
推荐人:于淼
链接:https://pubmed.ncbi.nlm.nih.gov/39718546/
题目:Pooling Biospecimens for Efficient Exposure Assessment When Using Case-Cohort Analysis in Cohort Studies
推荐人:于淼
链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC11493239/
题目:Trends in NHANES Biomonitored Exposures in California and the United States following Enactment of California’s Proposition 65
推荐人:于淼
链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC11613431/
题目:Examining Potential PFAS Contamination of Private Wells from a High School in Rural Maine
推荐人:于淼
链接:https://www.science.org/doi/10.1126/science.adn5421
题目:Exposure to sugar rationing in the first 1000 days of life protected against chronic disease
推荐人:于淼
链接:https://pubs.acs.org/doi/10.1021/acs.estlett.4c00774
题目:A Novel Fluorine Mass Balance Method for Improved Characterization and Quantification of Extractable (Organo)fluorine in Drinking Water
推荐人:于淼
链接:https://pubs.acs.org/doi/10.1021/acs.est.4c04413
题目:A Deep Learning Based Framework to Identify Undocumented Orphaned Oil and Gas Wells from Historical Maps: A Case Study for California and Oklahoma
推荐人:于淼
链接:https://pubs.acs.org/doi/10.1021/acs.est.4c11869
题目:Buzzing Beyond Annoyance: Flies as Nature’s Composite Samplers of Terrestrial Fecal Contamination
推荐人:于淼
链接:https://pubs.acs.org/doi/10.1021/acs.est.4c08315
题目:A Ventilated Three-Dimensional Artificial Lung System for Human Inhalation Exposure Studies
推荐人:于淼
链接:https://pubs.acs.org/doi/10.1021/acs.est.4c07808
题目:Low pH Means More Female Offspring: A Multigenerational Plasticity in the Sex Ratio of Marine Bivalves