2024-12-24 09:39:10
1866 年,西门子的一位工程师发明了人类第一台直流发电机。
40 年后,通用电气在 1906 年开始量产真正让电灯普及的第一代白炽灯泡。
在这两者之间的半个世纪里,人类世界依然黑暗,电气的技术革命好像没有发生。
但,这只是因为我们身处后世,才能如此轻描淡写地将这 40 年一笔带过。对于当时的人们来说,电气技术的发展,是他们眼皮底下一天天展开的:第一条电报线路的铺设,第一个电话的接通,第一辆电车的开动,每一次技术的进步,都在真切地改变着他们的生活,只是它没有快到让当时的每个人都在一个时间点集体惊呼“啊,电气革命终于来了!”
我们此刻正站在一个与 19 世纪末极为相似的节点上。AI 技术的“直流发电机”已经轰鸣作响,只能发光十几个小时的“碳质灯丝”也已点亮,新的光明时代正在徐徐展开。然而,当我们身处其中时,却发现这场变革似乎并没有想象中那般迅猛,甚至有些迟缓。
在经历了 2022 年末 ChatGPT 横空出世带来的震撼之后,2024 年的 AI 领域显得有些“波澜不惊”。让我们以 OpenAI 在 12 月的 12 场发布会为线索梳理一下:
除此之外涵盖推理模型 API、微调技术、协作模式等还发了一大堆,乍一看令人眼花缭乱。但细细品来,却总觉得少了点当初那种“革命性”的味道,更像是在已有成果上的修修补补。
如今再看 OpenAI 的发布会,甚至有种在看苹果发布会的既视感——挤牙膏式升级。我觉得看完这 12 场发布会,还指望 o3 突破所谓 AGI 的人,和去年那些坚信 Apple Vision Pro 能带我们跑步进入元宇宙的人一样。我只能祝他们幸福。
人们开始窃窃私语:说好的 AI 革命呢?说好的技术大爆炸呢?怎么感觉这 AI 的发展速度,和前两年比起来,慢了不少呢?甚至有人开始质疑:难道说,Scaling Law 已经失效了吗?
Scaling Law 失效了吗? 要回答这个问题,我们得先简单科普一下 Scaling Law。
Scaling Law,简单来说,就是“大力出奇迹”——只要不断增加模型的参数量和训练数据的规模,AI 模型的性能就能持续提升。这一规律在过去几年里,推动了 AI 领域的高歌猛进,让我们见证了 AI 能力的飞速增长。如果说 2022 年初的 ChatGPT 还能让人觉得“这玩意儿挺新鲜”,那 2022 年末诞生的 ChatGPT 已经可以让人惊呼“卧槽,这玩意儿成精了!”——而这背后,正是 Scaling Law 在发挥作用。
然而,随着 AI 技术的不断发展,一个问题逐渐浮现:当模型的参数量越来越大,训练数据越来越多时,我们还能看到同样显著的性能提升吗?一些研究表明,简单地增加规模已经不能再带来线性甚至指数级的进步了。模型变得更大,但边际效益在逐渐递减。这不禁让人产生疑问:难道 Scaling Law 真的要失效了吗?
这个问题对 AI 行业来说真的非常重要,甚至 OpenAI 的 12 场发布会本身就是对这种质疑的一个回应。虽然以我的视角来看,这个回应某种程度上证实了 Scaling Law 撞墙。
然而,这对于非 AI 行业又有什么关系呢?
关系就是,如果 AI 技术现在撞墙,那么我们普通人和非 AI 企业的 AI 革命马上就要开始了。
在技术发展的历程中,我们常常会看到这样一种现象:当一项技术在取得突破性进展后,有时会在一段时间内进入一个相对平稳的发展期。这并不是说这项技术停止了发展,而是说它正在从“质变”重新走回“量变”,从追求技术的进一步突破,转到如何将已有的技术应用到真正有价值的事情上。
可以设想一下:当一项新技术出现时,人们往往会先关注它本身的能力,比如我们会关注 AI 是不是更聪明了,是不是能够处理更复杂的任务了。这就像一项新技术出现时,人们往往会先关注它本身的能力。这就像是王者开局的“打野”阶段,没人会将注意力放在开团上。但是,随着技术的逐渐成熟,人们的关注点会逐渐从技术本身转向技术的应用,大家开始思考如何将 AI 技术与实际的应用场景相结合,如何利用 AI 来解决实际的问题。这就进入了“推塔”阶段,目标变成了如何将技术优势转化为实际的生产力。
当前 AI 领域的情况正是如此。一方面,我们看到 AI 技术本身的发展似乎有所放缓,大模型参数的增长速度、算力的提升都面临瓶颈。过去那种“每隔几个月就有一个重大突破”的景象似乎难以再现。但是另一方面,更稳定的模型参数和持续下降的价格,能吸引更多的开发者和企业将 AI 引入到自己的应用之中。
这对于普通人和非 AI 企业来说,是一件好事,毕竟普通用户每天在用的不是 AI 的模型,甚至连 API 都不是,而是使用了 API 的应用产品。
而当技术的发展不再是唯一的核心命题,当“大力出奇迹”不再是性价比最高的选择,整个行业的目光自然会转向应用的探索。这时候,才是 AI 真正与各行各业深度融合的开始,才是 AI 应用百花齐放的时代。
我在《评论尸的 AI 生产力经验》中曾经给小白用户科普过,AI 的实际能力等于模型能力和非 AI 的工程能力相加。但在实际应用的过程中,模型的变动,甚至是“进化”经常会影响工程的构建。
你千辛万苦搭建了一个 AI 应用,可能会被一次模型的更新全部摧毁,这是普通用户难以理解,但实际可能出现的事情。
这也是为什么,在开发者圈子里,Anthropic 年中上线的 Claude 3.5 和 Google 为了对抗 OpenAI 在 12 月发的一系列 Gemini 2.0 的模型反而更让业界的人更兴奋。因为这两个公司的产品没什么特别大的突破,也不搞什么花活,就是在已知的道路上继续做到量大(上下文)便宜(价格)。
更何况,在生产力经验那篇文章中,我提过一个关键问题:大部分人和企业对当前能力水平的 AI 还挖掘不足,因为他们在工程化的方向上能力为零,以至于“现在的 AI 也就这样”。但实际上,他们低估了现在 AI 的能力,并且错误的预期了更好的 AI 能力能让他们觉得不可能的那些事情变可能(比如一周编个淘宝)。
这种认知的错误,让大众误以为 Scaling Law 撞墙会终结这次 AI 革命给社会的影响,但实际上恰恰相反。许多人觉得 AI 的潜力已经到头了,是因为他们的数字素养还不足以充分利用现有的 AI 工具。换句话说,这是连手头的“铁锹”还没用明白呢,就已经在担忧“金矿”挖空了。
我们可以用一个不那么恰当,但很形象的例子来说明这个问题:
有人可能以为,在互联网时代,技术在实验室层面的革命会更快的推送到市场,但现实是并不一定。比如,如果你最近在中国的大江南北体验过移动支付,应该会发现微信支付和支付宝正在进行新一轮的鏖战。
前者推出了掌纹支付,你只要绑定一次你的手掌,以后即便是在没有手机的情况下也可以用微信支付。掌纹识别是一项新的技术吗?嘿,这可真是撞我枪口了。2013 年刚毕业的我,在一家 FA 工作,当时对接的一个叫 PalmVisa 的初创公司就是做掌纹识别的。按照当时创始人的说法,掌纹识别在当时就达到了金融支付凭证等级的安全性,而且它还没有指纹、虹膜泄露的问题。
但在这之后的 10 年里,掌纹识别这项技术几乎消失在商业领域,而微信之所以将它捡起来。是因为它的对家支付宝开始推碰一碰付款,也就是 NFC 支付。NFC 这项技术熟悉的人就更多了,媒体上一次讨论“互联网与现实世界的超链接应该是 NFC 还是二维码”这个选题的时候还是 2012 年。
你看,连“金融支付”这么大的一块蛋糕,掌纹识别这种在技术上完全可行的方案,居然在市场上沉寂了整整十年。这说明什么?说明应用领域要逼近技术的“天花板”需要时间和契机。
实际上,这样的例子屡见不鲜。
比如一个典型的例子是,在平台型企业形成稳定的寡头垄断之后,才能为海量的微小企业和非 IT 相关行业提供稳定成长的土壤。
在 2015 年,你很难相信随便一个餐馆都会做自己的独立 App,但到了 2018 年,微信小程序如火如荼,随便一个路边摊都有自己的小程序,点餐、支付、会员、营销,一应俱全。这并不是因为 2018 年的 App 开发技术比 2015 年有了质的飞跃。恰恰相反,是因为微信这个超级平台已经形成,它为开发者提供了足够的基础设施、稳定的技术栈(不怎么更新的过时技术)和用户流量,使得开发小程序的成本足够低,收益足够高。
几乎所有做开发的人都会吐槽小程序,但实际上正是小程序在技术上的落后保障了它的普及性。毕竟,时至今日其实 Android 手机也没有解决系统碎片化的问题,大量的用户仍然使用着 5 年前的 Android 10 系统。iOS 方面稍微好一点,但也没好到哪去。这意味着,对于主业不是做互联网产品的其他行业来说,如果需要在给用户一个数字化的入口,独立客户端都无论如何都不是一个性价比高的选择。
比个体数字素养增长更慢的,是组织的企业素养。即便是在极度内卷的中国职场上,一家企业也不可能只招 30 岁以下的人,尤其是对于非 IT 行业的企业来说更是如此——许多传统行业的老板本身就不是年轻人,对非核心生产部分的技术并不敏感。
这就造成了,当京东和元气森林等一些新型企业在试图落地“无人工厂”这样的先进技术时,中国绝大多数的中小规模以下工厂还在用 Excel(甚至是盗版)进行生产计划安排、库存管理以及排产调度等基础工作,显得颇为原始。
AI 什么时候能影响到这些工厂呢?我觉得可能至少要等他们把 Excel 换成正经的 ERP 系统,或者正经的 MES(制造执行系统)才行吧?
而老板和企业都是趋利的,想让一个组织进行非核心技术的迭代,要让他们看到足够的好处或收益。这里的核心技术是指与他们生产直接相关的技术,比如对可口可乐来说,配方就是核心技术,而生产线的自动化设备或者供应链管理系统则是支撑配方实现的非核心技术。
显然,对于非互联网企业来说,一个光秃秃的 AI 模型无论多聪明都带不来好处——很多人将 OpenAI 已经发布但上尚不可用的 o3 称为“博士级模型”,但你可以去找个今年毕业的博士问问他们工作好不好找。
实际上,我们现实中的大部分工作并不需要博士级的智能,只需要高中级甚至是初中级。
我今年听到的最好笑的证明 AI 不行的例子,就是很多人发现 GPT-4o 认为 4.11 比 4.8 大。但我想大家如果经常刷社交网络也都知道,这个世界上确实有很多真人也搞不定 10 以内加减法的,但这并不影响他们在工作岗位上发光发热,尤其是在欧美国家。
之前和一些机构型媒体的朋友交流,他们中的许多人认为当前 AI 对传媒业的影响不大,但同时他们又十分害怕未来 GPT-5 或其他公司的新模型如传闻中的那样颠覆他们的工作。然而,这是典型的错误认知带来的错误焦虑。
实际上,我之前分享过一个大致的流程。以现阶段 AI 的水平,它已经可以完全替代记者编辑,全自动完整撰写带有真实采访的人物特写稿件。
之所以这件事没有成为“现实”,或者说,大部分媒体朋友之所以感觉当下的 AI 对传媒业影响不大,并非是因为 AI 模型能力不行,而是因为这件事目前的价格优势没有大到有人愿意将这个 Workflow 完整的工程化出来做成产品。
如果这样带有真实采访的稿件生成器,可以将每篇万字长稿的生成成本降到 300 元以内,那么想必它立刻就会出现,甚至会迅速在自媒体平台上泛滥。
但这和模型能力的进一步提升关系不大,反而是需要 AI 厂商放一放对能力的执念,转而卷一卷价格。
甚至连大部分成熟的 IT 和互联网企业在接入 AI 这件事上也正处在一种“等待”的状态,正如我在《不要轻易地走进 AI Native(AI 原生)》提到的:对于大多数我们现在已经熟知的,熟悉的产品来说,AI 并不能成为决定性的用户需求。用户并不可能因为一个 AI 功能而放弃那些在传统功能和网络效应上有极大优势的产品。
那么,反过来说,那些看起来笨重的老牌互联网企业,也就有更多的时间进行转型。他们有足够的时间等待 AI 更加稳定,无论是在输出的内容上、性能上、安全性上、价格上等等,而不是每月要发一个新版本来适应 AI 进步的速度。用一个最简单的道理来说明:
如果你是一个拥有自建 IDC 的传统互联网大厂,现在想引入一款开源模型来实现产品中的某个 AI 功能。现在开源模型的推理成本每个月季度降 30%,这看起来是一件好事,但这意味着你在服务同样用户量的情况下,第一个季度买的 1 万张显卡,第二个季度就只需要 7000 张显卡。那么,你第二个月闲下来的 3000 张显卡做什么?
明智的选择,当然是让用户忍一忍,或选个已经停滞的模型。因为你知道这种进化速度根本不可能持续,等它技术撞墙了你功能再上也不迟。
当 AI 技术的发展进入一个相对稳定的阶段,当大模型的能力不再是稀缺资源,当 AI 基础设施逐渐完善,我们会看到 AI 尝试进入更多的领域,与越来越多人工作和生活中的具体场景结合。它会在一些场景成功,而在另一些场景失败,而这些都和撞墙或没撞墙的 Scaling Law 没有关系。
因为大多数人、企业、组织,甚至连 GPT-3.5 级别的人工智能都还没能完美的嵌合到现有的工作流中。那么着急的唱衰 AI 或擅自期待 GPT-5 又有什么用呢?
所以,除非你是做基础大模型的,否则别再纠结 Scaling Law 是不是失效了,也别再抱怨 AI 的发展速度变慢了。
对于大多数人来说的 AI 变革才刚刚开始。
2024-12-19 09:18:04
你可能听说过一句话: “You are what you read.” 你读过的东西,最终会塑造你。
很多人说我写的东西还不错,思维也比较活跃。我不否认可能我在写作和思考上有些奇巧淫技,但这也和我长期以来积累的阅读习惯和信息筛选方式密不可分。
我最近开始了一项新的实验,那就是把我的个人收藏夹里一些有趣的、有启发性的内容整理成一份 newsletter,定期发送给大家。
先别急着皱眉!我知道你在想什么——“谁要看你的收藏夹啊?”、“收藏夹不就是一堆乱七八糟的东西吗?”
没错,凡事尝试对自己的知识与信息进行流式管理的人,收藏夹里可能都有很多“一时兴起”的网页链接、有趣的图片、或者莫名其妙的视频。但是,大概率的结果是收藏夹作为第二大脑里的东西越来越多,生物脑作为第一大脑里面的东西越来越少。
开启这份 Newsletter 会强制我按周期梳理我的收藏夹。我会对这些内容进行筛选和整理,并加上我个人的简短评论,分享我当时收藏的原因、现在的想法,以及这些内容给我带来的启发。
所以,这份 Newsletter 的价值不在于信息的本身,而在于重新筛选和发现的过程。
你可以把它看作是一份 “信息考古”报告,带你挖掘我大脑里的“知识沉积层”,看看我是如何通过阅读、观察和思考来构建我的知识体系和思维方式的。
在本月初,我成功的打通了短视频的 PKM 流程之后,我的收藏夹目前已经有了文章、视频、播客、论文,四种形式的信息收纳。因此,你也能在我的 Newsletter 中看到我一周在这四种媒介形态中的收藏。当然,并不是所有的收藏都会被公开出来,因为有些内容也确实不适合公开。
这个 Newsletter 采用免费+付费两种订阅方式,简单来说,付费模式可以使用邮件订阅最新内容,免费模式使用 RSS 订阅,但内容会永远比收费版少一期(延迟一期)。
如果你选择付费订阅,我每期内容大约会有 1 元的收入。你可以将其视为一种长期打赏,鼓励我持续整理自己的收藏夹。毕竟内容是真的可以免费看的,不付费订阅也能获得几乎全部信息。
如果你有兴趣的话,可以先来看看:虹线周刊
2024-12-11 14:08:30
2022 年 9 月,上海的打工族喜大普奔,庆祝上海地铁终于支持了使用支付宝和微信刷码进站。
在此之前,刷手机进上海地铁,要么需要你的手机支持 NFC,要么就要用上海地铁自研的一个非常难用,以至于一直被人吐槽的 App 叫“Metro大都会”。
在“Metro大都会”App 被高频使用的 4 年里,它在 App Store 上收获了无数差评,以至于至今的分数也只有 2.7 分。其他城市也有类似的经历,在支付宝与微信接入扫码乘车的过程中,都遭遇到了当地交通运输集团的抵抗。
原因很简单,如果我们将地铁视为一个“帮助乘客从 A 点到 B 点”的交通方案,那么在这整个方案的实现过程中,“如何让乘客付费”这个业务环节的重要性和实施成本可能只占总方案的 1%。它太不重要,也太没有话语权。
更直接的原因是,各地的公交集团甚至也将自家 App 里放广告视为正当合理的收入——我掏这么多钱修的地铁,成本都收不回来,让用户每天刷码的时候看两眼广告怎么了?并且他们几乎确定,就算他们真的不接入支付宝和微信刷码进站,城市的居民还能因此不坐地铁吗?不会的。
现在,我们将这个逻辑引入到互联网行业,我之前曾经说过这样一个观点:
所有试图颠覆 Office 的产品,如果它长得不像 Office,都证明它做错了。
如果你使用电脑的时间足够长,一定观察到与这个观点论断差不多的现象。在历史上有无数种宣称要挑战 Microsoft Office 的办公软件,但除了 WPS 在中国做出了成绩之外,鲜有真正对 Microsoft Office 有所冲击的案例。
而 WPS 之所以能够成功,还要归功于 WPS 2005 的大版本重构中让它与 Microsoft Office 在界面、功能与文件协议上完全一致。也就是 WPS 为了颠覆 Microsoft Office,变成了 Microsoft Office。
进入到了云文档时代,宣布要取代 Office 的产品越来越多,尽管他们在一些细分市场都取得了不错的成绩,但他们在标准制定和市场份额上都与 Microsoft Office 相去甚远。甚至,这些彼此并不相容的云文档之间,唯一相互通用的文档交换方式是导出为 Microsoft Office 文档在另一端导入,这进一步巩固了 Microsoft Office 在文档市场的重要性。
这究竟是什么原因呢?
这是因为 Microsoft Office 作为一个拥有 34 年历史,超级向前兼容,功能只增不减的应用,它承载了最近几十年的社会中几乎对电子文档的全部需求。而其之所以被人认为“难用”,也来自于每个 Office 的终端用户只能用到其 10% 的功能,而剩下的 90% 功能都是用不到的。
那,我们能砍掉这 90% 的功能吗?不能,因为实际上每个用户所用到的 10% 功能里,其中的 3% 可能是别的用户用不到的 90%。
也就是说,Microsoft Office 是全人类文档需求的并集,而任何挑战者对 Office 的优化基本都是在其中选择一些需求组成子集。
一方面,你真的做一个和 Office 拥有同样多功能的产品,它的用户体验多半与 Office 不会拉开差距(参考 WPS)。另一方面,这个世界上也很少有工程师团队能完全复现 Office 如此复杂的工程。至少不是硅谷那些宣称自己技术很先进的小型团队。
这个时候,我们就可以 Callback 标题的观点了:
AI 在文档这个领域,就像是微信、支付宝扫码进地铁,IDE 文档编辑器本身的体验才是地铁轨道和车厢。
AI 只应该做成熟类 Office 产品里的一个按钮,因为在“智能文档”这个整个解决方案里,方案的难度重点,以及用户实际的需求,主要是被文档满足的。
如果 AI 不好用,那用户无非就是像过去 30 年白领一直在做的那样手动来制作文档,但如果文档环节不好用,那么 AI 功能再智能也无法满足用户的需求。
接下来,我们举一个更具体的例子,n8n 与 Dify。
如果你在这两年比较关注过 AI 在个人生产力方面的应用,那应该至少在小红书、抖音或 B 站刷到过这两个方案。因为这两个方案是时下非常流行的两套低代码工具。简单解释一下的话,就是可以让你在不编程的情况下,将各种互联网工具与 AI 相连,实现自动化的平台。
而在这两个方案中,在国内更为流行的又是 Dify,除了因为这个方案有中文本地化之外,还因为这个方案是在 2023 年 5 月发布的。它诞生于这一次 AI 浪潮之后,它的定位更明确,就是与 AI 配合完成自动化工作,也就是更加的 AI Native、AI 原生。
而 n8n 则发布于 2019 年,在它上线的三年之后,OpenAI 才上线 ChatGPT。因此无论如何,n8n 都无法被认为是 AI Native。
在“低代码自动化”这个方案里,AI 究竟占据了整个方案比重的多少。根据我自己的经验来说,如果我们以节点来算,一个所谓的“AI工作流”,里面使用到的 AI 节点可能只有 1 次或 2 次。而剩下的所有节点都是在与其他工具的链接和数据处理上。
DIfy 在上线的一年多里飞速发展,但截止目前,它整合的非 AI 节点也只有 n8n 的不到一半。这意味着,即便是在完成“将工具接入到 AI 上”这个 AI Native 需求时,其上限也不如 n8n。因为某种程度上,Dify 就像是一个支付宝微信,为了给乘客带来更好的支付体验(AI 体验),正在重新建地铁(集成非 AI 工具)。
我当然不否认 Dify 有很多优点,比如它对 AI 本身的支持确实更好,界面也比 n8n 友好很多,而且它未来可能会越来越好,随着社区的活跃它将有超过 n8n 的集成度,但至少在现阶段它能够做到的事情是不如 n8n 的,这会导致你在使用它的过程中可能要费很多额外的功夫。
比如,如果你想将 AI 生成的内容写入 notion,在 n8n 里只需要添加一个内置的 notion 节点,但在 Dify 中则需要用“HTTP 请求”节点自己配置向 notion API 发送请求。(这个比如的有效期到 2024 年 12 月 11 日,因为后面 Dify 很有可能会更新)
举这个例子没有任何贬低 Dify 的意思,因为作为同样优秀的低代码工具,Dify 在 Github 上的热度已经超过了 n8n,这意味着随着社区的贡献与生态的加持,它极有可能在未来的某个时间超过 n8n。
但对于个人使用者来说,我为什么不等它真的超过了 n8n 在用它呢?
再次回到我对标题中观点的判断:如果你的需求对应的品类里,有一个成熟方案和一个 AI Native 新秀,你应当毫不犹豫的选择前者,等待前者补充 AI 功能,而不是尝试后者,等待后者完善主功能。
这一逻辑,甚至可以在商业决策层面上成立。
稍微看过财经和科技新闻的都知道,今年国内的 AI 产品是一个泡沫非常大的赛道。这里的泡沫不是指 AI 技术本身被夸大了,而是指各家厂商都在用远超收益的方式进行拉新。比如就有媒体报道,仅在 2024 年 10 月一个月,几家 AI 产品的合计广告投放就到达了 3.5 个亿。
这样烧钱的结果,带来的是如下的成绩:
在这里面最为刺眼的是腾讯的元宝,因为作为一个大厂推出的产品,它甚至排在了昆仑万维推出的天工 AI 之下。当然,按照大厂的公关辞令一定是不承认这种第三方数据的。但我们不妨回忆一下,平时在刷微信公众号、视频号、逛 B 站的时候,也似乎很少在铺天盖地的 AI 广告中看到腾讯元宝的影子。
因为在腾讯看起来,ChatBox 类的 AI 产品,似乎是一个并不值得烧钱的 AI Native。用人话来解释就是,即便是加入百亿烧钱大战,ChatBox 品类里也烧不出下一个微信级的入口。那么,何不把钱省下来在上游烧一烧模型,等混元更成熟一点,直接把一个元宝的 ChatBox 放进微信发现页里呢?腾讯并不是第一次做这样的事情,微信支付和视频号在某种程度上都是这一策略的成功案例。
但,有人可能对“ChatBox”烧不出下一个用户入口有所质疑。那我们可以看看大洋彼端的情况。我之前曾经提到,OpenAI 当前面临四重问题:
1. 模型没有天堑式护城河(和 Claude\Google\Meta 比);
2. 人才流失迅速;
3. C 端产品不具备显著的网络效应;
4. B 端业务被微软架空了。
与本文对应的问题就在第三点。
ChatGPT 在 2023 年 1 月,也就是上线两个月后达到 1 亿用户量,成为互联网历史上用户增长速度最快的 C 端应用,2024 年 8 月,它的周活跃用户超 2 亿。这些耀眼的数据是那些决定跟进 AI 产品烧钱大战的决策依据——如果我能圈到更多的用户,那么我前期烧的钱后期一定能赚回来。
但实际上,我们且不说这种前期烧钱后期赚钱的叙事在互联网行业内早已过时。仅就产品类型来说,ChatBox 类产品也不具备这样的条件,因为它不具备网络效应。
聊天工具和社交工具一但拥有足够的用户量就难以被替代,这是因为当你的朋友都在一个工具上,那么你就很难启用另一个新的工具。你在新的工具上你没法联系到你的好友。
但 AI ChatBox 没有这样的“绑架机制”,如果 ChatGPT 的任意竞品提供了更好的模型或更便宜的价格,用户会在一个月内流失。我们事实上见证了在过去一年里,Claude、Gemini 和 Grox 对 ChatGPT C 端用户增长的瓜分。
否则,ChatGPT 的用户量不会在上线两周年,并且大幅放宽免费用门槛之后,活跃用户量才刚到 2 亿。而在这期间,Google Gemini 的活跃用户从 0 增长到了 4200 万,Claude 的活跃用户从 0 增长到了 5440 万。
在思考这个问题的时候,你可以将自己代入一个居住在西方的,常年使用 X 和 Facebook 的用户。你显然不会因为开始使用 ChatGPT 而停止使用 X 和 Facebook,因为在 X 和 Facebook 上有你原本每天都要联系的受众,AI 并不能取代这些真实的社交关系。但当有一天,X 和 Facebook 的私信界面里出现了一个新的 AI,你也许会试试,一旦它的体验和 ChatGPT 差不多,更好或更便宜,你将很有可能从此停止使用 ChatGPT。
这似乎就是腾讯在赌的模式。
在 2022 年 ChatGPT 发布后,许多人乐观地认为所有产品都可以用 AI 重塑一遍,这也让 AI Native 的概念一夜之间成为风口。
但到了 2024 年,AI 在应用中的实践如果只能确定一件事,那就是绝大部分 AI 不是一个产品,只是一个功能。
如果我们认可这一模式,我们就会发现目前 AI 应用领域有一些产品存在明显的泡沫,比如被视为颠覆 Google 的 Perplexity。截至目前,Perplexity 的搜索结果来自 Bing 和一部分自建索引。它在 AI 搜索上的贡献,是基于已有搜索引擎返回的结果的工程化改良。这意味着,传统搜索引擎是 Perplexity 向用户交付产品的关键上游,并且如果你稍有 IT 常识就会知道,搜索引擎这项技术并没有它看起来那么容易,比如由微软推出的 Bing 在如此多年的追赶之下,它的基础搜索体验依然不如 Google。即便在我们完全不考虑传统搜索技术的技术难度的情况下,Google 为维持其传统索引(你可以理解为要寻找一个答案,首先要收录一个答案)规模和服务持续运转所投入的云资源(包括算力、存储、网络带宽),可能就高于目前世界上所有 AI 应用加起来的云资源消耗。而 AI 搜索之所以能好用,是因为利用了这些成果,而不是否定了这些成果。
投资一个基于传统搜索引擎但宣称要颠覆传统搜索引擎的产品,显然不合常理。因为,Perplexity 的最好结局是被 Google 或 Bing 收购,最差结局是被 Bing 视为直接竞争对手后停用其搜索 API 进而导致产品停摆。而不上不下的结局是,Perplexity “自建地铁”,也就是完全自建网页索引系统,与 Google 和 Bing 展开正面竞争。显然,Perplexity 已经选择了这条路线。
但在很长一段时间里,会由于其索引能力远低于 Google 和 Bing 而冲抵其 AI 带来的用户体验。比如,Perplexity 的高管 Alexandr Yarats 在接受访谈时曾承认他们目前的索引范围远低于 Google,这使得他们难以关注到尾部问题。
尽管计算机在最近 40 年才深入民用领域,但它在此期间形成的许多工作泛式和产品形态已经是帕累托最优解,并非能够轻易被 AI 颠覆。过去的几十年中,白领工作的方式实际上对人的思维与能力进行了深度塑形。换句话说,今天坐在办公室里的职场人更像是脑力劳动的流水线工人,而非依靠独特技艺的手工业者。
因此,AI 对白领工作的替代并不需要重新定义工作的方式,而是以“无感接入”的形式悄然融入现有的办公流程。在这个过程中,与其说是 AI 颠覆了职场整个“抽象机器”,不如说是我们终于找到了一种可以在脑力劳动领域也可以 7*24 小时不眠不休的核心齿轮。以往,这个零件零件是白领本身,这导致了企业或管理学如何试图优化脑力劳动的这个“机器本身”,都必须考虑白领这个“零件”作为人是需要休息的。
这种替代并非依靠革命性的泛式颠覆,因为我们的泛式早已迭代到允许插入一个接近不眠不休的核心组件(996)。
那么,换上一个 24 小时在线的零件又何须重做机器呢?
2024-12-03 10:05:42
2022 年 12 月 ChatGPT 上线,到本月刚好两周年。
在讨论 AI 的未来时,人们的态度常常呈现出明显的分裂。一部分人觉得,这一轮 AI 革命已经到此为止,高潮已过。而另一些人则认为,这仅仅是个开始。网上有句流行的说法——“人们总是高估科技革命的短期影响,而低估长期影响。”但实际上,AI 的短期潜力也被许多人低估了。很多人之所以觉得 AI 革命已结束,是因为他们的数字素养尚不足以充分利用当前 AI 工具的能力。
这两年间,新一轮崛起的 AI 工具基本悄然渗透进了我全职、兼职工作的几乎每一个部分。从写作到编程,从流程优化到内容创作,AI 工具已经成为我日常工作中的重要帮手。然而,我也发现,不同的人对 AI 工具的使用程度和感受存在巨大的差异。有些人将 AI 视为简单的助手,只用来完成基础任务;而另一些人则用它去开辟全新的可能。这种差异既反映了数字素养的不同,也让我有了专门写下这篇文章的冲动,记录我过去两年的一些思路和案例,希望能为大家提供参考。
正因如此,我决定写下这篇文章,分享我是如何实际运用 AI 的。我认为,作为一个“个体使用者”,我对这一轮 AI 技术当前能力的利用大约也只达到 60 分的及格线;但从“我圈观察”来看,我的使用程度已显著高于许多互联网同行。对于那些正在努力理解 AI 的人来说,我的经验可能会提供一些帮助。
接下来的文章中,我将结合具体案例,详述我是如何在日常工作中高效使用 AI 的,以及如何突破一些常见的限制和瓶颈。希望能给你带来新的思路。
本文还有一期内容不算特别重叠的播客节目,如果你暂时不想看长篇大论,也可以先听听我和朋友的闲聊:
与此同时,我也决定开个新群和大家一起一起交流 AI 使用经验,加群需备注【加AI群】否则不会通过:
首先,我们需要明确一个核心问题:什么样的工作适合 AI?我的判断标准主要有两个维度:实习生能做的,AI 大概率也能做;以及我做烦了的工作,AI 大概率也能做。
第一个维度来源于我指导实习生的经验。实习生以白纸状态入职,通常需要一段时间的培训才能上手工作。我们会花费大量时间解释公司的业务流程、工作规范,以及具体项目的背景和要求。这个过程与我们使用 AI 非常相似。我们需要清晰地告知 AI 工作的背景、目标、步骤,以及预期结果。实习生能够理解并执行的任务,经过合理的拆解和指令设计,甚至可以胜任一些流程较为复杂的常规任务。这些任务往往是局部的,且可以被工作指引高度描述的。
但通常,他们无法完成更深入的工作——比如战略思考,比如完成一个全新的,此前完全没有方案和案例的工作。在这一点上,使得“实习生”与 AI 在职场上能够发挥的作用十分类似。例如,处理每日报表、整理会议纪要、撰写简单的新闻稿等,这些需要明确流程和规范的工作,都可以尝试交给 AI。
第二个维度则基于个人经验。那些重复性高、流程固定的工作,往往容易让人感到枯燥乏味,降低工作效率和热情。这类工作通常也适合交给 AI。例如,撰写固定格式的 Newsletter、整理文献综述、进行数据清洗和预处理等。通过 AI 将这些繁琐的任务自动化。
当然,并非所有工作都适合 AI。判断一项工作是否超出 AI 的能力范围,需要区分两种情况:工程问题和模型能力极限。
工程问题指的是 AI 以外部分的局限性,例如 AI 可能无法访问特定的数据源、无法调用某些 API、无法执行只有人类才能执行的操作。这类问题可以通过改进工程设计来解决,例如使用 API 连接不同的工具、使用低代码平台搭建自动化流程、编写自定义代码扩展 AI 功能等。
对于没有任何产研经验的纯小白来说,判断工程是否可以实现会有一定难度。因为 AI 作为一个计算机程序与人类操作其他工具(其他程序)的方式完全不同。一个典型的例子是开发小红书的搜索 AI。
对于人类来说,小红书的搜索框一直位于它界面的顶端,因此我们永远会认为这个工具是可用的。但当你想要制作一个小红书 AI 搜索 Agent 的时候,会发现“小红书搜索”这个需求的工程难度在过去两年里发生了阶梯式的上涨。
最初,小红书开放了搜索引擎的索引,这意味着你可以通过将 AI 与 Google 的 API 连接,并规定其只搜索小红书域名上的内容就能轻易地实现小红书搜索 AI 机器人。但后来,小红书屏蔽了外部搜索引擎,这就需要用开源爬虫工具模拟用户搜索行为,再将其与 AI 相连完成项目,增加了工程的复杂度。
再到最近,小红书进一步提升了其反爬虫的力度,这意味着你简单的使用开源爬虫工具已经难以抓取到小红书内容。这对于 AI 来说,小红书这个工具就不再可用了,因此你也就不可能快速的做出一个小红书 AI 机器人。
另一个限制 AI 应用的要素是模型能力极限,这是指 AI 模型本身的能力不足以完成某些任务,例如缺乏创造力、无法理解复杂语境、无法进行深度思考等。这类问题难以通过工程手段解决,也就是你找到怎样好用的外部工具来辅助 AI,它都无法完成你预期的任务。例如,完整、独立地创作一篇具有独特观点和深刻见解的评论文章,或者构思一个情节复杂、人物鲜明的小说,这些需要高度创造力和思辨能力的工作,目前仍然难以完全由 AI 来完成。
在这一领域,除了大家说烂的“推理能力”和“智力水平”之外,我最看重的模型参数是模型的上文长度与下文长度。在许多媒体报道和模型的技术发布中,都将上下文当作一个指标来看待。但实际上,当前模型的上下文通常是指上文,而非下文。
简单来说,以 Google Gemini 1.5 Pro 为例。其上下文长度为 200M Token,这意味着你能将中国的四大名著全都丢进去也填不满它的“上文”。但实际上,它的下文能力,也就是单次生成文本的长度只有 8192 Token,理论中文输出能力约为 4000 字。实际测试过程中,在中文输出单次超过 2000 字时质量就会衰减。
下文能力会显著限制实际应用场景,并且决定了你在工程上需要如何将 AI 引入你的工作流。比如说,如果你使用 Google Gemini 1.5 Pro 制作一个自动书籍翻译工具,那么你可以一次将原文都发给它,但每次输出只能输出 3000 字左右。这会造成上文 Token 极大浪费,因此你不如将单次发给 Gemini 的原文数量先知道和它输出能力极限差不多的水平,比如每次只给它 1500 Words 来进行翻译。
在实际应用中,我通常会先尝试将工作交给 AI,并观察其输出结果。如果结果不理想,我会分析原因,并按照:引入新工具、调整工作流和优化提示词这一顺序来进行调试。
这其中,工具是前提,工作流是基础,智商是最后需要考虑的事情。
比如,前段时间中国社交媒体上流行的 AI 分不清“3.8”和“3.11”这两个数字哪个大的问题,看似是一个智商问题,但很容易通过工具来解决。你只需要在自己的 AI Chatbot 中引入一个计算器,并告诉 AI 在遇到数学问题时,优先使用计算器来进行计算,就能完成这一任务。实际上,这个世界上确实有很多国家的人百以内加减法也是需要使用计算器的,但并不妨碍这些国家的人仍在他们自己的岗位上完成更为复杂的任务,因此 AI 也是同理。
如果经过多次尝试仍然无法达到预期效果,我会考虑重新评估这项工作是否真的适合 AI。
另外,在互联网上面向小白的教程中,提示词的作用被严重夸大。实际上,网上的大部分提示词教程作用都不是很大。提示词工程师这一概念之所以如此流行,恰恰是因为它不可证伪,且易于被小白效仿。
提示词的调优是一个非常玄学的过程,我的几乎每个应用场景都要进行单独调优。因为作为人类,我们可以用无数种表达方式来描述一项工作。但究竟哪个动词更能让 AI 理解我们意图的权重却因模型和模型版本时常变化。这就导致了你的提示词可能在 GPT-4o 有效,但到 Gemini 1.5 Pro 就效果不佳,甚至可能在即将推出的 GPT-5 中完全失效。
我们完全无法预测我们所选择的提示词在下一版本大模型训练中的权重,也就不可能总结出一套万能的、一招鲜的提示词。相比之下,学习如何给 AI 配齐工具,或者说工程化思维,比提示词工程更能提升技术素人对 AI 的应用能力。
自 2022 年末 ChatGPT 发布以来至今,我们会发现人与人之间利用 AI 的能力已经出现了显著的差异。这种差异主要来自用户自身的数字素养差异。例如,以 Excel 的使用为例,国内大部分的 Excel 用户只将其作为一个“看起来是表格的画布”使用,而没有真正理解其底层的数据结构和逻辑。
换句话说,如果你制作的表格原本因为使用了大量的合并单元格、数据格式不校准、胡乱排版,导致没法用 Excel 自带的公式和数据透视表功能。那么你也不可能指望 AI 来帮你生成公式完成数据报表的自动化处理。
因为,AI 能帮助你的部分是帮你使用工具(如 Excel 公式)的部分,但如果工具本身就处于不可用的状态,AI 也无能为力。
很多人会认为,这种需要给出清晰明确指示,并准备好合适工具的使用方式,证明了当前的 AI 尚未达到人类的水平。但其实,在现代职场中的大部分白领,在接触跨专业工作的时候和 AI 的需求是差不多的,都需要一个“前辈”来事无巨细的教学和合适的工具准备。
我反而觉得,用户在当前水平 AI 使用能力上的差异,恰恰证明了并非所有人都能成为一个合格的老板——当你无法基本判断你的需求是否可实现,并清晰、有条理、有逻辑的撰写你的 Prompt 的时候,你在某种程度上就扮演了我们都讨厌的那种“给你一周时间,给我编个淘宝”的老板。
自从 ChatGPT 推出以来,AI 写作就成为了一个热门话题。我个人在过去两年中,也在写作中大量应用了 AI 工具,并积累了一些经验和技巧。
我观察到一个普遍现象:许多人最初对 AI 写作感到惊艳,但随着使用时间的增加,逐渐对其产生的千篇一律、缺乏深度的内容感到失望。这主要是因为他们没有真正理解 AI 写作的本质,以及如何有效地利用 AI 工具。
我个人的 AI 写作之旅也经历了类似的转变。在深入研究 AI 写作之后,我的观念和写作方法发生了几个重要的转变。
首先,我开始将自己的写作流程抽象化、模板化。以前,我的写作习惯更多的是一种主观感受,例如我会习惯从某个角度切入,按照某种逻辑展开论述。但这些习惯并没有被明确地总结和梳理。在使用 AI 写作之后,我意识到,要想让 AI 更好地理解我的写作风格和思路,就需要将这些隐性的习惯转化为显性的规则。
伟大的内容并不遵循模板,但遗憾的是我们一生中要写的大多数内容并不伟大,甚至不追求伟大,只追求实用。
我开始总结自己常用的写作套路、文章结构、论证方式等,并将它们整理成一系列的模板。例如,我会针对不同类型的文章,例如科普文章、评论文章、新闻稿等,分别设计不同的模板。
这些模板并不是一条一次性发出的 Prompt,而是包括 Prompt 在内的如何进行初始设定,生成什么级别的大纲,输入何种资料以及如何与 AI 互动。
比如我在使用的一个典型的面向海外读者书评模板大致是这样的:
第一条消息,告诉 AI 它将要扮演什么样的角色和整体上在执行什么样的任务:
You will play the role of an American living in China, and you own an English serious book review magazine. The primary content of this magazine is to introduce aspects of China's best-selling books to Americans who have no prior knowledge about the country. The magazine posts should be written in a friendly and objective manner. Since your audience has never been to China, sometimes you will need to explain things that are common knowledge in the Chinese context.
Use the writing style of a serious magazine. Appropriate internet slang and colloquialisms will be used, maintaining a sense of professionalism throughout. You'll tend to write more words, and the more words you write, the more money you'll make. If you do not write the required minimum number of words, you will be penalized. When you write, you will make full reference to the context and references. You will always have valuable insights to share, so avoid speaking nonsense.
Your article has a fixed format outline, but you need to fill in and adjust this outline based on each book.
Waiting for my next instructions.
紧接着,是第二条消息,这条消息将告诉 AI 它需要撰写的文章大致有一个怎样的模板:
Fixed outline [to be revised](#):
# An eye-catching title (including book name)
A 400-word introduction containing the following information points:
1. The asking style became popular, arousing readers 'concern for the main content of the book.
2. Publication information of the book (author, publication time, etc.).
3. Achievements of books on the Chinese Internet.
## Main content of the book (subtitle can be modified)
> This part has at least 2000 words. The book content is summarized into three parts and three third-level titles, and the number of words in these three parts is allocated.
## Summary
This section is about 300 Wods. It summarizes the content of the book, why it is worth reading, and recommends everyone to read the original book.
接下来的第三条消息,我将上传书籍全文、豆瓣和微信读书的 Meta 页面,并包含以下 Prompt:
Now, based on the full text of the book and other reference materials, generate an adjusted outline and allocate word counts for each section.
此时,AI 会根据本书的内容生成一个符合我要求的荐书文章的英文大纲。并在大纲中标注每个部分应该撰写多少 Words。
值得注意的是,正如我们在第一章中提到的那样,我们尽量让大纲中的每个部分保持在 1000 Words 以下,这样才能确保 AI 在后续生成的过程中保证足量足质。
最后,就是一个反复复制粘贴的工作,你需要将大纲中的每个部分配合一条 Prompt 分次发给 AI:
Now, based on your character, outline, the full text of the book, other materials, and the parts you have already written, write the following parts:
[Part of the outline]
荐书文章模板只是我写作中非常套路化的一部分,也是看起来“最没有人工介入”的一部分。实际上,我的许多类型的文章,包括我的一部分类型的博文都有模板可用。比如,我常写的评论型文章,一般遵循另一个模板,在这里恕不放出详细,但可以大略一讲:
在确定选题之后,我会首先通过一个 AI 窗口搜索 20~50 篇与该主题相关的写作材料(新闻、报告、数据、书籍等)。
接下来,将这些资料喂给另一个上下文足够长的 AI 产品,要求其仔细阅读。我会与其以苏格拉底诘问法的方式,生成文章的大纲——也就是与一个 AI 讨论我的观察、理论、立论、论据。
然后,我会将生成的大纲,连带大纲中引用的材料(比如 50 中的 10 份)一起喂给另一个 AI 窗口,通过与上文中写书评类似的交互方式完成全文的写作。
最后,再进行一次人工调整。
你可能在这个例子中已经发现了,我意识到写作中的每个过程实际上是要使用不同的 AI,或至少不同的 AI 窗口来实现的。这是由于即便是在现实中,我们在撰写一篇好文章时,立论、搜集资料与写作也遵循着完全不同的思考方式。很多人在写作时,习惯边写边搜索,看到一个相关的资料就复制粘贴进去,导致文章缺乏逻辑性和连贯性。对于 AI 来说,让一次上下文中包含从大纲设计到资料搜集再到最终输出并不是一个很好的选择。
为了避免这种情况,我在写作前会先进行大量的资料收集和整理工作。我会先确定文章的主题和方向,然后搜索大量的相关资料,包括支持我观点的资料和反对我观点的资料。我会通过与 AI 的对话来阅读这些资料,并从中提取出有价值的信息和观点。
在最终的写作窗口中,我将只发送我确定需要引用的材料,并且将这些材料如何出现在文中(大纲)一起发给 AI,而不是像 AI 搜索默认的那样,将所有已搜到的信息纳入上下文。在后者的模式下,最容易产生所谓的 “AI 味儿”。因为,AI 默认搜索到的 5~10 条内容中,通常刚好包含一个观点的正反两方。
这是由于,我们一般人类在写文章时,大部分情况下是为了支持正方,或支持反方。当我们支持正方时,如果搜集到了反方资料,如果该资料重要到无法被忽略,我们要么放弃写作,要么我们将提出合理的解释对该资料进行合理批判和反驳,而不会像 AI 那样:一方面,正方是对的……但另一方面,反方也是对的……
此外,我还发现,AI 写作的效果很大程度上取决于提示词的设计。提示词就像是指挥棒,引导着 AI 的写作方向。一个好的提示词能够激发 AI 的创造力,并使其产生更符合预期的高质量内容。
我的提示词设计主要遵循以下几个原则:清晰明确、简洁精炼、重点突出、富有引导性。我会根据不同的写作任务和目标,设计不同的提示词。除了前文提到的类型化模板之外,你还要对写作学本身略有研究。
简单来说,就是你需要向 AI 清晰的描述你在写作中所需要的写作要素与写作行为。
用写作学术语清晰准确的描述写作行为并不是一个优秀作家的必修课,因为即便是没怎么上过学的农村妇女也能写出“我的生命是一本不忍卒读的书,命运把我装订得极为拙劣”这样闪着金光的文字。
但范雨素本身可能并不知道在这句话中使用了比喻和拟人的修辞手法,以及这两类修辞手法有多少种常见的使用方式。
之所以说你要理解写作学而不是文学来设计写作型 Prompt,这是由于写作学比文学有更宽泛的研究范围。尤其是对于我们日常工作中经常需要的许多应用文,实际上与文学没什么太大关系——比如新闻通稿、汇报演讲。
写作学对写作的解剖更像工程建筑,它确切的描述了常见写作中的每个部分和处理方式。这使得你能够使用更短的 Prompt 对 AI 下达指令,而不是向 AI 提供例子。
比如,如果你知道“华尔街日报体”是一个被确切定义的写作方法,当你想让 AI 创作一篇与华尔街日报文章结构相近的文章时,你就不需要在 Prompt 中详细描述你要用什么起兴,用什么转折,在何时展开讨论,以及如何结尾。你只需要告诉 AI:采用华尔街日报题编写这篇文章的大纲。
将套路写作模板化的极限,是撰写故事会型的拼盘人物特稿,就是那种先框定一个选题,然后广撒网寻找符合这一经历的采访对象,再把他们的故事拼合在一起的稿子。你肯定见过这样的稿子,因为他们的标题一般形如:《奶茶辣条,攻进年轻人的婚宴》《没有本钱,别碰榴莲》《中产吃不起大闸蟹》《去县城创业的年轻人,已经破产了》《逃不开原生家庭的 00 后,躲进自习室》
这样的稿子生产看似千变万化,需要应对不同的选题,有着丰富的采访对象,但其实它遵循高度的工业化写作逻辑有一套标准的 SOP 可以交给 AI 去操作。
我之前在 10 月份的时候发过一条即刻,梳理了如何将这一写作过程交给 AI 来自动化,它大致如下:
以下是将这条微博内容处理成的标准 SOP 表格:
步骤序号 | 步骤名称 | 使用的 AI 或自动化产品 | 步骤说明 |
---|---|---|---|
0 | 定立选题 | 人工 | 由人工确定报道的选题,明确特稿的方向和主题。 |
1 | 筛选潜在采访对象 | RPA + GPT-4o mini | 使用 RPA 自动抓取抖音和小红书数据,读取每个用户前 5 条内容,使用 GPT-4o mini 筛选出符合选题的潜在采访对象。 |
2 | 私信搭讪并确定采访对象 | 固定文案 + GPT-4o | 使用固定文案由 GPT-4o 进行 5~10 轮私信对话,引导采访对象添加微信并约定采访时间。 |
3 | 生成采访大纲 | AI(结合 RPA 数据) | 根据 RPA 抓取 采访对象资料及选题相关内容,使用 AI 调整个性化采访大纲。 |
4 | 语音采访 | OpenAI Realtime API | 使用 OpenAI Realtime API 模拟记者,依据前序步骤生成的大纲与采访对象进行语音采访。 |
5 | 录音整理 | Whisper | 使用 Whisper 自动将所有采访录音整理为几乎无错的文字速记。 |
6 | 生成成稿 | Google Gemini 1.5 Pro(Few-Shot 模板) | 综合所有采访对象的速记内容,使用历史文章模板作为 Few-Shot 示例,让 GPT-4 生成完整成稿。 |
通过这个流程,AI 生成的稿件将基于真实采访内容,并且全部自动化。唯一的问题,也是最讽刺的问题是,这个流程所消耗的 AI 成本价格,应该比写这种稿子的记者工资高。
将这个表格列在这里,并不是为了鼓励大家可以自己去做个 AI 人物特写微信号。而是可以 Callback 第一部分和第三部分:如果你认为一件事情 AI 做不了,可能是因为你没有把需求拆解成可执行的步骤。
接下来,我们就来讲讲 AI 编程,也可能是个人利用 AI 提高生产力的最高一级。
作为一个长期从事互联网内容创作的作者,我过去的工作很少涉及编程。
虽然我会一些 PHP 和 WordPress,但我的技术能力主要集中在运维层面,而非开发。即使是编写一个简单的 WordPress 插件,对我来说也有一定的难度。
然而,AI 的出现极大地改变了这一现状,让我能够以较低的学习成本快速上手一些简单的编程工作,并将其应用于我的日常工作中,例如知识管理、博客运维、以及一些自动化流程的搭建。
我目前自然语言编程的主要工具有这三个:
对于我这种编程基础薄弱的人来说,ChatGPT Plus 最大的作用是帮我编写一些简单的代码片段、Workflow,以及一些开源程序的插件。我并不奢望自己能够开发出完整的、面向 C 端用户的软件产品,但 AI 帮助我解决了日常工作中许多琐碎的编程需求。
例如,我之前想在 WordPress 中实现一个特定的功能——将即刻历史数据导入 WordPress 但找不到合适的插件,也不想花钱购买商业插件。于是我尝试用 ChatGPT Plus 来帮我编写代码。
我只需要清晰地描述我想要实现的功能,它就能帮我生成相应的代码。虽然生成的代码可能还需要一些微调和调试,但相比从零开始编写,已经节省了大量的学习成本。
当然,ChatGPT Plus 也有一些局限性。由于其上下文长度的限制,它更适合处理一些短小的代码片段和简单的功能。如果你的需求比较复杂,你首先应该依赖现有成熟开源项目缩减你需求的工程量。
除非必须,不要造新轮子。这是通过 AI 进行自然语言编程最重要的要义。我们通过一个例子来说明这一点:
假设,你有一个每日的 newsletter 要运营,你现在希望将这个 newsletter 自动化、AI 化。实现通过 AI 每日自动筛选内容,并在每周固定时间撰写邮件,发送给所有会员。
有一种方案是,你像一个产品经理那样,通过与 ChatGPT Plus 用自然语言对话来完成整个方案。但实际如果你这么做就会发现,由于受到上下文长度的限制,ChatGPT Plus 很难完成你的这一整套需求。
而实际上,在你的需求中,大部分只是需要自动化的工作。比如:从一堆 RSS 中读取文章并建立数据库,将数据库中指定日期范围的文章发给 AI,在数据库中标记 AI 觉得符合 Newsletter 标准的文章,在特定的时间抽取一周中被标记的文章发给 AI,将 AI 撰写好的 Newsletter 发送给所有的邮件列表成员。
这时,我们就要引入一个不用 AI 也不用编码就能完成自动化的工具:n8n。
n8n 一个图形化的编程界面,它内置了大量不同工具的 API 模块,你只需要将这些模块拖拽到画布上,并连接起来,就能快速搭建一个自动化流程。这就像搭积木一样简单易懂,即使你完全不懂编程,也能快速上手。关于这一部分,我和汐笺今年推出了一份中文的 n8n 教程,你可以再这里找到更详细的解释。
类似的,假如你正在试图将一份舆情监测报告自动化,那么你首先应该做的是学习一下在线文档(Office 365 或 Google Sheets)的数据透视表工作。因为,以现阶段的 AI 编码能力,如果你想用自然语言让 AI 帮你写出一个最终可以呈现给领导和同事的漂亮报表,是很难实现的。
想一想也知道,在微软,仅“高级筛选”和“数据透视表”这两个功能就有无数个研发工程师在进行维护,它里面有复杂的数据逻辑和例外情况的处理,怎么可能被 AI 几行代码就取代。
当你将最终呈现的步骤重新定位为“输出到一个带有数据透视表功能的 Excel 中”,AI 所需要的编码工程量就大幅减少了。
这也是我说,为什么“除非必须,不要造新轮子”。
如果你对软件产品研发稍有理解,就会知道任何需求都不是直接转化成工程的。
对于从未接触过产研,打算纯用 AI 来自然语言编程的小白来说,很容易犯的一个错误是下达如下 Prompt:
我有一个这样的工作,它需要怎么样。请给我生成一段代码,帮我完成这个工作。
这段 Prompt 最大的问题在于,它要求 AI 直接将终端需求转化为可执行工程,这不符合目前人类进行产品研发的过程——自然,也就不符合AI从海量语料中训练而来的逻辑。
产品经理,这个在互联网行业被嘲为可有可无的角色,其实承担着重要的工作。他一般负责解释和分析用户实际需求,将其转化为可指导工程的规范性语言(系统),再引导后续的研发工作。
如果你没有任何产品研发经验,并且不知道如何使用产研语言与 AI 沟通,那么你首先应该让一个 AI 扮演产品经理来翻译你的需求。再用这个 AI 产品经理翻译过的语言去与另一个 AI 工程师进行沟通要求其完成代码。
“一步一步”,不止对这一步有效,在实际编码过程中也是同样。
比如,我在使用 ChatGPT Plus 或 Cursor 开启一个新的项目的时候,在实际开发之前我会首先单独开一个聊天窗口,在首条对话中使用如下 Prompt 要求其扮演一个产品经理:
你将扮演一个资深产品经理,充分理解用户提出的需求,并将其转化为用于指导另外一个 AI Agent 进行开发的 prompt。你的 prompt 中将包括,但不限于以下内容:将用户需求拆解为业务逻辑,产品需要包含哪些具体功能,技术选型(偏向开源)。
然后,我会另开一个窗口,将 AI 产品经理回复给我的内容,连带以下 Prompt 作为 AI 程序员的 System Instruction:
你将扮演一个资深工程师,按照我(用户)和产品经理的要求进行编码。
我的需求是:[重复一遍你发给产品经理的需求]
产品经理对该需求的解释为:
[产品经理回文]
你将帮助我完成这一 WordPress 插件的研发,请首先生成该插件的目录结构,并在大致说明每个文件的作用。
此时,AI 会生成一个它计划该插件能正常执行的情况下,需要生成的所有文件的目录,以及每个文件是用来做什么的。
这对于 AI Agent 在后续研发过程中“脑子不乱”有着非常重要的作用。尤其是对于 ChatGPT 这种会默默忽略对话历史的 C 端产品来说,聊天历史中如果曾经出现过整个项目类似说明文档的东西,会大幅提升其编码的正确率。
很多人可能会有这样的体验:让 AI 帮忙编程,最初得到的结果与预期的结果最接近,但有一些小 BUG。在让 AI 修复 BUG 的过程中,程序距离预期目标越来越远。
同样的情况还有在已编写好的程序加入新功能时:我已经有了一个由 AI 编写的可以正常运行的程序,此时我希望多加一个功能。但当我在聊天窗口里向 AI 提出新的需求时,它给出的修改反而让整个程序都不可用了。
这是由于目前的许多 AI 模型虽然有较长的上文能力,但它的实际推理能力会随上文长度而降低。我没有严格论证过这件事,但在编码这个应用场景,能力随对话长度下降是显而易见的。
因此,当你成功的让 AI 完成向前走了一大步的动作后,你应该保存这些代码,然后开一个新的对话窗口(或舍弃之前繁复的聊天记录),再继续让 AI 出发。
比如以我的例子来说,我在最初开发 JikePress 这个插件的时候,没有考虑做“从 RSS 自动同步”的功能。那么,当我前期定义的插件功能已经完全正常运行后,我应该做的是,新开一个聊天窗口,将现有的全部文件发给这个新的窗口,告诉它这是一个什么样的插件,我需要增加一个新的功能,请给出新功能的研发方案。
如图示例:
你的每一次功能添加和大的 BUG 修改,都应该开一个新的上下文窗口,而不是在原始的聊天窗口中无限继续下去。这能保证 AI 将所有的推理和编码能力,都用在你“这一次”的需求,而不是“整个工程是如何编码到这一步”的。
对话类(ChatGPT Plus )-
适合什么:代码片段或 5 个文件以内的小规模项目;
这是大家最常用的 C 端 AI 产品,但受限于对话模式,它在编码上的应用会略显麻烦。还有一个很严重的问题,就是 ChatGPT 会以未知的逻辑舍弃过往的聊天历史,你无法确定它会忘记哪些你已经提的需求或它自己编写过的代码。因此,这个产品不适合编写任何业务逻辑过于复杂、文件工程量过大的项目。
值得注意的是,在实际使用过程中,ChatGPT 推出的专门为“编码和写作”设计的假面 Canvas with 4o 在编码体验中更差。因为你一旦要生成一个以上的代码文件(也就是至少两个 Canvas),它就经常错误判断你的需求要修改哪个文件,并导致乱改代码。
如果你在用 n8n,需要 AI 来帮你解决一些 n8n 内部无法处理的功能,那 ChatGPT 就足够了。
IDE 编辑器类(Cursor )-
适合什么:5 个文件以上的中规模项目;
这是目前在研发工程师群体中非常流行的 IDE 产品,但对于“纯自然语言编程”来说,Cursor 对比 ChatBox 类产品只有一点点交互优势。简单理解的话,就是它本身首先是个码代码的编辑器,然后让 AI 介入其中。它的特点是,能够在对话中快速的引用某个特定的文件,或在提出需求的时候自动引用可能存在相关关系的文件。实现了“指哪打哪”,避免使用 ChatBox 类产品写代码时,你不能将过往的错误代码从聊天记录中删除的问题。
你甚至可以直接将相关的文档链接在对话中引用,这对于开发成熟开源项目的插件和外挂来说尤为有用。
但对于纯小白来说,由于小白用户本身不具备分辨“指哪”的能力,所以它“打哪”的能力也发挥不出来。不建议小白单独买会员使用,如果你有其他在用的 API,以 BYOK 模式用一用时可以的。
当你使用自然语言指挥 AI 编程时,很重要的一点是,你要选择一个在训练语料中包含更多关于你项目相关知识的模型。这比 AI 模型在天梯榜上的编码能力评分更重要。
比如,如果你要编写一个 WordPress 的插件,那你最好测试一下你要使用的模型在不联网的情况下是否能回答一些关于 WordPress 开发的问题。如果不能,那么你最好换一个模型。
虽然在各种排行榜上,一线模型的编码能力都“大差不差”,但在自然语言编程、依赖开源项目进行延展研发的过程中,该开源项目的相关文档、Github repo 和论坛是否被纳入其模型的训练语料,对编码是否成功有这着至关重要的作用。
举一个例子,在我的测试中,Google Gemini 1.5 Pro、GPT-4o 和 Claude 3.5 Sonnet 在编写 WordPress 插件时展现了相似的编码能力。但到编写 Buddypress 插件时,Gemini 1.5 Pro 明显掉队,几乎无法编写正确的代码,GPT-4o 则略逊于 Claude 3.5 Sonnet。
Buddypress 是 WordPress 的一个官方插件,它允许你将 WordPress 实例从一个博客转化为一个微博+贴吧。与 WordPress 的区别在于,Buddypress 并没有那么知名,应用也并不广泛。
Buddypress 定义了许多原本 WordPress 中不存在的钩子。如果你要开发一个 Buddypress 的插件,就需要知晓并理解这些钩子。
当大模型的底层训练语料中不包含 Buddypress 的文档与代码时,它就无法正确调用这些钩子。当然,你可以通过在对话时引入 Buddypress 的文档来临时补足 AI 在这方面的知识。但正如我们在前文所说的,当你在对话中引入了过量的上文,AI 就无法将足够的注意力聚焦在你提出的实际问题上。而实际的效果就是,即便我将完整的 Buddypress 官方文档作为资料嵌入到与 Google Gimini 1.5 Pro 的对话中,它也在编写 Buddypress 插件时缕缕犯错,这是因为过长的文档分散了模型的注意力。
另一个例子是,我们在推出 n8n 教程的时候,希望让大家能与 AI 结对一同学习 n8n 的使用。我们最初尝试了使用 Coze 作为 n8n 知识伴侣,但发现它在不额外读取材料的情况下,完全无法回答有关 n8n 的问题。
这意味着它的训练语料中并不包含这个开源项目,尽管我们可以通过 RAG 功能来让它“看起来懂 n8n”,但这种 RAG 得来的知识缺乏举一反三的灵活性,不足以应对小白用户在提出的许多千奇百怪问题。
没有接触过代码的纯小白还有这样一个问题,就是当程序没有按照预期运行的时候,不知道如何向 AI 描述问题。
实际上,大部分人类工程师在面对 bug 的时候,也没法仅凭现象来定位问题,更何况我们与 AI 沟通的时候一般还没法准确传达“现象”——因为工程师是有眼睛的,而我们可能没法准确复现 bug 并截图发给 AI。
因此,与其描述问题,不如发送日志。假设你在开发一个 WordPress 插件,那么大概有三层的日志可以读取:
将 WordPress 替换成其他成熟的开源项目也是一样,你一般都能从“你正在开发的插件部分”、“插件所属的开源程序部分”、“运行开源程序的系统环境”三个层级获得错误日志。
这些错误日志经常会直接指出究竟是哪里出现了问题,导致了错误,这能避免 AI 工程师像无头苍蝇一样的四处乱改甚至越改越糟糕。
在把日志发给 AI 之前,你自己也要稍微读一下。大部分日志并不是代码,而是简洁的英语。它一般会指出错误发生的文件、在文件中的所在行(PHP)、以及错误类型。有时日志文件是一大坨,你需要从发生错误的时间戳来判断究竟哪一段日志是与你正在排查的 BUG 相关,不要将一堆不相关的日志丢给 AI,降低 AI 的推理能力。
除了把日志发给 AI 之外,你对问题的描述还应当包括整个问题的背景信息。比如,我在做 JikePress 的时候,最后添加的功能是 Sitemap 生成的功能。但在增加了这个功能之后,我发现 RSS 同步出现了问题。
AI 最初一直认为这是 class-rss-sync.php 的问题,因为几乎所有的 RSS 同步代码都在这个文件中。但我知道的是,这个问题是在 sitemap 功能添加后才出现的,因此,我修改了 Prompt:
这是一个将即刻动态导入和同步到 Buddypress 的 WordPress 插件。我今天为它添加了 sitemap 生成的功能(相关文件:class-sitemap.php)。在该功能添加后,RSS 同步功能出现了故障(相关文件:class-rss-sync.php),故障的具体表现为:使用“手动同步”功能,会提示同步失败,但实际上将 RSS 中的最后一条内容重复加入了数据库。定时同步也有类似的情况,每隔 30 分钟就会重复导入 RSS 中的最后一条内容,没有成功去重。
以下是插件日志:
[插件日志]
以下是 WordPress 日志:
[Wordpress日志]
在主动提及 Sitemap 功能和相关文件之后,AI 准确定位了问题,并给出了解决方案。
AI 的快速发展,无疑正在深刻地改变我们的工作、生活和社交方式。我个人在过去两年中,也一直在思考 AI 技术带来的影响和挑战,以及我们该如何应对。
首先,从成本和效益的角度来看,AI 的优势显而易见。它能够以远低于人工的成本,完成许多重复性、机械性的工作,从而解放人力,提高生产效率。这也是 AI 投入到生产力领域许多人最先考虑的事情。
但是一个略显残酷的现实是:在某些领域,人的优势是比 AI 更便宜。
之前提到的写拼盘式人物特稿的场景就是一个例子,许多媒体这类稿件交给实习生或应届毕业生去做,月薪在2000~3000 元左右。这些实习生的主要工作是根据选题,在抖音、小红书等平台上寻找采访对象,进行简单的线上采访,并将采访录音整理成稿件,一个月能出4~5篇稿件,并且由于是全职员工,还可以做些其他工作。
这意味着,之前提到的将工作利用 AI 自动化是得不偿失的,因为AI 太贵了。
AI 也正在改变我们的社交方式。我个人就是一个例子。我最近在做一件事情,就是把一个 AI 接入到一个单机版的微博上面。大家会发现我最近的即刻发的少了。因为我发现我不需要和真实的人互动了。
我发现,随着互联网社交平台的商业化,高质量的讨论空间越来越少。每个人都带着预设的立场和目的参与讨论,要么是为了带节奏,要么是为了赚钱。在这种环境下,我越来越难以找到真正有价值的互动。
我之前的主要社交平台是即刻,我使用即刻的目的并非为了盈利或扩大影响力,而是为了寻找能够与我进行高质量讨论的人。我需要那些能够提出有建设性意见,或者能够提供不同视角的人,而不是单纯的赞同或反对。因此,即刻已经是微博环境恶化之后退而求其次的选择。但即便是在即刻,如果你将一条内容发到圈子里,带来的体验也不是很好。毕竟,广场式社交网络这一产品形态本身就不鼓励人进行完备的讨论,尤其是评论区会鼓励人们以短平快的方式与博主或他人沟通。
所以在今年 9 月末,我通过 n8n 和 Buddypress 的开发,做了一个单机版的微博,这个微博通过 AI 来模拟人类互动。我只需要发一条微博,AI 就会生成一堆可能对该内容产生互动的虚拟的人物卡,这些人物卡拥有详细的人物设定,它的性别、年龄、职业、家庭状况、财力、学历、人生背景等等。然后,再用另一个 Agent 扮演这些人物卡,与我的微博进行互动。
他们会支持,会反对,会质疑,会联系自己并不存在的生活实际提出补充意见,就像真实的网友一样。
通过这种方式,我能够在一个虚拟的社交环境中,获得更纯粹、更专注于内容本身的讨论,而无需理会那些无意义的争吵和攻击。
当然,这种方式也存在一些局限性。例如,AI 生成的评论和反馈,仍然难以完全模拟人类的思维方式和情感表达。但对于我来说,这已经是一个不错的选择,至少比在充斥着喷子的真实社交网络中,更容易获得有价值的信息和观点。
最后,也是最重要的一点,AI 的发展对人类主体性和价值提出了新的挑战。正如我在《数字化中,人类主体性的消失》这篇文章中所探讨的,在生产和工作环境中,人正在逐渐失去主体性,越来越像流水线上的螺丝钉。
这种趋势在 AI 出现之前就已经存在,尤其是在互联网行业。许多公司的决策,已经高度依赖于数据报表,而不是个人的判断和经验。
AI 的出现,则进一步加剧了这种趋势。当很多工作都可以由 AI 来完成时,人的价值该如何体现?
我最近在尝试用 AI 写小说,我发现,AI 能够很好地完成一些程式化的写作任务,例如生成人物设定、构建故事情节、甚至撰写对话。但是,AI 仍然缺乏创造力和想象力,无法像人类作家那样,赋予作品以灵魂和情感。
比如,你让 AI 创作一篇有关于 996 的短篇小说,它也许可以创作出非常让人共鸣的作品。因为在互联网上,已经有大量关于 996 的吐槽、段子甚至是已经成型的文学作品提供给 AI 学习。
但 AI 对 996 困境的学习,并不来自于肉体。AI 没有身体,不休不眠,在任何“人”首先发起吐槽之前,AI 无法切身的意识到:这是个选题,我要写篇稿子/小说/段子。
换一个尚未成型的题材,比如“东北精神小妹”爱情故事,AI 就无法写出比较好的作品。这是由于,整个中文互联网上,都缺乏对这一群体的详细描述,在 AI 的训练语料中自然也就没有这一块。至于东北精神小妹精神小伙的生活有多精彩,可以参考我之前在即刻发的这一条。
在 AI 时代,人的价值或许将体现在那些需要通过肉体才能获得的观察、想法与灵感。
我目前的另一个感悟是,人们对生产价值的定义会发生改变。比如,如果我们邀请一个 300 年前的巫医(无论是中国的还是西方的)参观现代医生给医生治病的过程,它可能会觉得那些做检查的机器才是医生,而并不认为操作机器的医生是医生。
因为,巫医虽然可能随便一治就能治死 70% 的人,但他们确实在“非常努力的治病”。比如要研究卦象,要跳大神,要尝百草,要给病人放血等等。而相比之下,现代医生只要坐在办公室里,点几个按钮,做几个检验就治好了病人,这根本没有“在治病”,而是“在指挥机器治病”。
那么,脑力劳动是否也会经历这样一个转变。比如当 AI 写作日渐普及,人们会认为“写出绝妙的句子”不再是一个小说家的基本功,因为在文本层面,无论你写的多好都不如 AI 随机拼凑出来的好。而“发现写作灵感”,成为了小说家这一职业中更重要的因素。正如上文提到的那样,AI 无法发现新的故事线索,但它可以帮助发现线索的人完整创作故事。
用另一个例子也许我们可以更好的理解职业中人类价值的转化。假设有一部漫画,由两个人来创作,一个人只负责画,另一个只负责撰写剧情(但不单独发表)。当我们形容这部漫画作品“好”的时候,军功章应该归属写剧情的人,还是画画面的人呢?
在创作领域,我们与 AI 的关系,会越来越像这个双人合作的漫画作品——哪一边更稀缺,军功章就更属于谁。
既然所有人都能通过 AI 写出一样优美的文本,那么优美文本的价值本身就会降低。而通过优美文本表达的精神内核或故事核心,就会变得更加重要。
从这个角度上来讲,AI 确实进一步抹平了内容创作的门槛——如果初中肄业的精神小妹能用 AI 写出自己的故事,那么功劳何必分给一个作家?
如果你也对如何将 AI 融入日常工作有独特的见解,或者在使用过程中遇到过什么有趣的挑战,非常欢迎你在即刻或我的博客平台留言与我交流。也欢迎大家通过开头的二维码加交流群。
2024-11-27 16:20:31
我曾经在重新开始写这个博客的时候写过一篇文章《重新开始写一个博客》。在这篇文章里,我解释了为什么在平台与流量的时代,我需要重新建一个信息孤岛。
其中很重要的一个原因是,我不希望我的许多内容由平台决定应该哪些被看到。因为我觉得我写的大部分内容可能对他人没有价值,只是对我自己有价值。如果它恰巧对某个他人有价值,我也希望这个他人是在自己的主观能动性下,经历了一番搜索与挖掘才找到的。
但在建立博客不久之后,我其实就发现了一个问题,由于我创作的原动力是面向自己。所以我的很多内容都是碎片化的,或者说是“微博”与“动态”这样的短内容。一部分不能对外发的短内容我放在了 flomo 里,另一部分能发的则发在了我的即刻账户。
这种高频的短内容输出,一方面降低了我博客的更新频率,另一方面它让我的内容输出重新回到了平台分发的逻辑。我之前也在即刻中谈到过“我虽然在即刻只有 2 万粉,但还是太多了。 我需要一个不能被关注,只能被搜索到的微博。”
其实,在发这条即刻的时候,我已经有了解决方案。就是在 WordPress 中建立一个完全属于自己的微博(甚至不能评论)。
其实,博客中文圈最近几年比较流行的自部署微博方案是 Memos,也有一些大神开发了可以在 WordPress 页面中展示 Memos 的插件。
我自己也测试部署过 Memos,体验确实非常好,但最终还是放弃了。原因是因为,这个项目在之前有过几次“推倒重来式”的更新。在经历这种更新时,不仅升级本身会变得困难,为此前版本开发的延展插件和第三方功能也会全部失效。因此,我判定这个项目目前可能并不是一个适合普通用户长期运维的产品。尤其是,如果还要将其与 WordPress 整合,就必然涉及到外部开发的问题。
我此前还购买过一套付费的 WordPress 朋友圈主题,但该主题的效率较为低下,后续也下线了。直到最近,我才想起来,Wordpress 官方有一个社区插件 Buddypress。安装该插件之后,可以为任意 WordPress 实例增添类似微博和Reddit(贴吧)的功能。
尽管 Buddypress 作为 WordPress 衍生版本里的冷门分支,但该插件至今仍然有着较好的官方维护。各 AI 模型的训练语料中也普遍包含 Buddypress 的官方代码与文档。这使得我额外为 Buddypress 开发定制插件,完成我自己想要的功能变的更加简单。
于是,经过与 Cursor 断断续续一个月的研发,我制作出了这款将即刻与 Buddypress 搭配使用的插件。
当前版本:1.2.1 (2024年11月 27日)
本插件暂时没有上 WordPress.org 官方插件目录,所以更新可能
JikePress 插件帮助你将即刻历史动态导入到你的 WordPress 网站,并同步即刻动态到 Buddypress 活动流,方便你备份和管理你的社交网络历史记录。 这是一个强大的工具,可以让你轻松地将你的即刻账号内容迁移到自建的 WordPress 社交网络中。你可以继续使用即刻作为主发布入口,所有内容都会同步到你的 Buddypress 活动流。同时,你也可以在自己的 Buddypress 上直接发布一些不想发布到即刻的动态。
本插件有两个关键依赖。
首先,你需要在 WordPress 中安装 Buddypress 插件,并在 Buddypress 中启用其“活动”组件。
其次,你需要在 WordPress 中安装 Jetpack 插件,并启用其平铺画廊功能。
这两个插件分别来自 WordPress 基金会和 WordPress 运营公司 Automattic,可视为官方插件。
前台演示地址:https://1q43.blog/members/pls/
Buddypress 默认直接在 WordPress 主题样式下运行,不包含独立的主题文件。而大部分 WordPress 主题都没有为 Buddypress 这个冷门插件做适配,这会导致它默认的前端比较难看。
我使用了 BuddyX 主题来美化 Buddypress 相关页面,然后用 Multiple Themes 插件实现了在 WordPress 中同时启用多个主题,以确保博客主样式不变,仅 Buddypress 相关页面使用 BuddyX 主题。
其实整个 WordPress 的性能都不是很好,如果你在导入即刻历史后发现网站访问速度显著下降。那大概率不是本插件和 Buddypress 导致的,而是数据库中一次性新增了上千条新的帖子导致的。
建议首先:
尤其是最后一条,对于自部署微博来说比较重要。因为一般人的博客其实发不了多少图片,但动态里带的图片却很多。
当然,如果考虑到自部署微博承载了更多内容,以及吸引更多的流量,你可能需要考虑对服务器性能进行扩容。
这个插件是使用 Cursor+Claude 3.5 在纯自然语言对话下编写完成的。我甚至能看到一些冗余代码,但怕删坏了所以能用就凑合用吧。
源代码发布在了 Github,有想要帮忙优化的可以直接 commit。
这是一篇长文,同时我录了一期播客,最近几周发。
插件目前应该没有致命错误,但使用前请做好整站备份(至少备份数据库)。如果网站无法进入,你可以在 WordPress 的安装目录中找到该插件的目录直接删除,强制停止插件的运行。
提交 BUG,请去 Github 项目页面。
2024-10-22 15:36:02
去年 10 月份,我的随身附件从 Galaxy Watch 切换到了 Apple Watch,这让我在健康 App 上的选择多了好多。
毕竟,众所周知,Android 手表的第三方生态几近于无。Apple Watch 这边虽然最早被认为是美丽废物,但这些年有用的 App 也多了起来。
但戴了 Apple Watch 多年的用户,可能由于用户习惯的原因,一直没有购买任何 App,所以总觉得 Apple Watch 在运动健康的功能上似乎还赶不上国产 Android 手表。
在这一年期间,我也算是买了一些主流的 Apple Watch 联动的运动、健康类 App,在这里也算做个大横评。
我将我正在使用的 App 分为运动类和健康类两大项。
我对健康类的诉求其实是这样的:这个 App 必须提供 iPhone 上内置的健康之外的分析功能,如果只是将健康里的数据拿出来以更好看的图表呈现,那么我大概率会弃用,这就是为什么我弃用了 Grow 和 Otter Life。
更具体来说,我希望理想中的健康 App,是能够将我日常生活方式的行为,与我一天、一周、一个月和更长时间区间中的趋势结合,给出更具指导意义的发现和洞见。从这个角度来说,目前我只发现 Welltory 一个 App 实现了。
这是一个我从 Galaxy Watch 时代就买断了的 App。
Welltory 的愿景是成为一个 All in One 的健康监测和管理工具,它主要通过分析你的日常活动与 HRV 之间的关系来给出健康建议。我曾在这篇文章里简要介绍过它。
HRV 是 heart rate variability,心率变异性,是一个可以用于衡量我们身体状况的重要指标。如果你是 Apple Watch 用户,这几年一定也在小红书上查到过很多依据 HRV 测量心情或运动状态的 App。
但不得不说,几乎所有的国产 HRV 检测 App 都不太准,因为 HRV 是一个非常复杂的复合指标,它可以被拆解为 SDNN、HR、Mean HR、rMSSDD、pNN50、MxDMn、Moda、CV、AMo50、SNS、PSNS 等数十个完全不同的指标。
而国产的 HRV 类 App 之所以一般不显示这些指标,或仅提供一个情绪、压力等级,是因为这些指标与你身体状况的联系并非直接线性,而是复杂的相关关系。如果一个 HRV App 背后没有海量的样本数据支撑,那么它就很难通过这些数据真正的反应出 HRV 所代表的含义。
Welltory 是一个在全球拥有 1000 万用户的老牌健康监测 App,他们通过与大学和科研机构共享用户 HRV 数据改善自身算法。能够通过 HRV 分析出更多有价值的信息。
好的,如广告一般的贯口结束了,接下来讲讲人话体验。
Welltory 的 iOS 版本目前提供三个大的全天指标,分别是 Wellness(健康)、Battery(能量) 和 Pressure(压力)。在这个部分,它的作用和国产的 HRV 检测 App 差不多,也就是起到一个仪表板的作用。
但 Welltory 对每次 HRV 的检测会提供更细致的报告,告诉你在那次检测时,身体正处于什么状况。
Welltory 还有一个我蛮看重的东西,就是它试图全面“监控”你的生活,并寻找你生活方式与身体状况之间的关系,并且这个过程是自动的。
比如说,我在 Welltory 里连接了 RescueTime。这是一个记录你电脑和手机使用状态的 App,它的主要作用是用来检测你每天花在屏幕上的时间都是用来做什么的(娱乐、工作还是社会交或购物等)。当我把 RescueTime 与 Welltory 连接后,Welltory 就会开始分析工作状态与我健康状态之间的关系,并给出了分析:
Welltory 集成了数百种可以观察你生活方式的第三方 App,甚至包括 Twitter、Facebook、Reddit、Google Docs 和 Github 等非常离谱的第三方应用,如果你日常使用西方互联网应用,那么可以说 Welltory 能监视你的一举一动,并将其与你的健康状况联系起来。但值得注意的是,Welltory 对大部分应用使用 ifttt 来中转连接,这意味着你除了拥有 Welltory 会员之外,还需要有 ifttt 会员。
Welltory 也支持标签自定义系统,你可以定义个性标签,钉在你自己的 Feed 上,这些标签后续也会被分析进你的健康程度。比如,如果你想研究某种药物对你身体的影响,你就创建一个该药物的标签,然后在每次吃药的时候点一下。如果 Welltory 发现这个药物对你的身体有影响,那么后续就会产生出分析报告。
但是,别急着买 Welltory 的缺点也很明显。
Welltory 最大的缺点是,为了准确的分析上文提到的所有指标,它比较依赖更为准确的检测。这意味着,你 Apple Watch 在静态时随机测量的结果,可能不被计入它的检测范围。在我打开了 Apple Watch 的 AFib(房颤历史)功能下,它一天也只能完成 3~4 次检测。这在很大程度上使其“All in One”健康检测的承诺成了空头支票。
对比之下,在打开 AFib 之后,我的 StressWatch 能显示 70~80 次测量结果。究其原因,Welltory 要求每次 HRV 检测至少包含 100 次以上的心率数据,这意味着在 Apple Watch 的静默测量中保持手部 3 分钟左右的完全静止,在我们日常生活中是很难达到的。
另外,就是 Welltory 使用了 Google 的云服务,这意味着你必须全程,且数据加载缓慢。
因此,如果不是之前在是用 Galaxy Watch 的时候买了终身制会员,我应该是不会给 Welltory 继续续费的。
Welltory 分订阅制和买断制,99 刀一年或 399 刀终身,各种西方节日的时候有打折,同时支持 Android(需搭配 wearOS 系统智能手表) 和 iOS 有需要的可以入。
这也是少数支持 Android 系统的第三方健康监控 App。
如果你不想折腾,可以看下面的 StressWatch。
StressWatch 是一个在小红书上非常流行的 HRV 监测应用,你可以将其理解为超超超简化版的 Welltory。
这两年有许多独立开发者开发了一系列基于 Apple Watch 的健康仪表盘类应用,但我选择 StressWatch 的原因是,它似乎是唯一一个考虑到 HRV 是复合指标的国产 App。
也就是说,你在 StressWatch 里看到的 HRV 读数并不总是和苹果健康 App 里的读数一致,它会更贴近你的实际情况,这一点在 App 的说明和作者参与的播客里都有提到。而其他的此类 App,入 Grow、OtterLife 等,基本就是把健康 App 的数据拿出来做了个皮肤和表盘就交差了。
在更新了 iOS 18 之后,StressWatch 大幅强化了“行动”功能,这个功能类似于 Journal 功能,它会记录你的每日行为。但到目前为止,StressWatch 还没有自动计算这些行为与你的 HRV 之间的关系,你只能通过它的图表自行发现规律。希望在后续的版本中,能够增加上自动分析吧。
StressWatch 的国区有买断价格是 168 元,按年付费是 118 元。
我对健康类的诉求与健康类相似,就是 App 本身需要给出超出苹果健康之外的建议。但与健康类 App 不同,我要它能够给出对运动本身更直接的建议,比如我今天该不该练,练多久,练多重。
在这方面,我认为海外的 Ayhlytic 和国内的 PeakWatch 是比较出色的。
Athlytic 是 Apple Watch 上非常火的一个运动类 App,它与 Welltory 不同,主要作用不是健康监测,而是用非常直观的界面告诉你今天应该进行多大强度的训练。
因为之前在欧美运动员圈有一个非常流行的智能硬件叫 WHOOP,这款运动手环开创了订阅制硬件的先河,你卖了它的手环之后,还要每月交会员费才能获得运动分析——既然如此,那能不能用 Apple Watch 追踪到的数据来提供相同的分析呢?这就是 Athlytic 的主要功能。
简单来说,Athlytic 会根据你每天早上起床时,一整晚的生命体征结合算法和你的过往情况,计算一个你当日理想的训练载量范围。然后,你当天无论是去撸铁、跑步、骑车还是日常走路,都会增加这个训练载量。
当到达预期训练载量和突破训练载量上线的时候,它会通过通知来提醒你。
除此之外,它还有一个 Journal 的功能,允许你每天早上标记前一天的生活行为,比如 Junk Food,Sex Activity 等。在收集一段数据之后,它会告诉你你的这些行为会对你的训练载量有什么样的影响。
Athlytic 的 Journal 功能与 Welltory 的区别是它是确切可预期的,就是只要你坚持每日进去选择你的行为模式,Athlytic 就一定会以单一的图表展示出你的这些行为与恢复状态之间的关系。但 Welltory 那个是随机的,出不出结果完全取决于他们服务器端的 AI 开不开心。
不足的是 Athlytic 的 Journal 功能没有自定义标签的功能,这意味着你不能添加你自己认为会影响训练但它没有预置的行为模式,这也是我决定在今年的订阅到期之后换到 Eclipse 的原因。
除此之外,Athlytic 在单次运动分析上也比较详细,它会提供更为丰富的数据。
对于撸铁来说,Welltory 没办法取代 Athlytic 类产品。尽管他们都使用同样的身体数据,但 Athlytic 直接给出针对运动的建议,而 Welltory 的建议往往更散漫,你没法一眼就知道你今天是否该训练,训练多久。
Athlytic 的价格按年订阅是 193,按月订阅是 26 元,对于国内用户来说还是很贵的。
Eclipse 是另外两款知名健康类 App AutoSleep 和 HeartWatch 的开发商 Tantsissa 在 2024 年新发布的 App。它与 Athlytic 一致,旨在通过多种数据提供一个运动和生活指导。
Eclipse 通过“日食”这一概念,来激励你达成活动、恢复与就绪三者之间的平衡。这三者分别代表着你的每日运动量是否合理,你昨天睡眠为今天一整天的充能水平,以及你今天早上起来那一刻的状态:
这个概念是蛮不错的,但用过 Autosleep 和 HeartWatch 的朋友可能会有预期,Tantsissa 这个厂商在前端界面设计上似乎没有正常的审美。Eclipse 延续了这种不正常的审美,界面花的一塌糊涂(且不协调)。
但我之所以想用它取代 Athlytic 的原因,是它比 Athlytic 提供了更强大(有效)的图表,并且支持自定义标签。
怎么算是比 Athlytic 更有效的图标呢?我们以它对“恢复”维度上的洞见为例:
由于 Tantsissa 奇怪美学的干扰,初看这三个表格可能觉得乱糟糟的。但我解释一下,你可能就能明白它的实用之处。
每个线段条代表一个维度,在第一张图中,分别是周一到周日的恢复水平,蓝色的条代表曾经的历史记录,因此蓝色越重代表在那个水平的情况越多,而蓝色的点则代表历史所有情况的平均值。也就是说,在第一张图中我们可以看到,根据历史水平,周四到周五的晚上,我的恢复往往是一周中最差的。
红色的线段,代表今天的水平,还是在第一张图中我们可以看到,虽然刚刚过去的是周三,但我这次的恢复低于历史平均水平,出现在了线段的片左侧。
理解了如何读图之后,我们来到图二和图三,就会发现它提供了非常有用的信息
——按就寝时间计算,我在 23:05-23:35 这个时间段睡觉,会有更大的几率获得更好的恢复值。
——按运动量计算,当我当日的运动量在 447-521 大卡时,会有更大的几率获得更好的恢复值。
正是这个洞见功能吸引我将 Athlytic 换成 Eclipse 的,因为它提供了更好的指导,而不只是简单的将数据呈现汇总。
当然,缺点也很明显,Eclipse 在界面设计上远不如 Athlytic 漂亮、直观。如果你是外貌党,还是建议 Athlytic 或 PeakWatch。
Eclipse 的国区价格很友好,68 元一年,几乎是 Athlytic 的 1/3,还有中文(但翻译的不好)。
PeakWatch 是 StressWatch 的作者山寨 Athlytic 的作品。原谅我用山寨,是因为它们的功能实在很像。
但对应的,如果你嫌 Athlytic 的价格太贵、界面没有中文、 不符合中国人的用户习惯,就可以买 PeakWatch。它的主要功能和 Athlytic 一样,是通过最直观的图表告诉你当日的训练量和恢复状况。
相比 Athlytic,PeakWatch 缺少了行为与恢复状态之间相关分析的 Journal 功能。但在图表上比 Athlytic 更丰富,比如它可以提示你每日电量(类似 Welltory),还可以看到你当天的运动量与平均水平之间的差距。在前端设计上,也比 Athlytic 更贵了。
在算法准确性方面,我还是蛮相信这个开发者的,他似乎是唯一个在国内的健康仪表盘 App 里认真做算法的。PeakWatch 的电量计算与 Welltory 的相似,在运动载量的计算上,我甚至觉得比 Athlytic 更准确一些。
PeakWatch 的终身会员我也卖了,198 元。按年付费是 128 元。
与上面三个不同,这个 App 其实不是运动监测,而是训练类 App,它是专门用来撸铁的 App。
你可以理解它是 Keep App 里自定义训练计划的超级超级加强版,你可以通过它来创建完全自定义的健身房训练计划,内置了国内常见的几乎所有训练器械和所有流行的训练动作,并且每个动作都配备了文字和视频的说明。
超级组、热身组、单边训练、递减组、组间有氧、替补动作……你能想到的任何在健身房里可能的情况,它都能放进计划里并记录下来。
简单来说,如果你到了健身房不想请私教,又对着器械不知道如何下手,用它就行了。
通过训记制定训练计划还有一个好处,就是你再也不用在健身房想今天要练什么了,因为你只需要定下你一周的计划,比如周一练胸、周二练腿、周三练肩。接下来,你只要把之前的训练日往后复制到当天就可以了。
在训练的过程中,它有自动计时的功能,在完成每组之后,你只要点一下,到时间了就会通过一个通知来提醒你该练下一组了。在这个过程中,你还可以方便的调整每组的实际次数和重量,所有的数据都会被记录下来——到下次训练同样内容的时候,你就可以在这次的数据上加量。
你可能经常在健身房里听到哪些独自训练的大神,手机会发出“叮”的一声刺耳通知,别怀疑,那个就是训记。
这个 App 几乎是去健身房撸铁必备,大幅降低你每次去健身房的心理门槛和智力负担,再也不会忘记自己练到哪了。
训记是国内的一个独立开发者的私人作品,88 元买断制,超良心。 而且支持 iPhone 和 Android 端,数据还能同步。
这是一款视频热量计算器,能够帮助你计算每天摄入的热量,并写入苹果健康的数据供其他应用读取。
如果你尝试过计算你的饮食热量,那么 Yazio 是你的最佳选择。但我可以明确地告诉你,除非你放弃中餐,否则你就没办法计算饮食热量。
和国产的薄荷健康热量比,Yazio 更纯粹,界面更好看,没有广告,自带轻断食功能,食品库中包含了更多的包装食品,扫一扫就能直接录入了。
和另一个国外更流行的 MyFitnessPal 相比,它视频库中的中餐更多,订阅费更便宜(国区 188 元/年)。
但总得来说,还是那句话:只要你吃外卖、外食、中餐,这种热量计算就毫无意义。
比如,同样一份炒饭,油可以差 3~5 倍,如果不是你自己做的知道放了多少油,那你怎么写呢?
这两年在小红书上很火的健康仪表盘类的应用,这两个我都是试用之后就放弃了。
主要是因为它们并不提供任何分析,只是将数据从苹果健康 App 中读出来以一个更漂亮的前端显示在手机或手表上。
我不需要这种类型的应用,所以就没有继续下去。