2024-11-17 17:45:36
这是猫鱼周刊的第 49 期,本系列每周日更新,主要内容为每周收集内容的分享,同时发布在
博客:阿猫的博客-猫鱼周刊
RSS:猫鱼周刊
邮件订阅:猫鱼周刊
微信公众号:猫兄的和谐号列车
幽灵文字指的是日文字符集里一些含义未知、来源未知的字符。如下图,看起来都是一些正常的汉字,但是实际上并没有真实的用途,也没有人知道其意义和发音等。
互联网上有些人会对这些字的来源进行考古,最后发现一些字的来源实际上是来源于字符集标准制定初期抄录错误导致。例如「妛」实际上就是「𡚴」抄录时多加了一横导致的,是典型的错别字。
比较搞笑的是,这些错误的字从 1978 年通商産業省制定 JIS X 0208 标准开始,一直被沿用到 unicode,名流千古(x)。
⍼ (RIGHT ANGLE WITH DOWNWARDS ZIGZAG ARROW)是一个正正经经的字符,在每一台现代计算机上都能显示出来,但是并没有人知道他的含义。这算是另一个版本的「幽灵文字」。
同样是有人对这个符号的来源进行考古,作者甚至写了四篇文章来讲述过程,目前能确认到这个符号最早出现于 1963 年 1 月。简单来说,这个符号同样是被凭空创造出来后,通过进入了非常早期的某个字符集标准,一路被继承到现在的 unicode 中。
有个视频提到,在 1990 年代,花 5 美元就可以注册一个符号。所以在互联网的早期,可以混水摸鱼进去很多奇怪的东西。
也是一个非常正经的 HTTP 状态码,其含义是服务器拒绝煮咖啡,因为它是一个茶壶。
The HTTP
418 I'm a teapot
status response code indicates that the server refuses to brew coffee because it is, permanently, a teapot.
与上面两个情况不一样,这个状态码是有来头的。它在RFC 2324中被定义,被称为 HTCPCP(Hyper Text Coffee Pot Control Protocol,超文本咖啡壶控制协议),是 1998 年的愚人节 RFC 。这个标准在 2014 年得到了补充,RFC 7168发布了 HTCPCP-TEA,支持了泡茶。
通过浏览器插件截取网页快照并存储归档的工具。主要解决了一些服务器端归档解决不了的问题,例如网站需要登录或者不方便使用无头浏览器等。
使用自己的设备运行 AI 集群。特点是可以利用混合算力,不管你的设备有没有 GPU,只要可用内存加起来能支持对应模型,就可以运行。例如运行一个需要 16GB 的模型,你可以使用以下设备组合:
看得我都想在家里组个集群玩。
一个可以以 3D 图像画架构图的工具。形式比较新颖,不过画面稍微有些卡顿,用来制作一些有美观需求的架构图还挺有用。
比较出戏的是,负载均衡这里 typo 了,应该是 Load Balance。
上周的周刊提到,community-scripts/ProxmoxVE的原作者tteck正在接受临终关怀,前几天他的妻子在社区发帖说他已经去世。
几周前,他本人才发帖说会「减缓项目的更新」,后续又更新预期寿命只有不到一个月,到去世只有三周。他最后的留言是:
This experience has shown me just how brief and precious life is—so make every moment count, and cherish the time you have.
RIP
本周刊已在 GitHub 开源,欢迎 star。同时,如果你有好的内容,也欢迎投稿。如果你觉得周刊的内容不错,可以分享给你的朋友,让更多人了解到好的内容,对我也是一种认可和鼓励。(或许你也可以请我喝杯咖啡)
另外,我建了一个交流群,欢迎入群讨论或反馈,可以通过文章头部的联系邮箱私信我获得入群方式。
2024-11-10 23:58:48
这是猫鱼周刊的第 48 期,本系列每周日更新,主要内容为每周收集内容的分享,同时发布在
博客:阿猫的博客-猫鱼周刊
RSS:猫鱼周刊
邮件订阅:猫鱼周刊
微信公众号:猫兄的和谐号列车
起因是看到 v2ex 上有一个关于「走路抽烟」的讨论,我个人不抽烟,也非常反感在公共场合抽烟的人。不过我认知里的底线是,室内(即密闭不通风的环境)、公共场所不能抽烟,所以我对「走路抽烟」的评价是不道德,但没有太多可谴责。然后我在帖子里看到有人提到了新加坡和一些亚洲城市,路上抽烟的情况没有国内严重。
好奇之下,我去查了一下香港的控烟条例(有点跑题,但算是我去过的其他「亚洲城市」),发现除了我认知的室内公众场所,一些室外的公众场所也是禁烟的。
- 《吸煙(公眾衞生)條例》(第 371 章)第 3 條及附表 2 規定,部份室外的公眾地方都已經列為法定禁煙區,當中包括︰自動扶手電梯、公眾遊樂場地、泳灘的水域及沙地、燒烤場及公眾泳池,緊靠泳池的行人通道、跳水板及觀眾看台。
- 另外,香港濕地公園,任何體育場內的球場、緊靠球場或跑道的行人通道及觀眾看台,亦都已列為法定禁煙區。
另外,对于在禁烟区内抽烟的行为,罚款为 1500 (HKD)。澳门的禁烟罚款也是 1500(MOP)。
在写到这里时,我也查了一下对应国内的法律法规,情况大概是这样的:
从条例来看,大部分禁烟区域是对标香港的做法的,例如医院、学校等。但是卫健委版本的条例中有些提到的场所在地方性条例中有缩水,例如:
回到一开始的问题,「走路抽烟」这件事情并不违反任何法律或条例,这个在香港澳门也是一样的。但是在香港澳门禁烟区抽烟的违法成本相对非常高(1500 vs 50),可能导致他们在公共场合不明确是否禁烟区时,也不会贸然抽烟,在模棱两可的时候作出「不抽烟」的选择;而在国内,罚款的执行力度太小(甚至根本没见过有人因抽烟被罚),最多就是被说两句,所以放开抽。
最后致各位吸烟的朋友,吸烟没有问题,但还请不要影响不吸烟的人。
在韩语中,使用不同的 Unicode 规范化方式会导致分解后的 embedding 相似度大相径庭。感觉这才是我印象中「有趣」、「优雅」的 NLP!
记得在大学的时候,除了「炼丹」,还有大量时间花费在研究语料的清洗、处理上,需要对具体的语言有一些简单的认识(就例如这篇文章里对韩文音节、分解方式的理解),去做一些对应正确的处理。这也是我觉得有语言或者 NLP 背景的人和普通开发现在在使用 LLM 等去解决一些问题时体现出的比较大的差异。
其实我在周刊中已经两次提到过这个项目了,它原来是由一位名叫 tteck的开发者创建,后来转交给社区运营。
但是,tteck 目前在接受临终关怀(hospice care)。
tteck, whose contribution has been invaluable, shared recently that he is now in hospice care. His scripts have empowered thousands, and we honor his legacy by carrying this project forward with the same passion and commitment. We’re deeply grateful for his vision, which made Proxmox accessible to so many.
To tteck: Your impact will be felt in this community for years to come. We thank you for everything.
他甚至在几天前还在贡献代码:
精力管理非常重要。
有很多因素会影响精力条:睡眠时间、工作强度、饮食等等。而一天能做完多少事很大程度上决定于精力和时间。很多工具强调时间的管理,而忽略了精力管理的作用。
假设有工作和兴趣两种事,你通过高效工作完成了一天的工作,准时下班,这时候你比平常加班多出了一些时间。但是由于工作的时候过度专注,下班之后精力条已经见底,你觉得非常疲惫,只能刷刷短视频,不能进行游戏、阅读、观影之类需要消耗精力的事情,多出的时间就变成了垃圾时间。
本周刊已在 GitHub 开源,欢迎 star。同时,如果你有好的内容,也欢迎投稿。如果你觉得周刊的内容不错,可以分享给你的朋友,让更多人了解到好的内容,对我也是一种认可和鼓励。(或许你也可以请我喝杯咖啡)
另外,我建了一个交流群,欢迎入群讨论或反馈,可以通过文章头部的联系邮箱私信我获得入群方式。
2024-11-09 15:57:20
在维护自己的服务器的时候经常会出现空间不足的情况,总结了一些经验和命令以备后续速查。
先看一下系统总体的磁盘占用,确定一下系统上有几块盘,是哪块满了。
df -h
粗筛,看看根目录下哪个文件夹的占用比较大。
du -h --max-depth=1
找出当前目录下最大的 10 个文件
du -a -h . | sort -h -r | head -n 10
找出当前目录下大于 500M 的文件(并打印出文件大小)
find . -type f -size +500M -print0 | xargs -0 du -h
docker system df [-v]
会展示出不同类型的东西占用了多少空间,有多少空间可以清理。加上 -v
会输出更加详细的信息。
TYPE TOTAL ACTIVE SIZE RECLAIMABLE
Images 18 5 18.67GB 16.7GB (89%)
Containers 5 0 367.9MB 367.9MB (100%)
Local Volumes 4 4 540.4MB 0B (0%)
Build Cache 163 0 4.309GB 4.309GB
一般来说,都是没用的镜像和未使用的卷(这个需要注意是否存了有用的数据,最好还是用绑定目录的方式吧)占的空间会非常多,给执行一下下面这一套。
docker image prune [-a, --all]
docker volume prune
yum clean all # centos
apt-get auto-remove && apt-get clean # ubuntu, debian...
go clean -cache # go
pip cache purge # python
conda clean [-a, --all] # conda
poetry cache clear --all . # poetry
composer clear-cache # php
Linux 如何查找大文件或目录总结 - 潇湘隐者 - 博客园
linux - How to find the largest directories or largest files? - Super User
How to inspect volumes size in Docker | by MrManafon | Homullus | Medium
2024-11-04 01:25:05
这是猫鱼周刊的第 47 期,本系列每周日更新,主要内容为每周收集内容的分享,同时发布在
博客:阿猫的博客-猫鱼周刊
RSS:猫鱼周刊
邮件订阅:猫鱼周刊
微信公众号:猫兄的和谐号列车
新加坡的国家数字身份认证 Singpass 是新加坡的国家战略“智慧国家”的项目之一。新加坡政府将其定位为一项数字基础设施,用以实现“改善公民的生活、为企业创造机会、转变政府机构的能力”的愿景。
Singpass 提供了人脸识别、多用户短信双因素认证(用户可以通过家庭成员接收短信)等多种认证方式以覆盖更多用户,对外提供 API 开放给政府机构和私营部门接入。
Singpass App 提供了数字身份证、文件钱包、我的信息、认证、人脸识别、签署等功能。有几个点非常亮眼:
我很早之前写过一篇文章讲当时的超星事件,当时的情况是大量高校学生的信息被超星学习通数据库入侵大规模泄漏。其关键就是学校及一些平台大量收集了相关的个人数据,对收集的内容缺乏相对应的节制和防护。其实当前个人信息保护还是很含糊,到底什么为止「敏感信息」大家的认知都不一样。例如新加坡认为证件号码也是隐私信息,但国内别说政府机构,每一个你日常使用的 App 都有你的证件信息、身份证高清扫描、甚至你本人持身份证拍摄的照片。相应地,有这么多信息,也对应催生出很多黑灰产,从骚扰电话,到开盒甚至诈骗。
也很值得一提的是,新加坡前总理李显龙有剑桥大学计算机科学文凭,其子李鸿毅在麻省理工学院留学,毕业后在谷歌工作两年,现在新加坡政府科技局担任领导层职务。感觉新加坡这个政务和科技结合得如此先进,跟这个也有一定的关系。
这个星期看了两部赛车运动的纪录片,一个是超吉联赛 PRO 年度冠军高翔的纪录片,另一个是小米 SU7 Ultra 原型车纽北记录的纪录片。
逆境重生,这就是赛车 ✅ 我的飞驰人生赛车纪录片-超吉联赛 PRO R4_哔哩哔哩_bilibili
《6′46″874》_哔哩哔哩_bilibili
近几年赛车运动在国内好像渐渐有了点名气,有不少热度比较高的事情,例如周冠宇进入 F1(虽然估计马上要退出了)、小米 SU7 Ultra 创造纽北最快四门车记录等。我原本也对赛车没有太多的兴趣,到开始看 F1、玩 GT 赛车 7,慢慢对赛车运动有一点了解和兴趣。
感觉有个比较遗憾的点是,国内不是很多渠道可以收看到赛车赛事的直播或者回放。F1 直播可以看央视(据说解说一般)、五星体育(解说较好)、广东体育(粤语解说);回放的话展示没有找到「正规」的渠道,一般在西瓜视频上会有人上传五星体育的录播,不过码率非常低,经常糊成色块。画质最好的方式应该是直接订阅 F1 TV,仅能看回放的要 29.99,能看直播的需要 84.99,还是蛮贵的。另外,B 站上 F1 赛事的官方账号会放出一些几分钟长度的集锦,爽但是不过瘾。其他的赛事我了解不多,但也并没有太多渠道可以看直播或者回放。
扫描仓库中泄漏的凭据。其实最好集成在 CI 流程和 pre-commit hook 里,防止不小心提交到 git 仓库中。需要注意,但凡 push 到远端的 commit 都可以视为已经泄漏。更甚,现在留在目录中的文件都有可能被你装的 AI 代码插件上传,所以最好还是把关键的凭据放在环境变量里。
一个通过竞技场的方式,从一系列编程字体中盲选出自己比较喜欢的一种。其实每次的结果都不太稳定,我常用的编程字体其实是 Hack,这次再做就是 Fira Mono 了。如果你还在用编辑器默认的字体,不妨来这里试一试,换个口味。
一个(应该是)公益的 Docker 加速服务,提供了安装脚本的加速和 docker 镜像,据闻是使用 Cloudflare Worker 的方式提供的。
不过现在开源的 Docker 加速方式也有很多,这个适合临时用,有条件还是自建或自己解决网络问题防止被下毒。
本周刊已在 GitHub 开源,欢迎 star。同时,如果你有好的内容,也欢迎投稿。如果你觉得周刊的内容不错,可以分享给你的朋友,让更多人了解到好的内容,对我也是一种认可和鼓励。(或许你也可以请我喝杯咖啡)
另外,我建了一个交流群,欢迎入群讨论或反馈,可以通过文章头部的联系邮箱私信我获得入群方式。
2024-11-01 03:52:33
最近更新:2024-11-07 23:20
之前买的腾讯云轻量(一百多三年的)快到期了,搜集了一些主流厂商的优惠,顺便也分享一下。
有以下情况的会被排除:
cloudcone 的优惠是黑五预热,所以可以暂时先观望一下。
商家 | 配置 | 流量/月 | 系统盘 | 价格/年 | 同价续费 |
---|---|---|---|---|---|
腾讯云 | 2C2G4M | 300G | 50G |
|
同价续一年送 3 个月 |
腾讯云 | 2C4G6M | 600G | 70G | 159 | 同价续一年送 3 个月 |
阿里云 | 2C2G3M | 不限 | 50G | 79 | N |
阿里云 | 2C2G3M | 不限 | 40G | 99 | Y |
阿里云 | 2C4G4M | 不限 | 60G | 298 | N |
商家 | 配置 | 地域 | 流量/月 | 系统盘 | 价格/年 | 同价续费 |
---|---|---|---|---|---|---|
腾讯云 | 2C2G30M | 新加坡 | 1024G | 50G | 99 | 一年 |
腾讯云 | 2C4G30M | 新加坡 | 1536G | 60G | 199 | 一年 |
野草云 | 1C2G100M | 香港 | 600G | 30G | 128 | Y |
野草云 | 2C4G100M | 香港 | 700G | 50G | 228 | Y |
野草云 | 4C8G100M | 香港 | 800G | 90G | 358 | Y |
racknerd | 1C1G | 美国(无DC-02) | 2000G | 14G | $11.11 | Y |
racknerd | 1C2G | 美国 | 3000G | 25G | $17.98 | Y |
racknerd | 2C3G | 美国 | 5000G | 40G | $25.98 | Y |
racknerd | 3C4G | 美国 | 6000G | 50G | $36.88 | Y |
cloudcone | 2C1G | LA | 3000G | 14G | $13.99 | Y |
cloudcone | 5C2G | LA | 4000G | 27G | $21.21 | Y |
cloudcone | 8C4G | LA | 5000G | 55G | $38.50 | Y |