Logo

site iconAmeow | 阿猫

后端工程师,写Go 和 Python,运营「猫鱼周刊」。
请复制 RSS 到你的阅读器,或快速订阅到 :

Inoreader Feedly Follow Feedbin Local Reader

Ameow | 阿猫 RSS 预览

猫鱼周刊 vol. 048 世界是个巨大的草台班子

2024-11-17 17:45:36

关于本刊

这是猫鱼周刊的第 49 期,本系列每周日更新,主要内容为每周收集内容的分享,同时发布在

博客:阿猫的博客-猫鱼周刊

RSS:猫鱼周刊

邮件订阅:猫鱼周刊

微信公众号:猫兄的和谐号列车

私信:[email protected]

文章

幽灵文字

原文链接

幽灵文字指的是日文字符集里一些含义未知、来源未知的字符。如下图,看起来都是一些正常的汉字,但是实际上并没有真实的用途,也没有人知道其意义和发音等。


互联网上有些人会对这些字的来源进行考古,最后发现一些字的来源实际上是来源于字符集标准制定初期抄录错误导致。例如「」实际上就是「𡚴」抄录时多加了一横导致的,是典型的错别字。

比较搞笑的是,这些错误的字从 1978 年通商産業省制定 JIS X 0208 标准开始,一直被沿用到 unicode,名流千古(x)。

Angzarr

原文链接

⍼ (RIGHT ANGLE WITH DOWNWARDS ZIGZAG ARROW)是一个正正经经的字符,在每一台现代计算机上都能显示出来,但是并没有人知道他的含义。这算是另一个版本的「幽灵文字」。

同样是有人对这个符号的来源进行考古,作者甚至写了四篇文章来讲述过程,目前能确认到这个符号最早出现于 1963 年 1 月。简单来说,这个符号同样是被凭空创造出来后,通过进入了非常早期的某个字符集标准,一路被继承到现在的 unicode 中。

有个视频提到,在 1990 年代,花 5 美元就可以注册一个符号。所以在互联网的早期,可以混水摸鱼进去很多奇怪的东西。

418 I'm a teapot

原文链接

也是一个非常正经的 HTTP 状态码,其含义是服务器拒绝煮咖啡,因为它是一个茶壶。

The HTTP 418 I'm a teapot status response code indicates that the server refuses to brew coffee because it is, permanently, a teapot.

与上面两个情况不一样,这个状态码是有来头的。它在RFC 2324中被定义,被称为 HTCPCP(Hyper Text Coffee Pot Control Protocol,超文本咖啡壶控制协议),是 1998 年的愚人节 RFC 。这个标准在 2014 年得到了补充,RFC 7168发布了 HTCPCP-TEA,支持了泡茶。

项目

Ray-D-Song/web-archive

Ray-D-Song/web-archive - GitHub

项目链接


通过浏览器插件截取网页快照并存储归档的工具。主要解决了一些服务器端归档解决不了的问题,例如网站需要登录或者不方便使用无头浏览器等。

exo-explore/exo

exo-explore/exo - GitHub

项目链接

使用自己的设备运行 AI 集群。特点是可以利用混合算力,不管你的设备有没有 GPU,只要可用内存加起来能支持对应模型,就可以运行。例如运行一个需要 16GB 的模型,你可以使用以下设备组合:

  • 2 x 8GB M3 MacBook Airs
  • 1 x 16GB NVIDIA RTX 4070 Ti Laptop
  • 2 x Raspberry Pi 400 with 4GB of RAM each (running on CPU) + 1 x 8GB Mac Mini

看得我都想在家里组个集群玩。

工具/网站

iCraft Editor

网站链接

一个可以以 3D 图像画架构图的工具。形式比较新颖,不过画面稍微有些卡顿,用来制作一些有美观需求的架构图还挺有用。

比较出戏的是,负载均衡这里 typo 了,应该是 Load Balance。

想法

RIP tteck

上周的周刊提到,community-scripts/ProxmoxVE的原作者tteck正在接受临终关怀,前几天他的妻子在社区发帖说他已经去世。

几周前,他本人才发帖说会「减缓项目的更新」,后续又更新预期寿命只有不到一个月,到去世只有三周。他最后的留言是:

This experience has shown me just how brief and precious life is—so make every moment count, and cherish the time you have.

RIP

最后

本周刊已在 GitHub 开源,欢迎 star。同时,如果你有好的内容,也欢迎投稿。如果你觉得周刊的内容不错,可以分享给你的朋友,让更多人了解到好的内容,对我也是一种认可和鼓励。(或许你也可以请我喝杯咖啡

另外,我建了一个交流群,欢迎入群讨论或反馈,可以通过文章头部的联系邮箱私信我获得入群方式。

猫鱼周刊 vol. 047 控烟条例

2024-11-10 23:58:48

关于本刊

这是猫鱼周刊的第 48 期,本系列每周日更新,主要内容为每周收集内容的分享,同时发布在

博客:阿猫的博客-猫鱼周刊

RSS:猫鱼周刊

邮件订阅:猫鱼周刊

微信公众号:猫兄的和谐号列车

私信:[email protected]

文章

控烟条例

原文链接

起因是看到 v2ex 上有一个关于「走路抽烟」的讨论,我个人不抽烟,也非常反感在公共场合抽烟的人。不过我认知里的底线是,室内(即密闭不通风的环境)、公共场所不能抽烟,所以我对「走路抽烟」的评价是不道德,但没有太多可谴责。然后我在帖子里看到有人提到了新加坡和一些亚洲城市,路上抽烟的情况没有国内严重。

好奇之下,我去查了一下香港的控烟条例(有点跑题,但算是我去过的其他「亚洲城市」),发现除了我认知的室内公众场所,一些室外的公众场所也是禁烟的。

  1. 《吸煙(公眾衞生)條例》(第 371 章)第 3 條及附表 2 規定,部份室外的公眾地方都已經列為法定禁煙區,當中包括︰自動扶手電梯、公眾遊樂場地、泳灘的水域及沙地、燒烤場及公眾泳池,緊靠泳池的行人通道、跳水板及觀眾看台。
  2. 另外,香港濕地公園,任何體育場內的球場、緊靠球場或跑道的行人通道及觀眾看台,亦都已列為法定禁煙區。

另外,对于在禁烟区内抽烟的行为,罚款为 ​1500 (HKD)。澳门的禁烟罚款也是 1500(MOP)。

在写到这里时,我也查了一下对应国内的法律法规,情况大概是这样的:

从条例来看,大部分禁烟区域是对标香港的做法的,例如医院、学校等。但是卫健委版本的条例中有些提到的场所在地方性条例中有缩水,例如:

  • 卫健委版所有室内公共场所一律禁止吸烟,广州市控制吸烟条例仅列举了一些室内公共场所(意味着一些没有提到的室内公共场所仍然可以吸烟)。
  • 卫健委版认为公共交通工具的室外等候区域也需要禁烟,但广州市控制吸烟条例仅限制室内区域。

回到一开始的问题,「走路抽烟」这件事情并不违反任何法律或条例,这个在香港澳门也是一样的。但是在香港澳门禁烟区抽烟的违法成本相对非常高(1500 vs 50),可能导致他们在公共场合不明确是否禁烟区时,也不会贸然抽烟,在模棱两可的时候作出「不抽烟」的选择;而在国内,罚款的执行力度太小(甚至根本没见过有人因抽烟被罚),最多就是被说两句,所以放开抽。

最后致各位吸烟的朋友,吸烟没有问题,但还请不要影响不吸烟的人。

记一个韩文字符规范化的坑

原文链接

在韩语中,使用不同的 Unicode 规范化方式会导致分解后的 embedding 相似度大相径庭。感觉这才是我印象中「有趣」、「优雅」的 NLP!

记得在大学的时候,除了「炼丹」,还有大量时间花费在研究语料的清洗、处理上,需要对具体的语言有一些简单的认识(就例如这篇文章里对韩文音节、分解方式的理解),去做一些对应正确的处理。这也是我觉得有语言或者 NLP 背景的人和普通开发现在在使用 LLM 等去解决一些问题时体现出的比较大的差异。

项目

ProxmoxVE

community-scripts/ProxmoxVE - GitHub

项目地址

其实我在周刊中已经两次提到过这个项目了,它原来是由一位名叫 tteck的开发者创建,后来转交给社区运营。

但是,tteck 目前在接受临终关怀(hospice care)。

tteck, whose contribution has been invaluable, shared recently that he is now in hospice care. His scripts have empowered thousands, and we honor his legacy by carrying this project forward with the same passion and commitment. We’re deeply grateful for his vision, which made Proxmox accessible to so many.

To tteck: Your impact will be felt in this community for years to come. We thank you for everything.

他甚至在几天前还在贡献代码:

想法

精力管理

精力管理非常重要。

有很多因素会影响精力条:睡眠时间、工作强度、饮食等等。而一天能做完多少事很大程度上决定于精力和时间。很多工具强调时间的管理,而忽略了精力管理的作用。

假设有工作和兴趣两种事,你通过高效工作完成了一天的工作,准时下班,这时候你比平常加班多出了一些时间。但是由于工作的时候过度专注,下班之后精力条已经见底,你觉得非常疲惫,只能刷刷短视频,不能进行游戏、阅读、观影之类需要消耗精力的事情,多出的时间就变成了垃圾时间。

最后

本周刊已在 GitHub 开源,欢迎 star。同时,如果你有好的内容,也欢迎投稿。如果你觉得周刊的内容不错,可以分享给你的朋友,让更多人了解到好的内容,对我也是一种认可和鼓励。(或许你也可以请我喝杯咖啡

另外,我建了一个交流群,欢迎入群讨论或反馈,可以通过文章头部的联系邮箱私信我获得入群方式。

排查 Linux 空间占用

2024-11-09 15:57:20

在维护自己的服务器的时候经常会出现空间不足的情况,总结了一些经验和命令以备后续速查。

文件系统

先看一下系统总体的磁盘占用,确定一下系统上有几块盘,是哪块满了。

df -h

粗筛,看看根目录下哪个文件夹的占用比较大。

du -h --max-depth=1

找出当前目录下最大的 10 个文件

du -a -h . | sort -h -r | head -n 10

找出当前目录下大于 500M 的文件(并打印出文件大小)

find . -type f -size +500M  -print0 | xargs -0 du -h

Docker

docker system df [-v]

会展示出不同类型的东西占用了多少空间,有多少空间可以清理。加上 -v 会输出更加详细的信息。

TYPE            TOTAL     ACTIVE    SIZE      RECLAIMABLE
Images          18        5         18.67GB   16.7GB (89%)
Containers      5         0         367.9MB   367.9MB (100%)
Local Volumes   4         4         540.4MB   0B (0%)
Build Cache     163       0         4.309GB   4.309GB

一般来说,都是没用的镜像和未使用的卷(这个需要注意是否存了有用的数据,最好还是用绑定目录的方式吧)占的空间会非常多,给执行一下下面这一套。

docker image prune [-a, --all]
docker volume prune

包管理

yum clean all # centos
apt-get auto-remove && apt-get clean # ubuntu, debian...

编程语言

go clean -cache # go
pip cache purge # python
conda clean [-a, --all] # conda
poetry cache clear --all . # poetry
composer clear-cache # php

References

Linux 如何查找大文件或目录总结 - 潇湘隐者 - 博客园
linux - How to find the largest directories or largest files? - Super User
How to inspect volumes size in Docker | by MrManafon | Homullus | Medium

猫鱼周刊 vol. 046 身份数据保护

2024-11-04 01:25:05

关于本刊

这是猫鱼周刊的第 47 期,本系列每周日更新,主要内容为每周收集内容的分享,同时发布在

博客:阿猫的博客-猫鱼周刊

RSS:猫鱼周刊

邮件订阅:猫鱼周刊

微信公众号:猫兄的和谐号列车

私信:[email protected]

文章

新加坡政府身份认证体系调研

原文链接

新加坡的国家数字身份认证 Singpass 是新加坡的国家战略“智慧国家”的项目之一。新加坡政府将其定位为一项数字基础设施,用以实现“改善公民的生活、为企业创造机会、转变政府机构的能力”的愿景。

Singpass 提供了人脸识别、多用户短信双因素认证(用户可以通过家庭成员接收短信)等多种认证方式以覆盖更多用户,对外提供 API 开放给政府机构和私营部门接入。

Singpass App 提供了数字身份证、文件钱包、我的信息、认证、人脸识别、签署等功能。有几个点非常亮眼:

  • 数字身份证用动画来避免截屏挪用或图片编辑。证件号码等敏感信息默认遮盖以保护用户隐私。用户可以通过扫码或 NFC 的方式在线下安全地分享自己的个人数据,可在就诊卡注册、购房登记、贷款办理等场景里传输自己的基本信息。也就是说,在绝大多数场景下,是不需要出示身份证原件的,也不会出现其他方获得你的原件或复印件的情况。
  • 用户可以将政府来源的个人数据预填到第三方网站,并管理自己的个人数据分享情况。就是说,在注册各类 App 需要实名的情况,可以不再给第三方上传身份证扫描件或者手持身份证照片,也可以随时取消授权这些网站获得你的信息。
  • 系统设计考虑到了使用者没有智能手机的情况,可以通过家庭成员接收短信,线下人脸识别等等。

我很早之前写过一篇文章讲当时的超星事件,当时的情况是大量高校学生的信息被超星学习通数据库入侵大规模泄漏。其关键就是学校及一些平台大量收集了相关的个人数据,对收集的内容缺乏相对应的节制和防护。其实当前个人信息保护还是很含糊,到底什么为止「敏感信息」大家的认知都不一样。例如新加坡认为证件号码也是隐私信息,但国内别说政府机构,每一个你日常使用的 App 都有你的证件信息、身份证高清扫描、甚至你本人持身份证拍摄的照片。相应地,有这么多信息,也对应催生出很多黑灰产,从骚扰电话,到开盒甚至诈骗。

也很值得一提的是,新加坡前总理李显龙有剑桥大学计算机科学文凭,其子李鸿毅在麻省理工学院留学,毕业后在谷歌工作两年,现在新加坡政府科技局担任领导层职务。感觉新加坡这个政务和科技结合得如此先进,跟这个也有一定的关系。

赛车纪录片

这个星期看了两部赛车运动的纪录片,一个是超吉联赛 PRO 年度冠军高翔的纪录片,另一个是小米 SU7 Ultra 原型车纽北记录的纪录片。

逆境重生,这就是赛车 ✅ 我的飞驰人生赛车纪录片-超吉联赛 PRO R4_哔哩哔哩_bilibili
《6′46″874》_哔哩哔哩_bilibili

近几年赛车运动在国内好像渐渐有了点名气,有不少热度比较高的事情,例如周冠宇进入 F1(虽然估计马上要退出了)、小米 SU7 Ultra 创造纽北最快四门车记录等。我原本也对赛车没有太多的兴趣,到开始看 F1、玩 GT 赛车 7,慢慢对赛车运动有一点了解和兴趣。

感觉有个比较遗憾的点是,国内不是很多渠道可以收看到赛车赛事的直播或者回放。F1 直播可以看央视(据说解说一般)、五星体育(解说较好)、广东体育(粤语解说);回放的话展示没有找到「正规」的渠道,一般在西瓜视频上会有人上传五星体育的录播,不过码率非常低,经常糊成色块。画质最好的方式应该是直接订阅 F1 TV,仅能看回放的要 ​29.99,能看直播的需要 84.99,还是蛮贵的。另外,B 站上 F1 赛事的官方账号会放出一些几分钟长度的集锦,爽但是不过瘾。其他的赛事我了解不多,但也并没有太多渠道可以看直播或者回放。

项目

TruffleHog

trufflesecurity/trufflehog - GitHub

项目地址

扫描仓库中泄漏的凭据。其实最好集成在 CI 流程和 pre-commit hook 里,防止不小心提交到 git 仓库中。需要注意,但凡 push 到远端的 commit 都可以视为已经泄漏。更甚,现在留在目录中的文件都有可能被你装的 AI 代码插件上传,所以最好还是把关键的凭据放在环境变量里。

工具/网站

编程字体

网站链接

一个通过竞技场的方式,从一系列编程字体中盲选出自己比较喜欢的一种。其实每次的结果都不太稳定,我常用的编程字体其实是 Hack,这次再做就是 Fira Mono 了。如果你还在用编辑器默认的字体,不妨来这里试一试,换个口味。

Docker 加速

网站链接

一个(应该是)公益的 Docker 加速服务,提供了安装脚本的加速和 docker 镜像,据闻是使用 Cloudflare Worker 的方式提供的。

不过现在开源的 Docker 加速方式也有很多,这个适合临时用,有条件还是自建或自己解决网络问题防止被下毒。

最后

本周刊已在 GitHub 开源,欢迎 star。同时,如果你有好的内容,也欢迎投稿。如果你觉得周刊的内容不错,可以分享给你的朋友,让更多人了解到好的内容,对我也是一种认可和鼓励。(或许你也可以请我喝杯咖啡

另外,我建了一个交流群,欢迎入群讨论或反馈,可以通过文章头部的联系邮箱私信我获得入群方式。

2024年双十一&黑五云服务优惠集合

2024-11-01 03:52:33

最近更新:2024-11-07 23:20

之前买的腾讯云轻量(一百多三年的)快到期了,搜集了一些主流厂商的优惠,顺便也分享一下。

有以下情况的会被排除:

  • 仅限新用户(我在所有平台都基本没有新号了,开太多账号资源很乱管不过来)
  • 曾经使用过,感觉服务不好或对商家印象比较差
  • 其他我一看就觉得不会考虑的

cloudcone 的优惠是黑五预热,所以可以暂时先观望一下。

活动链接汇总

阿里云
腾讯云
野草云
racknerd
cloudcone

境内

商家 配置 流量/月 系统盘 价格/年 同价续费
腾讯云 2C2G4M 300G 50G 79 99 同价续一年送 3 个月
腾讯云 2C4G6M 600G 70G 159 同价续一年送 3 个月
阿里云 2C2G3M 不限 50G 79 N
阿里云 2C2G3M 不限 40G 99 Y
阿里云 2C4G4M 不限 60G 298 N

境外

商家 配置 地域 流量/月 系统盘 价格/年 同价续费
腾讯云 2C2G30M 新加坡 1024G 50G 99 一年
腾讯云 2C4G30M 新加坡 1536G 60G 199 一年
野草云 1C2G100M 香港 600G 30G 128 Y
野草云 2C4G100M 香港 700G 50G 228 Y
野草云 4C8G100M 香港 800G 90G 358 Y
racknerd 1C1G 美国(无DC-02) 2000G 14G $11.11 Y
racknerd 1C2G 美国 3000G 25G $17.98 Y
racknerd 2C3G 美国 5000G 40G $25.98 Y
racknerd 3C4G 美国 6000G 50G $36.88 Y
cloudcone 2C1G LA 3000G 14G $13.99 Y
cloudcone 5C2G LA 4000G 27G $21.21 Y
cloudcone 8C4G LA 5000G 55G $38.50 Y