2025-03-18 23:04:07
在云上开发与传统上直接使用物理机开发其实有很大不同。云上更强调共享和弹性,规模变大又会带来隔离性需求,从而倒逼我们在开发和生产时做出一些改变。根据我在云上进行大规模数据处理(spark 和 ray + Python)一点经验出发,谈谈一些还算行之有效开发实践。
https://xiaobot.net/post/bd05f9ad-20e4-4480-a5a8-a23382111dd5
2024-12-08 17:38:05
t-SNE :一种“降维不扰邻”的可视化算法
t-SNE 算法将临近关系使用概率分布来描述,进而可以使用 KL 散度作为损失函数进行梯度下降求解,以得到一个高维点集在低维空间的保持邻居关系的表达,真是太妙了。
https://xiaobot.net/post/924cc698-f319-4c57-9f98-8bb437cf516e
2024-10-27 18:35:11
深度学习入门小话 —— 《动手学习深度学习》笔记之卷积。https://xiaobot.net/post/429041f0-fd45-4a90-b3d5-c3df1368ccdb
平移不变性、局部性让我对如何理解卷积豁然开朗;为什么叫卷积也是很有趣。各种知识入门多了,越发觉得所以然要比其然重要,但很多中文资料都不讲。
2024-10-06 17:56:19
streamlit 是一款在机器学习、数据科学内部数据可视化方面非常流行的框架。其 slogan 是:
A faster way to build and share data apps
在 2022 年以 8 亿美金卖给 Snowflake。
其设计哲学总结为一句话就是:顺序执行以保持简洁,按需缓存来提高效率。
https://xiaobot.net/post/a540aebb-7ea4-4df7-be01-91004e1102fd
2024-08-30 13:22:15
偶然,看到有人评论了自己之前分享的一些工程代码的经验,再去 2 倍速听了下,竟然意外觉得还不错(说明其实说的很多我自己也没做太好
于是,在这里抛个砖
https://www.bilibili.com/video/BV1ze411Z7BG
2024-07-23 00:01:49
数据处理的归一化抽象:
1. 标准的数据集
2. 可组合的算子
两者相辅相成,将任何复杂的数据处理解构成数据集和算子构成的 DAG,进而以流水线的方式进行执行。
下图是 Unix Pipe、RDBMS、Spark 统计文件中 qtmuniao 数量的“三法归一”。
https://www.qtmuniao.com/2023/08/21/unify-data-processing/