2026-04-18 08:00:00
数据可视化方面,我可是用过不少的 R 包,在生产实践上,大量使用的 R 包是 plotly 包,自己出于兴趣又嫌 plotly 包太笨重,遂在本博客网站上,大量使用 echarts4r 包。
2026-04-15 08:00:00
中国政府部门统计数据发布网站
| 海南省 | 广西省 | 湖南省 |
| 湖北省 | 河南省 | 山东省 |
| 江西省 | 江苏省 | 上海市 |
| 福建省 | 安徽省 | 贵州省 |
| 河北省 | 天津市 | 重庆市 |
| 浙江省 | 吉林省 | 辽宁省 |
| 四川省 | 宁夏 | 青海省 |
| 内蒙古 | 陕西省 | 新疆 |
| 黑龙江省 | 吉林省 | 北京市 |
| 国家统计局 | 中国人民银行 |
2026-04-13 08:00:00
在生产环境中,数仓团队根据业务需求,生产一张张表(明细表 detail、维度表 dim、主题表 topic、聚合表 aggr、应用表 app),落在 Hive 管理的数据仓库中。Spark 是大规模分布式计算引擎,将数据加载到内存中进行计算。在大规模复杂的计算中,会用到 Hive SQL 或 Spark SQL,前者内存资源需求少但计算慢,后者吃内存资源但计算更快。
2026-04-13 08:00:00
数据集 cars 来自 Base R 内置的 datasets 包,仅有两个变量 speed (单位:英里/每小时)和 dist(单位:英尺),1 英里约等于 1.6 公里,1 英尺约等于 30.48 厘米。下表展示了数据集 cars 的部分内容。
2026-04-07 08:00:00
注:本文的绘图代码借助 AI 转化和生成。读取数据的代码由 R 语言版转为 Python 版,绘图代码由 AI 生成,再手动调整。
个人住房贷款余额的变化能反应房地产市场居民端购房情况。结合数据来看,购房需求见顶,房地产市场进入存量时代。从 2011 年到 2025 年,个人住房贷款余额从 6.4 万亿增加到 37.44 万亿,信贷扩展了近 5 倍。而中国 GDP 从 47 万亿到 140 万亿,增加了仅 2 倍。
2026-04-01 08:00:00
本文介绍 A/B 实验过程中多重假设检验的问题,实验策略迭代优化的时候,可能会影响多个指标。业务上,我们希望能在保持住某些指标的情况下(约束指标),努力提升一些指标,很少有对所有指标都带来显著提升的情况。所以,在一次 A/B 实验中做了多个检验,其中一些指标向好,另一些指标向坏,在探索和利用的精细平衡之间,常常出现跷跷板现象。逐个检验指标还是同时检验多个指标以避免假阳性问题呢?当然是后者,在统计学上,这是一个多重假设检验的问题。