MoreRSS

site iconXiangyunHuang | 黄湘云修改

技术写作与交流,专注R语言和统计图形,活跃于中国R语言大会及统计之都。
请复制 RSS 到你的阅读器,或快速订阅到 :

Inoreader Feedly Follow Feedbin Local Reader

XiangyunHuang | 黄湘云的 RSS 预览

值得一试的 gglite 包

2026-04-18 08:00:00

数据可视化方面,我可是用过不少的 R 包,在生产实践上,大量使用的 R 包是 plotly 包,自己出于兴趣又嫌 plotly 包太笨重,遂在本博客网站上,大量使用 echarts4r 包。

R 语言中使用 Spark

2026-04-13 08:00:00

在生产环境中,数仓团队根据业务需求,生产一张张表(明细表 detail、维度表 dim、主题表 topic、聚合表 aggr、应用表 app),落在 Hive 管理的数据仓库中。Spark 是大规模分布式计算引擎,将数据加载到内存中进行计算。在大规模复杂的计算中,会用到 Hive SQL 或 Spark SQL,前者内存资源需求少但计算慢,后者吃内存资源但计算更快。

matplotlib 绘制双轴图

2026-04-07 08:00:00

注:本文的绘图代码借助 AI 转化和生成。读取数据的代码由 R 语言版转为 Python 版,绘图代码由 AI 生成,再手动调整。

个人住房贷款余额的变化能反应房地产市场居民端购房情况。结合数据来看,购房需求见顶,房地产市场进入存量时代。从 2011 年到 2025 年,个人住房贷款余额从 6.4 万亿增加到 37.44 万亿,信贷扩展了近 5 倍。而中国 GDP 从 47 万亿到 140 万亿,增加了仅 2 倍。

A/B 实验之多重假设检验

2026-04-01 08:00:00

本文介绍 A/B 实验过程中多重假设检验的问题,实验策略迭代优化的时候,可能会影响多个指标。业务上,我们希望能在保持住某些指标的情况下(约束指标),努力提升一些指标,很少有对所有指标都带来显著提升的情况。所以,在一次 A/B 实验中做了多个检验,其中一些指标向好,另一些指标向坏,在探索和利用的精细平衡之间,常常出现跷跷板现象。逐个检验指标还是同时检验多个指标以避免假阳性问题呢?当然是后者,在统计学上,这是一个多重假设检验的问题。