数据分析 - 标签 - 灿若星河 | 郝建锋

数据库笔记 05 - SQL & Pandas 对照学习

Jianfeng.Hao — Sat, 23 Jan 2021 15:16:59 +0800

其实 MySQL 分组统计的实现原理，与 Pandas 几乎是一致的，只要我们理解了 Pandas 分组统计的实现原理，就能理解 MySQL 分组统计的原理。大体过程就是：

今天我将带大家从 MYSQL 的执行顺序（FROM → WHERE → GROUP BY → HAVING → SELECT → ORDER BY → LIMIT）上，一步步通过 Pandas 向大家展示具体的执行过程，并借助 Python 基础编码，详解更细节的过程。

MySQL 分组统计的原理

其实上面给的示例代码等价于：

1
2
3
4
5
6
7
8


SELECT
  deal_date,
  COUNT(IF(area= 'A区', order_id, NULL)) 'A区',
  COUNT(IF(area= 'B区', order_id, NULL)) 'B区',
  COUNT(IF(area= 'C区', order_id, NULL)) 'C区'
FROM
  order_info
GROUP BY deal_date;

对于 mysql 标准的执行顺序是：

FROM → WHERE → GROUP BY → HAVING → SELECT → ORDER BY → LIMIT

上面这个 sql 只涉及到 FROM → GROUP BY → SELECT ，可以调整一下 sql 的阅读顺序：

1
2
3
4
5
6
7


FROM order_info
GROUP BY deal_date
SELECT
  deal_date,
  COUNT(IF(area= 'A区', order_id, NULL)) 'A区',
  COUNT(IF(area= 'B区', order_id, NULL)) 'B区',
  COUNT(IF(area= 'C区', order_id, NULL)) 'C区';

FROM

首先FROM order_info表示读取 order_info 表的数据

GROUP BY

GROUP BY deal_date表示按照 deal_date 分组

SELECT

对每个分组选取指定的字段，并根据聚合函数对每个分组结果进行集合

Pandas 分组统计的过程

From

FROM order_info本质就是读取数据：

1
2
3
4


import pandas as pd

data = pd.read_csv("data.csv", encoding="gb18030")
data

结果：

	order_id	price	deal_date	area
0	S001	10	2019/1/1	A 区
1	S002	20	2019/1/1	B 区
2	S003	30	2019/1/1	C 区
3	S004	40	2019/1/2	A 区
4	S005	10	2019/1/2	B 区
5	S006	20	2019/1/2	C 区
6	S007	30	2019/1/3	A 区
7	S008	40	2019/1/3	C 区

对于 Mysql 的任何 InnoDB 引擎表来说都存在一个主键索引，在没有指定任何字段作为主键时，InnoDB 表会生成一个 6 字节空间的自增主键 row_id 作为主键。上面的 Pandas 表的 Index(data.index)就相当于 mysql 表的自增主键 row_id。

当然这张 MySQL 表指定 order_id 为主键时：

1

ALTER TABLE order_info ADD PRIMARY KEY (order_id);

就相当于：

1

data.set_index("order_id")

结果：

GROUP BY

GROUP BY deal_date表示按照 deal_date 分组，即：

1
2


df_group = data.groupby("deal_date")
df_group

结果：

其实这步的本质是获取每个分组对应的主键 id 列表，可以通过DataFrameGroupBy对象的groups方法查看：

1

df_group.groups

结果：

1

{'2019/1/1': [0, 1, 2], '2019/1/2': [3, 4, 5], '2019/1/3': [6, 7]}

Pandas 返回的是每个分组对应的索引列表，它等价于 MySQL 的主键 id 列表。

SELECT

我们拿到每个分组对应的索引列表后，就可以拿到每个分组对应的全部数据：

1
2
3


for deal_date, ids in df_group.groups.items():
    print(deal_date)
    display(data.loc[ids])

结果：

当然，由于 Pandas 本身有现成的 API，我们实际并不会这样遍历每个分区，而是：

1
2
3


for deal_date, split in df_group:
    print(deal_date)
    display(split)

这段 Pandas 遍历每个分区的本质就是上面的代码，返回结果也与上面完全相同。

对于 MySQL 的 select 这步：

1
2
3
4
5


SELECT
  deal_date,
  COUNT(IF(AREA= 'A区', 1, NULL)) 'A区',
  COUNT(IF(AREA= 'B区', 1, NULL)) 'B区',
  COUNT(IF(AREA= 'C区', 1, NULL)) 'C区'

由于前面分组的存在，count()聚合函数将作用于每一个分组，用 Pandas 表达就是：

1
2
3
4
5
6
7
8


for deal_date, split in df_group:
    split.loc[split.area == 'A区', 'A区'] = split.order_id
    split.loc[split.area == 'B区', 'B区'] = split.order_id
    split.loc[split.area == 'C区', 'C区'] = split.order_id
    split = split.set_index('deal_date')
    split = split[['A区', 'B区', 'C区']]
    display(split)
    display(split.count().to_frame(deal_date).T)

结果：

Return

最后 MySQL 计算完成后，就会合并每个分组的结果集，用 Pandas 表达就是：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10


result = []
for deal_date, split in df_group:
    split.loc[split.area == 'A区', 'A区'] = split.order_id
    split.loc[split.area == 'B区', 'B区'] = split.order_id
    split.loc[split.area == 'C区', 'C区'] = split.order_id
    split = split.set_index('deal_date')
    split = split[['A区', 'B区', 'C区']]
    result.append(split.count().to_frame(deal_date).T)
result = pd.concat(result)
result

结果：

	A 区	B 区	C 区
2019/1/1	1	1	1
2019/1/2	1	1	1
2019/1/3	1	0	1

Pandas 分组聚合的执行过程

对于上面完整 MySQL 语句，整体执行流程等价于 Pandas 的：

1
2
3
4
5
6
7
8


def group_func(split):
    split.loc[split.area == 'A区', 'A区'] = split.order_id
    split.loc[split.area == 'B区', 'B区'] = split.order_id
    split.loc[split.area == 'C区', 'C区'] = split.order_id
    split = split[['A区', 'B区', 'C区']]
    return split.count()

data.groupby('deal_date', as_index=False).apply(group_func)

Python 演示分组的具体原理

上面的演示中：

1

data.groupby("deal_date").groups

结果：

1

{'2019/1/1': [0, 1, 2], '2019/1/2': [3, 4, 5], '2019/1/3': [6, 7]}

可以看到 Pandas 和 MySQL 分组这步其实都是计算出了每个分组对应的主键 id（索引 id）。但它们具体又是怎么实现的呢？

这时候，我用纯 python 来给大家演示一下。

不管是 MySQL 还是 Pandas，都带有主键索引，只不过 Pandas 的索引不会因为重复而报错，而 MySQL 的索引是肯定唯一的，会覆盖前面索引相同的数据。

虽然 MySQL 将带有索引的数据存储到了磁盘上面，但为了方便，我只在内存上演示索引构建的过程。另外 MySQL 主键索引的数据结构一般是 B+树，这里我用 hash 表（字典）来简单演示。

首先，读取数据并构建索引：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12


import csv

data = {}
columns = None
with open("data.csv", encoding="gb18030") as f:
    f_csv = csv.reader(f)
    columns = next(f_csv)
    columns = dict(zip(columns, range(len(columns))))
    for i, row in enumerate(f_csv):
        data[i] = row
print(columns)
display(data)

结果：

1
2
3
4
5
6
7
8
9


{'order_id': 0, 'price': 1, 'deal_date': 2, 'area': 3}
{0: ['S001', '10', '2019/1/1', 'A区'],
 1: ['S002', '20', '2019/1/1', 'B区'],
 2: ['S003', '30', '2019/1/1', 'C区'],
 3: ['S004', '40', '2019/1/2', 'A区'],
 4: ['S005', '10', '2019/1/2', 'B区'],
 5: ['S006', '20', '2019/1/2', 'C区'],
 6: ['S007', '30', '2019/1/3', 'A区'],
 7: ['S008', '40', '2019/1/3', 'C区']}

这样我们就读取数据并构建了主键索引，以及表的列名元信息。

下面我们开始实现分组：

1
2
3
4
5
6
7
8


# 获取分组数据所在的列
group_num = columns['deal_date']
id_groups = {}
for index, row in data.items():
    group_key = row[group_num]
    ids = id_groups.setdefault(group_key, [])
    ids.append(index)
id_groups

结果：

1

{'2019/1/1': [0, 1, 2], '2019/1/2': [3, 4, 5], '2019/1/3': [6, 7]}

最后完成聚合计算：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12


result = {}
for deal_date, ids in id_groups.items():
    areas = result.setdefault(deal_date, [0, 0, 0])
    for index in ids:
        area = data[index][columns['area']]
        if area == 'A区':
            areas[0] += 1
        elif area == 'B区':
            areas[1] += 1
        elif area == 'C区':
            areas[2] += 1
result

结果：

1

{'2019/1/1': [1, 1, 1], '2019/1/2': [1, 1, 1], '2019/1/3': [1, 0, 1]}

借助 Pandas 展示一下最终结果：

1

pd.DataFrame.from_dict(result, 'index', columns=["A区", "B区", "C区"])

stargazer：R 语言输出统计表

Jianfeng.Hao — Tue, 30 Oct 2018 16:20:03 +0800

使用 stargazer 可以将 R 构建的模型结果以 LATEX 、 HTML 和 ASCII 格式输出，方便我们生成标准格式的表格
结合 rmarkdown 来进行使用，会使我们优雅地写出一篇拥有期刊级统计表的文章

简介

R 包 stargazer 可以将 数据统计汇总 （格式可以为数据框、向量和矩阵等）和 统计模型结果 输出为标准统计表格式的 LATEX 、HTML 和 ASCII 格式的字符文本，将其复制到对应的软件中 即可生成标准的统计表，当然也可以配合 rmarkdown 使用直接渲染输出为表格，更加方便直接。

安装及加载

可以使用常规方法导入 stargazer 包：

1
2


install.packages("stargazer")
library(stargazer)

stargazer 包的输出结果是相应格式的，例如输出 LATEX 格式，可以直接将结果粘贴进在线编辑器 [Overleaf](https://www.overleaf.com) 中输出表格。下文直接将结果以对应表格的形式展示。

数据统计汇总

统计汇总数据

如果要展示数据集的基本描述性分析数据（由 R 函数 summary 得到），可以使用以下命令直接得到：

1

stargazer(attitude)

原始数据展示

如果想输出某些数据框的特定行的原始内容，需要指定要查看的数据框的一部分，并将设置参数 summary = FALSE, 如下所示：

1
2


data("attitude")
stargazer(attitude[1:4,], summary = FALSE, rownames = TRUE)

可以看到，attitude 数据集中包括 rating、complaints 等多个变量，数据展示形式为 三线表 。

列联表

stargazer 也可以用来展示向量、矩阵或者数据框的内容。在这里我们建立了 attitude 数据集中变量 rating、complaints、privileges 的相关系数矩阵，并予以展示：

1
2


correlation.matrix <- cor(attitude[,c("rating", "complaints", "privileges")])
stargazer(correlation.matrix, title = "Correlation Matrix")

统计模型结果

回归表

在 R 中可以很方便的使用 lm() 和 glm() 函数来构建回归模型，我们同样可以在同一张表中对这些模型进行比较，参数 title 用来设定表的标题，参数 align 使每列中的系数沿小数点对齐：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10


## 构建两个线性回归模型
linear.1 <- lm(rating ~ complaints + privileges + learning + raises + critical,
data = attitude)
linear.2 <- lm(rating ~ complaints + privileges + learning, data = attitude)
## 构建一个 probit 模型
attitude$high.rating <- (attitude$rating > 70)
probit.model <- glm(high.rating ~ learning + critical + advance, data = attitude,
family = binomial(link = "probit"))

stargazer(linear.1, linear.2, probit.model, title = "Results", align = TRUE)

回归表的修饰

为了使表格更加标准，我们还可以通过调整参数进行以下操作：

删除表中的空白行：no.space
移除不关心的统计量：omit.stat
修改因变量和自变量的名称：dep.var.labels 、 covariate.labels

1
2
3
4
5


stargazer(linear.1, linear.2, probit.model, title = "Regression Results",
align = TRUE, dep.var.labels = c("Overall Rating","High Rating"),
covariate.labels = c("Handling of Complaints", "No Special Privileges",
"Opportunity to Learn", "Performance-Based Raises", "Too Critical","Advancement"),
omit.stat = c("LL", "ser", "f"), no.space = TRUE)

本例中对原表格做了以下修改：

使用 dep.var.labels 和 covariate.lables 参数分别将因变量和自变量重命名为容易理解的形式；

使用 omit.stat 参数移除对数似然比（"LL"）、标准化残差（"ser"）和 F 统计量（"f"）；

使用no.space参数将输出表格中的空行删去。

展示置信区间

设置是否展示置信区间：ci
设置置信区间的置信度：ci.level
使回归系数与置信区间并排展示：single.row

1
2
3
4
5


stargazer(linear.1, linear.2, title = "Regression Results",
dep.var.labels = c("Overall Rating", "High Rating"),
covariate.labels = c("Handling of Complaints", "No Special Privileges",
"Opportunity to Learn", "Performance-Based Raises", "Too Critical", "Advancement"),
omit.stat = c("LL","ser","f"), ci = TRUE, ci.level = 0.90, single.row = TRUE)

其他修饰功能

控制自变量展示的顺序：order 控制要展示的统计量：keep.stat , keep.stat = "n" 即只展示样本量的大小，并移除其他统计量

1
2
3
4


stargazer(linear.1, linear.2, title = "Regression Results",
dep.var.labels = c("Overall Rating", "High Rating"),
order = c("learning", "privileges"),
keep.stat = "n", ci = TRUE, ci.level = 0.90, single.row = TRUE)

控制输出格式

可以使用 type 参数控制以 ASCII 、text、html、latex 格式输出，默认为LATEX 格式。

1
2
3
4


stargazer(linear.1, linear.2, type = "text", title = "Regression Results",
dep.var.labels = c("Overall Rating", "High Rating"),
order = c("learning", "privileges"), 
keep.stat = "n", ci = TRUE, ci.level = 0.90, single.row = TRUE, header = F)

自定义统计量

我们使用 sandwich 包来计算异方差-稳健标准误，并将其与默认计算的标准差一同展示。

1
2
3
4
5
6


library(sandwich)
cov <- vcovHC(linear.1, type = "HC")
robust.se <- sqrt(diag(cov))

stargazer(linear.1, linear.1, se = list(NULL, robust.se),
column.labels = c("default", "robust"))

支持的模型

目前 stargazer 支持以下模型结果的展示：

aftreg (eha), arima (stats), betareg (betareg), binaryChoice (sampleSelection), bj (rms), brglm (brglm), censReg (censReg), coeftest (lmtest), coxph (survival), coxreg (eha), clm (ordinal), clogit (survival), cph (rms), dynlm (dynlm), ergm(ergm), errorsarlm (spdev), felm (lfe), gam (mgcv), garchFit (fGarch), gee (gee), glm (stats), Glm (rms), glmer (lme4), glmrob(robustbase), gls (nlme), Gls (rms), gmm (gmm), heckit (sampleSelection), hetglm (glmx), hurdle (pscl), ivreg (AER), lagarlm (spdep), lm(stats), lme (nlme), lmer (lme4), lmrob (robustbase), lrm (rms), maBina (erer), mclogit (mclogit), mlogit (mlogit), mnlogit (mnlogit), mlreg (eha), multinom (nnet), nlme (nlme), nlmer (lme4), ols (rms), pgmm(plm), phreg (eha), plm (plm), pmg (plm), polr (MASS), psm (rms), rem.dyad (relevent), rlm(MASS), rq (quantreg), Rq (rms), selection (sampleSelection), svyglm (survey), survreg (survival), tobit (AER), weibreg (eha), zeroinfl (pscl), as well as from the implementation of these in zelig. In addition, stargazer also supports the following zelig models: “relogit”, “cloglog.net”, “gamma.net”, “probit.net” and “logit.net”.

支持的模板

style 参数可以用来选择统计表的展现形式，你可以通过 ?stargazer 查看具体参数的设置来获取具体支持的格式，目前支持的期刊统计图格式有 American Economic Review、 Quarterly Journal of Economics 等。

结合 rmarkdown 使用

1
2
3


```{r, results='asis'}
stargazer(model, header = F)
```

注意事项：

要加上 results='asis' 保证输出的是表格，而不是 LATEX 文本；

参数 align 失效，不能使用；

加上参数 header=FALSE，避免输出关于包作者的一些文本信息。

致谢

参考文章

stargazer.pdf

Hlavac, Marek (2018). stargazer: Well-Formatted Regression and Summary Statistics Tables. R package version 5.2.2. https://CRAN.R-project.org/package=stargazer