统计学 - 标签 - 灿若星河 | 郝建锋

stargazer：R 语言输出统计表

Jianfeng.Hao — Tue, 30 Oct 2018 16:20:03 +0800

使用 stargazer 可以将 R 构建的模型结果以 LATEX 、 HTML 和 ASCII 格式输出，方便我们生成标准格式的表格
结合 rmarkdown 来进行使用，会使我们优雅地写出一篇拥有期刊级统计表的文章

简介

R 包 stargazer 可以将 数据统计汇总 （格式可以为数据框、向量和矩阵等）和 统计模型结果 输出为标准统计表格式的 LATEX 、HTML 和 ASCII 格式的字符文本，将其复制到对应的软件中 即可生成标准的统计表，当然也可以配合 rmarkdown 使用直接渲染输出为表格，更加方便直接。

安装及加载

可以使用常规方法导入 stargazer 包：

1
2


install.packages("stargazer")
library(stargazer)

stargazer 包的输出结果是相应格式的，例如输出 LATEX 格式，可以直接将结果粘贴进在线编辑器 [Overleaf](https://www.overleaf.com) 中输出表格。下文直接将结果以对应表格的形式展示。

数据统计汇总

统计汇总数据

如果要展示数据集的基本描述性分析数据（由 R 函数 summary 得到），可以使用以下命令直接得到：

1

stargazer(attitude)

原始数据展示

如果想输出某些数据框的特定行的原始内容，需要指定要查看的数据框的一部分，并将设置参数 summary = FALSE, 如下所示：

1
2


data("attitude")
stargazer(attitude[1:4,], summary = FALSE, rownames = TRUE)

可以看到，attitude 数据集中包括 rating、complaints 等多个变量，数据展示形式为 三线表 。

列联表

stargazer 也可以用来展示向量、矩阵或者数据框的内容。在这里我们建立了 attitude 数据集中变量 rating、complaints、privileges 的相关系数矩阵，并予以展示：

1
2


correlation.matrix <- cor(attitude[,c("rating", "complaints", "privileges")])
stargazer(correlation.matrix, title = "Correlation Matrix")

统计模型结果

回归表

在 R 中可以很方便的使用 lm() 和 glm() 函数来构建回归模型，我们同样可以在同一张表中对这些模型进行比较，参数 title 用来设定表的标题，参数 align 使每列中的系数沿小数点对齐：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10


## 构建两个线性回归模型
linear.1 <- lm(rating ~ complaints + privileges + learning + raises + critical,
data = attitude)
linear.2 <- lm(rating ~ complaints + privileges + learning, data = attitude)
## 构建一个 probit 模型
attitude$high.rating <- (attitude$rating > 70)
probit.model <- glm(high.rating ~ learning + critical + advance, data = attitude,
family = binomial(link = "probit"))

stargazer(linear.1, linear.2, probit.model, title = "Results", align = TRUE)

回归表的修饰

为了使表格更加标准，我们还可以通过调整参数进行以下操作：

删除表中的空白行：no.space
移除不关心的统计量：omit.stat
修改因变量和自变量的名称：dep.var.labels 、 covariate.labels

1
2
3
4
5


stargazer(linear.1, linear.2, probit.model, title = "Regression Results",
align = TRUE, dep.var.labels = c("Overall Rating","High Rating"),
covariate.labels = c("Handling of Complaints", "No Special Privileges",
"Opportunity to Learn", "Performance-Based Raises", "Too Critical","Advancement"),
omit.stat = c("LL", "ser", "f"), no.space = TRUE)

本例中对原表格做了以下修改：

使用 dep.var.labels 和 covariate.lables 参数分别将因变量和自变量重命名为容易理解的形式；

使用 omit.stat 参数移除对数似然比（"LL"）、标准化残差（"ser"）和 F 统计量（"f"）；

使用no.space参数将输出表格中的空行删去。

展示置信区间

设置是否展示置信区间：ci
设置置信区间的置信度：ci.level
使回归系数与置信区间并排展示：single.row

1
2
3
4
5


stargazer(linear.1, linear.2, title = "Regression Results",
dep.var.labels = c("Overall Rating", "High Rating"),
covariate.labels = c("Handling of Complaints", "No Special Privileges",
"Opportunity to Learn", "Performance-Based Raises", "Too Critical", "Advancement"),
omit.stat = c("LL","ser","f"), ci = TRUE, ci.level = 0.90, single.row = TRUE)

其他修饰功能

控制自变量展示的顺序：order 控制要展示的统计量：keep.stat , keep.stat = "n" 即只展示样本量的大小，并移除其他统计量

1
2
3
4


stargazer(linear.1, linear.2, title = "Regression Results",
dep.var.labels = c("Overall Rating", "High Rating"),
order = c("learning", "privileges"),
keep.stat = "n", ci = TRUE, ci.level = 0.90, single.row = TRUE)

控制输出格式

可以使用 type 参数控制以 ASCII 、text、html、latex 格式输出，默认为LATEX 格式。

1
2
3
4


stargazer(linear.1, linear.2, type = "text", title = "Regression Results",
dep.var.labels = c("Overall Rating", "High Rating"),
order = c("learning", "privileges"), 
keep.stat = "n", ci = TRUE, ci.level = 0.90, single.row = TRUE, header = F)

自定义统计量

我们使用 sandwich 包来计算异方差-稳健标准误，并将其与默认计算的标准差一同展示。

1
2
3
4
5
6


library(sandwich)
cov <- vcovHC(linear.1, type = "HC")
robust.se <- sqrt(diag(cov))

stargazer(linear.1, linear.1, se = list(NULL, robust.se),
column.labels = c("default", "robust"))

支持的模型

目前 stargazer 支持以下模型结果的展示：

aftreg (eha), arima (stats), betareg (betareg), binaryChoice (sampleSelection), bj (rms), brglm (brglm), censReg (censReg), coeftest (lmtest), coxph (survival), coxreg (eha), clm (ordinal), clogit (survival), cph (rms), dynlm (dynlm), ergm(ergm), errorsarlm (spdev), felm (lfe), gam (mgcv), garchFit (fGarch), gee (gee), glm (stats), Glm (rms), glmer (lme4), glmrob(robustbase), gls (nlme), Gls (rms), gmm (gmm), heckit (sampleSelection), hetglm (glmx), hurdle (pscl), ivreg (AER), lagarlm (spdep), lm(stats), lme (nlme), lmer (lme4), lmrob (robustbase), lrm (rms), maBina (erer), mclogit (mclogit), mlogit (mlogit), mnlogit (mnlogit), mlreg (eha), multinom (nnet), nlme (nlme), nlmer (lme4), ols (rms), pgmm(plm), phreg (eha), plm (plm), pmg (plm), polr (MASS), psm (rms), rem.dyad (relevent), rlm(MASS), rq (quantreg), Rq (rms), selection (sampleSelection), svyglm (survey), survreg (survival), tobit (AER), weibreg (eha), zeroinfl (pscl), as well as from the implementation of these in zelig. In addition, stargazer also supports the following zelig models: “relogit”, “cloglog.net”, “gamma.net”, “probit.net” and “logit.net”.

支持的模板

style 参数可以用来选择统计表的展现形式，你可以通过 ?stargazer 查看具体参数的设置来获取具体支持的格式，目前支持的期刊统计图格式有 American Economic Review、 Quarterly Journal of Economics 等。

结合 rmarkdown 使用

1
2
3


```{r, results='asis'}
stargazer(model, header = F)
```

注意事项：

要加上 results='asis' 保证输出的是表格，而不是 LATEX 文本；

参数 align 失效，不能使用；

加上参数 header=FALSE，避免输出关于包作者的一些文本信息。

致谢

参考文章

stargazer.pdf

Hlavac, Marek (2018). stargazer: Well-Formatted Regression and Summary Statistics Tables. R package version 5.2.2. https://CRAN.R-project.org/package=stargazer

回归分析系列2-简单线性回归

Jianfeng.Hao — Sun, 11 Mar 2018 10:00:00 +0800

与大多数统计方法一样，回归也是一种简化数据的技术。
回归分析利用变量间的简单函数关系，用自变量对困变量进行"预测"，使"预测值"尽可能地接近因变量的"观测值" 。

本节综述

简单线性回归属于回归分析中最基础的一部分内容，仅仅涉及到两个变量之间的线性关系，但其作为学习多元回归乃至其他更复杂统计方法的基础，所以本节将先从理解"回归"这一概念人手，并讨论只有一个因变量和一个自变量的简单线性回归模型。

理解回归

如何根据回归模型的构成形式理解回归模型的现实意义呢？在此，我们提出理解回归的三种视角：

1. 因果性：观测项 = 机制项 + 干扰项
2. 预测性：观测项 = 预测项 + 误差项
3. 描述性：观测项 = 概括项 + 残差项

这三种理解方式提供了定量分析的三种不同视角：

第一种方式接近于 古典计量经济学 的视角，这种方法试图找出具有决定性的模型并以此发现数据产生的机制。但当前更多的方法论研究者认为，所谓的"真实"模型并不存在，好的模型只是相对于其他模型而言更实用、更有意义或者更接近真实。
第二种方式适用于 工程学 领域，它通常用于在已知一组自变量和因变量之间的关系后，应用新的数据给出有用的预测回答。这一理解方法的特点是我们只是通过经验规律来做预测，而对因果关系的机制不感兴趣或不在乎。
第三种方式反映了当今 定量社会科学和统计学 的主流观点。它希望在不曲解数据的情况下利用模型概括数据的基本特征。这种方法与第一种方法的不同之处在于它并不关注模型是否"真实"，而只关注其是否符合已被观察到的事实。

在社会科学研究中，我们倾向于采用第三种视角，即统计模型的主要目标在于用最简单的结构和尽可能少的参数来概括大量数据所包含的主要信息。研究者需在精确性和简洁性之间进行权衡，从而找出最佳模型。

回归分析的步骤

问题的表述

变量的选择 - 专家论文、前人研究

数据的收集

模型设定 - 散点图、表达形式、基本假定

参数估计/模型拟合 - （加权）最小二乘法、极大似然法、岭估计法、主成分估计法

模型检验 - 假设检验、回归诊断

模型评价 - 拟合优度、交叉验证

解释预测

简单线性回归模型

模型设定1–表达形式

开门见山，写出数学表达式： $$ y_i=\beta_0 + \beta_1 x_i + \epsilon_i $$

这里：
Y 是一个随机变量；
X 虽被称作变量，但它的各个取值其实是已知的，只是其取值在不同的个体之间变动；
ε 是随机误差项，假定其为服从均值为 0、方差为 σ² 的正态分布的随机变量。

对应指定的 $x_i$ 值，在一定的条件下，对公式求条件期望后得到 总体回归方程： $$ E(Y|X=x_i) = \mu_i = \beta_0 + \beta_1x_i $$ 它表示，对于每一个特定的取值 $x_i$，观测值 y 实际上都来自一个均值为 μ、方差为 σ² 的正态分布，回归直线将穿过点 $(x_i,\mu_i)$，$\beta_0$ 就是回归直线在 y 轴上的截距，而 $\beta_1$ 则是回归直线的斜率。如下图所示：

![3_1 回归直线.PNG](https://blog-1255524710.cos.ap-beijing.myqcloud.com/images/3_1 回归直线.PNG)

无论回归模型还是回归方程，都是针对总体而言，是对总体恃征的总结和描述。所以，参数 $\beta_0$ 和 $\beta_1$ 也是总体的特征。当利用样本统计量 $b_0$ 和 $b_1$ 代替总体回归方程中的 $\beta_0$ 和 $\beta_1$ 时，就得到了 估计的回归方程或经验回归方程，其形式为： $$ \hat{y} = b_0 + b_1x_i $$ 同时，我们也可以得到观测值与估计值之差，称为残差，记作 $e_i$，它对应的是公式中的总体随机误差项 $\epsilon_i$，观测值、估计值和残差这三者之间的关系可用下图加以说明。

![3_2 经验回归直线.PNG](https://blog-1255524710.cos.ap-beijing.myqcloud.com/images/3_2 经验回归直线.PNG)

模型设定2–基本假定[诸多错误，日后修正]

可以看到在第一步的模型设定中我们首先做出了线性假定方可建立线性回归模型，同时假定 ε 的分布以便于确定 $y_i$ 的分布，接下来着重阐释简单线性回归模型中的诸多假定及这些假定存在的必要性。

线性假定

该假定规定 Y 的条件均值是自变量 X 的线性函数： $$ E(Y|X=x_i)=\mu_i = \beta_0 + \beta_1 x_i $$

这里“线性”有双重含义，一方面可解释为变量 Y 和 X 之间是线性的，另一方面也可解释为回归函数关于参数是线性的。在某些情况下，我们可能会碰到非线性函数的情形。借助于数学上的恒等变换，我们有时可以将非线性函数转换成线性函数的形式。

例如，对于 $y_i = \alpha x_i^\gamma \sigma_i$，通过变换可以得到: $$ \ln y_i = \beta_0 + \beta_1 \ln x_i + \epsilon_i $$ 其中， $\beta_0=\ln \alpha ,\beta_1=\gamma ,\epsilon_i=\ln\sigma_i$。经过转换后的方程便可以运用最小二乘法，并使得估计值仍然保持最小二乘法估计值的性质。

正交假定

正交假定包括：

误差项 ε 和 x 不相关，即 $Cov(X,\epsilon)=0$ ;

误差项 ε 的期望值为0，即 $E(\epsilon)=0$ ; 推导：由正交假定可得 $Cov(\hat{y},\epsilon)=0$ 。

在线性假定和正交假定下，可以将简单线性回归方程中 y 的条件期望定义为: $$ E(Y|x)=\beta_0 + \beta_1 x $$ 正交假定是一个关键的识别假定，它帮助我们从条件期望 E(Y|x) 中剥离出误差项。在这假定下，利用最小二乘估计得到的 β0 和 βl 的估计值 b0 和 b1 是无偏的[详见下方-各随机变量的分布]，即： $$ \begin{align*} E(b_0)&=\beta_0 \ & \ E(b_1)&=\beta_1 \end{align*} $$ 这一假定是最小二乘估计的计算的理论依据，所以 最小二乘估计的结果一定无例外地满足如下公式: $$ \begin{cases} &\sum_{i=1}^{n}e_i=0 \ & \ &\sum_{i=1}^{n}x_ie_i=0 \end{cases} \rightleftharpoons \begin{cases} & \frac{\partial D}{\partial b_0} = -2\sum_{i=1}^{n}(y_i-b_0-b_1x_i) = 0 \ & \ & \frac{\partial D}{\partial b_1} = -2\sum_{i=1}^{n}x_i(y_i-b_0-b_1x_i) = 0 \end{cases} $$

独立同分布假定

也称 i.i.d 假定，是指误差项 ε 相互独立，并且遵循同一分布，有： $$ \begin{align*} \sigma_\epsilon^2 &= \sigma^2 \ & \ Cov(\epsilon_i,\epsilon_j)&=0,\left (i\neq j \right ) \end{align*} $$

尽管在没有 i. i. d 假定的情况下，最小二乘估计已经可以满足无偏性和一致性，但是同时满足前三个假定时，最小二乘估计值将是总体参数的"最佳线性无偏估计值"，也就是通常所说的BLUE (best linear unbiased estimator)。这里，"最佳"表示"最有效"，即抽样标准误最小。

正态分布假定

尽管 i.i.d 假定规定误差项 ε 独立且同分布，但是它仍然无法确定 ε 的实际分布。不过，对于大样本数据，我们可以根据中心极限定理对 β 进行统计推断。然而在小样本情况下，我们只有在假定 ε 服从正态分布时才能使用 t检验 $$ \epsilon_i \sim N(0,\sigma^2) $$ 此时，最小二乘估计与总体参数的最大似然估计(MLE) 结果一致(Lehmann & CaseUa, 1998),也就是说 b0 和 b1 不仅是 β0 和 β1 的最佳线性无偏估计，而且是所有的 β0 和 β1 (线性和非线性的)无偏估计中的最佳选择。

之所以这么说是因为在所有无偏估计中，最大似然估计是最佳无偏估计值。需要注意的是，由于最大似然估计可以是非线性的，因此最大似然解释的有效性将比最小二乘解释的有效性更广。进一步讲，最大似然估计的统计推断在大样本情况下具有渐近性质。也就是说，当样本规模趋于无穷大时，最大似然估计不仅满足一致性(渐近无偏)，而且能够取得一致估计量中的最小方差。

参数估计–最小二乘估计

回顾一下，前文建立的线性回归模型如下： $$ y_i = \beta_0 + \beta_1x_i + \epsilon_i = E(y_i|x_i) + \epsilon_i = \mu_i + \epsilon_i $$ 在样本数据下得到拟合回归模型如下： $$ y_i = b_0 + b_1x_i + e_i = \hat{y_i} + e_i $$ 各关系如图所示：

最小二乘估计的基本思路便是 找到一条与所有现有数据垂直距离平方和最小的直线，即确保观测值和预测值的残差平方和最小： $$ D = \sum_{i=1}^{n}e_i^2 = \sum_{i=1}^{n}(y_i-\hat{y_i})^2 = \sum_{i=1}^{n}(y_i-b_0-b_1x_i)^2 $$

注意是残差平方和而非误差平方和！！！
这是因为当使用总体数据时得到的与所有观测点垂直距离平方和最小的直线便是总体回归线；当使用样本数据时得到的与所有观测点垂直距离平方和最小的直线只能是估计回归线。所以误差与总体回归线相匹配，残差与估计回归线相匹配，在样本数据下，我们得到的只能是估计回归线，最小二乘法中的"最小"也只能是"残差平方和最小"。

为使残差平方和达到最小值，有： $$ \begin{cases} & \frac{\partial D}{\partial b_0} = -2\sum_{i=1}^{n}(y_i-b_0-b_1x_i) = 0 \ & \ & \frac{\partial D}{\partial b_1} = -2\sum_{i=1}^{n}x_i(y_i-b_0-b_1x_i) = 0 \end{cases} $$ 整理得正态方程组： $$ \begin{cases} & nb_0 + b_1\sum_{i=1}^{n}x_i = \sum_{i=1}^{n}y_i \ & \ & b_0\sum_{i=1}^{n}x_i + b_1\sum_{i=1}^{n}x_i^2 = \sum_{i=1}^{n}x_iy_i \end{cases} $$ 求解得： $$ \begin{align*} b_0 &= \frac{\sum x_i^2 \sum y_i - \sum x_i \sum x_iy_i}{n \sum x_i^2 - (\sum x_i)^2} \ & \ b_1 &= \frac{n \sum x_iy_i - \sum x_i \sum y_i}{n \sum x_i^2 - (\sum x_i)^2} \ & \ &= \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sum (x_i - \bar{x})^2} \ \end{align*} $$ 在实际计算时，我们通常使用下列两个化简后的式子： $$ \begin{align*} b_1 &= \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sum (x_i - \bar{x})^2} \ & \ &= \frac{\sum (x_i - \bar{x})(y_i - \bar{y})/(n-1)}{\sum (x_i - \bar{x})^2/(n-1)} \ & \ &= S_{xy}/S_x^2 \ &\ &= r\frac{S_y}{S_x} \ & \ b_0 &= \bar{y} - b_1\bar{x} \end{align*} $$

小结–各随机变量的分布

在上面的运算中，我们接触到的随机变量有 $\epsilon$、$y_i$、$b_0$、$b_1$ 等，接下来我们对这些随机变量的分布做个总结。

$\epsilon$

根据简单线性回归的假定前提可知：$\epsilon \sim N(0,\sigma^2)$

$y_i$

由关系式 $y_i=\beta_0+\beta_1x_i+\epsilon_i$ 及 $\epsilon$ 的分布推知：$y_i \sim N(\beta_0+\beta_1x_i,\sigma^2)$

$b_0$ 、 $b_1$

求解 $b_0$ 和 $b_1$ 的分布需要一些技巧，首先对 $b_0$ 和 $b_1$ 的表达式稍加变形： $$ \begin{cases} b_0&=\frac{\sum x_i^2 \sum y_i - \sum x_i \sum x_iy_i}{n \sum x_i^2 - (\sum x_i)^2} \ & \ &=\sum \left [ \frac{1}{n}-\frac{(x_i-\bar{x})\bar{x}}{\sum (x_i-\bar{x})^2} \right ]y_i \ & \ b_1&=\frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sum (x_i - \bar{x})^2} \ & \ &=\sum \frac{x_i-\bar{x}}{\sum (x_i-\bar{x})^2}y_i \end{cases} $$ 可以看到，当 $x_i$ 确定，等式右端仅有 $y_i$ 为随机变量，并且现在 $y_i$ 的分布已知，$b_0$ 和 $b_1$ 的分布自然可以求出：

期望 $$ \begin{align*} E(b_1)&= \sum \frac{x_i-\bar{x}}{\sum (x_i-\bar{x})^2} E(y_i) \ & \ &= \sum \frac{x_i-\bar{x}}{\sum (x_i-\bar{x})^2} (\beta_0+\beta_1x_i) \ & \ &= \sum \frac{x_i-\bar{x}}{\sum (x_i-\bar{x})^2} (\beta_0+\beta_1x_i) \leftarrow \beta_0=\bar{y}-\beta_1\bar{x} \bigstar \ & \ &= \frac{\sum \left [ (x_i-\bar{x})\bar{y}+\beta_1 (x_i-\bar{x})^2 \right ]}{\sum (x_i-\bar{x})^2} & \ &= \beta_1 \end{align*} $$

$\bigstar$：我们知道对样本数据有 $b_0=\bar{y}-b_1\bar{x}$，同时可推导出在总体数据中存在以下关系式： $$ \begin{cases} &\beta_0 = y_i-\beta_1x_i-\epsilon_i \ & \ & \Rightarrow E(\beta_0)=E(y_i-\beta_1x_i-\epsilon_i) \ & \ &\Rightarrow \beta_0=E(y)-\beta_1E(x_i) \end{cases} $$

需要注意的是：
在第一个式子中，x 和 y 使用的是样本数据，得出的均值是样本均值；
在第二个式子中，x 和 y 使用的是总体数据，得出的期望是总体均值。
由于样本均值是总体均值的无偏估计，所以我们在推导 b1 的期望时使用的 β0 代换式是成立的。

再次应用这个性质 ——— 无偏估计，可以很容易的得到 $b_0$ 的期望： $$ \begin{align*} E(b_0)&=E(\bar{y}-b_1\bar{x}) \ & \ &= E(y)-\beta_1E(x) \ & \ &= \beta_0 \end{align*} $$

方差 $$ \begin{align*} Var(b_0)&= \sum \left { \left [ \frac{1}{n}-\frac{(x_i-\bar{x})\bar{x}} {\sum (x_i-\bar{x})^2} \right ]^2 Var(y_i) \right } \ & \ &= \sigma^2 \sum \left [ \frac{1}{n}-\frac{(x_i-\bar{x})\bar{x}} {\sum (x_i-\bar{x})^2} \right ]^2 \ & \ &= \sigma^2 \sum \left [ \frac{1}{n^2}-\frac{(x_i-\bar{x})\bar{x}}{2n\sum (x_i-\bar{x})^2}+ \frac{(x_i-\bar{x})^2\bar{x}^2}{\sum (x_i-\bar{x})^2} \right ] \ & \ &= \sigma^2 \left [ \frac{1}{n}+\frac{\bar{x}^2}{\sum (x_i-\bar{x})^2} \right ] \ & \ & \ Var(b_1)&= \sum \left { \left [ \frac{x_i-\bar{x}}{\sum (x_i-\bar{x})^2} \right ]^2 Var(y_i) \right } \ & \ &= \sigma^2 \frac{\sum (x_i-\bar{x})^2}{[\sum (x_i-\bar{x})^2]^2} \ & \ &= \frac{\sigma^2}{\sum (x_i-\bar{x})^2} \end{align*} $$

可以看到在 $\epsilon$、$y_i$、$b_0$、$b_1$ 的分布中都有 $\sigma^2$ 的身影，但 $\sigma^2$ 目前还属于未知参数，所以接下来要做的就是构造 $\sigma^2$ 的估计量 $\hat{\sigma}^2$ 。

$\hat{\sigma}^2$

由于 $\sigma^2$ 是总体中误差的方差，自然想到用样本中误差（即残差）的方差来做无偏估计： $$ \hat{\sigma}^2 = \frac{\sum e_i^2}{n-2} = \frac{\sum (y_i-\hat{y_i})^2}{n-2} = \frac{SSE}{n-2} $$

这里，$n-2$ 为总体误差方差的自由度。因为我们需要以回归直线为基准来计算 $e_i$ ( 即以 $y_i-\hat{y}_i$ 进行估计)，而决定这条直线需要估计截距和斜率两个参数，所以消耗了两个自由度。

模型检验–假设检验

模型整体检验

回归系数检验

模型评价–拟合优度

模型预测–响应值、响应均值

前景展望

需要提醒的是 OLS 回归方法找出的是两个变量间最佳的线性关系，但实际情况中两个变量间可能并不是简单的线性关系。因为社会现象往往受到诸多因素的共同影响，单因素造成某一社会现象的情况几乎不存在。但是，了解简单回归的原理是学习多元回归乃至其他更复杂统计方法的基础。
同时，在简单线性回归中除了最小二乘法还有多种进行参数估计的方法可以运用，其中最大似然法的思想其实是与最小二乘法相通的。
此外，尽管我们可以根据基本假定估计出回归模型，但是我们不知道这些假定是否成立。诊断数据仍然是必不可少的一个环节。这部分内容我们将在之后的系列 回归诊断 中进行详细讨论。

参考文章

[1]谢宇著.回归分析[M].北京：社会科学文献出版社.2010. [2]（美）查特吉著.例解回归分析原书第5版[M].北京：机械工业出版社.2013.

回归分析系列1-统计概念基础

Jianfeng.Hao — Sat, 10 Mar 2018 12:19:00 +0800

尽管定量研究的结论建立在一定假设条件上，不一定具有普遍意义，但定量研究方法却是研究社会现象不可缺少的工具。
这是因为，如果没有这种方法，我们就无法很好地捕捉和表述研究对象的变异性

本节综述

本章着重介绍一些最基本的统计概念，比如总体、样本、随机变量、概率、期望、方差、标准差、协方差和相关系数等。这些概念着似简单，但却是线性回归方法的基础。只有真正熟练掌握并理解这些概念，才能在后面的学习中游刃有余。

概念掌握

期望与条件期望

期望离散型： $E(X)=\sum_{i=1}^{n}x_{i}P(x_{i})$
连续型： $E(X)=\int_{-\infty }^{+\infty}xf(x)dx$

期望其实与均值类似，是个平均数，但两者之间的区别在于均值是根据某一变量的一系列已知取值求得的，因此，均值往往被特定地用来指称样本的一个特征，而期望代表的是整个总体的平均数、一个未知的总体参数，因此，它只是一个理论值。

2. 条件期望离散型：$E(Y|X=x_{i})=\sum_{i=1}^{n}y_{i}p(Y=y_{i}|X=x_{i})$ 连续型：$E(Y|X)=\int yf_{Y|X}(y|x)dy$

条件期望有以下性质：
2.1 若 X 与 Y 相互独立，则 $E(Y|X)=E(Y)$
2.2 若 $k_{1}$,$k_{2}$ 为常数，则 $E[(k_{1}Y_{1}+k_{2}Y_{2})|X]=k_{1}E(Y_{1}|X)+k_{2}E(Y_{2}|X)$
2.3 全期望公式/迭代期望法则 $E(Y)=E_{x}[E(Y|X)]$

总体方差与样本方差

总体方差

$$ \begin{align*} Var(X)&=\sum_{i=1}^{n}[x_{i}-E(X)]^{2}P(x_{i}) \ & \ &=E[X-E(X)]^{2} \
& \ &=E(X^{2})-[E(X)]^{2} \end{align*} $$

样本方差

$$ S^{2}=\frac{1}{n-1}\sum_{i=1}^{n}(x_{i}-\bar{X})^{2} $$

总体标准差、样本标准差与标准误

总体标准差：$\sigma (X)=\sqrt{Var(X)}$ 样本标准差：$S=\sqrt{S^{2}}$ 标准误：$S.E.=\sigma /\sqrt{n}$

![1_2 三种分布.PNG](https://blog-1255524710.cos.ap-beijing.myqcloud.com/images/1_2 三种分布.PNG)

标准化随机变量

$$z=\frac{X-E(X)}{\sigma (X)}$$ 在多元线性回归中，由于不同自变量的测量单位通常并不一致，因而得到的回归系数通常也不能直接进行相对大小的比较。但如果我们对随机变量进行标准化，消除了变量各自测量单位的影响，得到的标准化回归系数之间就能够进行比较了。标准化经常被用来解决由于变量测量单位不同而导致的结果不可比的问题。

标准化以后的新变量变成了一个均值为0 、方差为1 的变量。

协方差与相关系数

总体协方差协方差用于测量两个随机变量之间的线性关系。注意，这里强调了线性这个词。 $$ \begin{align*} Cov(X,Y)&=\sum_{i}\sum_{j}[x_{i}-E(X)][y_{i}-E(Y)]P(x_{i},y_{i}) \ & \ &=E\left {[X-E(X)][Y-E(Y)] \right } \ & \ &=E(XY)-E(X)E(Y) \end{align*} $$

其实，方差是协方差的一个特例，也就是说，X 的方差就是X 与其自身的协方差。

2. 总体相关系数 $$ \rho (X,Y)=\frac{Cov(X,Y)}{\sigma (X)\sigma (Y)} $$ 3. 样本协方差 $$ S_{yx}=\frac{\sum_{i=1}^{n}(x_{i}-\bar{x})(y_{i}-\bar{y})}{n-1} $$ 4. 样本相关系数 $$ \begin{align*} S_{yx}&=\frac{\sum_{i=1}^{n}(x_{i}-\bar{x})(y_{i}-\bar{y})}{n-1} \\ & \\ &\xrightarrow[standardized]{z_{i}=\frac{y_{i}-\bar{y}}{S_{y}}} \\ & \\ r_{yx}&=\frac{1}{n-1}\sum_{i=1}^{n} (\frac{y_{i}-\bar(y)}{s_{y}}) (\frac{x_{i}-\bar(x)}{s_{x}}) \\ & \\ &= S_{yx}/S_yS_x \\ & \\ &=\frac{\sum_{i=1}^{n} (y_{i}-\bar(y)) (x_{i}-\bar(x))}{\sqrt{\sum_{i=1}^{n} (y_{i}-\bar(y))^2 (x_{i}-\bar(x))^2}} \end{align*} $$

相关系数，即标准化协方差，消除了量纲的影响，所以相关系数之间可以直接进行比较，刻画了线性相关关系的强弱与方向。

性质掌握

随机变量的和与差

如果X 和Y 是两个随机变量，那么X+Y 的期望与方差为: 期望：$E(X+Y)=E(X)+E(Y)$ 方差：$Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y)$

作为特例，如果X 和Y 相互独立，并且都服从正态分布，它们的和将服从均值为μ1+μ2、方差为σ1²+σ2² 的正态分布。

2. 如果X 和Y 是两个随机变量，那么X-Y 的期望与方差为：期望：$E(X-Y)=E(X)-E(Y)$ 方差：$Var(X-Y)=Var(X)+Var(Y)-2Cov(X,Y)$

作为特例，如果X 和Y 相互独立，并且都服从正态分布，它们的差将服从均值为μ1-μ2、方差为σ1²+σ2² 的正态分布。

3. 依此类推，如果 $T=X_1 +X_2 +...+X_s$ 是S 个独立随机变量的和，那么T 的期望与方差为: 期望：$E(T)=\sum_{i=1}^{S}E(X_{i})$ 方差：$Var(T)=\sum_{i=1}^{S}Var(X_{i})$

期望的简单代数运算性质

$$E(a+bX)=a+bE(X)$$

方差的简单代数运算性质

$$Var(a+bX)=b^2Var(X)$$

协方差的简单代数运算性质

$Cov(X,X)=Var(X)$
$Cov(X,Y)=Cov(Y,X)$
$Cov(C,Y)=0$，C 为任意常数
$Cov(X_{1}+X_{2},Y)=Cov(X_{1},Y)+Cov(X_{2},Y)$
$Cov(a+bX,c+dY)=bd[Cov(X,Y)]$

再次强调，对于方差和协方差，其变化只涉及测度，而不涉及位置。

6. $\rho (a+bX,c+dY)=\rho (X,Y)$

这个性质表明，无论是测度变化还是位置变化都不会影响相关系数。

下节引读

由于个体异质性的存在，我们不能利用样本对总体中的个体进行任何推断，但是，概括性的总体特征——参数是相对稳定的，总体参数可以通过总体中的一个样本构建样本统计量来进行估计。然而，样本提供的信息是有限的。那么，接下来的问题就在于如何依据样本信息来认识所研究的总体。统计推断在这里扮演着关键角色。所谓统计推断，就是通过样本统计量来推断未知的总体参数。

参考文章

[1]谢宇著.回归分析[M].北京：社会科学文献出版社.2010.

（yyyy-mm-dd@xx）