目录

回归分析系列1-统计概念基础

尽管定量研究的结论建立在一定假设条件上,不一定具有普遍意义,但定量研究方法却是研究社会现象不可缺少的工具。
这是因为,如果没有这种方法,我们就无法很好地捕捉和表述研究对象的变异性

本节综述

本章着重介绍一些最基本的统计概念,比如总体、样本、随机变量、概率、期望、方差、标准差、协方差和相关系数等。这些概念着似简单,但却是线性回归方法的基础。只有真正熟练掌握并理解这些概念,才能在后面的学习中游刃有余。

概念掌握

期望与条件期望

  1. 期望 离散型: $E(X)=\sum_{i=1}^{n}x_{i}P(x_{i})$
    连续型: $E(X)=\int_{-\infty }^{+\infty}xf(x)dx$

期望其实与均值类似,是个平均数,但两者之间的区别在于均值是根据某一变量的一系列已知取值求得的,因此,均值往往被特定地用来指称样本的一个特征,而期望代表的是整个总体的平均数、一个未知的总体参数,因此,它只是一个理论值。

2. 条件期望 离散型:$E(Y|X=x_{i})=\sum_{i=1}^{n}y_{i}p(Y=y_{i}|X=x_{i})$ 连续型:$E(Y|X)=\int yf_{Y|X}(y|x)dy$

条件期望有以下性质:
2.1 若 X 与 Y 相互独立,则 $E(Y|X)=E(Y)$
2.2 若 $k_{1}$,$k_{2}$ 为常数,则 $E[(k_{1}Y_{1}+k_{2}Y_{2})|X]=k_{1}E(Y_{1}|X)+k_{2}E(Y_{2}|X)$
2.3 全期望公式/迭代期望法则 $E(Y)=E_{x}[E(Y|X)]$

总体方差与样本方差

  1. 总体方差

$$ \begin{align*} Var(X)&=\sum_{i=1}^{n}[x_{i}-E(X)]^{2}P(x_{i}) \ & \ &=E[X-E(X)]^{2} \
& \ &=E(X^{2})-[E(X)]^{2} \end{align*} $$

  1. 样本方差

$$ S^{2}=\frac{1}{n-1}\sum_{i=1}^{n}(x_{i}-\bar{X})^{2} $$

总体标准差、样本标准差与标准误

总体标准差:$\sigma (X)=\sqrt{Var(X)}$ 样本标准差:$S=\sqrt{S^{2}}$ 标准误:$S.E.=\sigma /\sqrt{n}$

![1_2 三种分布.PNG](https://blog-1255524710.cos.ap-beijing.myqcloud.com/images/1_2 三种分布.PNG)

标准化随机变量

$$z=\frac{X-E(X)}{\sigma (X)}$$ 在多元线性回归中,由于不同自变量的测量单位通常并不一致,因而得到的回归系数通常也不能直接进行相对大小的比较。但如果我们对随机变量进行标准化,消除了变量各自测量单位的影响,得到的标准化回归系数之间就能够进行比较了。标准化经常被用来解决由于变量测量单位不同而导致的结果不可比的问题。

标准化以后的新变量变成了一个均值为0 、方差为1 的变量。

协方差与相关系数

  1. 总体协方差 协方差用于测量两个随机变量之间的线性关系。注意,这里强调了 线性 这个词。 $$ \begin{align*} Cov(X,Y)&=\sum_{i}\sum_{j}[x_{i}-E(X)][y_{i}-E(Y)]P(x_{i},y_{i}) \ & \ &=E\left {[X-E(X)][Y-E(Y)] \right } \ & \ &=E(XY)-E(X)E(Y) \end{align*} $$

其实,方差是协方差的一个特例,也就是说,X 的方差就是X 与其自身的协方差。

2. 总体相关系数 $$ \rho (X,Y)=\frac{Cov(X,Y)}{\sigma (X)\sigma (Y)} $$ 3. 样本协方差 $$ S_{yx}=\frac{\sum_{i=1}^{n}(x_{i}-\bar{x})(y_{i}-\bar{y})}{n-1} $$ 4. 样本相关系数 $$ \begin{align*} S_{yx}&=\frac{\sum_{i=1}^{n}(x_{i}-\bar{x})(y_{i}-\bar{y})}{n-1} \\ & \\ &\xrightarrow[standardized]{z_{i}=\frac{y_{i}-\bar{y}}{S_{y}}} \\ & \\ r_{yx}&=\frac{1}{n-1}\sum_{i=1}^{n} (\frac{y_{i}-\bar(y)}{s_{y}}) (\frac{x_{i}-\bar(x)}{s_{x}}) \\ & \\ &= S_{yx}/S_yS_x \\ & \\ &=\frac{\sum_{i=1}^{n} (y_{i}-\bar(y)) (x_{i}-\bar(x))}{\sqrt{\sum_{i=1}^{n} (y_{i}-\bar(y))^2 (x_{i}-\bar(x))^2}} \end{align*} $$

相关系数,即标准化协方差,消除了量纲的影响,所以相关系数之间可以直接进行比较,刻画了线性相关关系的强弱与方向。

性质掌握

随机变量的和与差

  1. 如果X 和Y 是两个随机变量,那么X+Y 的期望与方差为: 期望:$E(X+Y)=E(X)+E(Y)$ 方差:$Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y)$

作为特例,如果X 和Y 相互独立,并且都服从正态分布,它们的和将服从均值为μ1+μ2、方差为σ1²+σ2² 的正态分布。

2. 如果X 和Y 是两个随机变量,那么X-Y 的期望与方差为: 期望:$E(X-Y)=E(X)-E(Y)$ 方差:$Var(X-Y)=Var(X)+Var(Y)-2Cov(X,Y)$

作为特例,如果X 和Y 相互独立,并且都服从正态分布,它们的差将服从均值为μ1-μ2、方差为σ1²+σ2² 的正态分布。

3. 依此类推,如果 $T=X_1 +X_2 +...+X_s$ 是S 个独立随机变量的和,那么T 的期望与方差为: 期望:$E(T)=\sum_{i=1}^{S}E(X_{i})$ 方差:$Var(T)=\sum_{i=1}^{S}Var(X_{i})$

期望的简单代数运算性质

$$E(a+bX)=a+bE(X)$$

方差的简单代数运算性质

$$Var(a+bX)=b^2Var(X)$$

协方差的简单代数运算性质

  1. $Cov(X,X)=Var(X)$
  2. $Cov(X,Y)=Cov(Y,X)$
  3. $Cov(C,Y)=0$,C 为任意常数
  4. $Cov(X_{1}+X_{2},Y)=Cov(X_{1},Y)+Cov(X_{2},Y)$
  5. $Cov(a+bX,c+dY)=bd[Cov(X,Y)]$

再次强调,对于方差和协方差,其变化只涉及测度,而不涉及位置。

6. $\rho (a+bX,c+dY)=\rho (X,Y)$

这个性质表明,无论是测度变化还是位置变化都不会影响相关系数。

下节引读

由于个体异质性的存在,我们不能利用样本对总体中的个体进行任何推断,但是,概括性的总体特征——参数是相对稳定的,总体参数可以通过总体中的一个样本构建样本统计量来进行估计。 然而,样本提供的信息是有限的。那么,接下来的问题就在于如何依据样本信息来认识所研究的总体。统计推断在这里扮演着关键角色。所谓统计推断,就是通过样本统计量来推断未知的总体参数。

参考文章

[1]谢宇著.回归分析[M].北京:社会科学文献出版社.2010.

(yyyy-mm-dd@xx)