协方差的计算公式推导过程

协方差的计算公式推导过程

协方差(Covariance)计算公式推导过程

协方差是衡量两个随机变量之间线性关系强度和方向的一个统计量。具体来说,它描述了当一个变量发生变化时,另一个变量会如何变化。如果两个变量的变化趋势一致(即一个增加时另一个也增加,或者一个减少时另一个也减少),则它们的协方差为正;如果变化趋势相反,则协方差为负;如果两者之间没有线性关系,则协方差接近于零。

一、定义与基本公式

设 $X$ 和 $Y$ 是两个随机变量,其样本分别为 ${x_1, x_2, \ldots, x_n}$ 和 ${y_1, y_2, \ldots, y_n}$。那么 $X$ 和 $Y$ 的协方差定义为:

[ \text{Cov}(X, Y) = E[(X - E[X])(Y - E[Y])] ]

其中,$E[X]$ 和 $E[Y]$ 分别表示 $X$ 和 $Y$ 的期望值(均值)。

二、期望值的性质

在推导之前,我们需要回顾一些期望值的性质:

  1. $E[aX + b] = aE[X] + b$ (线性变换性质)
  2. $E[XY] = E[X]E[Y]$ 当且仅当 $X$ 和 $Y$ 独立(注意这个性质在这里不直接用于推导,但有助于理解背景)

三、展开并简化公式

将协方差的定义式展开:

[ \begin{align*} \text{Cov}(X, Y) &= E[(X - E[X])(Y - E[Y])] \ &= E[XY - XE[Y] - YE[X] + E[X]E[Y]] \ &= E[XY] - E[XE[Y]] - E[YE[X]] + E[E[X]E[Y]] \ &= E[XY] - E[Y]E[X] - E[X]E[Y] + E[X]E[Y] \quad (\text{利用线性变换性质}) \ &= E[XY] - E[X]E[Y] \end{align*} ]

注意到 $E[E[X]E[Y]] = E[X]E[Y]$,因为 $E[X]$ 和 $E[Y]$ 都是常数。

四、样本协方差

在实际应用中,我们通常只有样本数据而不是总体的分布。因此,我们使用样本协方差来估计总体协方差。样本协方差公式为:

[ \text{Cov}{\text{sample}}(X, Y) = \frac{1}{n-1} \sum{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y}) ]

其中,$\bar{x}$ 和 $\bar{y}$ 分别是 $X$ 和 $Y$ 的样本均值。分母使用 $n-1$ 而不是 $n$ 是为了进行无偏估计(Bessel's correction)。

五、总结

通过上述步骤,我们得到了协方差的定义和计算公式:

[ \text{Cov}(X, Y) = E[XY] - E[X]E[Y] ]

以及对应的样本协方差公式:

[ \text{Cov}{\text{sample}}(X, Y) = \frac{1}{n-1} \sum{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y}) ]

这些公式为我们提供了量化两个随机变量之间线性关系的工具。