协方差的计算公式推导过程-问答三三

协方差的计算公式推导过程

协方差（Covariance）计算公式推导过程

协方差是衡量两个随机变量之间线性关系强度和方向的一个统计量。具体来说，它描述了当一个变量发生变化时，另一个变量会如何变化。如果两个变量的变化趋势一致（即一个增加时另一个也增加，或者一个减少时另一个也减少），则它们的协方差为正；如果变化趋势相反，则协方差为负；如果两者之间没有线性关系，则协方差接近于零。

一、定义与基本公式

设 $X$ 和 $Y$ 是两个随机变量，其样本分别为 ${x_1, x_2, \ldots, x_n}$ 和 ${y_1, y_2, \ldots, y_n}$。那么 $X$ 和 $Y$ 的协方差定义为：

[ \text{Cov}(X, Y) = E[(X - E[X])(Y - E[Y])] ]

其中，$E[X]$ 和 $E[Y]$ 分别表示 $X$ 和 $Y$ 的期望值（均值）。

二、期望值的性质

在推导之前，我们需要回顾一些期望值的性质：

$E[aX + b] = aE[X] + b$ （线性变换性质）
$E[XY] = E[X]E[Y]$ 当且仅当 $X$ 和 $Y$ 独立（注意这个性质在这里不直接用于推导，但有助于理解背景）

三、展开并简化公式

将协方差的定义式展开：

[ \begin{align*} \text{Cov}(X, Y) &= E[(X - E[X])(Y - E[Y])] \ &= E[XY - XE[Y] - YE[X] + E[X]E[Y]] \ &= E[XY] - E[XE[Y]] - E[YE[X]] + E[E[X]E[Y]] \ &= E[XY] - E[Y]E[X] - E[X]E[Y] + E[X]E[Y] \quad (\text{利用线性变换性质}) \ &= E[XY] - E[X]E[Y] \end{align*} ]

注意到 $E[E[X]E[Y]] = E[X]E[Y]$，因为 $E[X]$ 和 $E[Y]$ 都是常数。

四、样本协方差

在实际应用中，我们通常只有样本数据而不是总体的分布。因此，我们使用样本协方差来估计总体协方差。样本协方差公式为：

[ \text{Cov}{\text{sample}}(X, Y) = \frac{1}{n-1} \sum{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y}) ]

其中，$\bar{x}$ 和 $\bar{y}$ 分别是 $X$ 和 $Y$ 的样本均值。分母使用 $n-1$ 而不是 $n$ 是为了进行无偏估计（Bessel's correction）。

五、总结

通过上述步骤，我们得到了协方差的定义和计算公式：

[ \text{Cov}(X, Y) = E[XY] - E[X]E[Y] ]

以及对应的样本协方差公式：