样本方差的计算公式推导

样本方差的计算公式推导

样本方差计算公式推导

在统计学中,样本方差用于衡量一组数据的离散程度。以下是样本方差计算公式的详细推导过程:

一、定义与符号说明

  • 样本数据:假设我们有一个包含 $n$ 个观测值的样本,记作 $x_1, x_2, \ldots, x_n$。
  • 样本均值:定义为 $\bar{x} = \frac{1}{n}\sum_{i=1}^{n}x_i$,即所有观测值的平均值。
  • 离差:每个观测值与样本均值的差,记作 $d_i = x_i - \bar{x}$。
  • 平方离差:离差的平方,记作 $(d_i)^2 = (x_i - \bar{x})^2$。
  • 样本方差:通常记为 $s^2$,是平方离差的平均值(但需要注意除以的是 $n-1$ 而非 $n$)。

二、公式推导步骤

  1. 计算离差: 首先,我们需要计算每个观测值与样本均值的差,即离差 $d_i = x_i - \bar{x}$。

  2. 计算平方离差: 接着,计算每个离差的平方,得到 $(d_i)^2 = (x_i - \bar{x})^2$。

  3. 求平方离差的和: 将所有平方离差相加,得到总和 $\sum_{i=1}^{n}(x_i - \bar{x})^2$。

  4. 计算样本方差: 样本方差的传统定义是平方离差的平均值,但需要特别注意,这里平均时除以的是 $n-1$ 而不是 $n$。这是因为在用样本来估计总体方差时,使用 $n-1$ 作为分母可以提供一个无偏的估计量(即样本方差期望值等于总体方差)。因此,样本方差 $s^2$ 的计算公式为: [ s^2 = \frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2 ]

  5. 理解分母 $n-1$: 为什么使用 $n-1$ 而不是 $n$?这涉及到统计中的“自由度”概念。简单来说,当我们计算样本均值 $\bar{x}$ 时,已经使用了 $n$ 个数据点中的一个信息(即它们的总和),因此在计算方差时只剩下 $n-1$ 个独立的数据点信息可用。这就是为什么在计算样本方差时要除以 $n-1$ 的原因。

  6. 总结: 综上所述,样本方差 $s^2$ 是通过计算每个观测值与样本均值的差的平方的平均值来得到的,但在计算这个平均值时需要除以 $n-1$ 以提供一个无偏的总体方差估计。

通过上述步骤,我们可以清晰地看到样本方差计算公式的来源及其背后的逻辑依据。