R²(决定系数)是统计学中一个非常重要的评价指标,它衡量了模型对数据的拟合程度,即模型解释的变异性比例。本文将详细解析R²的计算公式,并探讨其在模型预测能力评估中的应用。

R²的定义

R²是衡量回归模型拟合优度的一个统计指标,其值介于0到1之间。R²越接近1,表示模型对数据的拟合度越好;R²越接近0,表示模型对数据的拟合度越差。

R²的计算公式

R²的计算公式如下:

\[ R^2 = 1 - \frac{SS_{res}}{SS_{tot}} \]

其中:

  • \( SS_{res} \) 是残差平方和(Sum of Squared Residuals),表示模型预测值与实际值之间的差异的平方和。
  • \( SS_{tot} \) 是总平方和(Total Sum of Squares),表示实际值与其平均值之间的差异的平方和。

残差平方和(\( SS_{res} \)

残差平方和的计算公式为:

\[ SS_{res} = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 \]

其中:

  • \( y_i \) 是实际观测值。
  • \( \hat{y}_i \) 是模型预测值。
  • \( n \) 是观测值的数量。

总平方和(\( SS_{tot} \)

总平方和的计算公式为:

\[ SS_{tot} = \sum_{i=1}^{n} (y_i - \bar{y})^2 \]

其中:

  • \( y_i \) 是实际观测值。
  • \( \bar{y} \) 是实际观测值的平均值。
  • \( n \) 是观测值的数量。

R²的应用

R²在多个领域都有广泛的应用,以下是一些常见的应用场景:

  • 机器学习:评估模型的预测能力,选择最优模型。
  • 统计学:分析数据拟合程度,判断模型是否有效。
  • 经济学:评估经济模型的预测能力。

例子

假设我们有一组观测数据,实际观测值和预测值如下表所示:

观测值 \( y_i \) 预测值 \( \hat{y}_i \)
1 2
2 3
3 4
4 5
5 6

根据上述数据,我们可以计算R²:

  1. 计算残差平方和(\( SS_{res} \)):

\[ SS_{res} = (1-2)^2 + (2-3)^2 + (3-4)^2 + (4-5)^2 + (5-6)^2 = 10 \]

  1. 计算总平方和(\( SS_{tot} \)):

\[ SS_{tot} = (1-3)^2 + (2-3)^2 + (3-3)^2 + (4-3)^2 + (5-3)^2 = 10 \]

  1. 计算R²:

\[ R^2 = 1 - \frac{SS_{res}}{SS_{tot}} = 1 - \frac{10}{10} = 0 \]

由于R²为0,说明模型对数据的拟合程度很差。

总结

R²是衡量模型预测能力的关键指标,通过计算残差平方和和总平方和,我们可以评估模型的拟合程度。在实际应用中,R²可以帮助我们选择最优模型,提高预测准确性。