R²(决定系数)是统计学中一个非常重要的评价指标,它衡量了模型对数据的拟合程度,即模型解释的变异性比例。本文将详细解析R²的计算公式,并探讨其在模型预测能力评估中的应用。
R²的定义
R²是衡量回归模型拟合优度的一个统计指标,其值介于0到1之间。R²越接近1,表示模型对数据的拟合度越好;R²越接近0,表示模型对数据的拟合度越差。
R²的计算公式
R²的计算公式如下:
\[ R^2 = 1 - \frac{SS_{res}}{SS_{tot}} \]
其中:
- \( SS_{res} \) 是残差平方和(Sum of Squared Residuals),表示模型预测值与实际值之间的差异的平方和。
- \( SS_{tot} \) 是总平方和(Total Sum of Squares),表示实际值与其平均值之间的差异的平方和。
残差平方和(\( SS_{res} \))
残差平方和的计算公式为:
\[ SS_{res} = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 \]
其中:
- \( y_i \) 是实际观测值。
- \( \hat{y}_i \) 是模型预测值。
- \( n \) 是观测值的数量。
总平方和(\( SS_{tot} \))
总平方和的计算公式为:
\[ SS_{tot} = \sum_{i=1}^{n} (y_i - \bar{y})^2 \]
其中:
- \( y_i \) 是实际观测值。
- \( \bar{y} \) 是实际观测值的平均值。
- \( n \) 是观测值的数量。
R²的应用
R²在多个领域都有广泛的应用,以下是一些常见的应用场景:
- 机器学习:评估模型的预测能力,选择最优模型。
- 统计学:分析数据拟合程度,判断模型是否有效。
- 经济学:评估经济模型的预测能力。
例子
假设我们有一组观测数据,实际观测值和预测值如下表所示:
| 观测值 \( y_i \) | 预测值 \( \hat{y}_i \) |
|---|---|
| 1 | 2 |
| 2 | 3 |
| 3 | 4 |
| 4 | 5 |
| 5 | 6 |
根据上述数据,我们可以计算R²:
- 计算残差平方和(\( SS_{res} \)):
\[ SS_{res} = (1-2)^2 + (2-3)^2 + (3-4)^2 + (4-5)^2 + (5-6)^2 = 10 \]
- 计算总平方和(\( SS_{tot} \)):
\[ SS_{tot} = (1-3)^2 + (2-3)^2 + (3-3)^2 + (4-3)^2 + (5-3)^2 = 10 \]
- 计算R²:
\[ R^2 = 1 - \frac{SS_{res}}{SS_{tot}} = 1 - \frac{10}{10} = 0 \]
由于R²为0,说明模型对数据的拟合程度很差。
总结
R²是衡量模型预测能力的关键指标,通过计算残差平方和和总平方和,我们可以评估模型的拟合程度。在实际应用中,R²可以帮助我们选择最优模型,提高预测准确性。
