剩余平方和(SSE)是回归分析中用于衡量模型拟合优度的重要指标。其核心思想是:总平方和(SST)可以分解为回归平方和(SSR)与残差平方和(SSE)两部分,即:
$$ SST = SSR + SSE $$
通过以下步骤可以验证剩余平方和:
一、明确各平方和的定义
-
总平方和(SST)
衡量因变量观测值与因变量均值之间的差异,计算公式为: $$ SST = \sum_{i=1}^n (y_i - \bar{y})^2 $$
其中,$y_i$ 是观测值,$\bar{y}$ 是因变量均值,$n$ 是样本量。
-
回归平方和(SSR)
衡量自变量对因变量变异的解释能力,计算公式为: $$ SSR = \sum_{i=1}^n (\hat{y}_i - \bar{y})^2 $$
其中,$\hat{y}_i$ 是回归模型的预测值,$\bar{y}$ 是因变量均值。
-
残差平方和(SSE)
衡量观测值与预测值之间的差异,即剩余平方和,计算公式为:
$$ SSE = \sum_{i=1}^n (y_i - \hat{y}_i)^2 $$也可表示为总平方和与回归平方和的差: $$ SSE = SST - SSR $$
二、验证步骤
-
计算总平方和(SST)
通过因变量观测值与均值的差异平方和计算,反映数据的总波动。
-
构建回归模型并计算SSR
使用最小二乘法拟合回归模型,得到预测值$\hat{y}_i$,再计算其均值$\bar{\hat{y}}$,最后求出平方和。
-
计算残差平方和(SSE)
通过观测值与预测值的差异平方和计算,反映模型未能解释的波动部分。
-
验证分解关系
检验是否满足:
$$ SST = SSR + SSE $$若等式成立,则说明剩余平方和的计算是正确的。
三、补充说明
-
拟合优度评估
通过判定系数($R^2$)评估模型拟合效果: $$ R^2 = \frac{SSR}{SST} $$
$R^2$ 越接近1,说明模型解释能力越强。
-
公式证明
总离差平方和(SST)可分解为回归平方和与误差平方和: $$ \sum_{i=1}^n (y_i - \bar{y})^2 = \sum_{i=1}^n (\hat{y}i - \bar{y})^2 + \sum{i=1}^n (y_i - \hat{y}_i)^2 $$
该公式是普通最小二乘法的基本原理之一。
通过上述步骤,可以系统地验证剩余平方和的计算准确性,并结合其他指标综合评估回归模型的性能。