主成分分析(PCA)中主成分权重的计算通常涉及以下步骤和公式:
一、主成分分析的基本步骤
-
数据标准化
将原始数据标准化为均值为0、标准差为1的分布,公式为:
$$z_{ij} = \frac{x_{ij} - \mu_j}{\sigma_j}$$其中,$x_{ij}$为原始数据,$\mu_j$为第j个特征的均值,$\sigma_j$为第j个特征的标准差。
-
计算协方差矩阵
标准化后数据计算协方差矩阵$\Sigma$,公式为:
$$\Sigma_{ij} = \frac{1}{n-1} \sum_{k=1}^n z_{ik} z_{jk}$$其中,$n$为样本数量。
-
特征值分解
对协方差矩阵进行特征值分解,得到特征值$\lambda_i$和对应的特征向量$v_i$,公式为:
$$\Sigma v_i = \lambda_i v_i$$特征值表示各主成分的方差大小,特征向量表示主成分方向。
-
选择主成分
根据特征值大小选择主成分,通常保留累计方差贡献率较高的主成分(如90%以上)。
二、主成分权重的计算公式
主成分的权重通常由载荷系数决定,计算公式为: $$w_i = \frac{a_{ij}}{\sqrt{\lambda_j}}$$
其中,
-
$a_{ij}$为第i个原始变量在第j个主成分上的载荷系数(即标准化后协方差矩阵的特征向量元素);
-
$\lambda_j$为第j个主成分的特征值。 归一化处理 :
若需将权重归一化至总和为1,可使用以下公式:
$$w_i' = \frac{w_i}{\sum_{k=1}^K w_k}$$
其中,$K$为保留的主成分数量。
三、示例说明
假设有3个原始变量,经过PCA分析后得到2个主成分,载荷系数矩阵为:
$$A = \begin{bmatrix} 0.8 & 0.2 \ 0.4 & 0.6 \end{bmatrix}$$
特征值为$\lambda_1 = 2.0$,$\lambda_2 = 1.0$。则第1个主成分的权重为: $$w_1 = \frac{0.8}{\sqrt{2.0}} = 0.5657$$
第2个主成分的权重为: $$w_2 = \frac{0.2}{\sqrt{1.0}} = 0.2$$
通过上述步骤,主成分的权重反映了各原始变量对主成分的贡献程度,可用于后续的综合评价或降维分析。