![Python大数据分析算法与实例](https://wfqqreader-1252317822.image.myqcloud.com/cover/229/44510229/b_44510229.jpg)
上QQ阅读APP看书,第一时间看更新
Python大数据分析算法与实例
2.4.3 数据主成分的导出
根据主成分分析的数学模型的定义,要进行主成分分析,就需要根据原始数据以及模型的3个条件的要求,求出主成分系数,以便得到主成分模型。这就是导出主成分所要解决的问题。
(1)根据2.4.1节中主成分数学模型的条件①要求主成分之间互不相关,主成分之间的协差阵应该是一个对角阵。即,对于主成分:
![](https://epubservercos.yuewen.com/A5FE11/23721622801011806/epubprivate/OEBPS/Images/Figure-P41_48886.jpg?sign=1738841586-OEJYDaZUUB7QEAUr0kZhZFSU5B1AUcEL-0-d45da16a0f2f9a50eb63cf5713167aa5)
其协差阵应为:
Var(F)=Var(AX)=(AX)·(AX)'=AXX'A'
![](https://epubservercos.yuewen.com/A5FE11/23721622801011806/epubprivate/OEBPS/Images/Figure-P42_48892.jpg?sign=1738841586-lFwbd8RCqOwgKYjkl6OkfC7Plf344YO5-0-c5e921bb9d47a995b5ebf7fca9ebce35)
(2)设原始数据的协方差阵为V,若原始数据进行了标准化处理,则协方差阵等于相关矩阵,即有:
![](https://epubservercos.yuewen.com/A5FE11/23721622801011806/epubprivate/OEBPS/Images/Figure-P42_48894.jpg?sign=1738841586-gKV9N33TK4zGk94ujLSRN758GAVMD6yR-0-3d5bb42de2b5cf6a62791a518117e909)
(3)再由2.4.1节中主成分数学模型条件③和正交矩阵的性质,若能够满足条件③,则最好要求A为正交矩阵,即满足:
![](https://epubservercos.yuewen.com/A5FE11/23721622801011806/epubprivate/OEBPS/Images/Figure-P42_48896.jpg?sign=1738841586-bcWq2QM0LVlRZ4QE6H0IkMxVvgajdwpG-0-dd4a0a258ccd66970381b094ea03ff61)
于是,将原始数据的协方差代入主成分的协差阵公式得:
Var(F)=AXX'A'=ARA'=Λ
![](https://epubservercos.yuewen.com/A5FE11/23721622801011806/epubprivate/OEBPS/Images/Figure-P42_48897.jpg?sign=1738841586-pPQiik0N3syfr2ObjyUk9RjvlIgOdfsT-0-6432429e3aaec649563e63480b17328a)
展开上式得:
![](https://epubservercos.yuewen.com/A5FE11/23721622801011806/epubprivate/OEBPS/Images/Figure-P42_48900.jpg?sign=1738841586-PZ38GMXaOV389cLnvanoLfUPcDFY8IiX-0-33650d63bdf2ad313f0e93050de0b228)
展开等式两边,根据矩阵相等的性质,这里只根据第一列得出的方程为:
![](https://epubservercos.yuewen.com/A5FE11/23721622801011806/epubprivate/OEBPS/Images/Figure-P42_48902.jpg?sign=1738841586-w9EH5G7yUyT4sNc2qlHDibQ4e3awyzkr-0-2baab83d2faeec03f742498d98090780)
为了得到该齐次方程的解,要求其系数矩阵行列式为0,即:
![](https://epubservercos.yuewen.com/A5FE11/23721622801011806/epubprivate/OEBPS/Images/Figure-P43_48903.jpg?sign=1738841586-qVkQqjERoBi0nz30Bzh05nQ5zWYSJ0zm-0-55011f6d91e680dc20ea9250ab78ed8e)
![](https://epubservercos.yuewen.com/A5FE11/23721622801011806/epubprivate/OEBPS/Images/Figure-P43_48907.jpg?sign=1738841586-RItMVDINBIQ7wVeM7xNhWW1rezO7XqTe-0-5a98533a7163af6aa01a4be39346dbce)
显然,λ1是相关系数矩阵的特征值,是相应的特征向量。根据第二列、第三列等可以得到类似的方程,于是λi是特征方程
的特征根,aj是其特征向量的分量。