主成分总结 第1篇
向量降维可以通过投影的方式实现,xxx向量映射为M维向量转换为xxx向量在M个基向量的投影,如xxx向量
,M个基向量分别为
在基向量的投影:
通过上式完成了降维,降xxx的坐标为:
矩阵是由多个列向量组成的,因此矩阵降维思想与向量降维思想一样,只要求得矩阵在各基向量的投影即可,基向量可以理解为新的坐标系,投影就是降xxx的坐标,那么问题来了,如何选择基向量?
主成分总结 第2篇
我们在计算协方差矩阵
的特征向量前,需要对样本数据进行中心化,中心化的算法如下:
中心化数据各特征的平均值为0,计算过程如下:
对上式求平均:
中心化的目的是简化算法,我们重新回顾下协方差矩阵,以说明中心化的作用 。
,X表示共有n个样本数。
每个样本包含n个特征,即:
为了阅读方便,我们只考虑两个特征的协方差矩阵:
由(3)式推导(2)式得:
是样本数据的协方差矩阵,但是,切记必须事先对数据进行中心化处理 。
主成分总结 第3篇
我们知道怎么求解基向量,但是我们事先确定了基向量的个数,如上节的m个基向量,那么怎么根据样本数据自动的选择基向量的个数了?在回答这一问题前,简单阐述下特征向量和特征值的意义。
假设向量wi,λi分别为
的特征向量和特征值,表达式如下:
对应的图:
由上图可知,
没有改变特征向量wi的方向,只在wi的方向上伸缩或压缩了λi倍。特征值代表了
在该特征向量的信息分量。特征值越大,包含矩阵
的信息分量亦越大。因此,我们可以用λi去选择基向量个数。我们设定一个阈值threshold,该阈值表示降xxx的数据保留原始数据的信息量,假设降xxx的特征个数为m,降xxx的特征个数为n,m应满足下面条件:
因此,通过上式可以求得基向量的个数m,即取前m个最大特征值对应的基向量 。
投影的基向量:
投影的数据集: