三文读懂PCA和PCoA(三)

来源: 苏州金唯智生物科技有限公司   2018-4-19   访问量:5888评论(0)

-block; vertical-align: middle; color: inherit;">

2
计算离差矩阵S

公式:

3
求S矩阵的特征根

公式:

可解得N个特征根,依其大小可排成λ1λ1≥…≥λN。在这些特征根里,肯定至少有一个根是0,因为N个点最多可排列在N-1维的空间中。

4
求特征根对应的特征向量

公式:

与PCA一样,k个特征根就得到了k个特征向量,然后将特征向量从左到右排列,就构成新的矩阵。λK代表第k个特征根;UK代表第k个特征根相对应的特征向量,k= 1,2,…, N可以用与PCA相同的方法解得N个特征向量。

5
求样本坐标

公式:

这里yjk表示样方j在第k个排序轴上的坐标值;Ukj表示第k个特征根λk所求对应的第k个特征向量中的第j个值。这样,我们可以求得前k个主要排序轴,其保留信息量同样可以表示成:

到这里,所有PCA和PCoA的介绍就结束了。非常感谢各位读者对三篇文章的理解和支持,更要感谢张金屯及其编著的《数量生态学》。为方便各位读者的理解,文中的一些描述并未采用专业术语,因此有不到之处请各位读者海涵。

PCA和PCoA的分析是比较常见,也是应用比较广泛的排序分析,但是排序分析并非只有这两种,还有很多很多更加精准的、完善的排序模式,因此希望各位读者不要止步于此,还需进行广泛涉猎。当然我们可以相互学习,相互交流,共同进步。前路漫漫,与君共勉!

,

通过前面的学习,我们对PCA(主成分分析)和PCoA(主坐标分析)有了一个基本的认识,同时也对PCA和PCoA的选用也做到了心中有数。

不了解的同学们可点击下方链接进行回顾。

三文读懂PCA和PCoA(一)

三文读懂PCA和PCoA(二)

本篇就重点介绍一下PCA和PCoA背后的算法公式,毕竟在没有计算机的“新石器时代”,PCA和PCoA的分析都是靠手和笔一步一步演算而来的。这样,我们PCA和PCoA的解析就较为圆满了。

在进入正题之前,首先要感谢张金屯老师以及其编著的《数量生态学》,因为下面介绍的算法和公式主要来源于这本书,要是看了这篇文章还不太了解的同学可以翻阅第九章《排序》。

PCA的计算原理


1
数据标准化

最常用的标准化是中心化和离差标准化,以中心化为例。

一般采用种的中心化(即多少个种就有多少个维度),非常简单的理解:我们在得到种和样方的数据矩阵之后,用矩阵中的所有数减去种的平均数或样方的平均数,即是中心化的数据。

那么离差标准化是怎么回事呢?公式如下:(X-Xmin)/(Xmax-Xmin),X是矩阵中的数值,Xmax是最大值,Xmin是最大值。

这样得到一个新的矩阵X。这一步的理解其实非常简单,就是将我们所获得的数据进行简化,将复杂的数据变为简单理解的数据形式。

2
计算内积矩阵S

公式:

矩阵XT是矩阵X的转置矩阵,矩阵S实际上是相似系数矩阵(这个时候就容易理解定义中的“相似系数”了)。这里需要注意的是,如果采用种的中心化数据,那么有p个物种其内积矩阵S就是p*p的方阵。

定义中我们提到,“使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上”,此时我们可以简单的理解为这一步实则求的是方差。

3
求内积矩阵的特征根

公式:

这样p个物种就可以解得p个特征根,并依大小排列λ1λ2≥…≥λp

有的时候你会发现,有的特征根数值是一样的,所以p个物种最多构成p维空间上(如果仅有2个特征根一样,那就是p-1维空间)。

那么为什么要求特征根呢?一方面因为要求特征向量;另一方面,我们还要紧跟随定义。“第一大方差”和“第二大方差”中的“第一大”和“第二大”可以简单的理解为是根据特征根选择的。

4
求特征向量

同样根据S矩阵的特征方程,第i个特征根和第i个特征向量有如下关系:

这样我们可以求得第i个特征根对应的特征向量Ui,也就是上图红框标注的部分(就这么一列)。如果有p个物种,就可以得到p个特征根,也就得到了p个特征向量,然后将特征向量从左到右排列,就构成矩阵U。

那么我们为什么要求特征向量呢?其实通过公式我们可以发现,得到的新的坐标矩阵其实是原来的矩阵在特征向量的基础上变换的。我们说多维空间的数据无法在一张纸上画出来,但是是可以用矩阵来表示,因此我们得到了原始矩阵X。

在线性空间中,矩阵在一系列的规则下是可以变换的,这些规则当然也可以用矩阵表示。虽然矩阵经过了变换,但是其本身所代表的本质并未改变。比如说2个点,它们之间的距离是5,所以你无论怎么改变坐标系,它们之间的距离还是5,这个本质是不变的,变的只是点的坐标。再比如我们给一只猪拍照,我们可以从正面、侧面、上面去拍摄一只猪,得到的形态肯定是不一样的,但是猪的体重、身长这些参数并没有发生改变。所以,原始矩阵X在一个变换规则的作用下,成为了一个新的矩阵Y,其本质(样本与样本的距离)在理论上是没有改变的。

特征向量就可作为这种规则对矩阵进行变换,就好比A点和B点的距离是5,你把它投射到一维坐标系上的距离是4,所依据的规则就是勾股定理,道理是一样的。

5
求排序坐标矩阵

公式:

这样我们就得出了所有样本p个维度(p个物种)的坐标。一般选取2-3个主要维度以便于图形的展示。每一个维度所包含的信息可以用特征根所占特征根之和的百分数表示。

PCoA的计算原理


1
样本间距离计算

可以使用不同的距离系数公式计算样方间的距离系数,构成N×N 距离矩阵D

苏州金唯智生物科技有限公司   商家主页

地址:中国苏州工业园区星湖街218号纳米科技园C3楼
联系人:金唯智
电话:400-8100-669—6406
传真:0512-62629530
Email:Enews.China@genewiz.com.cn