PLSR的扩展性质
PLS回归算法可以分为两类,PLSR1和PLSR2,分别对应一个或者多个相应变量,本文为了简单起见,只讨论PLSR1这种情况。
下面主要讨论一下PLS1的系数计算和推导性质
1.基本性质
在前面偏最小二乘法 基本性质推导已经介绍了基本的性质,这里不再赘述,这里,根据PLS1的特点,重新定义一下基本公式
参照传统,公式中的下标做了调整,跟常见的文献和参考书中的下标表示一致
当响应变量为一个向量的时候,可以看到,而已经退化成标量,假如做归一化的,则恒为1
2 PLSR系数计算
2.1 基于得分矩阵的回归系数
求得系数r后,新的样本可以通过计算其得分,乘以回归系数r,得到预测值。这个方法是T关于F的最小二乘估计,在模型的解释上不是很理想,因此,在实际中,用的似乎比较少,至少我很少看到。
2.2 基于X的回归系数
在多数的情况下面,建模一般都想建立X关于Y的回归模型
考虑到计算需要,系数B可以推导出不同的形式。在PLSR1中,系数只是一个向量,不是数组
权值向量z可以看作w的变异版本,通过z,得分可以直接从原始的数据X数据直接得到,不需要再经过残差矩阵。从上述中,z的表达公式可以看出,Z的最小二乘解为
下面介绍一下Z的其他表达形式,首先看一下之间的关系
,a 表示潜在变量的数量。
由Z的表达公式可以知道,Z所span的空间和W所span的空间是一样,可以由同一组基构成。
因此,Z可以表达为,G是待确定的矩阵,由此可以得到
最后则有
类似地还可以得到
推导这么多公式地意义在于计算的需要,为了修改原先的算法,首先弄明白算法的原理,然后寻求尽量简单直观的表达公式,保证运算的准确性。如上述的两个关于b的公式,显然第一个要简洁多,但也需要看到,第二个公式只有一个未知的变量
另外,再想想最小二乘法的表达式,上述b的公式2很值得回味,看似杂乱中,体现出一些美感
3 PLSR的其他性质
性质一
由于 得到 是各列的一个线性组合,所以,其在的投影即为自身
性质二
性质三
是得分关于残差矩阵的最小二乘系数,本身并不存在正交,但是在空间内,或者说关于共轭正交。
性质四
性质五
PLSR的系数求解是首先求y关于T的系数,因此y首先投影到T空间中,求得投影,再得到回归系数
利用性质四,将上述公式进行化简得到
性质六
很容易理解,X的残差矩阵就是提取与T所span的空间正交的部分。也可以换一个角度去看,用P的角度,由于P并非正交,所以并不能表示成上述那样的形式,但是我们也提到过,P是关于M共轭正交的,因此,采用一种斜投影的形式去表示P与残差En的关系。
由于,且有为对角阵,综上得到
小结一下,残差矩阵可以表达为如下这两种形式,在结果是等价的,几何意义上的区别是,前者是通过列空间,后者是通过行空间。所有才有左乘和右乘的区别。
PLSR的计算非常之多,虽然万变不离其宗,但是算法之间并不完全等价,有兴趣可以参考论文 A comparison of nine PLS1 algorithms。按文献描述,最稳定者还是最传统的NIPALS算法。
PLSR本质上是一种对原数据空间一种低秩逼近的方法,像共轭梯度法,按照一定的准则,每次确定一个求解方向,在残差基础上,不断做正交或者共轭正交的分解,用低维的空间逼近原先的空间。这种空间降维的方式可以克服纬度灾难,使得解更加稳定可靠。得到低维空间也可以表达为Krylov空间,以后再谈谈PLSR和共轭梯度,krylov空间三者之间的关系
小天安全s0k1y: 帮到大忙了
billy145533: 简单的做法是插入空白行, \hspace*{\fill}
m0_71801539: 我找了很久,都没有说这个的,后面发现只要用\vpace命令调整行距就行了
m0_71801539: 就是他的文本盒子在ppt上的位置,如果只有一个文本框的话,那它默认居中,但是我想把他调在PPT的上面一点,
billy145533: 指的是什么位置?