典型相关分析(canonical correlation analysis)
一译“典范相关分析”。多元统计分析的一种。研究一组变量与另一组变量之间线性相关问题的多元统计方法。1936年霍特林基于主成分思想发展起来的。基本思想是,在第一组变量中找出一个变量的线性组合(综合变量),在第二组变量中也找出一个变量的线性组合(也是综合变量),使它们具有最大的相关。若这一对综合变量还不能反映两组变量之间的相关性,还可继续在每一组变量中找出第二个线性组合,使得在与第一个线性组合不相关的线性组合中具有最大的相关。继续下去,可以将两组变量之间的相关提取完毕。但希望只提取前面几对综合变量就足够反映两组变量之间的相关。设第一组变量为\(x_1,x_2,\cdots,x_p\),第二组数据为\(y_1,y_2,\cdots,y_q\),记\(u = \sum_{i=1}^{p} a_ix_i\),\(v = \sum_{i=1}^{q} b_iy_i\)。要在\(Var(u) = Var(v) = 1\)的约束条件下,寻求使\(u\)与\(v\)的相关系数\(\rho_{uv} = \frac{Cov(u,v)}{\sqrt{Var(u)Var(v)}} \)达到极大的\(a = {(a_1,a_2,\cdots,a_p)}'\)与\(b = {(b_1,b_2,\cdots,b_q)}'\),以此系数向量为加权系数的综合变量\(u\)与\(v\)称作第一对典型相关变量,其相关系数称为第一典型相关系数。还可寻求第二对系数向量,它们线性组合成的综合变量在与第一对典型相关变量不相关的线性组合中具有最大的相关。这对综合变量称为第二对典型相关变量,其相关系数称为第二典型相关系数。以此类推,若\(p < q\),一般可求得\(k(k \le p)\)对典型相关变量及相应的\(k\)个典型相关系数。设两组变量的样本为\(X = (x_{ij})_{n\times p}\)和\(Y = (y_{ij})_{n\times q}\),则计算步骤为:(1)求样本协方差矩阵\(S_{xx}\),\(S_{yy}\),\(S_{xy}\)和\(S_{yx} = {S_{xy}}'\)。其中;\(S_{yy}\)由\(S_{xx}\)类推。(2)求线性关联矩阵\(M_1 = S_{xx}^{-1}S_{xy}S_{yy}^{-1}S_{yx}\)或\(M_2 = S_{yy}^{-1}S_{yx}S_{xx}^{-1}S_{xy}\)的\(k\)个非零特征根(\(M_1\)与\(M_2\)有\(k\)个相同的非零特征根)和相应的特征向量,设\(M_1\)的特征根为\(\lambda_1^2 \ge \lambda_2^2 \ge \cdots \ge \lambda_k^2\),相应的特征向量为\(a_1^\ast ,a_2^\ast ,\cdots,a_k^\ast \),则特征根的算术根\(\lambda_1,\lambda_2,\cdots,\lambda_k\)即是第一,第二,···,第\(k\)个典型相关系数。(3)令\(c_i = a_1^\ast S_{xx}a_i^\ast, a_i = a_i^\ast/\sqrt{c_i}(i=1,2,\cdots,k)\),则\(a_1,a_2,\cdots,a_k\),就是第一,第二,···,第\(k\)对典型相关变量的\(x\)的系数向量。(4)令\(b_i = \frac{1}{\lambda_i}S_{yy}^{-1}S_{yx}a_i,(i=1,2,\cdots,k)\)则就是第一,第二,···,第\(k\)对典型相关变量的\(y\)的系数向量。当向量\(x\)和\(y\)的分量数\(p = 1\)或\(q = 1\),典型相关系数(只有一个)就是复相关系数;当\(p = q = 1\),就是简相关系数的绝对值。
没有要显示的评论
没有要显示的评论