显然,其最简单的形式就是取原来变量指标的线性组合,适当调整组合系数,使新的变量指标之间相互独立并且最具有代表性。假设原来的变量为x1,x2,...,xp,它们的综合变量指标——新变量指标便z1,z2,...,zp,(m?p)。
?z1?l11x1?l12xx???l1pxp?z?lx?lx???lx?22112222pp ? (2)
????zm?lm1x1?lm2x2???lmpxp在(2)式中,系数lij由下面的性质来决定: 1)zi与zj(i?j;i,j=1,2,…,m)相互关,即
cov?Yi,Yj??liT?lj?0 ?i?j,i,j?1,2,???,k?,
2)z1是x1,x2,...,xp的所有线性组合中方差最大的;z2是和z1不相关的x1,x2,...,xp中所有线性组合中方差最大的; zm是和z1,z2,?zm?1都不相关的,x1,x2,?xp的线性组合之中方差最大的。这样定义的的新的变量指标z1,z2,?zm分别被称为原变量指标
x1,x2,?xp的第一,第二,…,第m个主成分。其中,z1在总的方差中占有的比例是最大的,z2,?zm的方差依次递减。在实际问题的分析中,常挑选前几个最大的主成分,这样既减少了变量的数目,又抓住了主要矛盾,简化了变量之间的关系。
在研究多指标时就轻易捉住主要矛盾,简化工作量,并且可以利用主成分的得分分别算出各研究对象的得分,进行排名比较,这样就比较客观、公道而全面
3.主成份计算步骤
(1)若各指标的属性不同(成本性、利润型、适度型),则将原始数据矩阵A统一趋势化,假设样本观测数据矩阵为:
?x11??x21X?????x?n1x12x22?xn2?x1p???x2p?
?????xnp?? 2
令 x?*ijxij?xj1n, (i?1,2,?,n;j?1,2,?,p),其中 xj??xij,
ni?1var(xj)1nvar(xj)?(xij?xj)2,(j?1,2,?,p)利用上述的公式可以得到属性一致的指?n?1i?1标矩阵B。
(2)计算B的协方差矩阵?,或相关系数矩阵R(当B的量纲不同或?矩阵主
?r11?r21对角元素差距过大时,用相关系数矩阵R),R???????rp1r12r22?rp2?r1p??r2p?? ?????rpp??为方便,假定原始数据标准化后仍用X表示,则经标准化处理后的数据的相关系数为:
1nrij?xtixtj(i,j?1,2,?,p) ?n?1t?1***(3)求R的特征根为?1?...??p?0,相应的特征向量为T1,T2,...TP;
**(4)根据特征值计算累计贡献率,确定主成分的个数,而特征向量V就是主成分的系数向量,对各种成分进行成分分析可以得到p个主成分,但是,由于每个主成分方差是递减的,所以包含的信息量亦是递减的,实际分析的时候时,一般无法选取p个主成分,而是依照每个主成贡献率之和的大小选取前k个主成分,这里所说的贡献率就是指某个主成分的方差与全部方差的比值,实际也就是某个特征值占全部特征值合计的比重。即
贡献率=
?i??i?1p
i主成分所包含的原始变量的信息是由贡献率来决定的,贡献率越大信息量越强。主成分的个数k的选取,主要是根据各个主成分的贡献率的累积之和来决定,即一般要求累计贡献率达到百分之八十五以上,只有这样才能保证综合变量能包括原始变量的大部分重要信息。
(5)主成分数值的计算(即主成分得分)参照标准化后的原始数据,按照每个样品,分用主成分表达式来计算,就可以得到各主成分下的各个样品的新数据,
3
即为主成分得分。具体形式可如下。
?F11??F21????F?n1F12F22?Fn2?F1k???F2k?
?????Fnk??*若利用协方差矩阵?计算特征值与特征向量,则主成分得分为
F??B?EB?V
若利用相关系数矩阵R计算特征值与特征向量,则主成分得分为:
F?B*V
其中,V是特征向量矩阵,B*是将矩阵B标准化以后的矩阵(即zscore?B?)。
(6)计算综合评价值,进行排序。若为有效型矩阵,则评价值越大排名越靠前;若为成本型矩阵,则评价值越小排名越靠前。
通常计算综合评价的公式为
Z?FW
其中F是主成分得分矩阵,W是将特征值归一化后得到的权向量。
与主成份分析相关的几个定理
定理1 若方差矩阵?的特征值?1??2??????k?0,则其单位正交向量为
e1,e2,???,ek,第p个主成分
Yp?ep1X1?ep2X2?????epkXk ?p?1,2???,k?
其中ep??ep1,ep2,???,epk?,且
T?var?Yp??eTp?ep??p?p?1,2,???,k?? ?T??cov?Yp,Yj??ep?ej?0?p?j,p,j?1,2,???,k?因此求X的的主成分就是求它的的协方差矩阵?的所有特征值及相应的正交单位化特征向量。按特征值由大到小所对应的正交单位化特征向量为组合系数的的第一、第二,直至第k个主成分,而各主成分的方差等于相应的特征值。
定理2 设Y??Y1,Y2,???,Yk?为总体X??X1,X2,???Xk?的主成分向量,则主成分
TTYi与变量Xj的相关系数
4
?YXij?i?eij ?i,j?1,2?,??k?, ?jj显然,Yi与Xj的相关系数反映了主成分Yi与原变量Xj的关联程度,它与Xj标准差成反比,与主成分的标准差成正比。
若记?XY??YiXj??p,则由代数学可以证明:
?XY??YiXj??p???diag??????1/2P?1/2
P是主成分矩阵,?其中??diag?????表示协方差矩阵的主对角线元素组成的对角矩阵,
是特征值对角矩阵。
4.实例分析
4.1数据选取及指标来源
基于上面所介绍的定力与计算步骤步骤我们对玻璃行业的8家上市公司某07年度的财务状况进行主成分分析。8家企业为耀皮玻璃x1 、福耀玻璃x2 、新华光x3、三峡新材x4、方兴x5、金晶科技x6、南玻集团x7和山东药玻x8。每个企业的财务状况采用七项指Xij?(xi1,xi2,?,xi7), Xij为第i个企业的第j项指标
(i?1,2,?,8;j?1,2,?,8),7项财务状况指标为成本费用利润率xi1资产负债率xi2存货
周转率xi3、应收账款周转率xi4、销售利润xi5、资本保值增值率xi6和总资产贡献率
xi7。这7项指标的数值可通过8家玻璃行业上市公司的年报计算得到,见表1。
表1 2007年度7项财务状况原始数据
成本费 用利用率 资产 负债率 50.42% 62.73% 57.01% 61.27% 66.25% 45.04% 存货 周转率 3.08% 2.78% 2.95% 4.14% 6.18% 5.42% 应收账 款周转率 13.18% 7.47% 4.58% 18.88% 5.36% 33.77% 销售 利润率 1.66% 18.62% 0.27% 0.96% 4.68% 17.93% 资本保 值增值率 1.08% 1.25% 1.02% 1.01% 1.27% 3.21% 总资产 贡献率 4.60% 14.93% 2.23% 3.47% 8.64% 11.98% 耀皮玻璃 6.07% 福耀玻璃 23.20% 新华光 1.29% 三峡新材 1.24% 方兴科技 5.41% 金品科技 23.54% 5

