东 北 大 学 秦 皇 岛 分 校
学 号
课程名称: 多元统计分析 试卷类型: A答案 考试形式:闭卷
。 (X1,X2)?和X3独立(填独立或不独立)6. 变量的类型按尺度划分有间隔尺度 、有序尺度 、名义尺度 。
授课专业: 信科、应数、统计 考试日期: 2013年7月9日 试卷:共 3 页 二、判断题(每小题3分,共15分)
1. [×] 因子载荷矩阵A是对称阵。
班 级
姓 名
装 订 装 线 订 线 内 不 要 答 题 题号 一 二 三 四 总分 得分 阅卷人 一、填空题:(每空2分,共32分)
?4?41. 设随机向量X?(X?3?49?2?1,X2,X3)?,且其协方差阵为?????,则它的相关
??3?216????1?23??38??矩阵R??2??1?1?36?? 。
???3?1?861???2. 系统聚类分析的方法很多,其中的五种分别为最长距离法、最短距离法、重心法、类平均法、离差平方和法。 3. 若X(?)~Np(μ,?),(??1,2,n)且相互独立,样本均值向量为X,样本离差阵为
nL??(XX)(X)?, 则X~ N1(?)?(?)?Xp(?,n?),L~Wp(n?1,?) 。
??14. 因子分析可以分为确定因子载荷、因子旋转、计算因子得分三个步骤。
?4105. 设三维随机向量X~N???3(?,?),其中???130?,则X1与X2不独立 ;
??002??2. [×] 方差分析是检验多个正态总体的方差或协方差阵是否相等的统计分析方法。 3. [√] 聚类分析中快速聚类法指的就是k-均值法。 4. [√] 判别分析中,“留一个观测在外”的原则是指在交叉验证时,某个观测不参与估计判别
函数,但要根据除这个观测以外的其他观测估计的判别函数来预测该观测的所属类,从而使这个观测得到验证。
5. [√] 样本协方差阵??1n?n?1?(X(?)?X)(X(?)?X)?是总体协方差阵?的无偏估计。 ??1三、解答题(共35分)
1. 为了研究7种植物A、B、C、D、E、F、G的分布规律,根据资料做类型划分。已知各植物两两间距离矩阵如下:
ABCDEFGA??0?B?110? D =
C?220??D?12?1324190??
E?23560?F?10?15201816310??G??1421178340??试用系统聚类法(类与类采用最短距离法)进行聚类分析:(1)写出从7类最后聚成1类的详细过程(10分);(2)画出系统聚类图(5分)。
?ABCDEFG???A0??110??解:样品与样品之间的明氏距离为:?BD12220?(0)??C???D1324190? ?E1023560????F15201816310???G1421178340???- 1 -
学 号
班 级
姓 名
装 订 装 线 订 线 内 不 要 答 题 样品最短距离是3,故把E与G合并为一新类?E,G?。重新计算类与类之间距离(最??ABCDF?E,G???A0??短距离法),得: ?110?D?B(1)??C12220? ???D1324190??F152018160?????E,G?10215640??类与类的最短距离是4,故把F与?E,G?合并为一类?E,F,G?。重新计算类与类之间距离(最短距离法),得:
??ABCD?E,F,G???A0??D110?(2)???B?C12220? ???D1324190?????E,F,G?1020560??类与类的最短距离是5,故把C与?E,F,G?合并为一新类?C,E,F,G?。重新计算类与类间距离(最短距离法),得:
??ABD?C,E,F,G???A0??D(3)???B110? ?D13240?????C,E,F,G?102060??类与类的最短距离是6,故把D与?C,E,F,G?合并为一新类?C,D,E,F,G?。 重新计算类与类之间距离(最短距离法),得:
??AB?C,D,E,F,G???D??A0(4)???B110? ???C,D,E,F,G?10200???类与类的最短距离是10,故把A与?C,D,E,F,G?合并为一新类?A,C,D,E,F,G? 重新计算类与类之间距离(最短距离法),得:
??A,C,D,E,F,G??D(5)??B?B0???
??A,C,D,E,F,G?110??最后聚成一类?A,B,C,D,E,F,G?聚合完毕。(以上每步2分,共5×2=10分) 谱系聚类图:
??1????2. X?(X?1???1,X2,X3,X4)?~N4(0,?),????????1??,0???1 ????1??(1) 试从Σ出发求X的第一总体主成分;(8分)
(2) 试问当 ? 取多大时才能使第一主成分的贡献率达95%以上。(2分)
??1??????解:(1)由??????1??????????1???0,
????????1得特征根?1?1?3?,?2??3??4?1??。(4分)
????1????????x1?解?????1?????1所对应的特征方程?????x?2?????????1????0,得?1所对应的单位特征向量为?????????1????x3?x?4?- 2 -
学 号
班 级
姓 名
装 订 装 线 订 线 内 不 要 答 题 ??1111???2222??,故得第一主成分Y1?12X1?12X2?12X3?12X4。(4分) (2)第一主成分的贡献率为?11?3????95%,得??0.933。
(2分) 1??2??3??443.设X?(X1,X2,X3)?的相关系数矩阵通过因子分析分解为
??1?12??33???0.9340?R??10??0.934?0.4170.835??0.128???1?3?????0.4170.894????????00.8940.447????0.027???2?301??0.8350.447????0.103????
计算:(1)X221的共同度h1(5分);(2)公因子F1对X1的贡献g1(5分)
解:(1)求h221?0.934?0.872;(5分)
(2)g21?0.9342?0.4172?0.8352?1.743。
(5分) 四、操作题(共18分)
为研究两类地理环境问题,选定4个指标X1、X2、X3、X4,序号1-10的样品的地理情况已分成2类,13-15的待定(下表前6列为原始数据)。 序号 X1 X2 X3 X4 实际类 Function1 预测类 1 50 33 14 2 1 -9.029 1 2 46 36 10 2 1 -10.428 1 3 48 31 16 2 1 -8.045 1 4 49 36 14 1 1 -10.615 1 5 47 35 13 1 1 -9.324 1 6 55 24 37 10 2 1.389 2 7 67 31 47 15 2 2.793 2 8 56 30 41 13 2 1.547 2 9 64 29 43 13 2 1.906 2 10 60 27 45 18 2 2.026 2 11 58 28 51 24 待定 -9.836 12 55 23 40 13 待定 1.923 (1)写出判别分析的基本思想(5分)
答:根据已知类别的样本所提供的信息,总结出分类的规律性,建立判别函数和判别准则,判断新的样本点所属类型,是判别个体所属躯体的一种统计方法。(5分) (2)在刚进入判别分析界面时,请完成以下操作(填空)(8分):
将实际类选入Grouping Variable框中,并点击Define Range,在跳出的界面中Minimum框中填写1,在Maximum框中填写2;将X1,X2,X3,X4选入Independents框中。(每空2分,共4×2=8分)
(3)最后输出的Descriminant Scores列在上表的第7列,请在表的最后1列的最后2行空格处
填上序号11-12样品的预测分类号,并说明其中的原因(5分)。 答:
序号 X1 X2 X3 X4 实际类 Function1 预测类 11 58 28 51 24 待判 -9.836 1 12 55 23 40 13 待判 1.923 2 (每格1分,共2×1=2分) 理由:y11??9.4882,y2?1.9322,y0?2(y1?y2)??3.778,而y11?y0,y12?y0,故11号样品属于第1类,12号样品属于第2类。(3分)
- 3 -

