基于因子分析与聚类分析的辽宁省区域经济综合评价
姓名: 专业: 学号:
基于因子分析与聚类分析的辽宁省区域经济综合评价
(兰州大学 管理学院 信息管理与信息系统)
摘要:以2010年辽宁省经济数据为基础,采用因子分析与聚类分析相结合
的方法对辽宁省区域经济的发展现状进行了实证分析与综合评估。本研究结果可为下一步辽宁省政府出台政策以提振区域经济发展及平衡地区差异提供决策参考。
关键词:区域经济;因子分析;聚类分析;
在辽宁省现辖的14 个城市中,区域经济发展存在着很大的差距。本文采用因子分析与聚类分析相结合的方法,对辽宁省区域经济的发展状况进行综合评价,旨在为辽宁经济的可持续发展提供决策参考。
1. 方法原理
因子分析是一种主要用于数据化简和降维的多元统计分析方法。它将相关性较强的几个变量归在同一个类中,每一类赋予新的名称,成为一个因子,反映事物的一个方面,或者说一个维度。这样少数的几个因子就能够代表数据的基本结构,反映信息的本质特征。更可以进一步从原始观测量的信息推出因子的值,然后用这些因子代替原来的变量进行其他统计分析。
聚类分析是直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类的分析技术。系统聚类法是聚类分析诸方法中用的最多的一种,其基本思想是:开始将n 个样品各自作为一类,并规定样品之间的距离和类与类之间的距离,然后将距离最近的两类合并成一个新类,计算新类与其他类的距离;重复进行两个最近类的合并,每次减少一类,直至所有的样品合并为一类。
2. 实证分析
2.1样本数据的选取
本文选取以下9 项指标:X1:年平均人口(万人),X2:地区生产总值(万元),X3:人均地区生产总值(元),X4:地方财政一般预算内收入(万元),X5:全社会固定资产投资总额(万元),X6:社会消费品零售总额(万元),X7:当年实际使用外资金额(万美元),X8:城镇居民人均可支配收入(元),X9:农民家庭人均收入(元)。
原始数据如下表1所示:
表1辽宁省地区经济原始数据 样本 X1 X2 X3 X4 X5 X6 X7 X8 X9 沈阳 大连 鞍山 抚顺 本溪 丹东 锦州 营口 阜新 辽阳 盘锦 铁岭 朝阳 葫岛 715 42685137 54654 3202070 35199470 17785858 541039 18475 8753 10725 8094 6146 6750 7295 6627 7687 5382 7076 8479 6585 5170 5595 584.1 43495050 70781 4002340 31136950 13967483 601697 19014 351.7 17304740 49301 1231230 8750298 222.9 155.6 242.7 310.2 234.4 192.4 183.4 129.6 306 341.7 281.3 6986395 6883947 6075211 7272951 7994827 2879693 6082597 6768658 6057065 5180944 4455816 31343 44251 25034 23447 34104 14967 33151 50930 19795 15724 15856 537671 503177 501352 480088 571465 185978 479746 434322 479851 421494 373106 4960093 3400658 4920225 3240989 7625589 2014566 3466204 5040306 6960720 4554166 2540573 4359517 3380923 1674164 2340246 2698830 2114411 1265703 1771094 1568965 1932235 1827148 1983819 74177 31284 20108 50003 36805 50491 6413 81718 30178 17197 7332 7447 16530 13557 14705 12827 15386 15858 11184 14568 18540 12054 11553 15305 2.2样本数据的处理
考虑到各指标数据的差异以及使得分析结果更加有效,首先将样本数据进行标准化处理,处理后的数据消除了量纲之间的差异(表2所示)。
表2 标准化数据 样本 沈阳 大连 鞍山 抚顺 本溪 丹东 锦州 营口 阜新 辽阳 盘锦 铁岭 朝阳 葫岛 X1 2.52057 1.71849 0.29447 X2 2.26118 2.32116 0.38162 X3 1.17304 2.11283 0.8611 X4 1.94546 2.63906 0.23731 X5 2.50742 2.12092 X6 2.68121 1.92815 X7 2.18517 2.49349 X8 1.36162 1.57091 X9 1.05085 2.359 0.6137 -0.00888 0.03329 -0.18785 0.6064 -0.49475 -0.38252 -0.18538 -0.3638 -0.90712 -0.3901 0.56682 -0.3937 -0.36947 -0.15971 -0.40588 -0.54799 -0.67852 -0.51783 -0.49632 -0.46268 -0.10223 -0.27785 -0.37342 -0.44999 -0.55303 -0.39528 -0.37326 -0.36495 -0.31073 -0.83144 0.08368 0.04018 -0.36129 -0.64551 -0.41371 -0.53302 -0.29423 -0.37781 0.16219 -0.35945 0.34371 -1.18533 -0.42428 -0.30784 -0.02448 -0.33451 -0.11588 -0.40949 -0.30825 0.34547 -0.68163 -0.68664 -1.13967 -0.66862 -0.6497 -0.57687 -0.53229 -1.4694 -0.73678 -0.44945 -0.08002 -0.41401 -0.51159 -0.4772 -1.06644 -0.39864 0.95603 0.01444 0.23319 -0.1369 -0.14952 -0.15543 -0.0616 1.38686 0.86909 -0.45338 -0.36184 -0.51706 -0.4115 -0.45134 -0.85832 -0.41391 -0.17913 -0.44542 -0.47748 -1.13159 -0.38731 -0.51622 -1.09556 -0.46449 -0.40809 -0.46614 -0.52762 -1.32612 -1.32596 -0.56992 -1.08786 -0.50643 -0.59965 -0.43525 -0.52704 0.13074 -1.04403 2.3 SPSS因子分析
因子分析的前提是原有变量之间具有较强的相关关系,否则根本无法从中综合出能够反映某些变量共同特性的几个较少的公因子变量来,因此在求解公因子之前,需要先检验数据的可适用性。常用的检验方法有巴特利特球体检验和KMO测度,如表3所示。
表3 KMO 和Bartlett's 检验结果
KMO 和 Bartlett 的检验
取样足够度的 Kaiser-Meyer-Olkin 度量。
近似卡方
Bartlett 的球形度检验
df Sig.
.804 235.146 36 .000 由表3可以看出,KMO测度值大于0.7,巴特利特球体检验值也通过,表明样本数据可以进行因子分析。通过SPSS软件中的一系列操作,以主成分方法作为因子提取方法,选定的因子提取标准是:特征值≥1。有2个满足条件的特征值,它们对样本方差的累计贡献率达到了95.7%(表4),即两个公共因子已经包括了原来9 个指标的绝大部分信息,损失的信息量较少,具有较高的代表性,因此,提取两个因子便能够对所分析的问题进行很好的解释。
表4 总的方差解释 解释的总方差 成份 合计 1 2 3 4 5 6 7 8 9 7.558 1.055 .202 .085 .053 .035 .008 .003 .001 初始特征值 方差的 % 累积 % 83.975 11.726 2.244 .946 .584 .385 .092 .037 83.975 95.700 97.944 98.891 99.475 99.860 99.951 99.988 提取平方和载入 合计 7.558 1.055 方差的 % 累积 % 83.975 11.726 83.975 95.700 旋转平方和载入 合计 5.104 3.509 方差的 % 累积 % 56.714 38.986 56.714 95.700 .012 100.000 提取方法:主成份分析。 同时因子碎石图(图1)也支持了这一结论。 图1

