邢城出品必属精品
? 计算检验统计量的观测值和对应的概率P-值。
? 决策。如果检验统计量的概率P-值小于给定的显著性水平α,则应拒绝原假设,认
为两总体存在显著性的线性相关关系;反之,如果检验统计量的概率P-值大于给定的显著性水平α,则不能拒绝原假设,认为两总体存在零相关关系。
4、相关系数的种类:对不同类型的变量应采用不同的相关系数来度量,常用的相关系数主要有pearson简单相关系数、spearman等级相关系数和kendallτ相关系数等。
pearson简单相关系数用来度量定距型变量间的线性相关关系;spearman等级相关系数用来度量定序型变量间的线性相关关系;kendallτ相关系数采用非参数统计的方法度量定序型变量间的线性相关关系。
5、下表给出居民住房调查中家庭收入与计划购买的住房面积的相关分析,试分析两变量间的相关性。(显著性水平α=0.05) Correlations 家庭收入 Pearson Correlation Sig. (2-tailed) 家庭收入 1 计划面积 .323 .000 1 ** 计划面积 Pearson Correlation Sig. (2-tailed) .323 .000 ** **. Correlation is significant at the 0.01 level (2-tailed). 答:原假设:家庭收入与计划面积所在的两总体零相关。由上表可知其相关系数检验的概率P-值近似为0,当显著性水平α=0.05或α=0.01时,应拒绝原假设,认为两总体存在相关性。pearson简单相关系数值为0.323,说明两总体存在弱相关。
6、偏相关分析:偏相关分析是在控制其他变量的线性影响条件下分析两变量间的线性相关性,所采用的工具是偏相关分析。
7、利用偏相关系数进行变量间偏相关分析的分析的两大步骤: 第一、 计算样本的偏相关系数。
利用样本数据计算样本偏相关系数,反映了两变量间净相关的强弱程度。 第二、对样本来自的两总体是否存在显著的净相关关系进行推断。 基本步骤:
? 提出原假设,即两总体的偏相关系数与零无显著差异。 ? 选择检验统计量。
? 计算检验统计量的观测值和对应的概率P-值。
? 决策。如果检验统计量的概率P-值小于给定的显著性水平α,则应拒绝原假设,认
13 (共4页)
邢城出品必属精品
为两总体存在显著性的线性相关关系;反之,如果检验统计量的概率P-值大于给定的显著性水平α,则不能拒绝原假设,认为两总体存在零相关关系。
CH9 SPSS回归分析
CH10 SPSS聚类分析
1、 聚类分析:聚类分析是一种建立分类的多元统计分析方法,它能够将一批样本(或变
量)数据根据其诸多特征,按照在性质上的亲疏程度在没有先验经验的情况下进行的自动分类,产生多个分类结果。类内部个体特征具有相似性,不同类间个体特征的差异性较大。
2、 对“亲疏程度”的测度一般有两个角度:第一、个体间的相似程度;第二、个体间的
差异程度。
3、 衡量个体间的相似程度通常可采用简单相关系数或等级相关系数等。衡量个体间的差
异程度通常通过某种距离来测量。
4、 聚类分析首先消除数量级对聚类的影响,消除数量级最常有的方法是:标准化处理。 5、 层次聚类有两种类型:Q型聚类和R型聚类。Q型聚类是对样本进行聚类,它使具有
相似特征的样本聚集在一起,使差异性大的样本分离开来。R型聚类是对变量进行聚类,它使差异性大的变量分离开来,具有相似特征的样本聚集在一起。 6、 层次聚类的聚类方式有两种:凝聚方式聚类和分解方式聚类。 7、简述K-Means聚类分析的核心步骤
答:K-Means聚类也称快速聚类,仍将数据看成k维空间上的点,仍以距离作为测度个体“亲疏程度”的指标,并通过牺牲多个解为代价换得高的执行效率,其核心步骤是: 第一,指定聚类数目K 第二,确定K个初始类中心
SPSS中初始类中心的指定方式有两种:一是用户指定方式;二是系统指定方式。 第三,根据距离最近原则进行分类
依次计算每个样本数据点到K个类中心点的欧式距离,并按距K个类中心点距离最短的原则将所有样本分成K类。 第四,重新确定K个类中心
中心点的确定原则是,依次计算各类中k个变量的均值,并以均值点作为K个类的中心点。
第五,判断是否已满足中止聚类分析的条件
条件有两个:一是迭代次数(SPSS默认为10);二是类中心点偏移程度,即新确定的类中心点距上个类中心点的最大偏移量小于指定的量(SPSS默认为0.02)时中止聚类。
CH11 SPSS因子分析
14 (共4页)
邢城出品必属精品
1、 因子分析:因子分析是研究如何以最少量的信息丢失将众多原有变量浓缩成少数几个
因子,如何使因子具有一定的命名解释性的多元统计分析方法。 2、因子分析中因子的特点:(1)因子个数远远少于原有变量的个数。(2)因子能够反应原有变量的绝大部分信息;(3)因子之间不存在线性关系;(4)因子具有命名解释性。 3、简述因子分析的基本步骤 答:(1)因子分析的前提条件;
因子分析的前提条件是原始变量之间应存在较强的相关关系。
(2)因子提取;(3)使因子更具有命名可解释性;(4)计算各样本的因子得分。 4、简述因子个数的确定方法。
答:(1)根据特征根确定因子数:一般选取大于1的特征根,还可规定特征根数与特征根值的碎石图并通过观察碎石图确定因子数;
(2)根据因子的累计方差贡献率确定因子数:通常选取累计方差贡献率大于85%的特征根个数为因子个数。 5、简述因子分析的意义。
答:在实际问题的分析过程中,人们往往希望尽可能多的搜集关于分析对象的数据信息,进而能够比较全面的、完整的把握和认识它。于是,对研究对象的描述就会有很多指标。如果搜集的变量过多,虽然能够比较全面精确的描述事物,但在实际建模时这些变量会给统计分析带来计算量大和信息重叠的问题。而消减变量个数必然会导致信息丢失和信息不完整等问题的产生。因子分析是解决上述问题的一种非常有效的方法。它以最少的信息丢失,将原始众多变量综合成较少的几个综合指标(因子),能够起到有效降维的目的。
《统计分析软件》答案
一、选择题(每空2分,共30分)
1、SPSS有两个基本窗口:( )和( )。数据编辑窗口和结果输出窗口。 2、SPSS数据的组织方式有两种:( )和( )。原始数据的组织方式和计数数据的组织方式
3、统计学依据数据的度量尺度将数据划分为三大类,( )、( )和( )。 定距型数据 定类型数据 定序型数据
4、根据控制变量的个数可将方差分析分为( )和( )。单因素方差分析、多因素方差分析;
5、SPSS软件的三种运行管理方式:( )、( )和( )。 完全窗口菜单运行管理方式 程序运行管理方式 混合运行管理方式
6、SPSS对不同类型的变量应采用不同的相关系数来度量,常用的相关系数主要有
15 (共4页)
邢城出品必属精品
( )、( )和( )。
Pearson简单相关系数、Spearman等级相关系数和Kendallτ相关系数等。
二、简答题(每题5分,共20分)
1、简述SPSS数据文件的特点
答: SPSS数据文件的特点:SPSS是一个有别于其他文件的特殊格式的文件,SPSS数据文件是一种有结构的数据文件,它由数据结构和内容两部分组成,其中的数据结构记录数据变量的名称、类型、变量宽度、小数位数、变量名标签、变量值标签、缺失值、显示宽度、对齐方式和度量尺度等必要信息,数据的内容才是那些待分析的具体数据。 基于上述特点,建立SPSS数据文件时应完成两项任务,即描述数据的结构和录入编辑数据。
2、简述数据排序的作用
答:数据排序便于数据的浏览,有助于了解数据的取值状况、缺失值数量的多少等; 通过数据排序能够快捷的找到数据的最大值和最小值,进而可以计算出数据的全距,初步把握和比较数据的离散程度;
通过数据排序能够快捷地发现数据的异常值,为进一步明确它们是否会对分析产生重要影响提供帮助。 3、什么是回归分析?
答:回归分析是一种应用极为广泛的数量分析方法。它用于分析事物之间的统计关系,侧重考察变量之间的数量变化规律,并通过回归方程的形式描述和反映这种关系,帮助人们准确把握变量受其他一个或多个变量影响的程度,进而为预测提供科学依据。 4、简述因子分析的意义。
答:在实际问题的分析过程中,人们往往希望尽可能多的搜集关于分析对象的数据信息,进而能够比较全面的、完整的把握和认识它。于是,对研究对象的描述就会有很多指标。但是效果如何呢?如果搜集的变量过多,虽然能够比较全面精确的描述事物,但在实际建模时这些变量会给统计分析带来计算量大和信息重叠的问题。而消减变量个数必然会导致信息丢失和信息不完整等问题的产生。
因子分析是解决上述问题的一种非常有效的方法。它以最少的信息丢失,将原始众多变量综合成较少的几个综合指标(因子),能够起到有效降维的目的。 5、简述方差分析的基本原理
答:方差分析认为,如果控制变量的不同水平对观测变量产生了显著影响,那么它和随机变量共同作用必然使得观测变量值显著变动;反之,如果控制变量的不同水平没有对观测变量产生显著影响,那么观测变量值的变动就不明显,其变动可以归结为随机变量影响造成的。
建立在观测变量各总体服从正态分布和同方差的假设之上,方差分析的问题就转化为在控制变量不同水平上的观测变量均值是否存在显著差异的推断问题了。
综上所述,方差分析从对观测变量的方差分解入手,通过推断控制变量各水平下各观测变量的均值是否存在显著差异,分析控制变量是否给观测变量带来了显著影响,进
16 (共4页)

