第9章SPSS的线性回归分析 - 图文

2026/1/27 14:22:33

第9章SPSS的线性回归分析 学习目标

1. 掌握线型回归分析的主要目标,了解回归方程的最小二乘法估计的基本设计思路。 2. 熟练掌握线性回归分析的具体操作,能够读懂基本分析结果,掌握计算结果之间的

数量关系,并能够写出回归方程、对回归方程进行各种统计检验。 3. 了解多元线性回归分析哦那个自变量筛选的主要策略,能够结合筛选策略对相应分

析进行说明。

4. 了解SPSS残差分析和多重共线性检验的基本操作,并能够分析结果。 9.1 回归分析概述

9.1.1 什么是回归分析

回归分析是一种应用极为广泛的数量分析方法。它用于分析事物间的统计关系,侧重考虑变量之间的数量变化规律,并通过回归方程的形式描述和反应这种关系,帮助人们准确把握受其他一个或多个变量影响的程度,进而为预测提供科学依据。

“回归”一词是英国统计学家F·Galton在研究父亲身高和其成年儿子的身高关系时提出的。从大量的父亲身高和其成年儿子数据的散点图中,F·Galton天才地发现了一条贯穿其中的直线,它能够描述父亲身高和其成年儿子身高之间的关系,并可用于预测某身高父亲其成年儿子的平均身高。他的研究发现:如果父亲的身高很高,那么她的儿子也会比较高,但不会像他父亲那么高;如果父亲的身高很矮,那么她的儿子也会比较矮,但不会像他父亲那么矮。他们会趋向于子辈身高的平均值。F·Galton将这种现象称为“回归”,将那条贯穿于系的数量分析关系的数量分析方法称为回归分析。

正如上述F·Galton研究父亲身高与儿子身高关系问题那样,回归分析的核心目的是找到回归线,涉及包括如何得到回归线、如何描述回归线、回归线是否可用于预测等问题。

9·1·2 如何得到回归线

利用样本数据获得回归线通常可采用两类方法:第一,局部平均法;第二,函数拟合。

一、局部平均

局部平均的含义可借用父亲和儿子的身高关系的例子来理解。如果收集到n对父亲和儿子身高的数据(xi,yi)(i=1,2,?,n),可以对它们绘制散点图、计算基本描述统计量。现在得到一个父亲身高数据(x0),于是其儿子身高的预测值可以是:

第一, 子辈身高的平均值y。显然这个预测是不准的,原因没有考虑父亲身高(x0)

的作用。

第二, 父亲身高为x0的所有儿子身高的平均值y0.。该预测较第一种方法显然要准确得多。

第三, 如果在获得的数据中没有父亲身高为x0的样本数据,可以考虑计算父亲身高

为x0左右的一个较小区间内的儿子身高的平均值。 按照这种思路在散点图上不难得到一系列(xi,yi)(j表示散点图有左往右的第j个小区间)对应的数据点。如果这些点足够多,则可以得到一条光滑的曲线,它们将是上述提到的回归线的近似线。可见,回归线是局部平均的结果。利用回归线做预测是对当x=x0时y的平均值的预测。

———二、函数拟合

利用局部平均得到的回归线应在样本量足够大时才能实现,然而通常样本量可能无法达到预期的数量,此时多采用函数拟合的方式得到回归线。函数拟合的基本思路是:

首先,通过散点图观察变量之间的关系,得到回归线形状(线性关系或非线性关系)的感性认知,并确定一个能够反应和拟合这种认知且最简洁的(参数最少的)数学函数(线性函数或非线性函数),即回归模型。

最后,回归方程中的参数是在样本数据的基础上得到的。由于抽样随机性的存在,估计出的回归方程未必是事物总体间数量关系的真实体现,因此需要对回归方程进行各种检验,判断该方程是否真实地反应了事物总体间的统计关系,能否用与预测,并最终得到由回归方程确定的回归近似线。可见,函数拟合方式较局部平均具有更强的可操作性,因而得到广泛采纳。 9.1.3 回归分析的一般步骤

回归分析的一般步骤如下:

1. 确定回归方程中的解释变量和被解释变量

由于回归分析用于分析一个事物如何随其他事物的变化而变化,因此回归分析的的第一步应是确定哪个事物是需要被解释的,即哪个变量是被解释变量(记为y);哪些事物是用于解释其他变量的,即那些变量是解释变量(记为x)。回归分析正是要建立y与x的回归方程,并在给定x的条件下,通过回归方程预测y的平均值。这点是有别于相关分析的。例如,父亲身高关于成年儿子身高的回归分析与成年儿子关于父亲身高是完全不同的。

2. 确定回归模型 根据函数拟合方式,通过观察散点图确定应通过哪种数学模型来概括回归线。如果被解释变量和解释变量之间存在线性关系,则应进行线性回归分析,建立线性回归模型;繁殖如果被解释变量和解释变量之间存在非线性关系,则应进行非线性回归分析,建立非线性回归模型。 3. 建立回归方程

根据收集到的样本数据以及前步所确定的回归模型,在一定的统计拟合准则下估计出模型中的各个参数,得到一个确定的回归方程。 4. 对回归方程进行各种检验 前面已经提到,由于回归方程是在样本数据基础上得到的,回归方程是否真实地事物总体间的统计关系以及回归方程能否用与预测等都需要进行检验。 5. 利用回归方程进行预测

建立回归方程的目的之一是根据回归方程对事物的未来发展趋势进行预测。 利用SPSS会自动进行计算并给出最佳模型。 9.2 线性回归分析和线性回归模型

观察被解释变量y和一个或多个解释变量xi的散点图,当发现y与xi之间呈现出显著地线性关系,则应采用线性回归分析的方法,建立y与xi的线性回归模型。在线性回归分析中,根据模型中解释变量的个数,可将现行回归模型分成一元线性回归模型和多元线性回归模型,相应的分析称为一元线性回归分析和多元线性回归分析。 9.2.1 一元线性回归模型

一元线性回归模型是指只有一个解释变量的线性回归模型,用于揭示被解释变量与另一个解释变量之间的线性关系。 一元线性回归的数学模型为:

y=β0+β1x+ε (9.1)

式(9.1)表明:被解释变量y的变化可以由两个部分解释。第一,由解释变量x引起的y的线性变化部分,即y=β0+β1x;第二,有其他随机因素引起的y的变化部分,即ε。 由此可以看出一元线性回归模型是被解释变量和解释变量间非一一对应的统计关系的良好诠释,即当x给定后y的值并非唯一,但它们之间又通过β0和β1保持密切的线性相关关。β0和β1都是模型中的未知参数,β0和β1分别称为回归常数和回归系数,ε称为随机误差,是一个随机变量,当满足两个前提条件,即

E(ε)=0

Var(ε)=

?2 (9.2)

式(9.2)表明:随机误差的期望应为0,随机误差的方差应为一个特定的值。如果对式(9.1)两边求期望,则有

E(y)=β0+β1x (9.3)

式(9.3)称为一元线性回归方程,它表明x和y之间的统计关系是在平均意义下表现的,即当x的值给定后利用回归模型计算得到的y值是一个平均值,助于前面讨论的局部平均是相一致的。也就是说,例如,如果父亲的身高x给定了,得到的儿子的身高y是特定“儿子群”身高的平均值。

对式(9.3)的一元线性回归方程中的未知参数β0和β1进行估计是一元线性回归分析的核心任务之一。由于参数估计的工作是基于样本数据的,由此得到的参数只是参数真值β0和β1的估计值,记为?0和?1,于是有

y=?0+?1x (9.4)

式(9.4)称为一元线性经验回归方程。从几何意义上讲,一元线性回归经验方程是二维平面上的一条直线,即回归直线。其中,?0是回归直线在y轴上的截距,?1为回归直线的斜率,它表示解释变量x每变动一个单位所引起的被解释变量y的平均变动数量。

现实社会经济现象中,某一事物(被解释变量)总会收到多方面因素(多个解释变量)的影响。一元 线性回归分析是在不考虑其他影响因素或在认为其他影响因素确定的条件下,分析一个解释变量是如何线性影响被解释变量的,因而是比较理想化的分析。 9.2.2 多元线性回归模型

多元线性回归模型是指含有多个解释变量的线性回归模型,用于揭示被解释变量与其他多个解释变量之间的线性关系。 多元线性回归的数学模型是:

Y=β0+β1x1+β2x2+?+βpxp+ε

式(9.5)是一个p元线性回归模型,其中有p个解释变量。它表明被解释变量y的变化可由两个部分解释。第一,由p个解释变量x的变化引起的y的线性变化部分,即Y=β0+β1x1+β2x2+?+βpxp;第二,由其他随机因素引起的y的变化部分,即ε0β0,β1,,?,βpxp;参数,分别称为回归常数和偏回归系数,ε称为随机误差,也是一个随机变量,同样满足式(9.2)的要求。如果对式(9.5)两边求期望,则有

E(y)=β0+β1x1+β2x2+?+βpxp (9.6) 式(9.6)称为多元线性回归方程。估计多元线性回归方程中的未知参数β0,β1,,?,βp是多元线性回归分析的核心任务之一。由于参数估计的工作是基于样本数据的,由此得到的参数只是参数真值β0,β1,,?,βp 的估计值,记为?^^^^^^^^0,

?1?? ,于是有

^?? y????x???x?01122?????pxp (9.7)

(9.7)称为多元线性经验回归方程。从几何意义上讲,多元线性回归经验方程是p维空间上的一个超平面,即回归平面。 表示当其他解释变量保持不变时, 每变动一个单位所引起的被解释变量y的平均变量数量 9.2.3 回归参数的普通最小二乘估计

线性回归模型确定后的任务是利用已经收集到的样本数据,根据一定统计拟合准则,对模型中的各个参数进行估计。普通最小二乘就是一种最为常见的统计拟合准则,在该准则下得到的回归参数的估计称为回归参数的普通最小二乘估计。

普通最小二乘估计(ordinary least square estimation ,OLSE)的基本出发点是:应是每个样本点(xi,yi)回归线上的对应点(xi,E(yi))偏差距离的总和最小那么应如何定这个偏差呢?普通最小二乘将这个偏差距离定义为离差的二次方1,即和就转化为离差平方和。

1. 对于一元线性回归方程

Q(β0,β1)=

(yi-E(y)i)2偏差距离的总

(yi?E(yi))??(yi??0??1xi)?i?1i?1n2n2 (9.8)

最小二乘估计是寻找参数β0,β1 的估计值即

?,? ,使式(9.8)达到极小,??01n????xi)?,?)??Q(?(yi???0i01i?1n2?min?(yi?1i??0??1xi)2

2. 对于多元线性回归方程 Q(β0,β1,β2,,?βp)=

?(yi??0??1xi1??1xi2?...?1xip)

i?1n2最小二乘估计是寻找参数 β0,β1,?βp 的估计值 极小,即 Q(

?,?,?????01 使式(9.10)达到

p????xi1???xi2?????xip) ?,?,?,?)????(yi?????01112012pi?1n = min

pi?1?,?,?012?(yi??0??1xi1??1xi2???1xi2)n2

??

根据上述原则通过求极值的原理和解方程组,可以得到回归方程参数的估计值。具体求解过程这里不叫天伦。在使用SPSS分析时,SPSS会自动完成参数估计,给出最终的估计值。


第9章SPSS的线性回归分析 - 图文.doc 将本文的Word文档下载到电脑
搜索更多关于: 第9章SPSS的线性回归分析 - 图文 的文档
相关推荐
相关阅读
× 游客快捷下载通道(下载后可以自由复制和排版)

下载本文档需要支付 10

支付方式:

开通VIP包月会员 特价:29元/月

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信:xuecool-com QQ:370150219