探索性因子分析法

2026/1/14 5:35:07

6.探索性因子分析和验证性因子分析的正确用法从上述分析可以看出，探索性因子分析和验证性因子分析是因子分析的两个不可分割的重要组成部分，在管理研究的实际应用中，两者不能截然分开，只有结合运用，才能相得益彰，使研究更有深度。An-derson，J.C.，Gerbin，D.W 建议，在发展理论的过程中，首先应通过探索性因子分析建立模型，再用验证提供了发析现模型以验证和修正的概念和计算工具，其提供的结果为验证性因子分析建立假设提供了重要的基础和保证。两种因子分析缺少任何一个，因子分析都将是不完整的。一般来说，如果研究者没有坚实的理论基础支撑，有关观测变量内部结构一般先用探索性因子分析，产生一个关于内部结构的理论，再在此基础上用验证性因子分析，这样的做法是比较科学的，但这必须要用两组分开的数据来做。如果研究者直接把探索性因子分析的结果放到统一数据的验证性因子分析中，研究者就仅仅是拟合数据，而不是检验理论结构。如果样本容量足够大的话，可以将数据样本随机分成两半，合理的做法就是先用一半数据做探索性因子分析，然后把分析取得的因子用在剩下的一半数据中做验证性因子分析。如果验证性因子分析的拟合效果非常差，那么还必须用探索性因子分析来找出数据与模型之间的不一致。

EFA在教育、心理领域存在的问题及建议

1.样本容量、观测变量数目不够很多应用探索性因子分析的研究中,普遍存在的一个问题就是样本容量及观测变量数目太小。探索性因子分析中,一般要求样本容量至少为100-200,当变量的公共方差较大时,则一定数目的小样本也能确保因子负载的稳定性。国内学者曾做过一项调查,结果表明:1991-2000年国内两种心理学期刊发表的运用因子分析的文章中,有近10%的文章研究样本小于100,甚至有多达50%的文章没有提供这一信息。而对于观测变量的数目,一般认为,

观测变量与所提取的因子数目之比至少为4。很多研究者认为观测变量的数目并不与被提取的因子数目相关联,因为研究者事先并不知道会有多少个因子被提取出来,因此,无法依据被提取的因子个数对观测变量的数目进行安排,但是,实际上很多研究者在因子分析前对所探讨的观测变量的因子结构已有了一定的预期。教育、心理领域中,存在着相当数量的研究并未达到这些标准。这或许是由于研究者对因子分析的要旨理解不深,但更有可能的是研究者对这类方法的细节重视不够。

2.因子提取方法的误用探索性因子分析中最常用的提取因子的方法主要有两种:主成分分析法和主轴因子法。决定选用何种方法时,一般有两点值得考虑:一是因子分析的目的;二是对变量方差的了解程度。如果因子分析的目的是用最少的因子最大程度解释原始数据的方差,则应用主成分分析法;若因子分析的主要目的是确定数据结构,则适合用主轴因子法。

实际上,虽然研究者大多认为主成分分析法和主轴因子法的结果差别不大,但是Widman提出,主轴因子法使用复相关系数的平方作为公共方差的初始估计值,通过不断重复,最后得到确定的公共方差的值,所以,这一过程比起主成分分析法,因子负载就更准确。因此,他建议研究者最好使用主轴因子法而不是主成分分析法。但实际研究中,研究者大量使用的是主成分分析法,导致这一结果的最直接可能就是SPSS软件的缺省设置即为主成分分析法。

3.因子数目的确定标准及因子旋转中存在的问题心理领域中,研究者运用的确定因子数目的标准大多是Kaiser法,即特征值≥1.0的标准。SPSS中,缺省的提取因子方法就是Kaiser法,但实际这一标准仅仅适用于主成分分析法。Fabrigar等人提出,特征值≥1.0的标准通常会导致提取过多的因子。当因子提取过多时,

因子的重要性就值得怀疑了。例如,假设有这样的案例,分别从5个变量和10个变量中提取因子,在5个变量的情况下,特征值为1.0的因子将解释变量总方差的20%(1/5,每个变量的方差估计为1,总方差即为5);相应地,在10个变量的情况下,同样特征值为1.0的因子只能解释总体方差的10%(1/10),显然,当从大量变量中提取因子时,使用这样的标准将导致所提取的因子只能解释总方差很小的一部分。而碎石检验准则的主观性太强,并且,在有些情况下,因子的特征值并没有临界点,因为因子特征值是以一种线性的方式逐渐下降的,所以这种情况是可能存在的,例如双重负荷现象,因此,这种方法并没有太强的使用价值。一般推荐使用Reise等人的平行分析方法来确定因子的数目。这种标准比起碎石检验标准来说,减少了研究者主观因素的影响,结果也更客观、真实、有效。

虽然正交旋转能容易地解释和表示因子分析的结果,但由于其规定因子间不相关,因此正交旋转的结果往往并不符合实际。建议在探索性因子分析中使用斜交旋转法,它既能很容易地解释因子,同时也确保了因子间的简单结构,更重要的是,允许因子间的相关也更符合现实。例如,在探索性因子分析中提取出了家庭受教育水平和家庭经济收入这两个因子,如果勉强进行正交旋转,忽视两因子间的相关,必然会对结果造成很大的影响,实际上这两个因子都属于家庭社会经济地位的范畴,具有很高的相关,因此,进行斜交旋转,允许两因子间的相关,这样得到的结果才更有说服力。实际研究中,研究者更多地还是采用了正交旋转的方法,1991-2000年国内两种心理学期刊发表的运用因子分析的文章中,高达60%的文章使用正交旋转,而斜交旋转只占到了6%。

4.因子值缺乏重复验证性心理、教育领域中,研究者求解因子值时,绝大多数依赖的是SPSS,而该软件所提供的求解因子值的方法最后求得的因子值是以一

种加权的方式获得的,这就使得这些因子值只适用于特定的样本,缺乏重复验证性。

为了克服这一缺陷,研究者建议使用一种简单的非加权的方法,该方法首先鉴别出在某一因子上有较高负载的变量,然后将这些负载的值相加,从而得到能反映该因子的一种特定的因子值。使用这种方法研究者将失去变量在因子上的负载信息,但是,这样得到的因子值与SPSS提供的各种权重的因子值具有较高相关,因此,使用这种简单的策略获得的因子值是很有意义的,它能克服缺乏重复验证的缺陷。

当然,因子值本身实质上还是一种观测变量,存在一定的随机误差,可以使用潜变量模型的方法来消除这些随机误差。

5.研究结果的呈现形式不规范因子分析结果的呈现中,哪些信息需要研究者明确提供都有一定的规定,但教育、心理领域的应用中,很少有研究者能提供完整的信息。作为因子分析的基础,相关矩阵是最根本的,研究者必须提供,否则,研究结果就缺乏重复验证的可能;另外,旋转前后因子所解释的方差、因子负载矩阵等信息也必须提供。

6.过于依赖SPSS,缺乏主动性

近年来因子分析应用中存在的最大的问题就是研究者过于依赖SPSS软件,往往是电脑控制人脑,研究者丧失了主动性。前面所讨论的因子分析实际应用中存在的一些主要问题,很大一部分是由SPSS本身所导致的。研究者进行因子分析时,大多脱离自己的实际研究,盲目地采用SPSS的各种缺省设置,最后导致获得的研究结果缺乏可信性,不符合实际研究的需要。例如,在连续性或非连续性(如二分类)变量的因子分析中,研究者应选择适当的分析方法,不能无视观测变量的类型,

做统一的处理。对于由连续变量和非连续变量所组成的混合变量,研究者建议使用Tobit模型;分类顺序变量则应该采用最大似然法(Maximum Likelihood)或加权最小二乘法(Weighted Least Squares)。为了克服这种依赖性,有些研究者提出了采用其它的一些统计方法,逼迫研究者在进行统计分析时进行更多的思考,如CEFA软件。

总之,实际研究中,研究者应根据各种情况,选用适合的统计策略,尽量克服各种可能存在的问题,避免人脑受电脑的控制;另外,研究者自身加强统计知识的学习对于因子分析的正确运用也显得至关重要。

探索性因子分析法.doc 将本文的Word文档下载到电脑

下载这篇word文档