档案

Posts Tagged ‘中介变量’

如何检验名目变量的中介效应?

2011/09/11 2 条评论

Zhang @ 2011-09-07:

祝老师,您好,我想用结构方程模型做路径分析,有个问题不清楚,想跟您请教一下。

先说样本量,我调查了100户,也就是我的的样本量是100,假设模型包含4个自变量,其中2个是连续变量,1个是类别变量,1个是计数变量,因变量只有1个,是连续的。

我的模型中有一个中介变量,这个中介变量就是上面提到的类别变量。我主要是想问参数估计方法的选择问题,对于我这样一个小样本量,里面又含有非连续的变量类型,参数估计的方法generalized least square(GLS)和ordinary or unweighted least square (OLS OR ULS)哪个更适合一点?

此外,您觉得我100个样本是否适合做这样一个结构方程模型的路径分析?我是刚开始学SEM,希望能得到您的指点,非常感谢关注,期待您的答复。

庄主 @ 2011-09-12:

你虽然是新手,但对数据和问题的叙述既简洁又清楚。这是做好科学研究(或定量分析)的第一步。推荐给其他提问者学习。

类别变量(categorical variable,或叫名目变量)可以做中介变量,但不能用SEM来分析。SEM确实有好几种估算方法,如你提到的GLS、OLS和ULS,以及更常见的Maximum Likelihood (ML)。但所有估算方法都要求除了grouping variable(分组变量)之外的所有自变量和因变量必须是连续或定距变量。你当然可以用那个类别变量做分组变量,但那检验的是moderation effects(调节或交互效应)而非mediation(中介效应)。

那么,不用SEM是否可以检验类别变量的中介效应呢?可以,但我得事先预警一下:有关的操作和解读都非常(或极其)繁琐。我假定你已经了解中介效应的一般原理(或用“中介变量”查询一下本站有关前贴),所以不再赘言,以下只介绍具体操作步骤。

一、以Y为因变量,X(在本案中是三个连续或计数变量,记为X1、X2和X3)为自变量,做一回归分析,得到的回归系数记为c。

Y = cX                                (Eq. 1)

可用常用的OLS回归,或用general linear model (GLM)回归,两者的结果相同,但后者在第二步中更为方便。

二、将M(类别变量)加入上述回归,得到的回归系数分别记为c’和b。

Y = c’X + bM                      (Eq. 2)

如你在第一步里用的是OLS回归,须先将M转换成k – 1个dummy variables(零一变量),其中k是M的类别个数;如第一步用的是GLM回归,则可以省去对M的转换而直接进入。注意:1. 这里的回归系数是c’,不是第一步中的c;2. 如果M有3个以上的类别时(即k > 2),就会得到k – 1个b,可分别记为b1,b2,…,bk-1,多个b的出现是上面提到的“繁琐”原因之一。

三、以M为因变量、X(本案中X1 – X3)为自变量,做一回归分析,得到的回归系数记为a。

M’ = aX                              (Eq. 3)

由于这里的因变量M是类别变量,所以不能用OLS或GLM回归,而要用Logistic Regression (LR,当k = 2) 或 Multinomial Logistic Regression (MLR,当k > 2)。如与第二步一样,当M的类别大于2时,会有k–1个a,可记为a1,a2,…,ak-1,这又是一个繁琐之处。

更重要的是公式3中的M’与公式2中的M之不同。前者是probability of odds ratio between category j and category 1-j (某一类别j发生与否的概率)而后者是difference in the mean between category j and the baseline category (类别j与基准类别之间平均数之差)。这是最容易引起困惑繁琐的地方,尤其是对于不熟悉类别变量分析的基本原理(如什么是类别发生概率等)。

四、这是另一个难点:如上所述,M在第一、二步的OLS(或等值的GLM)中和在第三步的LR或MLR中的scale(单位)不同,所以MLR系数a不能与OLS系数b等直接比较,而我们知道,检验中介效应的核心是检验ab (即X通过M对Y的间接影响)的显著性以及比较c’与ab的大小而实现的。因此,a必须与b等具有相同的单位。为此,我们需要将它们转换成各其的标准化系数。其公式分别为:

a’ = a Sx / Sm’                   (Eq. 4a)

b’ = b Sm / Sy                    (Eq. 4b)

c” = c’ Sx / Sy                    (Eq. 4c)

其中Sx和Sy分别是连续变量X和Y的标准差,可以用SPSS的Descriptive或其它软件的类似指令直接算出。公式4b中的Sm是零一变量M的标准差,也可以用上述指令直接算出。但是4a中的Sm’是公式3中的因变量M’的标准差,即一个“什么什么发生与否”的概率的标准差,没法直接算。对它的一种估算方法是:

clip_image002              (Eq. 5)

其中p是圆周率 (= 3.1416…),p2/3则是标准化的logistic分布函数的方差(这一项其实是一个常数,= 3.14162 / 3 = 3.29),因此公式5可以简化成

clip_image002[25]              (Eq. 5′)

不知你是否还在看吗?看懂了多少?我知道第一、二步很容易,第三、四步并不难,但很繁琐,如没有做过LR或MLR的人确实难以消受这种思路的产品。如果你能坚持到这里,接下来就可以看到辛苦劳动的成果了:检验M的中介效应。

不管M是连续变量还是类别变量,检验其是否具有中介效应的原理是一样的,即:

一、公式1中的c必须显著;

二、公式2中的b和公式3中的a必须显著;

三、最后看公式2中的c’。这时有三种可能:

1. 如果c’不显著,那么M具有完全(或强烈)的中介效应(理想状态);

2. 如果c’显著、但其标准化系数c"(见公式4c)小于a和b的标准化系数之乘积a’b’(见公式4a和4b),那么M具有部分(或微弱)的中介效应(常见的中介效应大多如此);

3. 如果c’显著、而且c">a’b’,即X对Y的直接影响大于通过M的间接影响,或者说,M的出现并没有改变X对Y有显著影响的基本格局。因此,我们必须承认M不具备中介效应。有些读者认为,只要a’b’是显著的,就说明M有中介效应。这种看法是错的。

如何处理SEM模型中的“坏”因子?

2010/06/13 留下评论

>

SJ @ 2010-05-17:

我是X大学心理系的学生,目前在美国Y校访问。最近在处理数据时遇到问题不知该如何解决,之前在您的网页上冒昧向您请教过,非常感谢您当时的回复。我后来找了一些相关的文献看,知道了多组比较的大概步骤,但在统计中又遇到了新的问题,所以再次向您请教。谢谢您关注我的邮件!

我探讨的是暴力游戏对青少年攻击性影响的性别与年龄差异。研究变量包括:

  • 自变量:玩暴力游戏的程度(VVG — 庄主注,下同)
  • 因变量:身体攻击(Physical Aggression)
  • 中介变量:信念(Belief about Aggression)、期望(Hostile Expectation)、移情(Empathy)
  • 调节变量:性别、年龄

因此我把全部被试(795人)按年级和性别分成六个组,每组100多人,想比较不同性别、不同年龄孩子模型的路径差异(庄主注:这应该是一个moderated mediation模型,对此有兴趣的读者请仔细理解本案例的模型设置及有关讨论)。

比较结构模型前,为了确定测量等同(measurement invariance — 庄主注),我分别对信念、移情和身体攻击这三个潜变量进行了单组和多组的CFA。以因素负荷相等(factor loadings invariant — 庄主注)为标准,最后确定了5项目的信念、5项目的身体攻击及12项目的移情测量,能够满足跨组测量等同。信念和身体攻击是完全等同,两个移情项目虽不等同,但考虑到12题中只有两题不等同,所以认为部分等同也能允许进入结构模型的比较。

上面我所提及的CFA是分别针对每一个变量(庄主注:应该是factor吧?)进行的。但当我把所有变量(庄主注:也是factors吧?)都整合到一个模型后发现,六组都不能很好地拟合总模型。我看了修正指数(modification index或MI — 庄主注),发现问题主要出在移情这个变量上。在前面的测量等同阶段,我删掉了16个移情项目,保留了12个项目,这12个项目分属5个因子。在结构模型中,我把这个5个因子作为移情的指标(庄主注:Empathy成了一个second-order factor?),但发现指标间及指标与其他变量还存在复杂的关系,这导致了模型不能较好拟合。

我又尝试了很多次,尝试找到一个移情的测量模型(measurement model — 庄主注),无论是单个变量的单组及多组CFA,还是放到总模型中时,都能拟合六组数据,但徒劳无功。

如果把所有变量都当成显变量,那模型都能拟合得很好。但我能这样做吗?如果把所有变量当成显变量来处理的话,那前面的测量等同检验是否还有必要?

我实在不知道该如何考虑和继续,所以冒昧请教,请您给予我指导,非常感谢!

附件的图是我在确定了各组的测量等同后,用总数据做的模型。我担心我说得不清楚,可能看看模型会有帮助。再次感谢!
clip_image002

X2(114) = 411.1, p < .001, RMSEA = .06, NNFI = .90, CFI = .91

Note: Unstandardized coefficients are provided first, with standardized coefficients in parentheses. All paths are significant.

SJ @ 2010-05-21:

在等待您的回复之余,我这几天仍然在尝试寻找拟合潜变量的总模型,但可恨NNFI仍徘徊在0.8几(如果拟合很差我也就放弃了)。我发现问题在于移情量表。因为当我把三个潜变量当中的移情视为显变量,保留攻击与信念作为潜变量时,模型的拟合是可以的。移情的四个子量表之间有复杂的关系,而这不是我这个研究想关注的问题。我该如何处理呢?

庄主 @ 2010-06-13:

正如我在你上面叙述中加注所说,你想研究的是一个moderated mediation (“被调节的中介效应”?) 模型。虽然这种模型有点复杂,但是你遇到的三个问题(见下),却是在其它各种模型中也经常会出现。

一、为何你对三个中介变量分别做CFA时各自都拟合得很好,但当将三个因子合在一起做CFA时却拟合不好?这很常见。一般而言,单个因子CFA(即只有一个因子的模型)非但没有意义、而且富有误导性。实际研究中,最简单的模型至少也有两个因子。而拟合任何一个多因子模型,则不但需要每个因子内部的测量指标之间高度相关,而且需要各因子之间的测量指标基本独立(见下图a)。而如果数据是下图b那样,则会出现单因子模型拟合很好而多因子模型拟合不好的现象。在本例中,如果分别拟合X1-X3和Y1-Y3,会得到两个很完美的模型,但那是假象,X1-X3和Y1-Y3实际上应该同时属于一个因子。

image 二、为何总样本的拟合度要比六个分样本的拟合度好?你没有这么说,而是我从你提供的总样本模型拟合度(应该是勉强可以接受)和对分样本结果的叙述(如“六组都不能很好地拟合总模型”和“NNFI仍徘徊在0.8”等)中推出。这应该与你的分组样本过小有关。如你所说,每个分样本100余人,而每个模型含30来个测量指标((= 22个中介变量指标 + ?个自变量指标 + ?个因变量指标)。计算样本量是否足够的一种快捷方法(不一定精确但大体上可靠)是样本量除以测量指标数。文献中最宽松的说法是应该大于10(我倾向于更大一些)。而你这里只有4-5之间。样本小的一个直接结果是指标之间的相关程度不稳定(可以更高或更低)。回到上图,总样本容易接近a,而分样本则难。这里不怕因子内部相关程度变低,而是拍因子之间相关程度变高。

改进的方法包括:增加样本(你大概做不到);减少分组(如两个年龄组 X 两个性别组 = 4);减小测量指标数(尤其是“移情”用了12个指标,有必要那么多吗?)等。

三、“移情”是个“坏”因子,是否可以将其12个测量指标直接进入模型(即你说的“显变量”)?如果为了提高拟合度,当然可以这么做。但是,这在理论和统计上都是下策。首先,显变量都是含测量误差的;其次,一个含12个显变量作为中介变量的模型是无比复杂;再次,部分(或很多)显变量之间会有共线性问题;等等。所以,你得到了模型拟合度的改进,但失去了更多。

我并不了解你的“移情”量表之来历,估计是个已被前人验证的成熟(?)工具。如此,为何在本案中成为“搞坏了一锅汤的老鼠屎”呢?也许是问卷翻译的问题?或是被测对象的不同(文献中的移情是用于儿童的吗)?还是加在其它问题之后(?)产生的副作用?等等。可能有很多种原因。你说移情不是你本研究想关注的问题。但是,如果该因子的测量模型太有问题,那么,你只能在整体删去这个因子和显变量处理之间做出痛苦的选择。如果是我,会选择前者。

分类:统计 标签:,

如何比较自变量与中介变量的解释力?

2010/04/21 2 条评论

>

YF @ 2010-04-19:

庄主,非常感谢您对学生的慷慨指导,我想向您请教一个新问题。《管理世界》上有篇文章(见以下出处),是研究中介效应的,其自变量是家长式领导方式,应变量是团队绩效,团队冲突管理方式。作者按照Baron & Kenny(1986)检验中介变量的方法,分析结果用表2表示。

clip_image002

我的问题和该作者文章没有关系,是以该文章为例:(1)如果比较中介变量和自变量对应变量的解释力是否有意义?(2)如果有意义,是否根据下表2结果可以比较中介变量和自变量对应变量的解释力?如果可以根据下表2结果比较,那么看哪两个数据?例如:如果比较仁慈领导和合作型团队冲突解决方式对团队绩效的解释力,是根据0.726**(model 3)〉0.513**(model 2),还是根据0.662**(model 4)〉0.126(model 4),认为仁慈领导对团队绩效的解释力大于合作型团队冲突解决方式对团队绩效的解释力。

文献出处:张新安, 何惠, 顾锋. 家长式领导行为对团队绩效的影响:团队冲突管理方式的中介作用. 管理世界, 2009, 3: 121-133.

庄主 @ 2010-04-21:

问题1:比较中介变量与自变量之间对因变量的解释力之差别,是否有意义?有,但这只是检验中介效应的规定动作之一。强度版的中介效应要求自变量(X)对因变量(Y)的直接影响(Byx)= 0 而其通过中介变量(W)的间接影响(RwxByw) > 0;而弱度版的中介效应则要求Byx < RwxByw。也就是说,Byx < Byw是中介效应的必要条件(因为Rwx小于1.0)。所以两者的差别是不喻而言的。如果Byx大于或等于Byw,那就没有必要再谈中介效应了。

问题2:如果比较Byx与Byw的大小,应该看模型4。你的困惑来源于作者不合适、也无必要用了四步的hierarchical回归(“分批进入回归”,参见我数贴中对在类似场合下使用这种方法的批评),模型2(自变量模型)和模型3(中介变量模型)的系数是不能直接比较的,因为模型2中的Byx是在Byw缺席情况下估算的,其中含有通过Byw的间接影响,所以是夸大了的;同样,模型3中的Byw的影响也因为由于Byx的缺席而被夸大了。只有两者同时出席的模型4才是直接比较的地方。

当然,模型2和模型3也有其用此,就是通过计算模型4的R平方 – 模型2的R平方(= 0.505 – 0.307 = 0.198)来得知两个中介变量(合作型和竞争型)对因变量的联合解释力,并通过计算模型4的R平方 – 模型3的R平方(= 0.505 – 0.478 = 0.027)来得知三个自变量(权威、仁慈、德行)对因变量的联合解释力。而表中模型2和模型3的ΔR平方则是没有什么意义的。由于很多读者对此有困惑,我再重复一下这种“nested testing”(嵌镶式检验)与上述“分批进入回归”的区别:

假定模型为Y = b0 + b1X1 + b2X2 + b3X3,分批进入回归的做法是估计三个模型,分别为Y = b0 + b1X1, Y = b0 + b1 + X2, Y = b0 + b1X1 + b2X2 + b3X3,然后认为:模型1的R平方代表X1对Y的解释力、模型2的R平方与模型1的R平方的差别为X2对Y的解释力、模型3的R平方与模型2的R平方的差别为X3对Y的解释力。其问题是模型1的R平方中包含了X2和X3的贡献、模型2的R平方中包含了X3的贡献。

嵌镶式检验是估计四个模型,分别为1:Y = b0 + b1X1 + b2X2 + b3X3(全模型),2:Y = b0 + b2X2 + b3X3(X1缺席模型),3:Y = b0 + b1X1 + b3X3(X2缺席模型),4:Y = b0 + b1X1 + b2X2(X3缺席模型),然后认为:模型1与2的R平方之差为X1对Y的独立解释力、模型1与3的R平方之差为X2对Y的独立解释力、模型1与3的R平方之差为X3对Y的独立解释力。这里的最后一步与分批进入回归的最后一步相同、但其它比较有数量和质量上的区别。注意,嵌镶式检验的三个R平方差其实就是模型1中X1、X2和X3的semipartial correlation,在SPSS中叫做“part correlation”,可以只估算模型1而得知,不需再分别运行模型2-4的。对初学者来说,分别操作一下有助于从理念上认识上面讨论的各种问题的逻辑。

如何确定两个调节变量之间的主次关系?

2010/03/06 2 条评论

>

SJ @ 2010-03-02:

祝老师您好!我是心理系的学生。在网上偶然逛到您的庄园,受益匪浅!非常感谢您的慷慨,跟大家分享您的所学所得。我最近在处理早前的一个数据,遇到困惑,不知道该怎么继续,想向您请教,先谢过。

我的数据涉及以下变量:一个自变量、一个因变量、四个假设的中介变量。另外人口统计学变量方面,考察了年龄(分成四个年龄组)和性别。我关注的是自变量如何通过中介变量影响因变量,以及这种影响是否存在年龄的发展差异。然而,我在做各个变量的相关时发现,性别跟好几个重要的变量都有显著的相关。因此我的困惑在于,我应该如何处理性别的问题。1.把性别作为调节变量,放到各个年龄组中来建立模型?2.还是每个年龄组都建立男生模型和女生模型?您觉得哪种方法更合适?具体又该怎么操作呢?

庄主 @ 2010-03-06:

谢谢与大家分享你的研究问题。这是一个相当复杂(其复杂程度应该远远超出你的预计,具体见下)的研究设计。我前天在我的课上介绍了你的问题,建议学生们来这里分享他们的看法。至今还没有人现身,也许是你的问题太难、也许是他们还没完成下周一交的作业。我先说一下解决方案的基本思路,希望他们能够接下去帮你解决方案的操作问题(同学们,这是你们给老师和学校挣面子的时候了)。

先整理一下你的问题所涉及的研究假设:

H1. 自变量X对因变量Y的直接影响(记为bYX)。

H2. X通过中介变量M1-M4对Y的间接影响(分别记为bY(M1-X)、bY(M2-X)、by(M3-X)和bY(M4-X))。

H3. 年龄A对直接影响bYX的调节作用(即A与X对Y的交互效应,记为bY(X*A))。

H4. 年龄A对间接影响bY(M1-X)等的调节作用(即A与X-M对Y的交互效应,分别记为bY((M1-X)*A)、bY((M2-X)*A)、       bY((M3-X)*A)和by((M4-X)*A)。注:因为X-M对Y是中介关系,所以A与它们的交互关系是一种被称为“moderated mediation“、即“被调节的中介关系”,相当复杂!)。

先在这里停一下。H1-H4可以用OLS回归来分析,但在SEM工具(如LISREL、AMOS等)中更方便。如用后者,需要把年龄当做组别,而将样本按年龄分成4组、通过比较组间的invariance来检验X对Y的直接和间接关系是否随着年龄的变化而不同(具体操作这里略过)。也就是说,moderated mediation关系,听起来很复杂,但在SEM中通过设置组间equality constraint的小技巧(或“小伎俩”?),很方便就能解决了。

好了,回到你最后的问题:如何检验性别S的影响?也就是检验以下假设:

H5. 性别S和年龄A对直接影响bYX的调节作用(即S、A与X对Y的交互效应,记为bY(X*A*S)或bY(X*S*A))。

H6. 性别S和年龄A对间接影响bY(M1-X)等的调节作用(即S、A与X-M对Y的交互效应,分别记为bY((M1-X)*A*S) 或      bY((M1-X)*S*A)等)。

你考虑了两种方案来检验H5和H6:一是将性别nested(嵌镶)到年龄中、二是将年龄嵌镶到性别中。表面上看,好像两者有根本区别,但实际上是一回事!性别和年龄是两个同等级别的调节变量,它们的联合影响是一种3rd-order interactions(三阶交互效应,也相当复杂),用公式来表述,如H5中的bY(X*A*S)或bY(X*S*A),前者是年龄嵌镶在性别中、后者是性别嵌镶在年龄中,但无论谁嵌镶到谁中去,bY(X*A*S)和bY(X*S*A)两者是完全同价等值的。如果用SEM来检验,也无论谁嵌镶到谁中,你总需要将样本分拆成8个组(4个年龄组X2个性别组)。当然,在解读结果时,你可以而且需要根据自己的理论框架来确定A和S之间谁主谁仆的次序。

最后,要说一下检验如此复杂模型的成本问题。如上所说,如果用SEM,需要8个组;基于每个组涉及5个自变量(X、M1-M4),按每个自变量需要20个案来计,你至少需要每组100个案,总样本800个案。当然,你的年龄组分布可能不均匀,所以总样本很可能要1000以上。如果不用SEM而用回归,可以不分组,但是变成了一个非线性模型,涉及了24对二阶交互关系和12对三阶交互关系,即使总样本有1000个案,也只少不多。样本数少了、会有什么后果?你的中介效应、调节效应和被调节的中介效应都有可能不显著。其中的最薄弱环节是中介效应(H2)。所以,建议你先将H2分成H2a-H2d四个分假设,分别检验A和S对各分假设的调节作用(= 4 X  (4 X 3 /2) X 2 = 48个组间比较,如果你想不通为什么会有48个组间比较,请详细演算一下),以简化模型。

总结:中介效应、调节效应和被调节中介效应在理论上都是很吸引人的模型,但在实证上即昂贵又难操作,需要事先有充分的思想和技术准备。

分类:统计 标签:, ,

如何提高间接影响模型的效应?(更新版)

2009/12/05 留下评论

>

hz @ 2009-11-30:

我提出了一个理论模型(见下图),假设A通过B和C对D有间接影响。实证数据表明,A->B、B– C、C–>D的影响都显著,但是三者的乘积(即A–>D的间接影响)却不显著。另外,A–>D的直接影响也显著。不知有无方法提高间接影响?是否可以将显著水平从0.05放宽到0.10?

image

庄主 @ 2009-12-04:

你的理解对了一部分,即A–>D的间接影响包括A–>B–>C–>D的所有回归系数之连续乘积 (= 0.30 x 0.20 x 0.10 = 0.006)。但在你的模型中,A->D之间其实有三条间接路径:一是你说的A–>B–>C–>D;二是A–>B->D;三是A–>C–>D(见下图)。

image

如果你的理论规定A–>D的间接影响只能有A->B->C->D一条路径,是否可以?当然可以。但你须要预期到如此假设更难被证实。如果你的理论容许,那么加上A->B->D和A->C->D的间接影响之后会如何?一切取决于A->C和B->D的系数强度。你可以代入一些可能发生的数值来计算A->D的总间接影响。如,

  1. A->B = 0.20和B->D=0.20,总间接影响=0.086,可能不显著,同时也小于A->D的直接影响;
  2. A->B = 0.30和B->D=0.30,总间接影响=0.126,虽然仍小于A->D的直接影响,但可能显著,属于“弱间接影响”(参见前贴“如何检验两个中介变量的效应? ”http://zjz06.blogspot.com/2009/04/blog-post_25.htmlhttp://zjz06.spaces.live.com/blog/cns!3F49BBFB6C5A1D86!1159.entry);
  3. A->B = 0.40和B->D=0.40,总间接影响=0.166,可能显著,并大于A->D的直接影响,属于“强间接影响”。

当然,基于你现有的回归系数均在0.10到0.30之间,我怀疑即使将后两条间接路径等间接影响(假定两个未知的系数也在0.10到0.30之间)加进去,总间接影响还可能不显著。总之,间接影响模型在理论上很诱人、但在实证上要求很高,尤其是多阶段间接影响模型,一般都很难证明。

最后,你问是否可以将显著水平条件放宽到0.10?答案是否定的。一、统计决策的显著水平(α)是在检验之前就要设置的,而不能在检验之后、因实证显著水平p大于α而将α提高。二、α一般设为0.05,代表犯Type I 错误的概念有5%,如果提高到0.10,则将Type I 错误提高到10%,除了初步的探索性研究之外,这种错误率太高。三、结构方程模型中的回归系数已经修正了测量误差,所以一般不应该再放宽其显著水平。

hz @ 2010-01-17:

在上次关于直接效应和间接效应的问题,我还有一个地方不明白:如何判断间接效应是在一定置信水平上显著?以A->B->C–>D为例,判断三者的乘积(即A–>D的间接影响)是否意味将A,B,C同时放入对D的回归方程,三者回归系数分别达到显著水平?

庄主 @ 2010-01-24:

文献上有过类似说法,但从未被证明过。现在一般的做法是用Bootstrapping求出三系数乘积 (如a x b x c)的standard error (如记为”se(abc)”) 的经验估计值,然后计算 abc/se(abc)的比率,该值也是服从t-分布的。AMOS里有Bootstrapping。


分类:统计 标签:,

为何两个模型的中介变量系数一样?

2009/09/20 留下评论

tan @ 2009-09-14:

祝老师,您好!这个星期的提问我看您都回答了,除了我提的问题。不知是您没注意到还是问题太初级而不值得回答。由于学识粗浅并确实想知道问题的解答,特此再次提问,烦请老师您或其他有识之人给予解惑。

问题是有关用SEM检验中介效应的:变量W和Z为自变量(且W与Z之间没有显著的相关),Y为因变量,X为设想中的中介变量。首先是模型1,只涉及三条路经:W–X;Z–X;X–Y。所有路经系数都显著,模型的拟合度也可接受;接着是模型2,涉及五条路:W–X;Z–X;X–Y;W–Y;Z–Y,即模型2比模型1多了两条路经(W–Y;Z–Y),结果也是所有路经系数都显著,模型的拟合度也可接受。我不可理解的问题是:在模型1和2中,自变量(W和Z)与中介变量(X)的路经系数竟然一样,怎么会这样?但模型1中X–Y的路经系数要大于模型2中X–Y的路经系数。

在此,我想请教的问题是:(1)上述模型(1和2)中,W和Z与X的路经系数有没有可能一模一样?在理论上成立吗?我担心在那个地方做错了。(2)根据您的几个帖子以及其它相关资料,中介效应并不是比较上述我所表述的两个模型的,但在我所学习的Marketing领域,有文献(作者还有一定的名气)却又是这样做的,特别提到:模型2拟合度可接受,所有路经关系都显著,故部分中介效应显著。这样做可以吗?再次感谢!

庄主 @ 2009-09-20:

上周有好几人提了问题,但我没有时间回答所有人的问题,只能按我对问题价值的判断而选择回答部分。我初看你的问题,觉得与8月31日匿名者提的问题相同(见为何不同模型的路径系数和拟合度相同?)。我现在还是这么认为(即,即使不是同一人问的,道理一样)。考虑到读者中也许还有同样的问题,所以再说几句。

为了便于讨论,我将你的两个模型画了出来(建议:很多时候一图胜千字、但这里的提问处不让上传图像,请大家讲图贴在自己的博客或其它公共空间上,然后在你的问题中做个链接):

image

问题一、“上述模型(1和2)中,W和Z与X的路经系数有没有可能一模一样?在理论上成立吗?”是否指λxw = λ’xw和λxz = λ’xz?如是,答案是肯定的。一个回归方程的系数当且仅当方程增减自变量时才可能变化。以本案为例,模型a涉及以下两个方程:

X = λxwW + λxzZ                           (a1)

Y = βyxX                                      (a2)

而模型b也涉及两个方程:

X = λ’xwW + λ’xzZ                         (b1)

Y = β’yxX + β’ywW + β’yzZ              (b2)

如果比较方程a1与b1,可见两者含有同样的自变量(W和Z),所以λxw一定等于λ‘xw,λxz也一定等于λxz。(注:这是回归分析的基本原理,同样适用于SEM。)

问题二、“模型1中X–Y的路经系数要大于模型2中X–Y的路经系数”。比较方程a2和b2,可见b2比a2多了两个自变量(W和Z),因此βyx可能不等于β’yx,条件是(1)W或Z与Y相关(即β’yw ≠ 0或β’yz ≠ 0)和 (2) W或和Z与X相关(即λ‘xw ≠ 0或λ‘xz ≠ 0)同时成立。既然现在βyx > β’yx,说明W或Z两者之中至少一个与X和Y同时相关。(注:这也是回归分析的基本原理。)

问题三、“模型2拟合度可接受,所有路经关系都显著,故部分中介效应显著。这样做可以吗?”模型b的拟合度一定比模型a好,但是由于损失了2个自由度,所以要做统计检验以证明模型b与模型a之间有显著差别。如是,说明模型b更可取。但是,仅比较模型a和模型b而不比较模型b与只含W->Y和Z->的“直接影响模型”(参见如何检验两个中介变量的效应?),确实不是检验中介效应的充要条件 (necessary and sufficient conditions)。为何你们marketing中有“一定名气”的作者这么做?我无法回答,我只知道科学面前人人平等。包括我在内的很多人都相信David Kenny的检验中介变量方法,不是因为他名气大,而是觉得他说的有道理。

分类:统计 标签:,

为何不同模型的路径系数和拟合度相同?

2009/09/05 留下评论

Anonymous @ 2009-08-31:

老师您好! 我也刚开始尝试使用SEM做中介效应分析,看了您的几个相关帖子,受益匪浅。恕我愚钝,还有几个问题不明白,还望进一步指教。

1). 您在"如何检验两个中介变量的效应"的帖子中提到:中介效应需要满足三个或者四个条件,其中包括:X或Z(自变量)对Y(因变量)的间接影响大于其直接影响(即 γAX × βYA > βYX 或 γBZ × βYB > βYZ )。我不明白为什么一定要满足这个条件?如果是这样,是否意味着中介模型中间接效应都大于直接效应,或者说中介效应的比例大于50%。可我经常看到一些文献说,某某变量的中介效应比例为多少多少(低于50%),难道这是错误?

2). 最近我也做了一个中介效应的模型,概念模型类似于6月30日“如何在模型拟合度和模型合理性之间选择?”帖子中的模型。首先用软件跑了模型1,所有系数都显著,模型的拟合度也可接受;接着跑了模型2,结果是所有路径系数也都显著,模型也可接受。我不理解的问题是:a.两个模型不一样,为什么拟合度都可接受;b.两个模型种,W和Z到X的路径系数尽然完全一样,模型都不一样了,怎么路径系数还会相同?其中,X到Y的系数,模型2要比模型1小?C.模型2中,数据显示 βwx * βxy < βwy ,请问这还存在中介效应吗?

不好意思,一下子问了好多问题,也许许多问题还非常初级,见笑了。不慎感激!

庄主 @ 2009-09-05:

1). 为了理解你的问题,我重读了一项原文,发现其中的直接影响符号写错了(现已改正),应该是γYX和γYZ或而不应该是βYX和βYZ(图中的符号是对的)。也就是说,你问题中提到的为何“γAX × βYA > βYX 或 γBZ × βYB > βYZ” 应该是“γAX × βYA > γYX 或 γBZ × βYB > γYZ"。(当然,你对原文的理解没有错。)

我在原文中说过,严格的中介效应模型要求直接影响(即γYX 或 γYZ)彻底消失。这时,间接影响(γAX × βYA或 γBZ × βYB)自然大于直接影响。如果直接影响不等于0但小于间接影响,那么可以认为这是一种让步或妥协的微弱版(weak version)。如果再推一步,直接影响不但不等于0而且大于间接影响,那么直接影响是主流或中心路径(central route)、间接影响只是支流或边缘路径(peripheral route),那么中介效应的原始意义就大大打折扣了。这是一个理论问题、不是纯粹的统计问题(意思是,间接影响还存在,但没有必要强调其涉及的“mediation process”了)。

我还没看到过你提到的"中介效应的比例大于50%",是指间接影响的值至少为直接影响的值的一半吗?如果这样,那是对上述微弱版的进一步弱化。

2a). 你的两个模型不同(模型2多了四个系数、少了四个自由度)、但拟合度都可以接受的现象很正常和普遍,因为各自检验的零假设相同,都是模型与数据之间没有显著差别。但是,你还要检验一个零假设,就是两个模型的拟合度之间没有显著差别:如果两者确无差别(即由于增加了间接影响而提高的误拟合度被损失了的自由度所抵消了),则说明间接影响(即中介效应)并不显著;反之则说明存在显著的间接影响(中介效应)。

2b). 你问“两个模型中,W和Z到X的路径系数尽然完全一样,模型都不一样了,怎么路径系数还会相同?”其中的W从何而来?估计你将我另一帖了的符号(其中也许W和Z是自变量、X是中介变量)混着用了。但是如果是这样的话,X不应出现在模型1.而你却说“X到Y的系数,模型2要比模型1小”相矛盾。难以理解。最简单的方法是提供两个表格,一是模型1的变量及其系数、二是模型2的变量及其系数。

2c). 你问的就是:当一个间接影响小于直接影响时,是否还有必要和价值讨论中介效应?我上面已经讨论过。按经典的定义和学术界的主流看法,至少是意义不大。

分类:统计 标签:,

如何理解“中介性模型是一个因果模型"?

2009/09/05 留下评论

z @ 2009-08-31:

我的研究假设包含一个中介变量而我的数据来自一次性调查(one-shot survey),我用SEM分析,结果拟合的很好。但审稿人批评说,虽然模型拟合了,但并没有证明该模型的因果关系,如自变量先于中介变量、中介变量又先于因变量。

我在“中介关系之父”David Kenny的网上(http://davidakenny.net/cm/mediate.htm)读到一句话“a moderational model is a causal model”(“中介性模型是一个因果模型”)。是否可以用来为自己辩护?

庄主 @ 2009-09-05:

恕我直言,你对Kenny的理解,可以说是典型的断章取义。以下是他原话的完整段落:

“Note that a mediational model is a causal model. For example, the mediator is presumed to cause the outcome and not vice versa.  If the presumed model is not correct, the results from the mediational analysis are of little value.  Mediation is not defined statistically; rather statistics can be used to evaluate a presumed mediational model.  The reader should consult the section below on  Specification Error.”(“中介性模型是一个因果模型。例如,假定中介变量影响因变量而不是反过来。如果这种前提假定并不成立,那么中介分析的结果就是毫无价值的。中介影响不能通过统计分析来证明,统计分析只能用来检验以中介性为前提的模型。读者应该参考以下有关模型设定中的错误。”)

相信你一定学过因果关系的三项条件:自变量和因变量之间具有相关性;两者的产生又有先后之别;不存在导致这种因果关系的其它变量。在中介性模型中,这三项条件需要扩展一下:自变量(X)和中介变量(M)之间、中介变量和因变量(Y)之间各有相关性;三者之间的产生又各有先后之别(X->M和M->Y);不存在导致这种因果链(X->M->Y)关系的其它变量。

Kenny的话指的是在上述条件二存在的前提下,SEM或其它统计分析方法可以检验条件一(甚至条件三,如果你的模型中包括了“一切可能的第三者”)的合理性。如果条件二不存在(如一次性调查数据)的话,拟合得再好的SEM也只证明了X和M之间以及M和Y之间的相关、并没有证明X->M->Y的先后次序。也就是说,哪怕X和M以及M和Y各自高度相关,三者之间的因果链还有X->Y->M、M->X->Y、M->Y->X、Y->M->X、Y->X->M等五种其它可能性!

如果你继续读一下Kenny有关“模型设定中的错误”一节的话,就会知道他在那段的开始还在强调上述(我演绎)的思想:

“Mediation is a hypothesis about a causal network.  …  The conclusions from a mediation analysis are valid only if the causal assumptions are valid.”(“中介影响是一种有关因果网络的假设。 … 中介分析的结论只有在有关因果条件存在之下才能是正确的。”)

还是那句老话,变量之间的因果次序是由数据的采集过程来决定的、而不是由统计分析(包括SEM)来决定的。

分类:统计 标签:,

如何在模型拟合度和模型合理性之间选择?

2009/06/30 1条评论

>

hz @ 2009-06-25: 我对四个变量之间的关系做了SEM检验,从拟合指数看第一个模型略优于第二个模型;两个模型路径系数显著性如图所示,实线代表通过显著检验,虚线代表没有。你觉得四个变量之间的关系应该如何解释比较好?

image

庄主 @ 2009-06-30:

从逻辑上说,模型2是合理的、而模型1是有问题的,因为模型1没有检验W和Z对YL的直接影响,而只是假定X是前两者的中介变量。

从实证结果(比较模型1和模型2)来看,Z对Y有直接影响、而X即不是一个中介变量、甚至也不是一个对Y有影响的自变量。这些发现,说明模型1中的X -> Y的显著影响其实是一个由于遗落了Z这个“第三者”而造成的 spurious(虚假)关系。

你提到,模型2的拟合度不如模型1。这是因为模型2比模型1多用了2个自由度。如果去掉W –> Y 和X –>Y这两对不显著的关系之后,两个模型的拟合度应该相似。但是,其实没有必要节省这2个自由度。如果少了2个自由度而使得原先可以拟合(即p > 0.05)的模型变成不可拟合(p < 0.05),说明你的样本太小,原先可以拟合的模型也是在边缘线上挣扎。

我们检验模型拟合度的目的是看该理论模型与实证数据之间的差别是否小到可以接受的程度、而不是追求模型的最佳拟合度。其实后者很容易通过其它不值得提倡的方法来做到(参见我前些日子的有关帖子)。

分类:统计 标签:, ,

如何处理和解读三角关系中的扭曲变量(distorter)?

2009/06/12 留下评论

>

龙猫 @ 2009-06-08:

庄主好,日前在研究中遇到一难题,想请您赐教。自变量ABCD通过中介变量E影响因变量F,但加入自变量G后导致E到F的路径系数由原来的显著正相关变成了负值,不知如何解释和处理?我自己的推断是G变量对F变量的解释力过强,压制了E变量对F变量的影响,但我不确定这样推理对不对。另外,也不知如何处理这类问题。故在此请教庄主,谢谢您。(注:研究的样本量为320,
测题数目为30.)

庄主 @ 2009-06-13:

为了便于其他读者的理解,我根据你的叙述,将你的两个模型分别复原在图1a和图1b中(注:图b中红线部分为我所加)。由于你没有说明G与A-D的关系,我假定G不是从A-D到E的另一个中介变量(如果是,问题会更复杂一些)。也因为如此,你的问题其实只涉及E、F、G的三角关系,与所以我加了一个红框,以下来集中讨论三角关系中可能出现的各种问题。

image

再重复一下你的发现:在没有控制G之前,bFE是正值;而引入G之后,b’FE(注意b的上标中的“’”记号)成了负值。你认为G是一个压抑变量(suppressor),不知如何处理G。

先讲讲三角关系的基本原理:

  1. 一个第三者(G)当且仅当同时满足以下两种条件时,才会改变原有自变量(E)和因变量(F)的关系:一是G与E相关、二是G与F相关。(你的数据看来同时满足了这两条。)
  2. 所谓“改变原有关系”,包括了三种不同的变化:一是改变了significance of the relationship(显著水平,即b值从不显著变显著或反之);二是改变了strength of the relationship(强度,即b值从小变大或反之);三是改变了direction of the relationship(方向,即b值从正变负或反之)。注意:这三种变化不是互斥而是独立的,即三者中的任何组合都可能同时发生。(你只说了你的数据中出现了方向的变化,不知原有关系的显著水平或强度是否也有变化?)
  3. 所有上述三种情况的变化,都说明E和F的原有关系是spurious(虚假)、靠不住,而引入第三者G是必要和合适的。(即你的模型a是错的而模型b是对的,应该接受后者,哪怕后者否定了你原先的假设。其实,对有经验的研究者来说,后者的出现更令人振奋,因为突破也许就在其中!)
  4. 第三者的角色,根据上述不同变化而分为distorter(扭曲变量)和suppressor(压抑变量)两种,当然也可能是两者兼顾(详见下表)。简单说来,扭曲变量的缺失导致了Type I的错误(如不应该显著的成了显著、微弱关系的成了强势关系、正的关系成了负的、负的成了正的,等等);而压抑变量的缺失则导致了Type II的错误(如应该显著的成了不显著、强关系的成了弱关系、等等)。大家知道,Type I后果更严重,所以对扭曲变量的控制更有必要(也正因为如此,发现扭曲变量往往会令人兴奋甚至亢奋。)

表一、压抑变量与扭曲变量之一览表

G as a Suppressor
G as a Distorter
Change in Significance-level
Nonsig->Sig
Y
Sig->Nonsig
Y
Change in Strength
Small->Large
Y
 
Large->Small
Y
Change in Direction
Postive->Negative
Y
Negative->Positive
Y

Source: J. J. H. Zhu (2009), All rights reserved.

回到你的数据,很显然,G是一个扭曲变量,所以一定要引入模型,原先的bFE是错的而b’FE是对的(当然,假定没有其它第三者的缺失)。至于G是否也是一个压抑变量,则要看bFE和b’FE的数值和各自的显著水平才能知道。你不妨补充报告一下,以飨读者。

也许你还会问,为什么G会改变原先关系的方向?我记得曾在以前的帖子中讲过(但一下子搜不到),G与E(即rEG)或G与F(即bFG)的两对关系中,必定(而其只能)有一对是负的(请你验证一下)。这是因为任何一组完整(即此外没有其它显著的第三者)的三角关系之乘积(即rEG X bFE X bFG)必须为一个正值(见图2)。传播学中的cognitive dissonance理论就是据此而来的(以下12字为广告:详见我译的《大众传播模式论》)。

image

如果想更进一步探讨这种三角关系的话,那么可以将G当做是一个交互变量来处理(事实上G与E的交互项往往就是显著的),其结果大多有助于解开这种扭曲现象之谜。我记不得是否曾经说过,一般说来,交互影响比中介影响更有“革命性”意义。That’s why I was excited, rather than depressed, when reading your message.

如何检验一个同时为调节和中介的变量?

2009/05/01 留下评论

>

Anonymous @ 2009-04-22:

祝老师您好: 我想请问两个困扰很久的问题:1.是否可能存在着这样的情形:在变量a对变量b有影响的前提下,变量c对它们之间关系的中介效应和调节效应同时存在?2.在用SEM做全显变量路径分析时,应该怎样看待这些拟合指数,是否和做CFA或结构模型的标准完全一样?

庄主 @ 2009-05-01:

我还没有见到过这种理论或这类数据。我估计,如果有某理论能合理假设出这种情形(你能否举个例子?),test(检验)并不难(见以下讨论),但却很难verify(证明),因为交互关系和中介关系各自都是不容易验证的小概率事件、而两个小概率事件交将是一个特小概率事件(传说中的“黑天鹅”事件?)。

说说如何检验交互关系+中介关系吧。当然需要借助公式和图像来说明。为了与为我其它帖子使用的符号一致,我将你的a、b、c分别改为X(自变量)、Y(因变量)和Z(调节和中介变量),并生成XZ(交互变量)。以下分别是交互关系、中介关系和交互+中介关系的模型:

image

注意:为了简便起见,三个模型都省却了常数项。模型a和模型c中的X、Z、XZ之间都假定为0相关。模型2和模型3中的b1也都假定为0。

模型1和模型2是用来说明模型3的来历,而模型3是需要被检验的模型,具体步骤为:

1、中介关系的检验:估计模型3(包括b1)、然后设b1为0,比较两者的拟合度,如果没有显著差别,则说明b1=0;如果b2和b4同时显著地不等于0,并且b2b4显著地大于b1,则中介关系成立(具体参见如何检验两个中介变量的效应?和其它帖子);

2、交互关系的检验:估计模型3(包括b1)、然后设b3为0,比较两者的拟合度,如果没有显著差别,则说明b3=0、反之,如果有显著差别,则说明b3不等于0、即Z对X与Y的关系有交互作用(具体参见以前发过的好些交互影响帖子)。

如果X、Y、Z都是直接观测变量,那么上述模型只是不含测量模型的路径分析,可以在SEM来做、也可以用经典的OLS回归来做(即分别执行图c标题中的两个公式就是了),其结果完全一样。SEM的拟合度可以用卡方值或R平方、而回顾的拟合度则用R平方。但是,这时的SEM的卡方值与CFA的卡方值之含义完全不同,前者是结构模型中因子之间的关系而后者是测量模型中因子与观测变量之间的关系。

如果X、Y、Z中有带观测变量的隐含因子,问题就复杂了很多,因为现有的SEM模型对交互项(XZ)没有完善的处理方法,一般是采用分组方法,即将样本按Z的不同值分成若干组,分别估计图b,然后通过比较各组b3的差别来验证Z的交换作用。

如何检验两个中介变量的效应?

2009/04/24 留下评论

>

flyingzjt @ 2009-04-21:

经常看贴,收益良好,今天请教一个问题:X影响Y的关系中有两个中介变量A,B,如果A与B相关,那么其中介效应如何确定,其大小可以比较吗?如果有两个自变量X,Z,中介变量仍为A,B,可能的影响为X-A-Y,同时Z-B-Y,且A与B相关,X与Z相关,那么两个中介变量的效应又如何确定,如果上述变量均为潜变量,如何用LISREL与AMOS检验中介效应?多谢多谢!

庄主 @ 2009-04-25:

你的问题叙述出来好像挺复杂,但如果先画个图(见下图b)再来看,就属常见并较简单的模型之一了。(注意,为了与我在“八大矩阵”中用的符号一致,我用γ表示从X和Z出来的影响而用β表示从A和B出来的影响;其它的系数如φ、ψ、ξ等也来自“八大矩阵”。)

image image

 

 

 

 

 

 

我估计你已经知道,中介效应需要满足以下条件:

  1. 在中介变量(A或B)没有起作用之前(如图a),自变量(X或Z)对因变量(Y)有显著的direct effects(直接影响,即βYX或βYZ ≠ 0);
  2. 当A或B出现之后(图b),X或Z通过A或B而对Y有显著的indirect effects(间接影响,即γAX或γBZ ≠ 0以及βYA或βYB ≠ 0);
  3. X或Z对Y的间接影响大于其直接影响(即γAX × βYA > γYX 或γBZ × βYB > γYZ );
  4. 当A或B起作用之后,X或Z对Y的直接影响随之彻底消失(即γYX或γYZ = 0,这就是为什么我在图b中用虚线表示相关的线条),

注:如果只满足条件1-3,则可认为存在weak version (弱版本)的中介效应;而如果条件1-4均被满足,得到的则是strong version(强版本)的中介效应。

根据上述条件,我们可以很容易地在SEM中检验中介效应。在本例中,由于涉及两个中介变量,可以分以下几步做:

  1. 检验“直接影响”模型(图a),如果其中的γYX 或γYZ 为显著,则条件1成立;
  2. 加入A和B而构成一个full model(“全模型”,图b),如果其中的γAX 和βYA同时显著、或γBZ 和βYB同时显著,则说明条件2成立;
  3. 如果全模型中的γAX × βYA > γYX 或γBZ × βYB > γYZ (前者即LISREL、AMOS等软件中报告的X或Z的间接影响值、而后者则是报告的X或Z的直接影响值),如果两者有显著差别,则说明条件3成立;
  4. 如果全模型中的γYX 或 γYZ 不显著,则说明条件4成立。
分类:统计 标签:, ,