6月 | 2010 | 竹家庄

档案

Archive for 2010年6月

如何处理SEM模型中的“坏”因子？

2010/06/13 庄主留下评论

SJ @ 2010-05-17:

我是X大学心理系的学生，目前在美国Y校访问。最近在处理数据时遇到问题不知该如何解决，之前在您的网页上冒昧向您请教过，非常感谢您当时的回复。我后来找了一些相关的文献看，知道了多组比较的大概步骤，但在统计中又遇到了新的问题，所以再次向您请教。谢谢您关注我的邮件！

我探讨的是暴力游戏对青少年攻击性影响的性别与年龄差异。研究变量包括：

自变量：玩暴力游戏的程度(VVG — 庄主注，下同)
因变量：身体攻击(Physical Aggression)
中介变量：信念(Belief about Aggression)、期望(Hostile Expectation)、移情(Empathy)
调节变量：性别、年龄

因此我把全部被试（795人）按年级和性别分成六个组，每组100多人，想比较不同性别、不同年龄孩子模型的路径差异（庄主注：这应该是一个moderated mediation模型，对此有兴趣的读者请仔细理解本案例的模型设置及有关讨论）。

比较结构模型前，为了确定测量等同(measurement invariance — 庄主注)，我分别对信念、移情和身体攻击这三个潜变量进行了单组和多组的CFA。以因素负荷相等(factor loadings invariant — 庄主注)为标准，最后确定了5项目的信念、5项目的身体攻击及12项目的移情测量，能够满足跨组测量等同。信念和身体攻击是完全等同，两个移情项目虽不等同，但考虑到12题中只有两题不等同，所以认为部分等同也能允许进入结构模型的比较。

上面我所提及的CFA是分别针对每一个变量（庄主注：应该是factor吧？）进行的。但当我把所有变量（庄主注：也是factors吧？）都整合到一个模型后发现，六组都不能很好地拟合总模型。我看了修正指数（modification index或MI — 庄主注），发现问题主要出在移情这个变量上。在前面的测量等同阶段，我删掉了16个移情项目，保留了12个项目，这12个项目分属5个因子。在结构模型中，我把这个5个因子作为移情的指标（庄主注：Empathy成了一个second-order factor？），但发现指标间及指标与其他变量还存在复杂的关系，这导致了模型不能较好拟合。

我又尝试了很多次，尝试找到一个移情的测量模型（measurement model — 庄主注），无论是单个变量的单组及多组CFA，还是放到总模型中时，都能拟合六组数据，但徒劳无功。

如果把所有变量都当成显变量，那模型都能拟合得很好。但我能这样做吗？如果把所有变量当成显变量来处理的话，那前面的测量等同检验是否还有必要？

我实在不知道该如何考虑和继续，所以冒昧请教，请您给予我指导，非常感谢！

附件的图是我在确定了各组的测量等同后，用总数据做的模型。我担心我说得不清楚，可能看看模型会有帮助。再次感谢！

X²(114) = 411.1, p < .001, RMSEA = .06, NNFI = .90, CFI = .91

Note: Unstandardized coefficients are provided first, with standardized coefficients in parentheses. All paths are significant.

SJ @ 2010-05-21:

在等待您的回复之余，我这几天仍然在尝试寻找拟合潜变量的总模型，但可恨NNFI仍徘徊在0.8几（如果拟合很差我也就放弃了）。我发现问题在于移情量表。因为当我把三个潜变量当中的移情视为显变量，保留攻击与信念作为潜变量时，模型的拟合是可以的。移情的四个子量表之间有复杂的关系，而这不是我这个研究想关注的问题。我该如何处理呢？

庄主 @ 2010-06-13:

正如我在你上面叙述中加注所说，你想研究的是一个moderated mediation (“被调节的中介效应”？) 模型。虽然这种模型有点复杂，但是你遇到的三个问题（见下），却是在其它各种模型中也经常会出现。

一、为何你对三个中介变量分别做CFA时各自都拟合得很好，但当将三个因子合在一起做CFA时却拟合不好？这很常见。一般而言，单个因子CFA（即只有一个因子的模型）非但没有意义、而且富有误导性。实际研究中，最简单的模型至少也有两个因子。而拟合任何一个多因子模型，则不但需要每个因子内部的测量指标之间高度相关，而且需要各因子之间的测量指标基本独立（见下图a）。而如果数据是下图b那样，则会出现单因子模型拟合很好而多因子模型拟合不好的现象。在本例中，如果分别拟合X1-X3和Y1-Y3，会得到两个很完美的模型，但那是假象，X1-X3和Y1-Y3实际上应该同时属于一个因子。

二、为何总样本的拟合度要比六个分样本的拟合度好？你没有这么说，而是我从你提供的总样本模型拟合度（应该是勉强可以接受）和对分样本结果的叙述（如“六组都不能很好地拟合总模型”和“NNFI仍徘徊在0.8”等）中推出。这应该与你的分组样本过小有关。如你所说，每个分样本100余人，而每个模型含30来个测量指标（（= 22个中介变量指标 + ？个自变量指标 + ？个因变量指标）。计算样本量是否足够的一种快捷方法（不一定精确但大体上可靠）是样本量除以测量指标数。文献中最宽松的说法是应该大于10（我倾向于更大一些）。而你这里只有4-5之间。样本小的一个直接结果是指标之间的相关程度不稳定（可以更高或更低）。回到上图，总样本容易接近a，而分样本则难。这里不怕因子内部相关程度变低，而是拍因子之间相关程度变高。

改进的方法包括：增加样本（你大概做不到）；减少分组（如两个年龄组 X 两个性别组 = 4）；减小测量指标数（尤其是“移情”用了12个指标，有必要那么多吗？）等。

三、“移情”是个“坏”因子，是否可以将其12个测量指标直接进入模型（即你说的“显变量”）？如果为了提高拟合度，当然可以这么做。但是，这在理论和统计上都是下策。首先，显变量都是含测量误差的；其次，一个含12个显变量作为中介变量的模型是无比复杂；再次，部分（或很多）显变量之间会有共线性问题；等等。所以，你得到了模型拟合度的改进，但失去了更多。

我并不了解你的“移情”量表之来历，估计是个已被前人验证的成熟（？）工具。如此，为何在本案中成为“搞坏了一锅汤的老鼠屎”呢？也许是问卷翻译的问题？或是被测对象的不同（文献中的移情是用于儿童的吗）？还是加在其它问题之后（？）产生的副作用？等等。可能有很多种原因。你说移情不是你本研究想关注的问题。但是，如果该因子的测量模型太有问题，那么，你只能在整体删去这个因子和显变量处理之间做出痛苦的选择。如果是我，会选择前者。

分类：统计标签：SEM, 中介变量

为何一个自变量在总样本和分样本中的显著性不同？

2010/06/05 庄主留下评论

Anonymous @ 2010-06-02:

老师：您好。我在做回归分析的时候遇到一个问题，想向您请教。假设我用一些自变量解释因变量y

y=a0+a1x1+a2x2+…+anxn (模型1)

最后得到的结果是x1(如非农收入比重)，x2(如政府补助)与y1显著相关(p<0.01)。我的指导老师希望我对样本进行分组，分为参与非农产业与未参与非常产业，然后对两个子样本分别进行回归分析。他想考察参与非农产业与不参与非农产业的情况下，x2对y的解释力是否有差异。得到两个模型：

参与非农产业的样本（样本2）：y*=a0*+a2*x2*+…+an*xn* （模型2）

不参与的样本（样本3）：y‘=a0’+a2‘x2’+…+an‘xn’ （模型3）

结果模型2里，x2与y之间显著相关，模型3里二者并不相关。我的指导老师就说这是因为，x2与y之间之所以显著，就是因为在样本2里二者有显著相关关系。对于不参与非农产业的样本，x2与y之间并无关系。因为我对统计知识一无所知，所以上来向老师求助。我的指导老师的说法对吗？出现这种结果还可能是什么原因？或者怎样理解这种现象？

期待您的回复，谢谢

庄主 @ 2010-06-05：

虽然你描述了很详细，但我还不敢肯定完全清楚你的数据（如Y是什么？）和以及你指导老师的意思（他的话“X2与Y之间之所以显著是因为两者有显著相关关系”好像是同义词重复？）。

我猜，你的核心问题是为什么X2在总样本和分样本1中对Y有显著影响，但在分样本2中没有显著影响？假定你是根据X1而将总样本一分为二的（因为X1没有出现在模型2或3中），那么X2只在分样本1中显著的原因有二：

一、X1与X2对Y有交互影响（interaction）。简单说来，X2对Y的影响不是一个常数，而是随着X1的值而变化，如当X1 > 0 (是吗？)时，X2对Y有显著影响；而当X1 = 0（是吗？），X2对Y并无显著影响。至于为什么会这样，则是需要用你们的专业知识来解释了。

二、由两个分样本的大小不同而造成。我们知道，相关系数或回归系数的显著性与样本大小直接有关。如果两个样本的大小不同，即使两者的相关系数或回归系数相同，其中大样本的系数可能显著而小样本的系数则可能不显著。这是一种方法上的artifact（即人为假象）。你需要检查一下两个分样本的大小是否相同。

事实上，如我在前贴（如“分样本比总样本的回归分析更准确吗？”）中指出，检查X1和X2的交互影响，不应该将样本按X1的值分成两个分样本来比较a2，而是应该在总样本（即你的模型1）中加入X1和X2的交互项（即X1和X2的乘积），用你的模型术语来表示，即为 Y = a0 + a1X1 + a2X2 + a3X1X2 + … + anXn。其中a3的显著性直接检验了a2是否随着X1的变化而显著变化，并避免了因为将总样本分成分样本而造成的人为不显著假象。

分类：统计标签：回归分析, 交互影响

竹家庄

档案

如何处理SEM模型中的“坏”因子？

为何一个自变量在总样本和分样本中的显著性不同？

Random Posts

分类

链接

归档

功能

竹家庄

档案

如何处理SEM模型中的“坏”因子？

为何一个自变量在总样本和分样本中的显著性不同？

Random Posts

标签云

分类

链接

归档

功能