如何理解SEM的八个参数矩阵与七种变量之间的对应关系?
>
LISREL的八个矩阵
>
(原版2007年5月19日,略有修改重发)
传说中的“八大军区联络图”终于出笼了:
上图看起来挺吓人的。别紧张,先定义一下。图中每个圆圈代表一个隐含因子、每个方块代表一个观测变量、每条直线或曲线代表一个参数(parameter,也叫系数)、跟在每条半封闭直线后面的是一个因子或变量的残差(error)。所谓“八大矩阵”,就是八种参数的集合。分别列在表一:
如表所示,其中前四个矩阵用于测量模型部分、后四个矩阵用于结构模型部分;每模型一部分又分别分为外生(即图一的左边)和内生(图一的右边)两边;每一模型部分的每一边,再分别分为关系参数和残差参数。即一个2 X 2 X 2的设计,十分严密。
上面的图和表中,都用到了希腊字母、而且大小写并用,实在是三难(难认、难读、难记,读音参见表二)。其实经典统计学中也用到一点希腊字母,其规则是:变量名用罗马字母(即英文)、参数用希腊字母(如回归系数叫BETA);总体变量和参数用大写、样本变量和参数估计值用小写。LISREL大体上沿用了这些规则。然而,由于SEM中的变量有观测的和隐含的之分,LISREL的创始人Joreskog决定沿用罗马字母表示观测变量、但用希腊字母表示隐含因子。其用意可嘉、但结果使得参数和隐含因子分享同一套符号而产生了很多困扰。(如果该老友用禅经字母来表示隐含因子、那该多爽啊。)
八大矩阵是LISREL的核心思想,也是其与AMOS、EQS等其它软件的主要不同。其缺点如上所说,概念太多、名字难念、令人望而生畏。优点嘛,则见仁见智。我用了近20年,觉得其好处主要有两个::一是便于区分外生因子(exogenous factors)与内生因子(endogenous factors)之间、隐含因子与观测变量之间、以及因子/变量的各种相关系数之间的差别;二是便于用户之间交流(包括写学术报告)时有一套确定而又简便的符号系统。
当然,是否值得仅仅为了这些好处而去重学一种外语(希腊语),则又是见仁见智了。我的看法,如果你用LISREL,那只能学;如果你用其它软件、但有志成为SEM的pro,那也要学一下(不然如果与主流沟通?);如果你用其它软件而无意成为SEM方法专家,不学也罢,有所失必有所得。
如何识别回归分析中的压抑效应?
>
DHF @ 2010-01-25:
祝老师,您好,我是心理学专业学生,想向您请教一下,如何identify a variable as a suppressor variable in regression analysis? 我的数据中出现了类似于classical suppression的效应,但不清楚IV的regression weight提高多少才可以认为是suppression effect. 多谢!虎年顺利!
庄主 @ 2010-02-06:
Suppression effects(压抑效应)是回归分析中的一个重要而又复杂但却不常见的概念。你提到classical suppression(经典压抑),自然也知道此外还有net suppression(净压抑)和cooperative suppression(合作压抑)。相比之间,经典压抑最罕见(以下会谈到),但最容易确认。我用模拟方法做过经典压抑数据,但在实际研究中从来没有遇到过这种数据。你好像中了彩票,值得庆贺。如不怕泄露学术机密,不妨描述一下你的数据以及你认为可能的原因。我相信很多读者都会有兴趣了解。
考虑到大多数读者可能对压抑效应知之甚少,我先讲一些基本概念(估计你已经知道其中的大部分)。
为了便于叙述,我们只讨论含有两个自变量的回归模型,即 Y = B1X1 + B2X2。其中,B1和B2是标准化回归系数,所以没有常数项),另外记X1与Y的相关系数为ry1、X2与Y的相关系数为ry2、X1与X2的相关系数为r12。 习惯上一般将X1看做主要的自变量而将X2看做是压抑变量。当然,X1和X2是对称的,完全可以将X1看做压抑变量的。
统计文献中有过不少压抑效应的定义,其基本思想基本一致,但具体公式上有所不同(所以结果也略有不同,但我不准备涉及那些技术细节)。就基本思想而言,压抑效应是根据ry2 与 B2之间(或者ry1 与 B1之间)的差别来确定的。具体说来,ry2 可以取正值、负值和零值三种可能性,B2则有正值和负值两中可能(但B2不能为零,详见下文)。这样我们就要3 X 2 = 6种情况,分别属于经典压抑、净压抑和合作压抑:
- ry2 = 0而B2 > 0,叫做 positive classical suppression(正向经典压抑);
- ry2 = 0而B2 < 0,叫做 negative classical suppression(反向经典压抑);
- ry2 > 0而B2 > ry2 ,叫做 positive cooperative suppression(正向合作压抑);
- ry2 < 0而B2 < ry2 ,叫做 negative cooperative suppression(反向合作压抑);
- ry2 < 0而B2 > -ry2,叫做 positive net suppression(正向净压抑);
- ry2 > 0而B2 < -ry2,叫做 negative net suppression(反向净压抑)。
上述六种情况,都包含|B2|>|ry2|的条件,即一个自变量的回归系数之绝对值必须大于其与因变量的相关系数之绝对值。这是压抑效应的必要和充分条件。这里的“大于”、“等于”、“小于”、“差别”等,都是在统计显著性检验的含义上说的。如,在一个样本中,ry2的值可以不是0、而是一个与0没有显著差别的数值(当然是一个很小的数);而B2绝对值与ry2绝对值之间的差别一定要达到统计显著水平(至少为p < 0.05)。当然,如何进行这种统计检验则不是一个容易的事,因为检验H0:|B2|=|ry2|的零假设,需要有B2和ry2的联合标准误差SEB2,ry2,而无论相关分析和回归分析都无法计算SEB2,ry2。
所幸的是这种困难对于经典压抑并不存在,因为根据定义,经典压抑的前提是ry2 = 0,所以检验经典压抑只须证明当ry2 = 0时,|B2| > 0(即上述情况1和2)。这大概就是你想知道的答案了。这么简单?是的。至今为止我看到的所有文献 都是这个意思。当然,|B2| > 0 仅仅表明B2有统计意义上的显著压抑效应,至于这种压抑效应是否具有实际或理论意义,则取决于B2的大小。这时,我们可以按判断回归系数大小的传统标准(如0.1为弱、0.3为中、0.5为强)来解读B2的压抑效应。
虽然我们无法对净压抑和合作压抑的零假设做正式的统计检验,但我们也可以援引上述rule of thumbs(惯例)来解释|B2|-|ry2|的大小。(我在写这个帖子时,突然想到,也许这个问题可以在SEM中通过equality constraint的方法来解决。我一下子没想好,如有进展,会在这里报告。)
最后再补充一下:所谓“压抑效应”,是指上述回归模型因为引入了X2而将X1的方差中与Y无关之部分压抑或过滤掉了,从而改进或提高了该回归模型对Y的解释力。(The inclusion of X2 in the regression model suppresses or removes the part of variance in X1 that is unrelated to Y, which results in enhancement of the explanatory power of Y by the model.) 早年(也许是由于计算能力的局限),很多研究建立在相关分析基础之上,所以很有必要关注压抑效应的可能性。现在,多元回归分析是很多研究的起点。既然回归模型中已经同时考虑了X1和X2对Y的影响,那么X2的压抑效应已经被过滤了(当然也许还有X3、X4等等的压抑效应没有被过滤掉)。再加上压抑效应的数据不常见,所以现在很少人会检验压抑效应。但是,如果数据中真有压抑变量,其成因是很有价值的问题,弃之不顾太可惜了。同时,压抑效应的知识还可以帮助我们在研究设计阶段(即收集数据之前)将表面上与Y无关但与X1有关的X2包括在问卷或其它数据采集工具中。