3月 | 2010 | 竹家庄

档案

Archive for 2010年3月

如何处理自变量之间的相关关系？

2010/03/20 庄主留下评论

JF @ 2010-03-15:

我有一个初级问题想了很久还是不清楚。假如我有一个因变量Y、两个自变量X和Z，如果做回归分析，只要将X和Z同时进入回归模型就可以了，不需理会X和Z的相关关系。但是如果用SEM，除了要分别连接X和Z对Y的路径，还要连接X和Z之间的相关关系。这是为什么呢？不是说在结构层面回归和SEM是一致的吗？

另外，在报告上述SEM结果时，是否需要描述和解释X和Z的相关关系？如果用回归分析，是否还需要另行计算X和Z的相关关系、然后再报告呢？

庄主 @ 2010-03-20：

你的问题确实简单、但绝非初级，因为其中涉及了回归分析与结构方程模型（SEM）的主要异同，值得讨论一下。首先，自变量与因变量之间的结构关系 (structural relationship among variables)，如自变量对因变量的直接影响、间接影响、总影响、交互影响、等等，在回归和SEM中都是同义的（但不一定是等值的，因为前者含有测量误差而后者不含测量误差，但这与本文无关，所以下面的讨论均假定所有变量都不含测量误差）。

但是，在处理自变量之间的相关关系时，两者所用的方法不同：回归是用隐含方法而SEM是用明示方法。在回归模型 Y = b₀ + b₁X + b₂Z中，对回归系数b₁和b₂的估算公式分别包含了X与Z的相关系数（记为r_XZ；同理，Y与X、Y与Z的相关系数分别记为r_YX和r_YZ）:

和

由于b₁和b₂是在Y与X或Z的简单相关系数中扣除了X与Z的相关程度（以及Y与另一自变量的相关程度），所以b₁和b₂又被叫做partial regression coefficients（偏回归系数）。可见，在回归分析中，自变量之间的相关关系是自动而且必须地被控制了的。这里的“被控制”是指用于消除自变量之间的相关关系的影响。

在SEM中，自变量之间的相关关系是需要明确设置的。如在使用矩阵语言的LISREL中，通过指令"FR PH (1, 2)”来估算r_XZ；而在使用图形语言的AMOS中，则是通过在X和Z之间画一条双箭头的曲线来估算r_XZ（见下图，注：图中的三个参数b₁、b₂和r_XZ是不需要的，这里只是为了说明它们与上述回归模型的对应关系）。

该SEM模型与上述回归模型是等价等值的。大家可以用一个含三个变量、N > 200 （SEM所需的最小样本量）的数据验证一下，两个模型的b₁、b₂、r_XZ、R-Square（= AMOS中的MSC）、Std error of the estimate（= SEM中e的Variance的平方根）应该都相等。然而，回归用的是OLS（最小二乘法）而SEM是用ML（最大似然法）来估算上述参数的。这两者之间的差别，除了对样本量的要求不同（ML估算只有在大样本条件下才可能接近OLS结果），还有许多深层的差别。这里只讲其中比较明显的一个差别：如上所示，r_XZ在回归中是自动被控制起来的，但在SEM中却需要人为设置。反过来说，如果需要的话，在SEM里也可以设置r_XZ= 0（在AMOS中也可以将X和Z之间的曲线删掉）或其它任意值（1.0，0.5，等等）。如此设置的模型，因为少估算了一个参数，所以会比原模型多出一个df（自由度），通过比较两个模型的拟合指数（Chi-squares）之差，就可以检验 r_XZ= 0（自变量之间为正交）或r_XZ= 1 （自变量之间没有discriminant validity）等假设。这些都是无法在回归分析中实现的。

回归模型与SEM模型之间更核心的区别在于前者是在变量层面检验自变量对因变量的解释程度、而后者则是在观察值的方差-协方差矩阵层面检验理论模型与实际数据之间的拟合程度。打个不完全恰当的比分，回归是西药，针对特定病症有强效，但不顾其它后果；而后者是中药，旨在整体和治本，但有时对特定病症并无速效。这种根本区别在本文讨论的自变量相关关系上也有一定影响，但这是一个大题目，需要很多基本概念和铺垫，否则难以讲清，所以不予展开，只是提醒大家，SEM的水很深，下水前要做足热身运动，而回归则是最好的热身运动。就如现在的中医学院都是先教西医原理、再进入中医的。

回到你最后那个问题：如何报告r_XZ？一般说来，自变量之间的相关关系（如r_XZ）是一种unanalyzed relationship（不作分析的关系）。这里的所谓“不作分析”指的不是统计分析、而是理论分析。如上所说，r_XZ在回归中是不直接计算的，但在SEM和用回归做路径分析中均需要统计分析的。但是，除非有特定研究目的（如上述检验自变量之间的discriminant validity）之外，大多数理论并不规定自变量之间关系的强度、方向（谁影响谁）、性质（正或负相关）等，所以实际研究中往往只是简单地估算它们之间的相关关系而不进一步深究其关系的性质、方向、性质等。在写报告时，如果用图形表示实证模型的话，可以在图上标出相关系数的估计值；如无图形，可在附录或注释中用文字或表格报告一下；但在正文中则一般不必提及。

分类：统计, 论文写作标签：SEM, 回归分析

清华SEM班邀请外校学生网上实时参与

2010/03/19 庄主留下评论

课程名称：结构方程模型的原理与应用 Structural Equation Modeling: Principles and Applications

对象：清华大学新闻与传播学院硕博研究生及外校新闻传播院系本科1-3年级或硕士研究生1年级同学20人

时间：2010年5月15-24日

报名：2010年3月31日止

详见：http://www.tsjc.tsinghua.edu.cn/news.php?id=971

分类：讲座标签：SEM

如何确定两个调节变量之间的主次关系？

2010/03/06 庄主 2 条评论

SJ @ 2010-03-02:

祝老师您好！我是心理系的学生。在网上偶然逛到您的庄园，受益匪浅！非常感谢您的慷慨，跟大家分享您的所学所得。我最近在处理早前的一个数据，遇到困惑，不知道该怎么继续，想向您请教，先谢过。

我的数据涉及以下变量：一个自变量、一个因变量、四个假设的中介变量。另外人口统计学变量方面，考察了年龄（分成四个年龄组）和性别。我关注的是自变量如何通过中介变量影响因变量，以及这种影响是否存在年龄的发展差异。然而，我在做各个变量的相关时发现，性别跟好几个重要的变量都有显著的相关。因此我的困惑在于，我应该如何处理性别的问题。1.把性别作为调节变量，放到各个年龄组中来建立模型？2.还是每个年龄组都建立男生模型和女生模型？您觉得哪种方法更合适？具体又该怎么操作呢？

庄主 @ 2010-03-06:

谢谢与大家分享你的研究问题。这是一个相当复杂（其复杂程度应该远远超出你的预计，具体见下）的研究设计。我前天在我的课上介绍了你的问题，建议学生们来这里分享他们的看法。至今还没有人现身，也许是你的问题太难、也许是他们还没完成下周一交的作业。我先说一下解决方案的基本思路，希望他们能够接下去帮你解决方案的操作问题（同学们，这是你们给老师和学校挣面子的时候了）。

先整理一下你的问题所涉及的研究假设：

H1. 自变量X对因变量Y的直接影响（记为b_YX）。

H2. X通过中介变量M1-M4对Y的间接影响（分别记为b_Y(M1-X)、b_Y(M2-X)、b_y(M3-X)和b_Y(M4-X)）。

H3. 年龄A对直接影响b_YX的调节作用（即A与X对Y的交互效应，记为b_Y(X*A)）。

H4. 年龄A对间接影响b_Y(M1-X)等的调节作用（即A与X-M对Y的交互效应，分别记为b_Y((M1-X)*A)、b_Y((M2-X)*A)、 b_Y((M3-X)*A)和b_y((M4-X)*A)。注：因为X-M对Y是中介关系，所以A与它们的交互关系是一种被称为“moderated mediation“、即“被调节的中介关系”，相当复杂！）。

先在这里停一下。H1-H4可以用OLS回归来分析，但在SEM工具（如LISREL、AMOS等）中更方便。如用后者，需要把年龄当做组别，而将样本按年龄分成4组、通过比较组间的invariance来检验X对Y的直接和间接关系是否随着年龄的变化而不同（具体操作这里略过）。也就是说，moderated mediation关系，听起来很复杂，但在SEM中通过设置组间equality constraint的小技巧（或“小伎俩”？），很方便就能解决了。

好了，回到你最后的问题：如何检验性别S的影响？也就是检验以下假设：

H5. 性别S和年龄A对直接影响b_YX的调节作用（即S、A与X对Y的交互效应，记为b_Y(X*A*S)或b_Y(X*S*A)）。

H6. 性别S和年龄A对间接影响b_Y(M1-X)等的调节作用（即S、A与X-M对Y的交互效应，分别记为b_{Y((M1-X)*A*S)}或 b_{Y((M1-X)*S*A)}等）。

你考虑了两种方案来检验H5和H6：一是将性别nested（嵌镶）到年龄中、二是将年龄嵌镶到性别中。表面上看，好像两者有根本区别，但实际上是一回事！性别和年龄是两个同等级别的调节变量，它们的联合影响是一种3rd-order interactions（三阶交互效应，也相当复杂），用公式来表述，如H5中的b_Y(X*A*S)或b_Y(X*S*A)，前者是年龄嵌镶在性别中、后者是性别嵌镶在年龄中，但无论谁嵌镶到谁中去，b_Y(X*A*S)和b_Y(X*S*A)两者是完全同价等值的。如果用SEM来检验，也无论谁嵌镶到谁中，你总需要将样本分拆成8个组（4个年龄组X2个性别组）。当然，在解读结果时，你可以而且需要根据自己的理论框架来确定A和S之间谁主谁仆的次序。

最后，要说一下检验如此复杂模型的成本问题。如上所说，如果用SEM，需要8个组；基于每个组涉及5个自变量（X、M1-M4），按每个自变量需要20个案来计，你至少需要每组100个案，总样本800个案。当然，你的年龄组分布可能不均匀，所以总样本很可能要1000以上。如果不用SEM而用回归，可以不分组，但是变成了一个非线性模型，涉及了24对二阶交互关系和12对三阶交互关系，即使总样本有1000个案，也只少不多。样本数少了、会有什么后果？你的中介效应、调节效应和被调节的中介效应都有可能不显著。其中的最薄弱环节是中介效应（H2）。所以，建议你先将H2分成H2a-H2d四个分假设，分别检验A和S对各分假设的调节作用（= 4 X (4 X 3 /2) X 2 = 48个组间比较，如果你想不通为什么会有48个组间比较，请详细演算一下），以简化模型。

总结：中介效应、调节效应和被调节中介效应在理论上都是很吸引人的模型，但在实证上即昂贵又难操作，需要事先有充分的思想和技术准备。

分类：统计标签：SEM, 中介变量, 交互影响

竹家庄

档案

如何处理自变量之间的相关关系？

清华SEM班邀请外校学生网上实时参与

如何确定两个调节变量之间的主次关系？

Random Posts

分类

链接

归档

功能

竹家庄

档案

如何处理自变量之间的相关关系？

清华SEM班邀请外校学生网上实时参与

如何确定两个调节变量之间的主次关系？

Random Posts

标签云

分类

链接

归档

功能