档案

Posts Tagged ‘协方差分析’

如何区分协方差分析与半偏差相关分析的差别?

2011/09/25 留下评论

zshtom007 @ 2011-08-22:

庄主你好,想请教下协方差分析(ANCOVA)和半偏相关分析(semi-partial correlation)的差异,谢谢!

庄主 @ 2011-08-23:

ANCOVA是一种检验多个自变量(分别为定类水平和定距水平)对一个因变量(定距水平)影响的方法、其结果体现为一系列的F-值以及相应的df值、p-值;semi-partial correlation是在扣除了其他(定距水平)自变量的影响之后、一个自变量与一个因变量(均为定距水平)之间的相关系数(即一个统计量)。因此,两者不是直接可比的。请进一步说明你的变量或模型,以便我理解你到底想问什么?

zshtom007 @ 2011-09-12:

谢谢庄主回答。我想问的是,ANCOVA的思想是控制掉covariate对因变量的影响后,考察其它自变量对因变量的影响。可以有方差解释百分比的指标。而semi-partial correlation的思想也是控制掉某一自变量对因变量的影响后,求另外一个因变量和自变量的相关系数,也可有与以上方差解释百分比对应的r-square指标。

我是想问着这种控制covariate的思想之间有什么差别?

庄主 @ 2011-09-24:

终于明白你的问题。你问的其实就是ANOVA(Analysis of Variance,方差分析)与回归分析的异同。我曾在几个前贴里提到过,方差分析是心理学、教育学的主打武器,而后者则是社会学、政治学等学科的基本工具,但是两者的数学基础相同、估算结果也一样。

不错,你问的是ANCOVA(Analysis of Covariance,协方差),但它只是方差分析从只含定类水平的自变量到也容许定距水平的自变量(习惯上被叫为covariate或协变量)的扩展而已。经典的回归分析只含定距水平的自变量,但通过将定类变量转换成dummy或哑变量,回归分析也可以同时包含定距和定类的自变量。因此,协方差分析和回归分析所能解决的分析问题及其结构完全一样:检验一组定距或定类的自变量对一个定距水平的因变量的联合和独立影响。

先说多个自变量对一个因变量的联合影响。这种影响在方差(或协方差)分析中是通过分解Sum of Squares(离差总和)的来源而实现的,即将离差总和分解成由自变量造成(组间离差)和由误差造成(组内离差)两部分,前者除以离差总和即为自变量的联合影响(即你说的“方差解释百分比”)。而在回归分析里,自变量的联合影响是直接通过回归模型的R2来反映的,但事实上R2也是通过计算被解释的离差除以总离差而得知的。所以,尽管方差分析与回归分析使用的术语不同,两者检验自变量的联合影响的方法及其结果是完全一样的。

再说各个自变量对一个因变量的独立影响。你肯定知道,如果各个自变量之间没有任何相关关系(如控制实验的数据一般如此),那么它们对因变量的影响一定是独立的;而这些独立影响之和,就是上面讲的联合影响。但是,观测而得的自变量(包括实验中的协变量)之间通常是有相关关系的,所以就产生了在自变量之间存在相关关系的条件下,如何计算各自的独立影响的问题。可以说,这是数据分析中最常见也是最容易令人迷惑的问题之一。其纠结之处在于以如何扣除(即“控制”)其它自变量的干扰影响?方差分析和回归分析两个阵营内,各有好几种看法,区别都在于把哪些离差放进计算公式到分子里、哪些离差放进分母。我无意在此一一叙述,否则只会将大家弄得更加迷惑,而只讨论一下你提到的回归分析中的semipartial correlation(半偏差相关系数)。这是我知道的各种计算独立影响指标中最“干净”或最保守的指标。简单说来,它的平方值描述了因变量的离差中纯粹来自某自变量的部分(即既独立于该自变量与其它自变量的相关关系、也独立于该因变量与其它自变量的相关关系),因此,它的值小于任何其它相似指标(如partial correlation)。

协方差分析一般会报告partial eta squared,它的根号值与回归中partial correlation相等,但与semipartial correlation有所不同。如果你需要知道后者,可以根据协方差分析的结果手工计算,当然更省事的方法是放到回归分析里去计算。

如何解读回归与ANOVA的不同结果?

2010/01/24 留下评论

>

Anonymous @ 2010-01-22:

祝老师好!我是心理专业的学生,想请教一个具体的问题。对一个三类别变量作ANOVA结果显示类别1显著小于类别2和类别3,但将这三类转换为dummy variable,类别1为00,类别2为01,类别3为10,用同样的因变量来做回归时,结果是第一个dummy variable没有显著差异,而第二个dummy variable有显著差异,这是不是意味着类别2显著区别于类别1和类别3呢?如果是,为什么会出现这种结果呢?可能需要加上的是我在做回归时还引入了一些其它的变量,其中有一个会与类别变量有相关。

庄主 @ 2010-01-24:

将一个含3个类别的名目变量转换成两个dummy variables(分别记为D1和D2)后做回归分析,D1反映的是类别1和类别2的差别、D2反映的是类别1和类别3的差别。那么为什么类别1和类别2的差别在ANOVA中显著而在回归中不显示?因为你在回归中加入了其它自变量而成为多元分析而ANOVA是只有一个自变量的单元分析。其实,你可以将那些新加的自变量作为协方差 (covariates) 放入ANOVA的,这时就成了ANCOVA (Analysis of Covariates),其结果应该与你做的回归分析完全一样。

你再问:D2为显著,是否说明了类别2显著区别于类别1和类别3呢?没有。D2只说明类别1和类别3的差别,与类别2无关。D1检验类别1与类别2的差别。如果希望知道类别2与类别3的差别,将类别2设为基准组(即类别2取00值,而类别1为10值),那么D2就是反映类别2与3的差别了。

分类:统计 标签:,

如何分析固定样本数据?

2009/09/12 留下评论

H @ 20009-09-08:

我在分析一个固定样本 (panel sample) 的数据,其中每个人被调查了两次,因变量是定距变量、自变量既有定距也有定类变量。我是第一次做Panel,参考了你在《传播统计学》第15章中“固定样本分析的主要步骤”一节,其中建议当因变量为定距变量、自变量即有定距也有定类变量、数据时点为2时,最简便的是使用回归分析、或者使用协方差分析,其结果应该是完全相同的(第405页)。我尝试了SPSS中GLM模型中的Univariate和Repeated Measures两种方法,以下是我用的指令 (其中Y1和Y2是因变量、X是定距自变量、Z是定类自变量),

UNIANOVA y2 BY z WITH y1 x/Design.

GLM y1 y2 BY z WITH x/WSFACTOR = y 2 Polynomial/WSDESIGN = y/DESIGN.

发现它们的结果并不相同,不知问题出在哪里?

庄主 @ 2009-09-12:

一、你用的UNIANOVA, 正式名字叫做 ANOVA with lagged dependent variable as a covariate(“含有因变量过去值的协方差分析”,简称ANCOVA,也就是我们书上说的协方差分析)。这种方法,与书上公式15-6的OLS regression with lagged department variable as an independent variable(“含有因变量过去值的经典回归分析”),在数学上完全一样,其结果当然也完全一样(参见前文回归与GLM的分析结果真的不同吗?)。

两者相比,协方差分析在操作上有一个好处:可以直接输入定类自变量,而在做回归分析前,则必须先将定类自变量转换成dummy variables (哑变量)。

不管用协方差还是回归分析,最重要的是要明确被检验的零假设是什么?以本例来说,被检验的是以下的零假设:

1. Y1对Y2没有显著影响;

2. X对Y2没有显著影响;

3. Z对Y2没有显著影响。

注意,因为你用的“DESIGN”指令中没有任何自变量,说明你只想检验Y1、X和Z对Y2的main effects(主影响)而不建议三者之间的交互影响,也许这是你的理论问题所需,当然没有问题,而且也简化了这里的讨论。

从这三个假设来看,假设1只是技术性需要(控制Y1与Y2之间的自相关),虽然绝大多数情形下两者会高度相关,但没有什么理论价值,所以不必介意。假设2和3是核心,分别显示在控制了Y1对Y2的影响之后,X和Z各自对Y2有无显著影响(请记住这句话)。

二、你用的GLM,正式名字是Repeated Measures ANCOVA with two dependent variables (“含有因变量前后测量值的协方差分析”,简称RM-ANCOVA)。这种方法与上述的协方差或回归的不同之处在于其将Y1和Y2同时当做因变量,你将其取名为“Y”(注意,这里的Y是只存在于这个协方差分析之中的一个虚拟变量;并注意这个Y与我们书中405页上公式15-5中的因变量ΔY (= Y2 – Y1) 不是一回事,而是与multilevel(多层分析)第一层分析的思路是一致的)。

我们也来看看这里检验的是哪些零假设:

1. Y1与Y2之间没有显著差别 (即一种Test of Within-subjects Effects);

2. Y1与Y2之间的差别与X没有显著关系(即Y和X对从Y1到Y2变化的交互影响,也是一种Test of Within-subjects Effects);

3. Y1与Y2之间的差别与Z没有显著关系(即Y和Z对从Y1到Y2变化的交互影响,也是一种Test of Within-subjects Effects);

4. X对Y(即Y1和Y2的均值)没有显著影响(这是一种Test of Between-subjects Effects);

5. Z对Y(即Y1和Y2的均值)没有显著影响(也是一种Test of Between-subjects Effects)。

上述零假设中,1与ANCOVA或回归分析的1相仿,检验自相关而已;4和5的意义不大(因为求Y1和Y2的均值没什么理论意义);假设2和3也是核心,分别检验了X或Z对从Y1到Y2的变化的影响,与ANCOVA的假设2和3分别检验Y2有所不同:前者是一种Within-subjects Effects (前后变化),而后者是一种Between-subjects Effects(横向比较)。当然,由于两个模型鉴于同样的数据,所以如果X或Z对Y的前后变化没有显著影响时,其对Y2也不会有显著影响。反之亦然。

两者之间,究竟选用那种模型或报告那种结果,取决于你的研究问题。我个人觉得RM-ANCOVA提供的信息更丰富或更接近一般研究问题,但是其结果的解读更复杂,所以需要有对GLM模型比较深入的理解,否则还是以回归分析或ANCOVA为准。