档案

Posts Tagged ‘固定样本’

如何分析两个时点的固定样本数据?

2011/09/17 留下评论

David M @ 2011-08-23:

您好,我是XX大学管理学博士研究生,这次给您写信,主要是我在研究中遇到了一下问题和疑惑。先简单描述一下我的研究:样本是187个企业,在2004年和2008年分别收集了问卷数据;另外还从商业数据库中找到了上述企业中50个企业2004年-2009年的客观绩效数据。也就是说,对于问卷主观数据,我们只有两个时间点的数据;而对于客观绩效数据,我们则有6个时间点的数据,但是样本量只有50个左右(且每年的企业不完全一样,即个别年份有缺失值)。

我的问题如下:

1、如果我仅用问卷的主观数据,可以使用什么方法来检验自变量在两个时间点上的差异,以及两个时间点上自变量对因变量的影响的差异?(根据潜变量成长曲线分析的要求,要至少有3个时间点或以上;我几乎没有看到有处理两个时间点数据的有关文献,您可以推荐一些经典文献或案例吗?)

2、如果我在自变量上使用两个时间点,而在因变量上使用6个时间点,可以使用潜变量成长曲线来分析吗?如果可以,应该怎么处理数据?如果不行,有什么好的建议吗?

由于我刚接触纵向数据的处理,只是个初学者,而目前国内相关的研究还比较少,盼望您的回复!再次表示衷心的感谢!

庄主 @ 2011-09-18:

1、你的问卷数据,是一个含两次测量的Panel Sample(固定样本)数据。柯惠新、祝建华、孙江华的《传播统计学》第15章“纵向关系研究”中的第4节专门介绍了固定样本数据分析的基本方法和相关案例。但该书现已脱销,不知贵校图书馆是否能够找到?

在该节的15.4.2表中,我按因变量的测量水平和观测次数,分成三次情况讨论。这里只简单叙述一下第一种情况(我假定你的数据就是这种情况),即因变量为interval scale(定距变量)、观测次数为2,这时可以用方差分析(更确切地讲是ANCOVA、协方差分析)或回归分析(两者完全相等)。以回归为例,

Yi2 = a + bXi1 + cYi1                                (Eq. 1)

其中下标里的i是第i个企业,1和2分别是第一次和第二次的观测值。注意:因变量Y的过去值Yi1出现在公式的右边,即是自变量之一或是一个控制变量,它与自变量Xi1同时进入回归模型。由于因变量的过去值成了一个自变量或控制变量,而它与因变量的当前值之间往往高度相关,所以b值可能很小、甚至不显著。这是符合现实生活的,不要为此沮丧。

公式1是一个“历史长期影响”模型。如果有某理论认为,被研究的因变量更受自变量当前值的影响,也即“当前短期影响”模型,那么你需要用Xi2来代替公式中的Xi1。但是,不要将Xi1和Xi2同时放入模型之中,因为这两者高度相关,会造成共线性问题。

也许还有某种理论认为,因变量更受自变量的变化值(DX)的影响,这时可以先求出DX = Xi2 – Xi1,再将DX代替公式中的Xi1

你当然可以分别试一下这三种模型。但是,如果没有相关理论,在选择和解读其结果时会是一个难题。

2、你是否可以用潜变量成长曲线(latent growth curve)来分析只含两个时间点的自变量、但含六个时间点的因变量的数据?可以,但意义不大。成长曲线模型的目的是分别估算出自变量和因变量各自随时间而变化的函数(即Y = f(Yt)和X = g(Xt)),然后估算两个时间函数(f与g)之间的关系。在本案中,因变量有六个时间点的观测值,所以有足够的信息来估算f函数(或更确切地说,检验多种时间函数模型的可能性,如S-曲线、指数曲线、U型曲线等);但是自变量只有两个时间点,g函数一定是线性的。如此,除非f也是线性的,否则f与g之间的关系一定是被低估的。而如f是线性的话,只需两个时点就可以估算出来了。

那么,还有其它方法吗?可以用multilevel longitudinal model (MLM,多层纵向模型)。但是其技术难度更大一些。如果你熟悉一般的multilevel model(多层模型)的,那么比较容易理解MLM。否则,需要从多层模型开始补起,是一个较长时间的学习过程。这里我只对MLM做些最简单的介绍。

在理念上,本案的MLM涉及两个层面;但在实际估算中,两层是合在一起的(但我们这里暂不讨论估算的操作问题)。

Level 1(底层)是对每个企业的因变量分别估算一条时间曲线:

Yit = b0i + b1i(t) + b2i(t2) + b3i(t3) + …                    (Eq. 2)

其中i如同公式1中一样,为第i个企业,但这里i = 1 至58,t是观测年份(t = 1 至 6,其中1为2004年,2为2005年,…。该公式与一般的回归模型相比,有以下两个明显不同:

第一、公式右边的各自变量t,t2,t3,等等,其实只是同一个变量(时间t)的polynomials(多项式)。一般说来,用1至3项式足够,最多不能超过5 (= t – 1)项式。

第二、公式右边的各回归系数b0i,b1i ,b2i,等等的下标中不但含有一个常见的常数(0,1,2,等等),而且还含有一个罕见的变量i(因为i随着公式左边的企业的变化而变化),也就是说需要对每一个企业分别估算一条时间曲线。

Level 2(上层)是将公式2的回归系数(b0i,b1i ,b2i等等)当作因变量、问卷数据测得的X为自变量,估算以下回归模型:

b0i = g00 + g01X1                         (Eq. 3.0)

b1i = g10 + g11X1                         (Eq. 3.1)

b2i = g20 + g21X1                         (Eq. 3.2)

b3i = g30 + g31X1                        (Eq. 3.3)

如公式1一样,如果有特定的理论依据,上述公式中的X1可以被X2DX代替,但一般不用同时将X1和X2同时放入(除非两者之间为弱相关)。注意,因为i = 1 至 58,上述的每个回归模型所涉及到的样本量为58。

这组公式背后的假设是企业因变量的时间曲线之间差别是受到X的过去值(或当前值、或变化值)的影响的。也许用英文写更能看懂:The difference among the firms in their growth curves of Y is affected, at least in part, by the past (current or change) value of X.

如何分析固定样本数据?

2009/09/12 留下评论

H @ 20009-09-08:

我在分析一个固定样本 (panel sample) 的数据,其中每个人被调查了两次,因变量是定距变量、自变量既有定距也有定类变量。我是第一次做Panel,参考了你在《传播统计学》第15章中“固定样本分析的主要步骤”一节,其中建议当因变量为定距变量、自变量即有定距也有定类变量、数据时点为2时,最简便的是使用回归分析、或者使用协方差分析,其结果应该是完全相同的(第405页)。我尝试了SPSS中GLM模型中的Univariate和Repeated Measures两种方法,以下是我用的指令 (其中Y1和Y2是因变量、X是定距自变量、Z是定类自变量),

UNIANOVA y2 BY z WITH y1 x/Design.

GLM y1 y2 BY z WITH x/WSFACTOR = y 2 Polynomial/WSDESIGN = y/DESIGN.

发现它们的结果并不相同,不知问题出在哪里?

庄主 @ 2009-09-12:

一、你用的UNIANOVA, 正式名字叫做 ANOVA with lagged dependent variable as a covariate(“含有因变量过去值的协方差分析”,简称ANCOVA,也就是我们书上说的协方差分析)。这种方法,与书上公式15-6的OLS regression with lagged department variable as an independent variable(“含有因变量过去值的经典回归分析”),在数学上完全一样,其结果当然也完全一样(参见前文回归与GLM的分析结果真的不同吗?)。

两者相比,协方差分析在操作上有一个好处:可以直接输入定类自变量,而在做回归分析前,则必须先将定类自变量转换成dummy variables (哑变量)。

不管用协方差还是回归分析,最重要的是要明确被检验的零假设是什么?以本例来说,被检验的是以下的零假设:

1. Y1对Y2没有显著影响;

2. X对Y2没有显著影响;

3. Z对Y2没有显著影响。

注意,因为你用的“DESIGN”指令中没有任何自变量,说明你只想检验Y1、X和Z对Y2的main effects(主影响)而不建议三者之间的交互影响,也许这是你的理论问题所需,当然没有问题,而且也简化了这里的讨论。

从这三个假设来看,假设1只是技术性需要(控制Y1与Y2之间的自相关),虽然绝大多数情形下两者会高度相关,但没有什么理论价值,所以不必介意。假设2和3是核心,分别显示在控制了Y1对Y2的影响之后,X和Z各自对Y2有无显著影响(请记住这句话)。

二、你用的GLM,正式名字是Repeated Measures ANCOVA with two dependent variables (“含有因变量前后测量值的协方差分析”,简称RM-ANCOVA)。这种方法与上述的协方差或回归的不同之处在于其将Y1和Y2同时当做因变量,你将其取名为“Y”(注意,这里的Y是只存在于这个协方差分析之中的一个虚拟变量;并注意这个Y与我们书中405页上公式15-5中的因变量ΔY (= Y2 – Y1) 不是一回事,而是与multilevel(多层分析)第一层分析的思路是一致的)。

我们也来看看这里检验的是哪些零假设:

1. Y1与Y2之间没有显著差别 (即一种Test of Within-subjects Effects);

2. Y1与Y2之间的差别与X没有显著关系(即Y和X对从Y1到Y2变化的交互影响,也是一种Test of Within-subjects Effects);

3. Y1与Y2之间的差别与Z没有显著关系(即Y和Z对从Y1到Y2变化的交互影响,也是一种Test of Within-subjects Effects);

4. X对Y(即Y1和Y2的均值)没有显著影响(这是一种Test of Between-subjects Effects);

5. Z对Y(即Y1和Y2的均值)没有显著影响(也是一种Test of Between-subjects Effects)。

上述零假设中,1与ANCOVA或回归分析的1相仿,检验自相关而已;4和5的意义不大(因为求Y1和Y2的均值没什么理论意义);假设2和3也是核心,分别检验了X或Z对从Y1到Y2的变化的影响,与ANCOVA的假设2和3分别检验Y2有所不同:前者是一种Within-subjects Effects (前后变化),而后者是一种Between-subjects Effects(横向比较)。当然,由于两个模型鉴于同样的数据,所以如果X或Z对Y的前后变化没有显著影响时,其对Y2也不会有显著影响。反之亦然。

两者之间,究竟选用那种模型或报告那种结果,取决于你的研究问题。我个人觉得RM-ANCOVA提供的信息更丰富或更接近一般研究问题,但是其结果的解读更复杂,所以需要有对GLM模型比较深入的理解,否则还是以回归分析或ANCOVA为准。