档案

Archive for 2009年9月

How to read a paper?

2009/09/25 留下评论

The following is a list of talking points that I found from an anonymous source online.  The original mixes English and Chinese.  Judging the writing style between the two, I gather the Chinese text was translation from the English.  To make the text consistent, I "retranslated" back to English, with some minor editing. Therefore, all credits go to the original author, whoever he/she is, whereas all possible errors are mine.

How to Read a Paper

(edited by Jonathan Zhu from an anonymous source online)

  1. Spent 5 minutes on the title to understand it (including looking for definition of key terms in the title) and then do the following before starting to read the main text:
    1. Imagine you as the researcher: how would you design the study (listing what data might come out, what conclusions the data might lead to, etc.). While doing so, you’ll soon realize: i) Did you miss a critical point, or (if this happens) did the author? ii) Did the author mislead you with the title? Note: It is perfectly OK if your list differs from the list of actual experiments done by the author.
    2. If you look up the literature to solve your own problem, then skip/ignore anything that doesn’t answer your question. Then, generate your list of experiments.

  2. Then read the abstract. Abstract usually contains i) purpose, ii) method, and iii) conclusion. Try to find the following when reading the abstract:
    1. How and why the experiment was performed. You can then tell how close your list is to the author’s.
    2. Get a sense for the order in which experiments are going to be presented. Ignore everything else.

  3. Read the conclusion carefully.
    1. Let the conclusion tell you why the author did the experiments, and what he/she thinks happened as a result. Assume everything he/she tells you is the absolute truth.
    2. Compare your list with his/hers. Write down what differences exist between the two lists, and note why you think the lists are different: Is the author leaving things out you’d like to see? Or, is he/she on a different track from yours? The key here is to fully understand his/her train of thought. If you can’t figure it out, write that down, too, specifying exactly where you fell off the train. Then move on. From here on, focus on the material you understand from the Results, and ignore what you don’t understand.
    3. Read the figures and the relevant explanations very carefully. BE CRITICAL: Assume the author is trying to pull a fast one on you. Make sure that when he/she says something, the data actually show it.
    4. Ask the following two questions, looking for answers from Materials and Method, but don’t waste time there: i) What are the controls for that experiment? ii) How do you know that this result isn’t due to something else?
    5. Identify hidden conclusions (which are hidden usually because of space limits). Challenge yourself to find alternate explanations for the results: i) What do you think they chose to omit? ii) Why did the author omit it?

      Now, before moving on, make a list of what you have learned from the reading up to this point.

  4. Looking for a clear justification for why the author chose to do the experiments: What is the main question that they claim to be answering?
  5. Check the consistency by comparing the author’s main question, data, and his/her conclusions by focusing on the following questions:
    1. Did the author answer his/her question?
    2. Did he/she do the right experiments to address the question?
    3. If your list of experiments differs from his/hers, is his/her line of experimentation better?
    4. If you had to answer this research question, knowing all that you know now, how would you do it? Maybe borrow some of their experiments? Or do exactly what they did?

  6. Read the discussion. The discussion should tell you why the work is important, and how it advances the field. It is important to judge whether the paper expected and answered the questions you had when you first saw the title.
  7. Project into the future. If you were the author, what’s the next step? What can be improved? What weaknesses can be fixed? How to connect to your future research?
  8. Pay attention to the writing style:
    1. What phrases do they use to introduce their ideas?
    2. How are the figures labeled?
    3. Is this a well-constructed paper?
    4. Is there anything in the paper you’d like to emulate?
    分类:论文写作

    为何两个模型的中介变量系数一样?

    2009/09/20 留下评论

    tan @ 2009-09-14:

    祝老师,您好!这个星期的提问我看您都回答了,除了我提的问题。不知是您没注意到还是问题太初级而不值得回答。由于学识粗浅并确实想知道问题的解答,特此再次提问,烦请老师您或其他有识之人给予解惑。

    问题是有关用SEM检验中介效应的:变量W和Z为自变量(且W与Z之间没有显著的相关),Y为因变量,X为设想中的中介变量。首先是模型1,只涉及三条路经:W–X;Z–X;X–Y。所有路经系数都显著,模型的拟合度也可接受;接着是模型2,涉及五条路:W–X;Z–X;X–Y;W–Y;Z–Y,即模型2比模型1多了两条路经(W–Y;Z–Y),结果也是所有路经系数都显著,模型的拟合度也可接受。我不可理解的问题是:在模型1和2中,自变量(W和Z)与中介变量(X)的路经系数竟然一样,怎么会这样?但模型1中X–Y的路经系数要大于模型2中X–Y的路经系数。

    在此,我想请教的问题是:(1)上述模型(1和2)中,W和Z与X的路经系数有没有可能一模一样?在理论上成立吗?我担心在那个地方做错了。(2)根据您的几个帖子以及其它相关资料,中介效应并不是比较上述我所表述的两个模型的,但在我所学习的Marketing领域,有文献(作者还有一定的名气)却又是这样做的,特别提到:模型2拟合度可接受,所有路经关系都显著,故部分中介效应显著。这样做可以吗?再次感谢!

    庄主 @ 2009-09-20:

    上周有好几人提了问题,但我没有时间回答所有人的问题,只能按我对问题价值的判断而选择回答部分。我初看你的问题,觉得与8月31日匿名者提的问题相同(见为何不同模型的路径系数和拟合度相同?)。我现在还是这么认为(即,即使不是同一人问的,道理一样)。考虑到读者中也许还有同样的问题,所以再说几句。

    为了便于讨论,我将你的两个模型画了出来(建议:很多时候一图胜千字、但这里的提问处不让上传图像,请大家讲图贴在自己的博客或其它公共空间上,然后在你的问题中做个链接):

    image

    问题一、“上述模型(1和2)中,W和Z与X的路经系数有没有可能一模一样?在理论上成立吗?”是否指λxw = λ’xw和λxz = λ’xz?如是,答案是肯定的。一个回归方程的系数当且仅当方程增减自变量时才可能变化。以本案为例,模型a涉及以下两个方程:

    X = λxwW + λxzZ                           (a1)

    Y = βyxX                                      (a2)

    而模型b也涉及两个方程:

    X = λ’xwW + λ’xzZ                         (b1)

    Y = β’yxX + β’ywW + β’yzZ              (b2)

    如果比较方程a1与b1,可见两者含有同样的自变量(W和Z),所以λxw一定等于λ‘xw,λxz也一定等于λxz。(注:这是回归分析的基本原理,同样适用于SEM。)

    问题二、“模型1中X–Y的路经系数要大于模型2中X–Y的路经系数”。比较方程a2和b2,可见b2比a2多了两个自变量(W和Z),因此βyx可能不等于β’yx,条件是(1)W或Z与Y相关(即β’yw ≠ 0或β’yz ≠ 0)和 (2) W或和Z与X相关(即λ‘xw ≠ 0或λ‘xz ≠ 0)同时成立。既然现在βyx > β’yx,说明W或Z两者之中至少一个与X和Y同时相关。(注:这也是回归分析的基本原理。)

    问题三、“模型2拟合度可接受,所有路经关系都显著,故部分中介效应显著。这样做可以吗?”模型b的拟合度一定比模型a好,但是由于损失了2个自由度,所以要做统计检验以证明模型b与模型a之间有显著差别。如是,说明模型b更可取。但是,仅比较模型a和模型b而不比较模型b与只含W->Y和Z->的“直接影响模型”(参见如何检验两个中介变量的效应?),确实不是检验中介效应的充要条件 (necessary and sufficient conditions)。为何你们marketing中有“一定名气”的作者这么做?我无法回答,我只知道科学面前人人平等。包括我在内的很多人都相信David Kenny的检验中介变量方法,不是因为他名气大,而是觉得他说的有道理。

    分类:统计 标签:,

    如何分析固定样本数据?

    2009/09/12 留下评论

    H @ 20009-09-08:

    我在分析一个固定样本 (panel sample) 的数据,其中每个人被调查了两次,因变量是定距变量、自变量既有定距也有定类变量。我是第一次做Panel,参考了你在《传播统计学》第15章中“固定样本分析的主要步骤”一节,其中建议当因变量为定距变量、自变量即有定距也有定类变量、数据时点为2时,最简便的是使用回归分析、或者使用协方差分析,其结果应该是完全相同的(第405页)。我尝试了SPSS中GLM模型中的Univariate和Repeated Measures两种方法,以下是我用的指令 (其中Y1和Y2是因变量、X是定距自变量、Z是定类自变量),

    UNIANOVA y2 BY z WITH y1 x/Design.

    GLM y1 y2 BY z WITH x/WSFACTOR = y 2 Polynomial/WSDESIGN = y/DESIGN.

    发现它们的结果并不相同,不知问题出在哪里?

    庄主 @ 2009-09-12:

    一、你用的UNIANOVA, 正式名字叫做 ANOVA with lagged dependent variable as a covariate(“含有因变量过去值的协方差分析”,简称ANCOVA,也就是我们书上说的协方差分析)。这种方法,与书上公式15-6的OLS regression with lagged department variable as an independent variable(“含有因变量过去值的经典回归分析”),在数学上完全一样,其结果当然也完全一样(参见前文回归与GLM的分析结果真的不同吗?)。

    两者相比,协方差分析在操作上有一个好处:可以直接输入定类自变量,而在做回归分析前,则必须先将定类自变量转换成dummy variables (哑变量)。

    不管用协方差还是回归分析,最重要的是要明确被检验的零假设是什么?以本例来说,被检验的是以下的零假设:

    1. Y1对Y2没有显著影响;

    2. X对Y2没有显著影响;

    3. Z对Y2没有显著影响。

    注意,因为你用的“DESIGN”指令中没有任何自变量,说明你只想检验Y1、X和Z对Y2的main effects(主影响)而不建议三者之间的交互影响,也许这是你的理论问题所需,当然没有问题,而且也简化了这里的讨论。

    从这三个假设来看,假设1只是技术性需要(控制Y1与Y2之间的自相关),虽然绝大多数情形下两者会高度相关,但没有什么理论价值,所以不必介意。假设2和3是核心,分别显示在控制了Y1对Y2的影响之后,X和Z各自对Y2有无显著影响(请记住这句话)。

    二、你用的GLM,正式名字是Repeated Measures ANCOVA with two dependent variables (“含有因变量前后测量值的协方差分析”,简称RM-ANCOVA)。这种方法与上述的协方差或回归的不同之处在于其将Y1和Y2同时当做因变量,你将其取名为“Y”(注意,这里的Y是只存在于这个协方差分析之中的一个虚拟变量;并注意这个Y与我们书中405页上公式15-5中的因变量ΔY (= Y2 – Y1) 不是一回事,而是与multilevel(多层分析)第一层分析的思路是一致的)。

    我们也来看看这里检验的是哪些零假设:

    1. Y1与Y2之间没有显著差别 (即一种Test of Within-subjects Effects);

    2. Y1与Y2之间的差别与X没有显著关系(即Y和X对从Y1到Y2变化的交互影响,也是一种Test of Within-subjects Effects);

    3. Y1与Y2之间的差别与Z没有显著关系(即Y和Z对从Y1到Y2变化的交互影响,也是一种Test of Within-subjects Effects);

    4. X对Y(即Y1和Y2的均值)没有显著影响(这是一种Test of Between-subjects Effects);

    5. Z对Y(即Y1和Y2的均值)没有显著影响(也是一种Test of Between-subjects Effects)。

    上述零假设中,1与ANCOVA或回归分析的1相仿,检验自相关而已;4和5的意义不大(因为求Y1和Y2的均值没什么理论意义);假设2和3也是核心,分别检验了X或Z对从Y1到Y2的变化的影响,与ANCOVA的假设2和3分别检验Y2有所不同:前者是一种Within-subjects Effects (前后变化),而后者是一种Between-subjects Effects(横向比较)。当然,由于两个模型鉴于同样的数据,所以如果X或Z对Y的前后变化没有显著影响时,其对Y2也不会有显著影响。反之亦然。

    两者之间,究竟选用那种模型或报告那种结果,取决于你的研究问题。我个人觉得RM-ANCOVA提供的信息更丰富或更接近一般研究问题,但是其结果的解读更复杂,所以需要有对GLM模型比较深入的理解,否则还是以回归分析或ANCOVA为准。

    为何不同模型的路径系数和拟合度相同?

    2009/09/05 留下评论

    Anonymous @ 2009-08-31:

    老师您好! 我也刚开始尝试使用SEM做中介效应分析,看了您的几个相关帖子,受益匪浅。恕我愚钝,还有几个问题不明白,还望进一步指教。

    1). 您在"如何检验两个中介变量的效应"的帖子中提到:中介效应需要满足三个或者四个条件,其中包括:X或Z(自变量)对Y(因变量)的间接影响大于其直接影响(即 γAX × βYA > βYX 或 γBZ × βYB > βYZ )。我不明白为什么一定要满足这个条件?如果是这样,是否意味着中介模型中间接效应都大于直接效应,或者说中介效应的比例大于50%。可我经常看到一些文献说,某某变量的中介效应比例为多少多少(低于50%),难道这是错误?

    2). 最近我也做了一个中介效应的模型,概念模型类似于6月30日“如何在模型拟合度和模型合理性之间选择?”帖子中的模型。首先用软件跑了模型1,所有系数都显著,模型的拟合度也可接受;接着跑了模型2,结果是所有路径系数也都显著,模型也可接受。我不理解的问题是:a.两个模型不一样,为什么拟合度都可接受;b.两个模型种,W和Z到X的路径系数尽然完全一样,模型都不一样了,怎么路径系数还会相同?其中,X到Y的系数,模型2要比模型1小?C.模型2中,数据显示 βwx * βxy < βwy ,请问这还存在中介效应吗?

    不好意思,一下子问了好多问题,也许许多问题还非常初级,见笑了。不慎感激!

    庄主 @ 2009-09-05:

    1). 为了理解你的问题,我重读了一项原文,发现其中的直接影响符号写错了(现已改正),应该是γYX和γYZ或而不应该是βYX和βYZ(图中的符号是对的)。也就是说,你问题中提到的为何“γAX × βYA > βYX 或 γBZ × βYB > βYZ” 应该是“γAX × βYA > γYX 或 γBZ × βYB > γYZ"。(当然,你对原文的理解没有错。)

    我在原文中说过,严格的中介效应模型要求直接影响(即γYX 或 γYZ)彻底消失。这时,间接影响(γAX × βYA或 γBZ × βYB)自然大于直接影响。如果直接影响不等于0但小于间接影响,那么可以认为这是一种让步或妥协的微弱版(weak version)。如果再推一步,直接影响不但不等于0而且大于间接影响,那么直接影响是主流或中心路径(central route)、间接影响只是支流或边缘路径(peripheral route),那么中介效应的原始意义就大大打折扣了。这是一个理论问题、不是纯粹的统计问题(意思是,间接影响还存在,但没有必要强调其涉及的“mediation process”了)。

    我还没看到过你提到的"中介效应的比例大于50%",是指间接影响的值至少为直接影响的值的一半吗?如果这样,那是对上述微弱版的进一步弱化。

    2a). 你的两个模型不同(模型2多了四个系数、少了四个自由度)、但拟合度都可以接受的现象很正常和普遍,因为各自检验的零假设相同,都是模型与数据之间没有显著差别。但是,你还要检验一个零假设,就是两个模型的拟合度之间没有显著差别:如果两者确无差别(即由于增加了间接影响而提高的误拟合度被损失了的自由度所抵消了),则说明间接影响(即中介效应)并不显著;反之则说明存在显著的间接影响(中介效应)。

    2b). 你问“两个模型中,W和Z到X的路径系数尽然完全一样,模型都不一样了,怎么路径系数还会相同?”其中的W从何而来?估计你将我另一帖了的符号(其中也许W和Z是自变量、X是中介变量)混着用了。但是如果是这样的话,X不应出现在模型1.而你却说“X到Y的系数,模型2要比模型1小”相矛盾。难以理解。最简单的方法是提供两个表格,一是模型1的变量及其系数、二是模型2的变量及其系数。

    2c). 你问的就是:当一个间接影响小于直接影响时,是否还有必要和价值讨论中介效应?我上面已经讨论过。按经典的定义和学术界的主流看法,至少是意义不大。

    分类:统计 标签:,

    如何理解“中介性模型是一个因果模型"?

    2009/09/05 留下评论

    z @ 2009-08-31:

    我的研究假设包含一个中介变量而我的数据来自一次性调查(one-shot survey),我用SEM分析,结果拟合的很好。但审稿人批评说,虽然模型拟合了,但并没有证明该模型的因果关系,如自变量先于中介变量、中介变量又先于因变量。

    我在“中介关系之父”David Kenny的网上(http://davidakenny.net/cm/mediate.htm)读到一句话“a moderational model is a causal model”(“中介性模型是一个因果模型”)。是否可以用来为自己辩护?

    庄主 @ 2009-09-05:

    恕我直言,你对Kenny的理解,可以说是典型的断章取义。以下是他原话的完整段落:

    “Note that a mediational model is a causal model. For example, the mediator is presumed to cause the outcome and not vice versa.  If the presumed model is not correct, the results from the mediational analysis are of little value.  Mediation is not defined statistically; rather statistics can be used to evaluate a presumed mediational model.  The reader should consult the section below on  Specification Error.”(“中介性模型是一个因果模型。例如,假定中介变量影响因变量而不是反过来。如果这种前提假定并不成立,那么中介分析的结果就是毫无价值的。中介影响不能通过统计分析来证明,统计分析只能用来检验以中介性为前提的模型。读者应该参考以下有关模型设定中的错误。”)

    相信你一定学过因果关系的三项条件:自变量和因变量之间具有相关性;两者的产生又有先后之别;不存在导致这种因果关系的其它变量。在中介性模型中,这三项条件需要扩展一下:自变量(X)和中介变量(M)之间、中介变量和因变量(Y)之间各有相关性;三者之间的产生又各有先后之别(X->M和M->Y);不存在导致这种因果链(X->M->Y)关系的其它变量。

    Kenny的话指的是在上述条件二存在的前提下,SEM或其它统计分析方法可以检验条件一(甚至条件三,如果你的模型中包括了“一切可能的第三者”)的合理性。如果条件二不存在(如一次性调查数据)的话,拟合得再好的SEM也只证明了X和M之间以及M和Y之间的相关、并没有证明X->M->Y的先后次序。也就是说,哪怕X和M以及M和Y各自高度相关,三者之间的因果链还有X->Y->M、M->X->Y、M->Y->X、Y->M->X、Y->X->M等五种其它可能性!

    如果你继续读一下Kenny有关“模型设定中的错误”一节的话,就会知道他在那段的开始还在强调上述(我演绎)的思想:

    “Mediation is a hypothesis about a causal network.  …  The conclusions from a mediation analysis are valid only if the causal assumptions are valid.”(“中介影响是一种有关因果网络的假设。 … 中介分析的结论只有在有关因果条件存在之下才能是正确的。”)

    还是那句老话,变量之间的因果次序是由数据的采集过程来决定的、而不是由统计分析(包括SEM)来决定的。

    分类:统计 标签:,