档案

Archive for the ‘论文写作’ Category

如何处理自变量之间的相关关系?

2010/03/20 留下评论

>

JF @ 2010-03-15:

我有一个初级问题想了很久还是不清楚。假如我有一个因变量Y、两个自变量X和Z,如果做回归分析,只要将X和Z同时进入回归模型就可以了,不需理会X和Z的相关关系。但是如果用SEM,除了要分别连接X和Z对Y的路径,还要连接X和Z之间的相关关系。这是为什么呢?不是说在结构层面回归和SEM是一致的吗?

另外,在报告上述SEM结果时,是否需要描述和解释X和Z的相关关系?如果用回归分析,是否还需要另行计算X和Z的相关关系、然后再报告呢?

庄主 @ 2010-03-20:

你的问题确实简单、但绝非初级,因为其中涉及了回归分析与结构方程模型(SEM)的主要异同,值得讨论一下。首先,自变量与因变量之间的结构关系 (structural relationship among variables),如自变量对因变量的直接影响、间接影响、总影响、交互影响、等等,在回归和SEM中都是同义的(但不一定是等值的,因为前者含有测量误差而后者不含测量误差,但这与本文无关,所以下面的讨论均假定所有变量都不含测量误差)。

但是,在处理自变量之间的相关关系时,两者所用的方法不同:回归是用隐含方法而SEM是用明示方法。在回归模型 Y = b0 + b1X + b2Z中,对回归系数b1和b2的估算公式分别包含了X与Z的相关系数(记为rXZ;同理,Y与X、Y与Z的相关系数分别记为rYX和rYZ):

image

image

由于b1和b2是在Y与X或Z的简单相关系数中扣除了X与Z的相关程度(以及Y与另一自变量的相关程度),所以b1和b2又被叫做partial regression coefficients(偏回归系数)。可见,在回归分析中,自变量之间的相关关系是自动而且必须地被控制了的。这里的“被控制”是指用于消除自变量之间的相关关系的影响。

在SEM中,自变量之间的相关关系是需要明确设置的。如在使用矩阵语言的LISREL中,通过指令"FR PH (1, 2)”来估算rXZ;而在使用图形语言的AMOS中,则是通过在X和Z之间画一条双箭头的曲线来估算rXZ(见下图,注:图中的三个参数b1、b2和rXZ是不需要的,这里只是为了说明它们与上述回归模型的对应关系)。

image

该SEM模型与上述回归模型是等价等值的。大家可以用一个含三个变量、N > 200 (SEM所需的最小样本量)的数据验证一下,两个模型的b1、b2、rXZ、R-Square(= AMOS中的MSC)、Std error of the estimate(= SEM中e的Variance的平方根)应该都相等。然而,回归用的是OLS(最小二乘法)而SEM是用ML(最大似然法)来估算上述参数的。这两者之间的差别,除了对样本量的要求不同(ML估算只有在大样本条件下才可能接近OLS结果),还有许多深层的差别。这里只讲其中比较明显的一个差别:如上所示,rXZ在回归中是自动被控制起来的,但在SEM中却需要人为设置。反过来说,如果需要的话,在SEM里也可以设置rXZ = 0(在AMOS中也可以将X和Z之间的曲线删掉)或其它任意值(1.0,0.5,等等)。如此设置的模型,因为少估算了一个参数,所以会比原模型多出一个df(自由度),通过比较两个模型的拟合指数(Chi-squares)之差,就可以检验 rXZ = 0(自变量之间为正交)或rXZ = 1 (自变量之间没有discriminant validity)等假设。这些都是无法在回归分析中实现的。

回归模型与SEM模型之间更核心的区别在于前者是在变量层面检验自变量对因变量的解释程度、而后者则是在观察值的方差-协方差矩阵层面检验理论模型与实际数据之间的拟合程度。打个不完全恰当的比分,回归是西药,针对特定病症有强效,但不顾其它后果;而后者是中药,旨在整体和治本,但有时对特定病症并无速效。这种根本区别在本文讨论的自变量相关关系上也有一定影响,但这是一个大题目,需要很多基本概念和铺垫,否则难以讲清,所以不予展开,只是提醒大家,SEM的水很深,下水前要做足热身运动,而回归则是最好的热身运动。就如现在的中医学院都是先教西医原理、再进入中医的。

回到你最后那个问题:如何报告rXZ?一般说来,自变量之间的相关关系(如rXZ)是一种unanalyzed relationship(不作分析的关系)。这里的所谓“不作分析”指的不是统计分析、而是理论分析。如上所说,rXZ在回归中是不直接计算的,但在SEM和用回归做路径分析中均需要统计分析的。但是,除非有特定研究目的(如上述检验自变量之间的discriminant validity)之外,大多数理论并不规定自变量之间关系的强度、方向(谁影响谁)、性质(正或负相关)等,所以实际研究中往往只是简单地估算它们之间的相关关系而不进一步深究其关系的性质、方向、性质等。在写报告时,如果用图形表示实证模型的话,可以在图上标出相关系数的估计值;如无图形,可在附录或注释中用文字或表格报告一下;但在正文中则一般不必提及。

分类:统计, 论文写作 标签:,

3Cs in academic writing

2009/10/28 留下评论

It occurs to me that Correct, Clear, and Convincing are three ingredients of good writing.  

1. Correct grammar (50%), including all formats compliant to APA style.  If you don’t make any grammatical error, you will get up to 50 points on a 100-point scale.

2. Clear expression (30%), including defining key concepts (formally or informally, extensively or briefly, depending on the popularity of the terms), giving examples to illustrate abstract or complicated ideas, using charts and equations to assist explanations, etc.  Although it’s impossible to get full 30 points on clarity, you can manage to score 10-20 points with close attention to the issue.

3. Convincing argument (20%), with comparison based on established criteria (e.g., comparing theoretical concepts against each and every item of Chaffee-Berger criteria) as an effective tool.  This is usually where powerful or weak writing divides. 

分类:论文写作

How to read a paper?

2009/09/25 留下评论

The following is a list of talking points that I found from an anonymous source online.  The original mixes English and Chinese.  Judging the writing style between the two, I gather the Chinese text was translation from the English.  To make the text consistent, I "retranslated" back to English, with some minor editing. Therefore, all credits go to the original author, whoever he/she is, whereas all possible errors are mine.

How to Read a Paper

(edited by Jonathan Zhu from an anonymous source online)

  1. Spent 5 minutes on the title to understand it (including looking for definition of key terms in the title) and then do the following before starting to read the main text:
    1. Imagine you as the researcher: how would you design the study (listing what data might come out, what conclusions the data might lead to, etc.). While doing so, you’ll soon realize: i) Did you miss a critical point, or (if this happens) did the author? ii) Did the author mislead you with the title? Note: It is perfectly OK if your list differs from the list of actual experiments done by the author.
    2. If you look up the literature to solve your own problem, then skip/ignore anything that doesn’t answer your question. Then, generate your list of experiments.

  2. Then read the abstract. Abstract usually contains i) purpose, ii) method, and iii) conclusion. Try to find the following when reading the abstract:
    1. How and why the experiment was performed. You can then tell how close your list is to the author’s.
    2. Get a sense for the order in which experiments are going to be presented. Ignore everything else.

  3. Read the conclusion carefully.
    1. Let the conclusion tell you why the author did the experiments, and what he/she thinks happened as a result. Assume everything he/she tells you is the absolute truth.
    2. Compare your list with his/hers. Write down what differences exist between the two lists, and note why you think the lists are different: Is the author leaving things out you’d like to see? Or, is he/she on a different track from yours? The key here is to fully understand his/her train of thought. If you can’t figure it out, write that down, too, specifying exactly where you fell off the train. Then move on. From here on, focus on the material you understand from the Results, and ignore what you don’t understand.
    3. Read the figures and the relevant explanations very carefully. BE CRITICAL: Assume the author is trying to pull a fast one on you. Make sure that when he/she says something, the data actually show it.
    4. Ask the following two questions, looking for answers from Materials and Method, but don’t waste time there: i) What are the controls for that experiment? ii) How do you know that this result isn’t due to something else?
    5. Identify hidden conclusions (which are hidden usually because of space limits). Challenge yourself to find alternate explanations for the results: i) What do you think they chose to omit? ii) Why did the author omit it?

      Now, before moving on, make a list of what you have learned from the reading up to this point.

  4. Looking for a clear justification for why the author chose to do the experiments: What is the main question that they claim to be answering?
  5. Check the consistency by comparing the author’s main question, data, and his/her conclusions by focusing on the following questions:
    1. Did the author answer his/her question?
    2. Did he/she do the right experiments to address the question?
    3. If your list of experiments differs from his/hers, is his/her line of experimentation better?
    4. If you had to answer this research question, knowing all that you know now, how would you do it? Maybe borrow some of their experiments? Or do exactly what they did?

  6. Read the discussion. The discussion should tell you why the work is important, and how it advances the field. It is important to judge whether the paper expected and answered the questions you had when you first saw the title.
  7. Project into the future. If you were the author, what’s the next step? What can be improved? What weaknesses can be fixed? How to connect to your future research?
  8. Pay attention to the writing style:
    1. What phrases do they use to introduce their ideas?
    2. How are the figures labeled?
    3. Is this a well-constructed paper?
    4. Is there anything in the paper you’d like to emulate?
    分类:论文写作

    给SSCI期刊投稿应该先投后改还是先改后投?

    2009/08/22 留下评论

    >

    P @ 2009-08-20:

    您怎么看下面两位SCI/SSCI期刊审稿人的对话?有人也建议过我先送出去审,拿到意见再修改。

    甲:投稿又撤稿,特别是给出修改建议之后再撤稿,有点不厚道。我遇到很多次,写的审稿意见不比文章短,从字词到如何布局,那些内容如何做,都写到审稿意见里。善意地给了revise & resubmit的意见。实际上,按照标准,reject一句话就是了。可是,过几个月后发现发表在另外一个杂志上。这种做法可以理解,但是不厚道,至少应该想办法感谢审稿人。

    乙:我审稿也通常善意地给revise & resubmit的意见,很累,有些投稿者把审稿人当成论文加工把关人,不厚道。于是也慢慢的拒绝审一些稿件,或者直接reject。

    庄主 @ 2009-08-22:

    我看了之后的第一个感觉就是我们有些同胞真聪明,知道如何玩这个游戏!但是事实上,将草草急就章的文章投出去,往往拿不到什么真正有价值的反馈。上面乙某说的就是一例。我亦是如此。刚开始做审稿人时,不分良莠,每篇文章都写较详尽的修改意见。记得最多一次密密麻麻用单行写了5页,应该有3000字吧(但跟别人相比,还不算很长,下面引述的研究中最长的意见有6000多字呢)。但后来慢慢地就变得区别对待了,仍然愿意给“好”文章(不仅理论和方法好,而且写得通顺)提建设性意见、而对“差”文章(或者理论/方法差,或者写作差、包括完全不顾APA style规则的,),则草草几句“锯”了。

    Seven Sins

    前不久读了Russell Neuman等人在JOC上发表的“传播研究中的七宗罪”一文,得知上述乙某和我的做法确实是大部分审稿人的习惯。Newman等分析了JOC的审稿人给100余篇投稿(包括采纳和拒绝的)写的具体意见,其中表四(见左)的数据展现的是审稿人对每篇来稿定的“罪名”数目。粗粗一看,被拒绝的稿件(白条)的罪名数少于被发表的稿件(黑条),如被发表的文章每篇平均有16条“表述不清”的罪名而被拒绝的文章每篇则有7条此类罪名。但是,这并不说明被拒的文章写得更好。恰恰相反,那些文字是too bad to be rescued(朽木不可雕),审稿人懒得多费心思。

    Neuman等还做了一个多元回归分析,发现审稿人给每篇投稿写的意见长短是预测该文是否被采纳的重要指标之一。具体而言,意见每多1000字,有关文章的发表率就提高9%!所以,当你收到投稿的反馈时,如果是数十的批评,应该暗暗庆幸,该文很有希望。

    以下是Neuman等的原文(下划线是我加的):

    “We find a dramatically larger number of negative comments on average for accepted papers, especially on the dimensions of clarity, methodology, and completeness. On closer examination, it turns out to make sense in terms of the psychology of the hard-working volunteers called upon to provide the reviews. If the overall importance and theoretical integration of a submission is weak, the reviewers simply do not bother to spend a lot of time with constructive but negative comments on such things as clarifying an argument and strengthening the methodological presentation. On papers likely to be published, reviewers may go to greater length to indicate how the authors might be more complete and clear in their presentation.” (p. 229)

    “This appears to be the academic journal review equivalent to the hoped-for thick envelope from a favored college to which one has applied—the more the reviewers say, positive and negative, the more interest in the submitted paper. So we examined the cross-tabulation of the total number of reviewer words and the likelihood of publication and ran a rudimentary linear least squares and determined that roughly for every additional 1,000 words of reviewer comments (including all dimensions), one’s chance of acceptance increases approximately 9%.” (p. 229).

    Reference

    Neuman, W. R., Davidson, W., Joo, S. H., Park, Y. J., & Williams, A. E. (2008). The seven deadly sins of communication research. Journal of Communication, 58, 220–237.

    如何解读这个调查报告?

    2009/08/20 留下评论

    >

    ANY @ 2009-08-19:

    今年XX单位做了一个YY方面的调查,报告出炉后争议很大。我呢,虽没参与争议之中,因专业之故,很是关注。就我个人意见,我非常不理研究者组使用RDD法抽取了647人来代表全体北京人口,给各媒体排名。我极其质疑它使用的抽样技术。我认为非概率抽样中的配额抽样可能更适合做这个调查。

    庄主 @ 2009-08-20 答: 我没看到那个报告。请进一步说明清楚,你质疑的是样本量太小、还是RDD(随机电话号码抽样)原则、或者其它问题?

    你建议用配额抽样,我可以肯定地说配额抽样一定不适合。

    ANY问:

    我首先质疑的是调查组的抽样方法。我和研究者联系,希望得到更多细节,比如是随机拨号法,还是集群拨号法,但无法得到。 刚巧收到了回复,说:“抽样方法采用的是RDD,先通过不等概抽样(pps)确定前面四位局号,后面四位是随机选号(北京电话号码是8位),抽样是座机。”在此之前的争议中,有人怀疑的是647个样本来代表2000多万北京人的代表性。

    庄主答:

    你的怀疑和批判精神值得提倡。当然,如果对抽样基本原理有比较清楚的理解,则可以避免在怀疑和批判时犯常识性错误。

    第一、样本大小涉及的是调查结果的精确度问题、而与代表性无关。样本越大、结果越精确,反之亦然。精确度有公式可以计算,即抽样误差。当N = 647而可信度 = 95%时,抽样误差 = ±3.8%。这个精确度是否足够?答案取决于具体的研究问题。如果被排序的两个媒体之间相差8%或更大,那么它们的高低是可靠的;反之则不然。

    第二、抽样误差与总体大小无关。所以无论北京人口是2千万还是2亿,样本为647的抽样误差大小是不变的。

    第三、样本的代表性取决于抽样是否随机、而与样本大小无关。如果一个非随机样本N=10000,虽然其抽样误差 < ±1.0%,但仍然没有代表性。一个没有代表性的大样本比一个精确度低的小样本更无价值。

    ANY问:如果是抽取座机号码的话,我现在也高度怀疑样本的代表性。因为有很多在北京的人,终其一生不用座机。据经验推测的话,许多有北京户口的人也不见得使用座机。而上一次人口普查是把大量北漂计入了北京人口的。把大量无座机电话的人排除在总体之外,这意味着什么呢?而这是为什么我觉得配额抽样更好的缘故。

    庄主答:

    同意。如果上述调查的RDD是严格执行的话,那么其代表的是北京有座机的家庭人口。也就是说,该调查的Study Population(研究总体)是北京有座机的家庭人口、而不是北京所有家庭人口。研究者在报告时应该说明这一点。当然,研究总体限于“北京有座机的家庭人口”的一个调查是否有价值,即取决于其与北京所有家庭人口之比(你知道到底有多少人被排除之外的吗?)、也取决于研究目的。如果有关媒体(或广告商)更关心有座机家庭人口,那么也是无可非议的。商业调查毕竟不是民意测量。

    配额抽样不是随机抽样,调查结果毫无价值。现在考考你:为什么配额不是随机抽样?

    ANY问:

    研究者用盖洛普1932年用1000个样本代表美国人预测了总统选举来证明其647人样本有代表性。我觉得这是个外行的支持。

    庄主答:

    你觉得我上面的回答是否已经解决了这个问题?如无,我再啰嗦几句。

    ANY问:

    问卷是看不到的。我个人看法,即使是RDD法,考虑分众化和个人媒介使用的多样性,问卷设计应当是一套很复杂的问卷。

    庄主答:

    抽样、问卷设计和调查(即问答过程)代表了每项调查的三个主要误差来源:抽样误差、工具误差和测量误差。每一项都要小心处理,并应在报告(或技术附件中)详细透露。如抽样方法、问卷原文、调查过程(尤其是最后一步的个人是如何被抽取的),以便读者对其研究结果的质量作出自己的判断。

    ANY问:

    我的问题纯出于专业上的兴趣。我非常想弄清楚这个问题。再次感谢您!

    庄主答:

    我是出于同样的原因而回答你的问题。

    分类:论文写作, 调查方法 标签:

    什么事件值得研究?

    2007/02/11 留下评论

    问:最近看到你的一篇文章,建议研究时不要追求所谓的独特事件或突发事件,因为它们不一定能反映共同规律。我很赞同你的观点,但是作为初学者,我们如何能够识别哪些事件有价值研究而哪些事件没有价值呢?

    答:这是一个好问题,也是一个难问题,需要跳出你提问的出发点,才可能找到答案。

    你的出发点是想知道什么事件值得研究,这很难找到答案,因为任何事件 (event) 都可能有价值、也都可能无价值,取决与其中是否有值得研究的“问题” (issue)。(不知这是一句警句还是一句费话?)

    那么,什么是值得研究的“问题”?笼统说来,问题就是反映事件背后的规律 (regularities),即在什么条件下该类(注意,不仅仅是“该”而应该是“该类”)事件会发生、什么条件下不发生。(也不知是否又讲了一句人所共知的费话?)

    成功在于细节 (The devil lies in details)。实证研究提供了我们执行上述人所共知共识的原则的操作过程和工具。比如,“规律”是什么?规律涉及变量和变量之间的关系。“变量”,即某类事件的某些特征以及可能引发这些特征发生或变化的内外部条件者也。

    也就是说,当你被某一事件或现象所吸引时,不要急于研究该“事件”或“现象”,而是先找到“类似”的事件或现象,从中抽出一些共同特征(变量),然后去查查文献,前人是否已经对此变量(而不是事件或现象)有过论述和验证。

    如果有过论述和验证,其结果是否可以解释你感兴趣的事件(即为什么会发生)?如果基本可以,那么你的事件就没有什么大的研究价值了。如果难以解释,那么也许值得研究。注意我用的“也许”,已知文献无法解释的变量,你不一定能够解释,但值得试一试(属于风险投资)。

    如果前人有过论述但没有验证,说明有点实证研究的价值。注意“有点”,这类研究的风险不大(因为提供了前所未有的证据),但回报率一般不大。

    如果前人确实从未论述过,那也许更有研究价值。注意“确实”,因为前人也许用其它术语论述过、甚至验证过;中文文献中没有,也许其它文献中有过;等等。人类社会科学发展至今,文献浩如烟海,旧瓶装新酒的错误太容易犯了。当然,即使前人确实没有涉及过,还有一个“也许”的问题,与上面的“也许”相比,这里的风险更高,因为没有前人的肩膀给你垫底。

    当然,风险因人而异。在金钱投资中,几十亿对你我之类是想都不用想的事、对Warren Baffut(他还是全球首富吗?)来说是小菜一碟。在我们玩的智力投资中,各人的研究能力因训练和经验的不同而不同,所以应该量力而行。

    小结一下,选择研究课题,不要从“事件”出现,而要从“问题”出发、从中提取变量和关系、然后查找文献以确定其研究价值、并从文献中寻找方向(如需要解决的是新应用、新证据、新方法、新概念、新关系、等等)。最后这一步,已经开始从“研究什么”(What to study) 转移到“如何研究”(How to study)了,这里不展开。

    也许说了一些人所共知的费话。还是那句话,成功在于细节。大家可以举些感兴趣的事件或现象为例,一起来讨论其中涉及什么变量和关系、从而确定其研究价值有多大。