6月 | 2009 | 竹家庄

档案

Archive for 2009年6月

如何在模型拟合度和模型合理性之间选择？

2009/06/30 庄主 1条评论

hz @ 2009-06-25: 我对四个变量之间的关系做了SEM检验，从拟合指数看第一个模型略优于第二个模型；两个模型路径系数显著性如图所示，实线代表通过显著检验，虚线代表没有。你觉得四个变量之间的关系应该如何解释比较好？

庄主 @ 2009-06-30:

从逻辑上说，模型2是合理的、而模型1是有问题的，因为模型1没有检验W和Z对YL的直接影响，而只是假定X是前两者的中介变量。

从实证结果（比较模型1和模型2）来看，Z对Y有直接影响、而X即不是一个中介变量、甚至也不是一个对Y有影响的自变量。这些发现，说明模型1中的X -> Y的显著影响其实是一个由于遗落了Z这个“第三者”而造成的 spurious（虚假）关系。

你提到，模型2的拟合度不如模型1。这是因为模型2比模型1多用了2个自由度。如果去掉W –> Y 和X –>Y这两对不显著的关系之后，两个模型的拟合度应该相似。但是，其实没有必要节省这2个自由度。如果少了2个自由度而使得原先可以拟合（即p > 0.05）的模型变成不可拟合（p < 0.05），说明你的样本太小，原先可以拟合的模型也是在边缘线上挣扎。

我们检验模型拟合度的目的是看该理论模型与实证数据之间的差别是否小到可以接受的程度、而不是追求模型的最佳拟合度。其实后者很容易通过其它不值得提倡的方法来做到（参见我前些日子的有关帖子）。

分类：统计标签：SEM, 模型拟合度, 中介变量

如何在SEM中处理dummy变量和显示R平方？

2009/06/27 庄主 2 条评论

月出 @ 2009-06-09:

祝老师,您好!您的伯克真的很好，blogspot我一直登不上。我初学LISREL，有几个问题想请教您：

1、虚拟变量在SEM中一样用0、1处理吗？我在原先运行得出的模型里加入了性别变量，但就显示

W_A_R_N_I_N_G: PHI is not positive definite
W_A_R_N_I_N_G: PSI is not positive definite
W_A_R_N_I_N_G: The solution was found non-admissible after 50 iterations. The following solution is preliminary and is provided only for the purpose of tracing the source of the problem. Setting AD> 50 or AD=OFF may solve the problem. 这是怎么回事?

2、子模型原先得出的变量之间的关系为什么进入母模型后显著性发生变化？路径系数的正负也反了？正常吗？怎么解释？比方说总风险和各类风险之间本来是这么个关系,加入信任置于总风险前，总风险和各类风险之间的关系就变化了。可能有什么问题存在吗？

3、我怎么在LISREL中显示可决系数R平方阿?

庄主 @ 2009-06-27:

1、SEM中可以包括虚拟变量（dummy variables）。一般是先用LISREL中的PRELIS工具将含虚拟变量的相关系数矩阵转化成tetrachoric correlation矩阵（参见http://ourworld.compuserve.com/homepages/jsuebersax/tetra.htm），然后再进行分析。

你得到的出错信息由很多种原因造成，可能是你模型的设置有问题（如性别要factor loading = 1、factory error = 0）、也许是性别与某些其它观测变量之间的高度相关、等等，很难一下子知道是什么原因。如果用了上述转化矩阵，仍有类似问题，那么更有可能是模型设置的问题。

2、子模型的关系进入母模型之后显著性出现变化是常见的、但是如果系数方向也反了，说明母模型中含有一个disorter的第三者变量（具体参见我前些日子的有关帖子）。你也可以将先后两个模型的系数用表格的形式贴出来给大家看看。

3、LISREL将R平方叫做 Sqaured Multiple Correlations (SMC)。如果你是用SIMPLIS，需要加一句“LISREL OUTPUT EF“ 来显示。需要尤其注意的是，LISRE同时给出计算Structural Form 和 Reduced Form两种结果，前者中的SMC是错的，要看后者。（具体参见Joreskog的文章 What is the interpretation of R2?)

分类：统计标签：零一变量, SEM

如何处理Power-law(幂率)分布的数据？

2009/06/19 庄主留下评论

Anonymous @ 2009-06-11:

祝老师：您好！看了您关于“如何在SPSS中做数据正态转化”的帖子受益匪浅。我做的研究是关于web 2.0 的，所以数据来源都是secondary source，有很多变量的分布都是power law的形式，其中有的自变量数据有点类似count variable（0值有意义，非missing value）占了很大的比例。想就数据转化继续请教您两个问题：

1。比如两个自变量IV1和IV2都是高度偏态，在对其进行对数变换后转化为正态。但是IV1和IV2可能对因变量DV存在交互影响，那么在检测交互影响的时候interaction term是应该用lnIV1*lnIV2么？因为这里有个疑问是lnIV1+lnIV2=ln（IV1*IV2），如果lnIV1和lnIV2进入后R Squared Change显著的话是不是就代表已经存在交互影响了么？还需要继续进入lnIV1*lnIV2么？对这个问题我感觉有点钻到牛角尖里了，想了很久都不太清楚？

2。另外是关于前面0值太多的自变量（单峰非正态），有点类似于medical research里面的account variable，0代表没发生，但他们是自变量，而不是因变量，所以感觉不能用Logistic回归。我试着用了log之类的转换，很难变成正态分布，目前我将其转换成了dummy variable 0 和1做了一个model，然后再选择所有不为0的obsevation做了一个model，但这样做得结果不是很理想。请问是否有一些特殊转换处理这方面的数据呢？

庄主 @ 2009-06-20:

问题一较简单：交互影响模型中的自变量是否可以取对数？答案是肯定的。因为在你的模型 Y = b0 + b1ln(IV1) + b2ln(IV2) + b3ln(IV1)ln(IV2) 中的右边前两项，即IV1和IV2各有一个回归系数b1和b2，所以它们不会被约简为另一个b3ln(IV1)ln(IV2) 。

同理，模型右边第三项 b3ln(IV1)ln(IV2) 简约后成为 b3 (IV1 + IV2)，也不等同于前两项 b1ln(IV1) + b2ln(IV2)。当然，第三项的变量 (IV1 + IV2 中的联合分布比IV1和IV2原先的独立分布更加不对称，即更加偏离正态分布。但是，据我的理解，当你将 ln(IV1)ln(IV2) 输入OLS回归时，计算程序是将 ln(IV1)ln(IV2) 当做一个值处理而不会将它分析成IV1 + IV2的。

问题二很复杂：如何处理服从power-law（幂律）分布的数据？这种分布特征的数据，具有很多个最小值、而这些最小值由于受到某种机制的限制而无法再往更小的方向延伸（left-censored），而全部堆积在一起。也有人称其为 "floor effects” （“地板效应”）数据（如下图a）。初看，这些最小值（本例是1）堆起来不像是地板效应、而像 “ceiling effects”（“天花板”效应）。但如果将图a作90度旋转，就可以理解“地板”的意思。当然，这种分布的反面，即一组数据中有很多个无法更大的最大值（right-censored values），就是“天花板”了。

以上图a中的X，按三个不同的幂律值（1、2、4）而形成三种不同的“地板”分布（即P(X)=X^-1、P(X)=X^-2、和P(X)=X^-4。具体说来，当幂律=-1时，X的最小值占了总体的19%；当幂律=-2时，X的最小值占了总体的61%；而当当幂律=-3时，X的最小值占了总体的92%！在经典的“正态分布世界”(the world of normal distribution) 里，我们都是用log来转换服从幂律分布的数据。以下图b就是对图a中的三组X用log转换以后的分布形状：

与图a相比，图b中的三种分布的形状不那么“地板”了，但是还远远不是正态分布的。如果将X的频数（即P(X)）也作log转换，即得到一个单调递减的线性分布（图c）：

图c也不是正态分布。但在“正态世界”里，线性分布是我们对付幂律数据的（相对）最好方法了；就是说，幂律分布的数据永远不可能转换为正态的。真的没有其它方法了吗？有，那就要离开正态世界而进入“变态世界”(the world of abnormality)、做一个研究“变态行为”的“变态学者”。“变态”这个字太刺眼。做“变态研究”的绝大多数是拘谨的物理学家，当然无法承受世俗的歧视，所以将变态世界叫做“复杂系统”(complex system)。我一开始说“这个问题很复杂”，意思就是“这是一个复杂世界的问题”。当然，复杂系统也不能点石为金，将幂律分布数据变成正态分布数据、而是用整个一套完全不同的思想和方法来看变量的分布和变量之间的关系。(参见A. Clauset, C.R. Shalizi, and M.E.J. Newman, "Power-law distributions in empirical data" SIAM Review, 2009)。

好了，别再继续问我变态世界的事，我刚刚开始接触他们的那些事，可能受正态世界的毒害太深，无论理智上或感情上都还没有入门。

回到你的实际问题，你可以试试以下几种方法：一、对X取log之后、再取log（当然，如果log(X)有非正值、需要先对其做线性转换成正值）；二、将X转换成0-1值的dummy variable后直接进入模型（而不是用来分拆成两个模型）；三、将X与其他相关的自变量合成新的变量；等等。注意，上述任何一种方法都不会产生正态分布、所以其结果都是差强人意的。

分类：统计, 传播理论标签：复杂系统, 幂律分布, 数据预处理

如何设计博士生学习计划？

2009/06/15 庄主留下评论

W @ 2009-06-13:

我是学习传播理论方向的博士生，有志于从事科研，但非常担心自己把博士读成了“5年制的硕士研究生”，于是想做一个合理的读博计划，特别想听听您的建议与看法。我的问题如下：

1、读博期间应该定一个怎样的目标？

2、如何突破研究方法的局限和英语的缺陷？

3、如何培养捕捉一个有创新意义的研究课题的能力？

4、如果方便，很想知道您是如何度过博士生活的。

5、香港的传播学博士是如何读的，您一般对他们有何要求。

6、请您帮我推荐几本您认为应该读的书。

庄主@ 2009-06-14：

你的绸缪未雨想法很好。“博士生=五年制的硕士生”一说我还是第一次听到，但仔细想想，好像很深刻、有道理。同理，硕士生要防止做“六年制的本科生”。也许博士生还要防止做“九年制的本科生”。（申明：我没有任何贬低本科生的意思。事实上，包括我在内的很多海外教授，认为中国本科生的基础训练是非常好的，所以大家更喜欢招中国本科生做博士生。）

你的六个问题涉及了博士生学习的各个方面，我都没有“权威”的答案，但愿意分享自己的体会。由于时间限制，我先简单谈谈，希望各位（包括我在的学生，其实以下很多是以他们作为对象而写的）补充和辩论。

1、目标：扎实基础、广博知识之类笼统的话，我就不说了。我的基本原则：目标一定要高，取法乎上、得乎其中嘛。同时要可操作，如以下两条：一、能教三门课（分别为理论、方法和应用。应用课可以是采编写、也可以是广告策略、公关写作、网页设计、视频编辑，等等，至少能教其中之一。我最近几年每年教的课里，就有理论、方法和网页设计）；二、在高水平期刊上发表一两篇论文（如SSCI中JMCQ或更好的期刊，国内期刊则要比《新闻与传播》等更有挑战性的）。

2、方法与英语的局限：一语以蔽之，只有多动手练习。方法上，对初学者来说，一定要严格遵循规则、步骤、要求，不要马虎、妥协、变通，否则不如不学。英语，对国内学生来说，标准是能写出别人看得懂的论文。最大的敌人是自己（Chinglish、汉式英文）。如何克服？找个native sepaker批改你的几篇文章，然后从中找出自己问题的规律，贴在墙上天天看。

3、创新能力：除了经验，好像没有捷径。而经验来自年份。我的体会是进入学术圈（不一定是从博士生开始）后，努力工作十年后才会发生。自然科学研究也许不需要这么长的周期。社会科学中除了少数天才之外，很少有在博士生期间、甚至在毕业后几年内有真正的重大创新。所以我不把创新当做自己读博士时的目标、也不以它来要求我的学生。

4、我的博士生活：与其他留美博士生一样，大部分时间在上课。我在三年八个学期（包括两个暑期）中大概修了20门课、另外旁听了4、5门课。然后通过四门资格考试（基础、方法、两个专业方向）。最后写论文（那倒是最省时的，只花了半年）。事后觉得收获最大的一是方法训练、二是英文写作、三是体验老师们的人格魅力（不通人情的认真、自我贬低的幽默感、平民的心态、凡事先质疑的精神、等等）。其它的，如看了无数的文献等，在有了wikipedia和youtube的今天，都算不了什么。

5、我对自己博士生的要求：以前我是沿用美国老师教我的方法，即除了学校（和市场）的要求之外，从来没有其它特别的要求。学校的要求是最低限度的，保证能够毕业。市场（用人单位）的要求，对学生来说是看不见摸不着的。最近（在你来信之前），我已开始反思这种hands-off传统的优缺点，并计划从今年开始，给新生提些具体要求，目前想到的就是目标里的三门课、一两篇论文。当然这些只是建议，即使做不到，照样可以毕业，但很难被市场认可。

6、推荐书：以下是对国内新闻传播学博士生的建议（日后也许会有补充）：

方法：

Earl Babbie: The practice of social research, 11th ed. (清华影印版)
Publication Manual of the American Psychological Association, 5th ed. (俗称APA Style，尽量不要看中译本）
Jacob Cohen & Patricia (2002). Applied multiple regression/correlation analysis for the behavioral sciences, 3rd ed., (books.google.com上有免费的部分章节；或其它类似统计书，第一本看原版、也许可以接着看我们的传播统计学。)

理论：

Denis McQuail & Sven WIndahl (1993). Communication models for the study of mass communication, 2^nd ed. (同样，先看原版，也许可以接着看我的翻译本).
Werner J. Severin & James W. Tankard, Jr. (2001). Communication theories: Origins, methods, and uses in the mass media, 5th ed. (不要看中译本）
新闻传播学实证研究的经典报告（可参见我的传播原理课程的补充阅读目录）

分类：留学问答标签：学习计划

如何处理和解读三角关系中的扭曲变量(distorter)?

2009/06/12 庄主留下评论

龙猫 @ 2009-06-08:

庄主好，日前在研究中遇到一难题，想请您赐教。自变量ABCD通过中介变量E影响因变量F，但加入自变量G后导致E到F的路径系数由原来的显著正相关变成了负值，不知如何解释和处理？我自己的推断是G变量对F变量的解释力过强，压制了E变量对F变量的影响，但我不确定这样推理对不对。另外，也不知如何处理这类问题。故在此请教庄主，谢谢您。（注：研究的样本量为320，
测题数目为30.）

庄主 @ 2009-06-13:

为了便于其他读者的理解，我根据你的叙述，将你的两个模型分别复原在图1a和图1b中（注：图b中红线部分为我所加）。由于你没有说明G与A-D的关系，我假定G不是从A-D到E的另一个中介变量（如果是，问题会更复杂一些）。也因为如此，你的问题其实只涉及E、F、G的三角关系，与所以我加了一个红框，以下来集中讨论三角关系中可能出现的各种问题。

再重复一下你的发现：在没有控制G之前，b_FE是正值；而引入G之后，b’_FE（注意b的上标中的“’”记号）成了负值。你认为G是一个压抑变量（suppressor），不知如何处理G。

先讲讲三角关系的基本原理：

一个第三者（G）当且仅当同时满足以下两种条件时，才会改变原有自变量（E）和因变量（F）的关系：一是G与E相关、二是G与F相关。（你的数据看来同时满足了这两条。）
所谓“改变原有关系”，包括了三种不同的变化：一是改变了significance of the relationship（显著水平，即b值从不显著变显著或反之）；二是改变了strength of the relationship（强度，即b值从小变大或反之）；三是改变了direction of the relationship（方向，即b值从正变负或反之）。注意：这三种变化不是互斥而是独立的，即三者中的任何组合都可能同时发生。（你只说了你的数据中出现了方向的变化，不知原有关系的显著水平或强度是否也有变化？）
所有上述三种情况的变化，都说明E和F的原有关系是spurious（虚假）、靠不住，而引入第三者G是必要和合适的。（即你的模型a是错的而模型b是对的，应该接受后者，哪怕后者否定了你原先的假设。其实，对有经验的研究者来说，后者的出现更令人振奋，因为突破也许就在其中！）
第三者的角色，根据上述不同变化而分为distorter（扭曲变量）和suppressor（压抑变量）两种，当然也可能是两者兼顾（详见下表）。简单说来，扭曲变量的缺失导致了Type I的错误（如不应该显著的成了显著、微弱关系的成了强势关系、正的关系成了负的、负的成了正的，等等）；而压抑变量的缺失则导致了Type II的错误（如应该显著的成了不显著、强关系的成了弱关系、等等）。大家知道，Type I后果更严重，所以对扭曲变量的控制更有必要（也正因为如此，发现扭曲变量往往会令人兴奋甚至亢奋。）

表一、压抑变量与扭曲变量之一览表

	G as a Suppressor	G as a Distorter
Change in Significance-level
Nonsig->Sig	Y	–
Sig->Nonsig	–	Y
Change in Strength
Small->Large	Y
Large->Small	–	Y
Change in Direction
Postive->Negative	–	Y
Negative->Positive	–	Y

回到你的数据，很显然，G是一个扭曲变量，所以一定要引入模型，原先的b_FE是错的而b’_FE是对的（当然，假定没有其它第三者的缺失）。至于G是否也是一个压抑变量，则要看b_FE和b’_FE的数值和各自的显著水平才能知道。你不妨补充报告一下，以飨读者。

也许你还会问，为什么G会改变原先关系的方向？我记得曾在以前的帖子中讲过（但一下子搜不到），G与E（即r_EG）或G与F（即b_FG）的两对关系中，必定（而其只能）有一对是负的（请你验证一下）。这是因为任何一组完整（即此外没有其它显著的第三者）的三角关系之乘积（即r_EG X b_FE X b_FG）必须为一个正值（见图2）。传播学中的cognitive dissonance理论就是据此而来的（以下12字为广告：详见我译的《大众传播模式论》）。

如果想更进一步探讨这种三角关系的话，那么可以将G当做是一个交互变量来处理（事实上G与E的交互项往往就是显著的），其结果大多有助于解开这种扭曲现象之谜。我记不得是否曾经说过，一般说来，交互影响比中介影响更有“革命性”意义。That’s why I was excited, rather than depressed, when reading your message.

分类：统计标签：回归分析, 扭曲变量, 中介变量, 交互影响

竹家庄

档案

如何在模型拟合度和模型合理性之间选择？

如何在SEM中处理dummy变量和显示R平方？

如何处理Power-law(幂率)分布的数据？

如何设计博士生学习计划？

如何处理和解读三角关系中的扭曲变量(distorter)?

Random Posts

分类

链接

归档

功能

竹家庄

档案

如何在模型拟合度和模型合理性之间选择？

如何在SEM中处理dummy变量和显示R平方？

如何处理Power-law(幂率)分布的数据？

如何设计博士生学习计划？

如何处理和解读三角关系中的扭曲变量(distorter)?

Random Posts

标签云

分类

链接

归档

功能