档案

Posts Tagged ‘缺省值’

如何处理严重的缺省值问题?

2010/10/13 留下评论

L @ 2010-10-11:

您在博客中讲解如何报告回归分析时,提到:“但变量常有缺省值,这时模型的个案数就会小于样本数、有时两者相差很大(当然是个严重问题),所以一定要报告前者。”

我在处理一批调查数据,遇到了严重的缺省值问题。我的样本有近千人,用媒体使用的三个自变量和三个人口控制变量(简称X1-X6)对因变量(简称Y)做回归分析,只剩下300个案。请问对此如何处理。

庄主 @ 2010-10-13:

数据缺省值是定量研究者人人遇到都头痛的问题。因为缺省值就是数据里没有信息,巧妇难为无米之炊。

我看了你的数据,主要问题在于X1-X3等3个变量上的缺省值太多(各有200-400个缺省值不等)。如果去掉这三者,会有600余人个人留下来,大概可以接受。但是,这三个自变量是你研究的核心变量,如果删掉它们而只留下3个人口控制变量,也就难以成为传播学研究了。真是一个两难问题。

现在流行一种“Missing Value Analysis“(MVA,即“缺省值分析”),SPSS下属的结构方程模型软件AMOS中就有MVA工具。其基本思想是根据已知信息去预测(即填补)缺损信息。具体操作步骤如下:

1. 假定样本数据中有十个变量(已经用于回归分析的X1-X6和Y,以及没有用上的Z1-Z3),先把Y放一边,分别分析其中八个变量与第就个变量之间的关系。即:

X1 = b0 + b1X2 + b2X3 + b3X4 + b4X5 +b5X6 + b6Z1 + b7Z2 + b8Z3             (1)

X2 = b0 + b1X1 + b2X3 + b3X4 + b4X5 +b5X6 + b6Z1 + b7Z2 + b8Z3             (2)

X3 = b0 + b1X1 + b2X2 + b3X4 + b4X5 +b5X6 + b6Z1 + b7Z2 + b8Z3             (3)

注意,这里每个模型的有效样本数为该模型所有九个变量(包括因变量Y和八个自变量)上都没有非缺省值的个案数。在你的案例中大概是600多人。

2. 根据模型1-3的结果参数(即b0-b8)来分别预测X1-X3上的缺省值。假定模型1的结果是:

X1’ = 0.5 + 1.0X2 + 1.5X3 + 2.0X4 + 2.5X5 +3.0X6 – 2.0Z1 + 3.0Z2 + 1.0Z3    (4)

那么,就可以根据那些在X1上有缺省值的个案的X2-X6和Z1-Z3的实际数值而预测出(填补进)他们在X1上可能取的值(记为X1’)。同理,可以预测出X2或X3缺省值的可能取值(分别记为X2’和X3’)。

3. 最后将填补后的X1-X3(即X1’, X2’, X3’)放回你一开始想做的回归模型,即

Y = b0 + b1X1’ + b2X2’ + b3X3’ + b4Z1 + b5Z2 + b6Z3                                  (5)

MVA是否合理和有效,取决于以下三个条件能否同时被满足:

一、每个模型中的所有就个变量上上没有(或是很少)缺省值,否则“救”不回多少个案。假如每个变量有30个缺省值(即只占样本的3%),看来微不足道,但是如果每个变量上的30个缺省值发生在不一样的个案上,那么就有30X9=270个案无法就回。

二、每个模型有一定的解释力(如R平方在0.20以上,当然越高越好),这决定了用该模型中八个自变量去预测Y的validity(效度)。

三、每个变量上的缺省值是完全随机(completely random)产生的,即不受任何规律制约;不然,必须将影响缺省值产生的因素放进模型中去。

以上条件一和二是可以从已有数据中计算出来的。如果一和二无法成立,那么就则是彻彻底底的无米之炊了。如果条件一和二问题不大,那就需要看条件三了。

条件三一般是无从得道的。不过根据前人研究(包括我自己做过的一个大型研究),缺省值的发生一般都不是完全随机的。也就说,使用MVA在大部分情况下都是有风险的。缺省值产生的随机性越低、用MVA的风险就越高。

以上是现有文献中对MVA的基本看法。此外,我个人觉得用数据中除了因变量之外的所有变量来预测缺省值的做法有totalogy(自我循环)之弊端。以本案为例,你比较一下模型4与模型5,就不难看出Z1-Z3对Y的影响出现了四次:一次是自己的直接影响(模型5)而另三次是分别通过X1’、X2’和X3’的间接影响。这在理论上和方法上都有问题(如X1’-X3’与它们的预测值Z1-Z3之间有共线性)。

我认为,解决上述问题的一个办法是将Z1-Z3从模型1-3中去掉。就是说,只用模型5之外的变量来预测X1-X3的缺省值。如此填补出来的X1’-X3’在模型5中与Z1-Z3应该没有过高的共线性;同时,Z1-Z3对Y的影响只被估计一次。当然,这种方法并无法解决X1-X3中缺省值非随机产生的问题。

最后还是那句话,缺省值就是数据中缺乏信息。MAV或其它任何统计方法(包括我提出的改进方法)都无法根本解决信息不足甚至信息匮乏的问题。

如何运用缺省值分析(MVA)方法?

2009/03/20 1条评论

>

wjgxm:

有几个关于缺失值处理的问题想请教祝老师:

我在用little’s MCAR检验时发现,以往不少国内的研究在用此检验时,大多数时候并非是针对整个问卷进行的,而是选取部分指标进行检验,如:1、只针对几个缺失较严重的选;2、只针对问卷中核心部分的指标;3、将问卷分为几个部分,如基本情况项目、满意度量表、其它情况项目等,分别检验。

我对自己的问卷(包括三个部分:基本情况项、5级量表、其它项)分别进行了几次检验,结果如下:1、全部选项纳入检验,结果Sig. = .044;2、只检验5级量表项,结果Sig. = .083;3、剔除最后的4个跳选项,结果结果Sig. = .398。这些结果差异较大,大于或小于0.05的都有。我对little’s MCAR检验的适用性感到一定困惑,因为我是非统计学的学生,非常的业余。

此外,我对跳选项的处理也非常困惑,我的问卷是做关于居民满意度的,最后5项如下:
1、你对XXX的总体满意度?1、很不满意;2、较不满意;3、一般;4、较满意;5、很满意

如果满意:
(1)你会xxxxx?1、一定不会;2、….;5、一定会
(2)你会xxxxx?1、一定不会;2、….;5、一定会
如果不满意:
(1)你会XXXXX?1、一定不会;2、….;5、一定会
(2)你会XXXXX?1、一定不会;2、….;5、一定会

我现在觉得这些跳选项设计的非常没头脑,感到懊恼,因为不管是否满意,居民都应该可能会有这双方面的行动的!问题是,正常情况下,如何处理这些跳选项?我现在首先要做的是缺失处理,后期还要用到SEM,关于这个问题思考的非常之艰难,因为身边没有可帮助之人,网络搜索和学术论文搜索也难解惑,特向您求助!

庄主:

我读过Missing Value Analysis(MVA,缺省值分析)的文献,但从来没有用过,没有第一手的经验或教训可以分享,所以我只简略回答你的问题。(我的原则是,对于自己没有第一手体验的问题,回答尽量简略,以免误人子弟。)

为了便于其他读者的理解,先简介一下MVA。缺省值指调查、实验、内容分析等实证数据中“拒答”、“不知道”、“无意见”等没有实际信息的值。传统的数据分析是将其排除在外,或者用均值或中位数来取代。MVA是一种data-driven(数据导向)而非theory-driven的方法,即根据那些不含缺省值的个案(“样本一”)中的相关信息来预测(即填补)含缺省值的个案(“样本二”)中的缺省值。

我至所以不用MVA,主要是对其的基本假定(即缺省值是完全随机或基本随机产生、或样本一和二没有本质差别)存有很大疑虑。这种疑虑,即来自传统文献,也源于我自己的实证研究。我曾用中国大陆的十来个调查、共几万个案的数据做过一个item non-responses(INR,问题拒答)的研究(Zhu, 1996),发现INR不是随机的、而是受到问卷设计、问题性质、调查环境以及被访者特征等各个层面变量的影响。既然如此,我们应该而且可以根据具体数据的情况(即INR与上述自变量的关系)来决定如何处理INR,如有时应该将INR当作neutral position(中立立场)、有时则应将其当作真正的缺省值而从分析中剔除,而不应盲目和机械地依赖SPSS或其它软件中的MVA工具来替我们做这个重要决定。(同学们大家起来,我们不要做SPSS的奴隶!)

当然,我的上述看法也许是过分保守和落伍。如果你的样本太小,如果不用MVA来“拯救”(?)那些缺省值,有效个案(即样本一)所剩无几,无法做分析,你应该对做MVA之前(即样本一)和之后(即样本一+样本二)的数据分别检验你的理论假设,然后比较两者的参数(如均值、回归或相关系数等)、但不必比较两者的标准误差或显著程度(因为两者样本大小不一而自然不同)。如果两者有明显区别,说明样本二不是样本一的一个随机子样本、而是另一个具有系统差别的样本(但要害问题是我们不知道这种系统从何而来和如何纠正)。在这种情况下,我会放弃样本二。只依靠样本一的代价是Type II误差(即可能拒绝了真实的差别或关系);加入了有系统偏差的样本二,虽然减少了Type II误差、但同时大大提高了Type I误差(可能接受了虚假的差别或关系)。前者的后果是害己(无法发表);后者则是害人(最终也害己)。两害之间,我们应该取其轻者。

我基本认同你对国内运用MVA时的流行做法的批评。既然MVA完全依赖样本一中各变量之间的关系,那么变量越多、其中的信息也就越多,所以应该尽量利用所有现有的变量来做MVA。但是(非常重要的条件),假定你要通过MVA填补的是因变量中的缺省值,你就绝对不应该包括你的理论假设或模型中的所有自变量。否则,你用了自变量填补了因变量中的缺省值,然后再检验两者的相关关系,不就成了自我循环了吗?

你在介绍你的三种检验结果时,没有讲清楚其“显著”差别的意思是什么:是指你用三者不同的MVA方法生成三个新数据(即三个上述的样本一+样本二),然后分别检验你的理论假设的结果?如是,它们之间的差别就与我上一段讲的有关了。你“全部纳入”的问题中也许也包含了自变量,所以其关系容易显著。其实,在没有弄清你的样本二是否为随机样本之前,这种变量之间的比较没有意义。你需要的是我前一段中讲的个案之间的比较。

对于你的第二个问题,即如何填补你的那些被跳过的问题的值。这种想法很大胆、很有创意,但可惜没有道理、非常危险。这里,你不是在填补缺省值、而是在凭空制造新数据。

Zhu, J. H. (1996). "I don’t know" in public opinion surveys in China: Individual and contextual causes of item non-response. Journal of Contemporary China, 5, 223-244.

分类:统计 标签:,