多重填补1

多重填补1


2024年3月15日发(作者:恢复指定人微信聊天记录)

第十八章 多重填补(Multiple Imputation)及MI过程

第一节 多重填补的原理

一. 概述

数据缺失是在很多科学研究中经常出现的现象,对于统计分析人员来说,如何选择合适的方法对不完

整的数据集进行分析,是一个棘手的问题。缺失数据带来的主要问题有:效率降低、数据的处理和分析复

杂、观察到的数据与未观察到的数据间的差异所产生的偏倚。大多数的SAS统计分析过程都把任何带有缺

失值的观测排除在统计分析之外,尽管仅仅使用完全观测的方法可以简化统计分析的过程,但是会丢失不

完全观测中所包含的信息,在多元统计分析过程中尤其如此,因为我们不得不因为一、两项的缺失数据而

剔除整个观测,而有时这样的观测数量又很多。此外,这种方法还忽略了完全观测与不完全观测之间可能

存在的系统差异,如果把社会调查数据中的不完全观测全部剔除,就会导致所做出的统计推断不能代表整

体人群。

在有些SAS统计分析过程中,我们可以尽量利用所有可以利用的观测,只要在这个观测中包含有用的

信息。例如,在CORR过程中,估计一个变量的均数时,采用了在这个变量上没有缺失值的所有观测,而

不管这些观测在其他变量上是否含有缺失数据。CORR过程在估计相关系数时,利用了在要分析的变量对

上没有缺失数据的所有观测;虽然这种方法对数据的利用情况有所改进,但得到的相关矩阵不是正定的。

为了更加充分地利用所有观察到的数据,缺失数据的填补(imputation)技术逐渐崭露头角。常用的方法

是简单填补(simple imputation),即给每一个缺失值填补进一个替代值。对于填补后的数据集,可以采用标

准的统计分析过程。例如,用观察到的数据的均数来填补每一个缺失值,或用基于其他变量的条件均数来

填补每一个缺失值。这种方法把缺失值当作已知值,然后利用完整数据集的分析方法。但是这种方法,不

能反映缺失值在预测过程中所造成的不确定性,而且会导致对方差的估计偏小。

在近几十年,研究缺失数据的统计方法是统计学研究中的一个活跃领域,20多年前由Rubin提出来的

多重填补(multiple imputation,MI) 方法就是其中一种,多重填补的步骤及其统计分析分为三个步骤(见图

18.1):

填补

●●●◎●

●●◎●●

●◎●◎●

……………

●●●●◎

分析

2

ˆ

,σθ

1

ˆ

1

综合

填补数据集1

●●●○●

●●○●●

●○●○●

……………

●●●●○

●●●◎●

●●◎●●

●◎●◎●

……………

●●●●◎

2

ˆ

θ

ˆ

2

2

2

θ

ˆ

,σˆ

……

………………

填补数据集2

●●●◎●

●●◎●●

●◎●◎●

……………

●●●●◎

填补数据集m

……

2

ˆ

θ

ˆ

m

m

不完整数据集填补数据集

● 观察值○ 缺失值

分析结果

◎ 填补值

最终结果

图18.1 多重填补步骤及其统计推断原理

1.为每个缺失值产生一套可能的填补值,这些值反映了无响应模型的不确定性;每一个值都被用来

1

填补数据集中的缺失值,产生若干个完整数据集。

2.每一个填补数据集都用针对完整数据集的统计方法进行统计分析;

3.对来自于各个填补数据集的结果进行综合,产生最终的统计推断,这一推断考虑到了由于数据填

补而产生的不确定性。

MI方法最初主要用于抽样调查和普查的大型数据集中。随着新的计算方法和统计软件的出现,该方

法已被越来越多地应用于生物医学、行为学和社会科学领域。

二. 数据缺失的特征 

 

在进行多重数据填补时,必须考虑数据是以怎样的形式缺失的,从而才能决定采用什么样的填补方法,

下面对数据缺失的特征作一简单介绍。

1.缺失机制(missingness mechanism)

现将数据集中不含缺失值的变量称为完全变量,这部分变量用X

obs

表示;数据集中含有缺失值的变量

称为不完全变量,这部分变量用X

mis

表示。用向量R=(R

1

,R

2

,…,R

n

)作为响应指示变量,当R

i

=1时,表

示变量X

i

被观察到(或被测量到),R

i

为0时,表示变量X

i

为缺失值,则当满足:

P(R|X)=P(R|X

obs

,X

mis

)=P(R|φ) (18.1)

其中φ是与数据集中任何变量都无关的参数。这种数据缺失机制被称为完全随机缺失(missing completely at

random,MCAR)。

当P(R|X)=P(R|X

obs

,φ),即数据的缺失仅仅依赖于完全变量,这种数据缺失机制被称为随机缺失(missing

at random,MAR)。在MAR情况下,不完全变量中的缺失值有可能系统性地大于或小于观察到的值。在

MI方法中,都是假设数据是随机缺失的。

如果不完全变量中数据的缺失依赖于不完全变量本身时,这种缺失被称为不可忽略的(nonignorable,

NI)缺失。

下面通过一个实例来对这三种数据缺失机制加以说明。

假设有一个3个变量的数据集,其变量分别用X

1

、X

2

和Y来表示。其中Y变量有缺失值,X

1

与X

2

完全变量。当Y以0.5的概率缺失时,Y的缺失与X

1

、X

2

的取值没有任何关系时,这种缺失就是MCAR。

如果是当X

1

<0时Y缺失,则这种缺失为MAR。如果是Y<0时Y为缺失值,这种缺失就是NI。

2.缺失模式(missingness pattern)

假设数据集是由n个变量、p个观测组成的p×n矩阵,对这个矩阵进行适当的行变换和列变换后,可

以得到这样一个矩阵,它呈现出一种层级缺失的模式,即:当矩阵中的元素X

ij

缺失时,则对任意的k≥i

和l≥j,元素X

kl

也是缺失的(见图18.2)。这种数据缺失模式被称为单调缺失模式(monotone missingness

pattern)。对于单调缺失模式来说,可以用一些简单的填补方法,不过在大多数复杂的调查中,这种缺失模

式很少见。

单调缺失模式

   变量

obs X

 X

 X

 X

 X

 X

 X

1   ● ● ● ● ● ● ●

2 ●●●●●●○

3   ● ● ● ● ● ● ○

4   ● ● ● ● ● ○ ○

5   ● ● ● ● ● ○ ○

6   ● ● ● ● ● ○ ○

7   ● ● ● ● ● ○ ○

8   ● ● ● ● ○ ○ ○

…  … … … … … … …

n   ● ○ ○ ○ ○ ○ ○

任意缺失模式

   变量

obs X

 X

 X

 X

 X

 X

 X

1   ● ● ● ○ ● ● ●

2 ●●●●●●○

3   ● ● ● ● ● ● ○

4   ● ● ● ● ● ○ ○

5   ○ ● ● ● ● ○ ○

6   ● ● ● ● ● ○ ○

7   ● ● ● ● ● ○ ○

8   ● ● ● ● ○ ○ ○

…  … … … … … … …

n   ● ○ ○ ○ ○ ○ ○

● 观察值○ 缺失值

2

图2 数据缺失模式


发布者:admin,转转请注明出处:http://www.yc00.com/xitong/1710463529a1761105.html

相关推荐

发表回复

评论列表(0条)

  • 暂无评论

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信