2024年3月15日发(作者:恢复指定人微信聊天记录)
第十八章 多重填补(Multiple Imputation)及MI过程
第一节 多重填补的原理
一. 概述
数据缺失是在很多科学研究中经常出现的现象,对于统计分析人员来说,如何选择合适的方法对不完
整的数据集进行分析,是一个棘手的问题。缺失数据带来的主要问题有:效率降低、数据的处理和分析复
杂、观察到的数据与未观察到的数据间的差异所产生的偏倚。大多数的SAS统计分析过程都把任何带有缺
失值的观测排除在统计分析之外,尽管仅仅使用完全观测的方法可以简化统计分析的过程,但是会丢失不
完全观测中所包含的信息,在多元统计分析过程中尤其如此,因为我们不得不因为一、两项的缺失数据而
剔除整个观测,而有时这样的观测数量又很多。此外,这种方法还忽略了完全观测与不完全观测之间可能
存在的系统差异,如果把社会调查数据中的不完全观测全部剔除,就会导致所做出的统计推断不能代表整
体人群。
在有些SAS统计分析过程中,我们可以尽量利用所有可以利用的观测,只要在这个观测中包含有用的
信息。例如,在CORR过程中,估计一个变量的均数时,采用了在这个变量上没有缺失值的所有观测,而
不管这些观测在其他变量上是否含有缺失数据。CORR过程在估计相关系数时,利用了在要分析的变量对
上没有缺失数据的所有观测;虽然这种方法对数据的利用情况有所改进,但得到的相关矩阵不是正定的。
为了更加充分地利用所有观察到的数据,缺失数据的填补(imputation)技术逐渐崭露头角。常用的方法
是简单填补(simple imputation),即给每一个缺失值填补进一个替代值。对于填补后的数据集,可以采用标
准的统计分析过程。例如,用观察到的数据的均数来填补每一个缺失值,或用基于其他变量的条件均数来
填补每一个缺失值。这种方法把缺失值当作已知值,然后利用完整数据集的分析方法。但是这种方法,不
能反映缺失值在预测过程中所造成的不确定性,而且会导致对方差的估计偏小。
在近几十年,研究缺失数据的统计方法是统计学研究中的一个活跃领域,20多年前由Rubin提出来的
多重填补(multiple imputation,MI) 方法就是其中一种,多重填补的步骤及其统计分析分为三个步骤(见图
18.1):
填补
●●●◎●
●●◎●●
●◎●◎●
……………
●●●●◎
分析
2
ˆ
,σθ
1
ˆ
1
综合
填补数据集1
●●●○●
●●○●●
●○●○●
……………
●●●●○
●●●◎●
●●◎●●
●◎●◎●
……………
●●●●◎
2
ˆ
θ
ˆ
2
,σ
2
2
θ
ˆ
,σˆ
……
………………
填补数据集2
●●●◎●
●●◎●●
●◎●◎●
……………
●●●●◎
填补数据集m
……
2
ˆ
θ
ˆ
m
,σ
m
不完整数据集填补数据集
● 观察值○ 缺失值
分析结果
◎ 填补值
最终结果
图18.1 多重填补步骤及其统计推断原理
1.为每个缺失值产生一套可能的填补值,这些值反映了无响应模型的不确定性;每一个值都被用来
1
填补数据集中的缺失值,产生若干个完整数据集。
2.每一个填补数据集都用针对完整数据集的统计方法进行统计分析;
3.对来自于各个填补数据集的结果进行综合,产生最终的统计推断,这一推断考虑到了由于数据填
补而产生的不确定性。
MI方法最初主要用于抽样调查和普查的大型数据集中。随着新的计算方法和统计软件的出现,该方
法已被越来越多地应用于生物医学、行为学和社会科学领域。
二. 数据缺失的特征
在进行多重数据填补时,必须考虑数据是以怎样的形式缺失的,从而才能决定采用什么样的填补方法,
下面对数据缺失的特征作一简单介绍。
1.缺失机制(missingness mechanism)
现将数据集中不含缺失值的变量称为完全变量,这部分变量用X
obs
表示;数据集中含有缺失值的变量
称为不完全变量,这部分变量用X
mis
表示。用向量R=(R
1
,R
2
,…,R
n
)作为响应指示变量,当R
i
=1时,表
示变量X
i
被观察到(或被测量到),R
i
为0时,表示变量X
i
为缺失值,则当满足:
P(R|X)=P(R|X
obs
,X
mis
)=P(R|φ) (18.1)
其中φ是与数据集中任何变量都无关的参数。这种数据缺失机制被称为完全随机缺失(missing completely at
random,MCAR)。
当P(R|X)=P(R|X
obs
,φ),即数据的缺失仅仅依赖于完全变量,这种数据缺失机制被称为随机缺失(missing
at random,MAR)。在MAR情况下,不完全变量中的缺失值有可能系统性地大于或小于观察到的值。在
MI方法中,都是假设数据是随机缺失的。
如果不完全变量中数据的缺失依赖于不完全变量本身时,这种缺失被称为不可忽略的(nonignorable,
NI)缺失。
下面通过一个实例来对这三种数据缺失机制加以说明。
假设有一个3个变量的数据集,其变量分别用X
1
、X
2
和Y来表示。其中Y变量有缺失值,X
1
与X
2
为
完全变量。当Y以0.5的概率缺失时,Y的缺失与X
1
、X
2
的取值没有任何关系时,这种缺失就是MCAR。
如果是当X
1
<0时Y缺失,则这种缺失为MAR。如果是Y<0时Y为缺失值,这种缺失就是NI。
2.缺失模式(missingness pattern)
假设数据集是由n个变量、p个观测组成的p×n矩阵,对这个矩阵进行适当的行变换和列变换后,可
以得到这样一个矩阵,它呈现出一种层级缺失的模式,即:当矩阵中的元素X
ij
缺失时,则对任意的k≥i
和l≥j,元素X
kl
也是缺失的(见图18.2)。这种数据缺失模式被称为单调缺失模式(monotone missingness
pattern)。对于单调缺失模式来说,可以用一些简单的填补方法,不过在大多数复杂的调查中,这种缺失模
式很少见。
单调缺失模式
变量
obs X
1
X
2
X
3
X
4
X
5
X
6
X
7
1 ● ● ● ● ● ● ●
2 ●●●●●●○
3 ● ● ● ● ● ● ○
4 ● ● ● ● ● ○ ○
5 ● ● ● ● ● ○ ○
6 ● ● ● ● ● ○ ○
7 ● ● ● ● ● ○ ○
8 ● ● ● ● ○ ○ ○
… … … … … … … …
n ● ○ ○ ○ ○ ○ ○
任意缺失模式
变量
obs X
1
X
2
X
3
X
4
X
5
X
6
X
7
1 ● ● ● ○ ● ● ●
2 ●●●●●●○
3 ● ● ● ● ● ● ○
4 ● ● ● ● ● ○ ○
5 ○ ● ● ● ● ○ ○
6 ● ● ● ● ● ○ ○
7 ● ● ● ● ● ○ ○
8 ● ● ● ● ○ ○ ○
… … … … … … … …
n ● ○ ○ ○ ○ ○ ○
● 观察值○ 缺失值
2
图2 数据缺失模式
发布者:admin,转转请注明出处:http://www.yc00.com/xitong/1710463529a1761105.html
评论列表(0条)