2023年12月1日发(作者:东芝笔记本电脑开不了机)
因果分析系列5--因果分析中的偏差
因果分析系列5--因果分析中的偏差
在上⼀节中,介绍了现实中:
链结构(chain)A->B->C;
叉结构(fork)A<-B->C;
对撞结构(collider)A->B<-C。
不管多复杂的结构都可拆解为其中的⼀种或某⼏种。基于三种常见的结构有助于我们分别探索三种可能导致的偏差。其中链结构对应选择偏
差,叉结构对应混杂偏差,对撞结构对应选择偏差。具体介绍如下所⽰
常见的因果分析偏差主要包含:混杂偏差和选择性偏差。我们将所有变量分为三类:处理变量T,结果变量Y,协变量X。当X同时是T和Y的
原因,即叉结构时,若不控制将会产⽣混杂偏差,X称为混杂因⼦。当T和Y同时是X的原因,即对撞结构(collider)时,将会产⽣选择偏
差。下⾯将分别对混杂偏差和选择偏差进⾏讨论。
1.混杂偏差
偏差的第⼀⼤来源和主要挑战是混杂偏差。当处理T和结果Y有共同的原因时就会西产⽣混杂偏差。如,处理T是教育,结果Y是收⼊,很难
知道教育对收⼊的因果关系,因为两者有⼀个共同可观测的原因X:智⼒。因此,我们可以提出这样的论点:受过更多教育的⼈赚更多的钱
仅仅是因为他们更聪明,⽽不是因为他们受过更多的教育。为了确定因果关系,我们需要关闭处理T和结果Y之间的所有后门。如果我们这
样做,剩下的唯⼀影响就是T->Y的直接影响。在此例中,如果控制智⼒X,即⽐较相同智⼒⽔平但受教育程度不同的⼈,此时结果差异只因
受教育程度不同,因为每个⼈的智⼒⼀样。为了纠正混杂偏差,我们需要控制处理T和结果Y的所有常见原因。
g5 = gr.Digraph()
g5.edge("X", "T")
g5.edge("X", "Y")
g5.edge("T", "Y")
g5.edge("智⼒", "受教育程度"),
g5.edge("智⼒", "⼯资"),
g5.edge("受教育程度", "⼯资")
g5
但现实是,我们很可能⽆法控制所有T和Y的共同原因。因为这⾥⾯还有很多未知的原因以及已知但⽆法测量的原因。例如,此处的智⼒就是
后者之⼀,尽管做处理很多努⼒,⽬前提出了很多测量智商的⽅法,但依然不确定如何更好地测量智⼒。另外,针对未测量的变量⽤U来表
⽰。现在,假设智⼒U不能直接影响教育T。它只会影响⼤家在考试中的分数X,但是X决定了你的教育⽔平T,因为它为你打开了⼀个好⼤
学的⼤门。即使我们不能控制不可测量的智⼒U,我们也可以通过控制X关闭T->Y的后门。假设除此之外,还有家庭收⼊X1影响你的受教育
⽔平T。
g6 = gr.Digraph()
g6.edge("X2", "T")
g6.edge("T", "Y")
g6.edge("X1", "T")
g6.edge("X2", "Y")
g6.edge("U", "X1")
g6.edge("U", "Y")
g6.edge("家庭收⼊X2", "受教育⽔平T")
g6.edge("受教育⽔平T", "⼯资Y")
g6.edge("分数X1", "受教育⽔平T")
g6.edge("家庭收⼊X2", "⼯资Y")
g6.edge("智⼒U", "分数X1")
g6.edge("智⼒U", "⼯资Y")
g6
针对上图中的分数X1和家庭收⼊X2进⾏调节,可以阻断受教育⽔平T和⼯资Y之间的所有后门。即, 。因此,如果
(Y,Y)⊥T∣X1,X2
01
我们可以测量所有常见的原因,通过控制不可直接测量变量的可测量结果变量,同样相当于调节未测量的因素对处理的影响,仍然可获得条
件独⽴性,然后计算T->Y的直接影响。
但如果是不可测变量U直接导致治处理T和结果Y呢?在下⾯的例⼦中,智⼒U直接导致教育T和⼯资Y。因此,教育T与⼯资Y之间的关系存
在不可观测的混杂。此时,因为它不可测,所以⽆法控制混杂。然⽽,我们有其他测量变量可以作为混杂因素的代理。这些变量不在后门路
径中,但对它们的控制也⼀定程度上能够降低混杂偏差(但不会消除)。这些变量有时被称为替代混杂因素。
g7 = gr.Digraph()
g7.edge("X", "U")
g7.edge("U", "T")
g7.edge("T", "Y")
g7.edge("U", "Y")
g7.edge("智⼒U", "IQ X2")
g7.edge("智⼒U", "分数X1")
g7.edge("⽗亲受教育程度X3", "智⼒U")
g7.edge("母亲受教育程度X4", "智⼒U")
g7.edge("智⼒U", "受教育程度T")
g7.edge("受教育程度T", "⼯资Y")
g7.edge("智⼒U", "⼯资Y")
g7
上例中,虽然我们不能测量智⼒U,但可测量智⼒U的⼀些原因,如⽗亲受教育程度X3和母亲受教育程度X4,以及⼀些被智⼒U影响的变
量,⽐如智商X2或分数X1。虽然控制这些替代变量不⾜以完全消除偏差,但确实能够⼀定程度降低偏差。
2.选择偏差
通过上⾯的分析,很容易使⼈产⽣误解,即尽可能把所有你能测量的东西都添加到模型中更有可能消除或降低混杂偏差。仔细想想,真的是
这样吗?
下⾯来介绍因果分析中偏差产⽣的第⼆⼤来源:选择偏差。如果我们不控制T和Y的共同原因,将产⽣混杂偏差。但控制过多将产⽣选择偏
差。这⾥需要提醒的是,经济学家倾向于将各种偏见都称为选择性偏差。在这⾥,我认为区分选择性偏差和混杂偏差是⾮常有益的。
通常,当我们控制很多我们应该控制的变量时,选择性偏差就会出现。可能的情况是,处理和潜在的结果在某种程度上是独⽴的,但⼀旦我
们在对撞结构上进⾏处理,就变得依赖了。
想象⼀下,在God的帮助下,你终于能够随机分配教育,以衡量其对⼯资的影响。但为了尽可能减少混杂,你控制了很多变量。其中,你控
制投资。但投资并不是教育和⼯资的共同原因。相反,投资是两者的结果。受过更多教育的⼈赚得更多,投资也更多。⽽且,那些赚得更多
的⼈投资也更多。由于投资与教育和⼯资是⼀个对撞结构,通过控制它,你在处理和结果之间开辟了第⼆条道路,这将使直接效应得度量变
得更加困难。思考这个问题的⼀种⽅法是,通过控制投资,你可以观察投资相同的⼩群体,然后找出教育对这些群体的影响。但这样做,你
也在间接或⽆意中让⼯资不会有太⼤变化。因此,你将⽆法度量教育对⼯资得影响,因为你不允许⼯资按应有的⽅式改变。
g8 = gr.Digraph()
g8.edge("T", "X")
g8.edge("T", "Y")
g8.edge("Y", "X")
g8.node("X", "X", color="red")
g8.edge("受教育程度T", "投资X")
g8.edge("受教育程度T", "⼯资Y")
g8.edge("⼯资Y", "投资X")
g8
为进⼀步解释原因,假设投资X和受教育程度T均为⼆值变量,如:投资和不投资,受教育和没受教育。最初,当我们不控制投资时,偏差
项为,因为教育是随机的。这意味着,⼈们接受或不接受教育,他们的⼯资是相同的。但如果我们以
E[Y∣T=1]−E[Y∣T=0]=0Y
000
投资为条件,即控制投资会发⽣什么呢?
看看那些投资的⼈,可能有这样的情况。换句话说,在那些投资的⼈中,那些即使没有受过
E[Y∣T=0,X=1]>E[Y∣T=1,X=1]
00
教育也能做到的⼈更独⽴于教育以获得⾼收益。因此,这些⼈的⼯资可能⾼于受过教育的群体在没有受过教育的情况下的⼯资
Y∣T=0
0
Y∣T=1E[Y∣T=0,X=0]>E[Y∣T=1,X=0]
000
。类似的推理也适⽤于那些不投资的⼈,我们可能还有 。那些受教育投资的⼈,
如果没有接受教育,他们的⼯资可能会⽐那些没有投资但也没有接受教育的⼈低。
⽤⼀个纯粹的图解论证,如果有⼈投资,知道他们受过⾼等教育,就能解释第⼆个原因,那就是⼯资。以投资为条件,受教育程度与⼯资负
相关,将产⽣⼀个负偏差.
E[Y∣T=0,X=i]>E[Y∣T=1,X=i]
00
顺便说⼀句,如果以共同效应的任何后代为条件,如下图所⽰,那么我们讨论的这些都是正确的。
g9 = gr.Digraph()
g9.edge("T", "X")
g9.edge("T", "Y")
g9.edge("Y", "X")
g9.edge("X", "S")
g9.node("S", "S", color="red")
g9
类似的事情也会发⽣,当我们以处理变量T的中介变量X为条件。中介变量是处理变量和结果变量之间的⼀个变量。中介的因果关系,再次
假设你能够随机教育。但需要确定的是,你决定控制这个⼈是否有⽩领⼯作。同样,这种条件作⽤会使因果效应的估计产⽣偏差。这⼀次,
不是因为它⽤对撞结构打开了⼀条前门路径,⽽是因为它关闭了处理所通过的⼀条通道。在我们的例⼦中,得到⼀份⽩领⼯作是⼀种⽅式,
更多的教育导致更⾼的⼯资。通过控制它,我们关闭了这个渠道,只开放教育对⼯资的直接影响。如下图所⽰:
g0 = gr.Digraph()
g0.edge("T", "X")
g0.edge("T", "Y")
g0.edge("X", "Y")
g0.node("X", "X", color="red")
g0.edge("受教育程度T", "是否⽩领X")
g0.edge("受教育程度T", "⼯资Y")
g0.edge("是否⽩领X", "⼯资Y")
g0
为了给出潜在结果,由于随机性,可知偏差为。但若以⽩领为条件,可得
E[Y∣T=0]−E[Y∣T=1]=0E[Y∣T=0,X=1]>
000
E[Y∣T=1,X=1]
0
。这是因为那些即使没有受过教育也能找到⽩领⼯作的⼈可能⽐那些需要教育帮助才能找到同样⼯作的⼈更努⼒。同
样的道理, 因为那些没有受过教育但也没有找到⽩领⼯作的⼈可能⽐那些即使受过教育也
E[Y∣T=0,X=0]>E[Y∣T=1,X=0]
00
没有找到⽩领⼯作的⼈更努⼒。
上例中,如果教育与⼯资是正向因果关系,那么控制中介变量会导致负向偏差,因为它使教育的效果⽐实际低。但如果教育与⼯资是负向因
果关系,那么控制中介变量将产⽣正向偏差。即所有情况下,控制中介都会使因果效应⽐实际看起来更弱。
更直⽩的理解是,假设你必须在两个应聘者中选择⼀个职位。两⼈都有同样令⼈印象深刻的专业成就,但其中⼀⼈未接受⾼等教育。你应该
选哪⼀个?现实中,未受过⾼等教育,但与另⼀个具有相同成就的⼈被录取的概率更⼤。
⼩结
上⼀节研究了作为⼀种语⾔,以更好地理解和表达因果关系的想法。我们对图的条件独⽴性规则做了⼀个简短的总结。本节主要探索了三种
发布者:admin,转转请注明出处:http://www.yc00.com/num/1701383259a1075569.html
评论列表(0条)