🔗:Causal Reasoning: Fundamentals and Machine Learning Applications
1.因果推理book
1.1介绍
想法💡:我们不仅要了解系统做出决定的原因,还要了解该决定的影响(和副作用),以及如何改善决策以实现更理想的结果。
首先,让我们简单而非正式地将因果推理定义为因果问题的研究,例如:A会导致B吗?向用户推荐产品会让他们更有可能购买吗?如果是这样,可能性有多大?是什么让一个人更有可能偿还贷款或成为好员工(或雇主)?如果天气变热,庄稼会枯萎吗?因果推理是研究这些问题以及如何回答它们。
1.2什么是因果推理?
1.2.1简单的哲学
因果推理是科学探究的一个组成部分,其悠久的历史始于古希腊哲学。从生物医学到社会科学的领域都依靠因果推理来评估理论,并回答有关我们居住的物理和社会世界的实质性问题。
为了理解难度,让我们先请你放开这本书,把它放在地板上——然后再拿起它,继续阅读!现在,让我们问一下,这本书掉落的原因是什么?这本书掉下来是因为你放开书了吗?还是这本书掉下来了,因为我们要求你把它扔掉?即使我们没有要求你,也许你也会放开这本书。也许是重力。也许这本书掉下来是因为读者不是在太空中读这本书的宇航员。
这简单例子说明了许多重要的哲学挑战,这些挑战困扰了哲学家将因果关系概念化的努力。这些包括抽象的基本概念,以及充分和必要的原因。例如,重力当然是必要的,但不足以导致书的坠落——重力以及读者放开书是书的必然的,也是书的坠落的。这个例子还说明了近因和最终原因。例如,读者放弃这本书是一个近似的原因,作者要求读者放弃这本书可能是一个更遥远的最终原因。最后,这个例子提出了一个问题,即原因是否必须是确定性的。换句话说,当被问及时,并非所有(甚至大多数)读者都足以放弃这本书的可能性是否意味着作者的要求根本不是原因?或者我们的请求有可能被视为概率原因吗?
1.2.2定义因果关系
定义:在干预主义的因果关系定义中,我们说,如果我们在更改A后观察到B值的差异,并保持其他一切不变,则事件A会导致另一个事件B。
由于因果推理在医学中的早期应用(我们将在第3章中讨论),习惯上将A称为“treatment”,B被称为“outcome”。例如,治疗药物的剂量及其血压的结果,我们分别将其称为治疗变量和结果变量。为了方便起见,我们互换使用事件及其测量变量,但重要的是要记住,因果关系是在事件上定义的,如果以不同的方式测量,相同的事件可以对应不同的变量。
1.2.3干预和反事实
关于干预,文字指出干预是指任何积极改变处理变量值的行动,比如给患者用药、改变网站界面、授予贷款等。这不同于简单观察不同的处理变量值。正确进行干预对推断因果效应非常重要。
关于反事实,文字指出其核心思想是比较有干预和无干预两种情况下的结果。有干预的情况下是事实世界,无干预的假想情况下是反事实世界。反事实世界可以给出“保持其他变量不变”一个精确表述。变量在反事实世界中的值称为反事实值。
将反事实和干预结合,可以定义因果效应为有无干预情况下结果的差异。因此,推断因果效应可看作是估计反事实世界下的结果,因为事实世界的结果通常已知。
综合反事实和干预,干预的因果效应可以定义为干预后观察到的结果与不干预时观察到的反事实结果之间的差异。我们将事实世界下的结果表示为,反事实世界下的结果表示为。对于二元处理,其因果效应可以写成:因果效应:= −。
上式表明,推断干预的效果可以被认为是估计反事实世界下结果的问题,因为事实结果通常是已知的。因此,反事实推理是推断因果关系的关键。回到火柴棍的例子,我们可以将我们的干预定义为划火柴。事实世界就是我们划火柴并看到它被点燃的世界,而反事实世界是我们不划火柴但保持其他一切不变的世界。根据我们对因果关系的解释,人们认为在反事实世界中火柴不会被点燃,因此我们可以说,划火柴会引起光。令人高兴的是,我们的结论与通常的直觉一致,我们将看到,反事实推理很好地适用于许多实际问题。话虽如此,我们必须强调,这种因果关系的定义不是绝对的;这取决于开始时的初始世界。例如,在火柴棍的例子中,如果我们从一个无氧环境(或外太空)开始,并应用相同的反事实推理,我们会得出结论,击打不会导致点燃,这说明了休谟的困境。
1.3随机实验
因果推理在二十世纪初取得了重大进展,当时Fisher发现了一种在概念上直截了当的干预方法,从而使接受治疗和未治疗的群体之间没有系统性差异。我们只是聚集了一大群人,并随机将他们分成两组(G = 0或G = 1),其中一组将接受治疗,另一组不会。通过随机分配个人接受或不接受治疗,我们确保平均而言,两组之间没有区别。这意味着两组的预期结果是相同的,当我们观察到第一组的平均结果Ȳdo(A = 0)G = 0时,我们可以用它来估计第二组的反事实结果。同样,当我们观察第二组的平均结果Ȳdo(A = 1)G = 1时,我们可以将其作为第一组反事实结果的估计。这种方法被称为随机实验——有时也被称为随机对照试验、A/B实验和其他名称
1.4为什么是因果推理?预测和决策之间的差距
机器学习预测模型的预测准确性并不能用于评估不同决策方案的影响。预测仅建立变量之间的相关性,而决策需要考虑因果关系。
单纯依靠预测模型进行决策会面临两大风险:
(1)无法判断决策是否会改变系统,例如社交信息流是否影响用户行为;
(2)决策本身可能改变环境,破坏模型的预测,例如灌溉决策改变温度和土壤湿度的关系。
这两个问题说明,预测模型存在固有局限,不足以支持决策制定。
即使预测非常准确,也无法给出决策的因果效应,不能评估不同决策方案。需要利用因果推断方法来明确变量之间的因果关系和决策的效果。预测与决策有本质区别。仅依靠预测模型进行决策存在很大风险。在许多关键领域,需要因果推断来支持决策,不能简单依赖预测。
简而言之,即使预测对了我们也不知道模型的预测是否是符合正确的逻辑的。
1.5因果推断的四个步骤
- 建模和假设:提出结构因果模型,表达对因果关系的假设。
- 识别:基于模型分析因果效应是否可估计,并给出计算公式。
- 估计:使用统计方法根据识别的公式估计因果效应。
- 反驳:检查模型假设的合理性,评估结果对假设的敏感性。
关键在于提出合理的结构因果模型。识别依赖模型而非数据。估计则仅依赖数据。
反驳不能证明假设,但可检验模型与数据的一致性,判断结果的稳健性。
2.模型和假设
2.1因果图
因果图的组成:
- 节点:表示我们正在建模的世界或系统中的变量或特征。没有限制,让我们把每个节点视为代表一个系统可能可观察、可测量或以其他方式了解的东西。
- 边缘:将节点相互连接。每个边缘都表示与连接节点的值相关的机制或因果关系。边缘指示因果影响的流动。
非循环:不能有A导致B和B导致A的情况同时发生
两个节点上的简单因果图:
- A导致B
- A导致B或B导致A,但不是两者。
2.1.1读取因果图
因果图中的边表示信息从一个节点流向另一个节点,因果效应沿着连接的节点通过边在图中传播。
这使我们可以通过读图来回答许多关于系统的问题:
- 改变一个节点是否会影响另一个节点(判断边界效应)
- 一个节点的值在其他节点改变时是否保持不变(判断稳定性)
- 哪些节点可以改变目标节点的值(寻找干预点)
因果关系遵循传递性:一个节点影响所有其后代节点,并受所有其祖先节点的影响。
2.1.2因果图和统计独立性
因果图描述了节点之间的非参数生成过程,规定了变量间的独立性和依赖性。
统计的独立性:如果一个节点的值不提供关于另一个节点值的信息,则两个节点在统计上独立。
因果关系的独立性:操纵一个节点的值不会导致另一个节点值的变化
因果图的三种基本结构途径、碰撞器和链条对应不同的统计独立性。两个节点在因果图中若被碰撞器分离,则它们独立;若被链条或分叉连接,则条件独立。碰撞器是使两个节点独立的唯一结构。条件独立需要节点间路径都含有分叉或链条,而非碰撞器。
d分离:如果两个节点之间没有未定向路径相连,或者所有连接路径上存在碰撞器,则这两个节点是d分离的。分离表示两个节点在统计上独立。
条件d分离:如果两个节点本身就是d分离的,或者所有连接路径上存在分叉或链条(而不是碰撞器),同时这条路径上还包含一个条件节点,则这两个节点在给定条件节点的情况下是条件d分离的。条件d分离表示在给定条件下两个节点独立。