应用计量经济学现状: 因果推断与政策评估最全综述

凡是搞计量经济的，都关注这个号了

稿件：econometrics666@126.com

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

因果推断三杰

最近，我们引荐了①关于各种因果识别方法的120份经典实证文献汇总”，②哈佛大学新修订完成的因果推断经典大作免费下载！附数据和code，③因果推断的统计方法总结, 177份文献，④政策评估的计量方法综述, 包括最新因果推断方法，⑤在教育领域使用IV, RDD, DID, PSM多吗? 使用具体文献，⑥看完顶级期刊文章后, 整理了内生性处理小册子，⑤工具变量精辟解释, 保证你一辈子都忘不了，⑦DID, 合成控制, 匹配, RDD四种方法比较, 适用范围和特征，⑧关于双重差分法DID的32篇精选Articles专辑！⑨关于(模糊)断点回归设计的100篇精选Articles专辑！⑩匹配方法(matching)操作指南, 值得收藏的16篇文章等，⑪MIT广为流传的政策"处理效应"读本，⑫DID的研究动态和政策评估中应用的文献综述，⑬最新政策效应评估的四种方法，⑭政策效应评估的基本问题等，在学术同行间引起巨大反响。
考虑到因果推断已经成为了一种学术生活方式，我们进一步为各位学者介绍国外关于因果推断的最新应用进展。今天，这篇“应用计量经济学现状: 因果推断与政策评估最全综述”文章，值得各个社科门类（例如，经济学、管理学、社会学、心理学、政治学）的学者开展深入研讨。Susan Athey是用机器学习开展因果推断研究的前锋和主力，Guido Imbens是五大刊之一的“Econometrica”主编。
必看: 计量经济圈公众号搜索功能及操作流程演示 (戳前面)
正文

关于下方文字内容，作者：李松泽，中央财经大学中国经济与管理研究院，通信邮箱：964916858@qq.com
作者之前刊发的作品：万字长文述"家庭经济学"进展, 诺奖得主贝克尔长耕于此！
在这篇文章（Athey, Susan, and Guido W. Imbens. 2017. "The State of Applied Econometrics: Causality and Policy Evaluation." JEP, 31 (2): 3-32.）中，Athey和Imbens基于他们对近期研究的阅读与评价，讨论了计量经济学的最新进展，这些成果对于关注政策评估的研究者来说有很大的帮助。
文章的第一部分回顾了因果关系识别策略（identification strategies）的进展，包括断点回归（regression discontinuity design，简称RDD）、合成控制法（synthetic control method，简称SCM）和双重差分法（differences-in-differences，简称DID）、基于网络设计的方法以及联系实验数据（experimental data）与观测数据（observational data）的方法。
接下来，文章对辅助分析（supplementary analyses）进行了讨论，这些分析有助于说服读者主要分析（primary analyses）的部分是可信的。
最后，作者简单介绍了机器学习文献的最新进展，主要着眼于预测方法和因果推断的结合。
政策评估的新进展
近30年来，因果推断已经成为计量经济学文献里最热门的话题。因果推断的根本问题在于我们无法直接观测到因果关系，所有的估计都是基于接受了不同水平处理的不同个体之间的比较而得出的。
在一些设定下，“无干扰假设（unconfoundedness assumption）”被认为是成立的。这一假设要求所有的“干扰因素（confounding factors）”都能够被观测到，因而控制了这些可观测因素后，我们对他们的处理就与随机分配时（random assignment）一样好。已有大量文献讨论了基于无干扰假设的平均处理效应估计量及其应用。这些估计量有的基于匹配方法（matching methods），有的基于对观测值的重新加权（reweighting observations），还有的使用了倾向得分（propensity scores）。这些内容不是本文关注的重点，感兴趣的读者可以参考Imbens 2004; Abadie and Imbens 2006; Imbens and Rubin 2015; Heckman and Vytlacil 2007。
断点回归设计
断点回归设计利用接受离散处理的激励或者能力的“断点”来进行因果推断。这一设计的关键特征是定义了“强制变量（forcing variable）”——在其临界值处，参与项目的概率会发生不连续的变化。此时我们假设接近临界值两端的个体是相似的，因此他们之间平均结果的差异可以归因于是否接受了政策干预。
断点回归设计可以分为“清晰（sharp）断点”和“模糊（fuzzy）断点”：前者是指临界值某一侧的个体一定能够（概率等于1）接受处理，而后者则是指临界值某一侧的个体有可能（概率小于1）接受处理。二者对于回归结果的解读也有差别：对于前者，因变量条件期望在“强制变量”临界值两侧的差值就是政策对于临界值附近个体的平均效应；而对于后者，所得的估计结果则应被解读为政策对于临界值附近的“顺从者（compilers，即那些强制变量高于临界值且接受了政策处理的个体）”的平均效应。
在利用Jacob和Lefgren（2004）的工作（参与暑期学校对数学成绩的影响）阐释了断点回归设计的具体应用之后，作者们建议研究者们将以下四个要点牢记于心：

建议使用local linear方法，而不是local constant方法。应该分别对强制变量临界值两侧的样本进行线性回归并对预测结果作差来估计处理效应，而不是简单地通过分别对临界值两侧样本作核回归（kernel regression）。前者的优势在于将断点附近观测值系统的变化纳入了考虑，并且修正了边界处断尾数据产生的偏误。
要注意带宽（bandwidth）的选择，即如何在邻近的和较远的观测值之间分配权重。
应该通过辅助分析来评估断点回归设计的可靠性，尤其应该检验强制变量是否存在“自我操纵（manipulation）”，以及协变量的平均值是否在临界值处存在断点。
通过评价对其他子样本外推（extrapolation）的可信性，来研究断点回归结果的外部有效性。

此外，最新的研究将断点回归设计推广到了条件期望的“变化率”存在断点时的情况，即“拐点回归设计（regression kink design）”。其基本思想是因变量作为强制变量的函数，其斜率会在临界值处发生改变。关于这个方法的讨论，参见Nielsen, Sorensen, and Taber (2010), Card, Lee, Pei, and Weber (2015), and Dong (2014)。
合成控制法与双重差分法
当仅有部分群体接受了政策处理时，研究者常用双重差分法（DID）来开展政策评估。此时因果推断的难点在于如何对处理组进行反事实分析，即如果不接受处理，他们的结果会发生怎样的变化。经典的DID方法假设处理组与控制组拥有相同的线性趋势，从而平均处理效应可以通过两次差分得到：第一次分别对两组在处理前后的平均结果作差，第二次则对这两个差值再作差。
接下来作者介绍了DID方法的两个新进展：合成控制法（synthetic control method）以及非线性的CIC法（非线性的双重变换模型，nonlinear changes-in-changes method）。
作者利用Card（1990）的经典研究阐释了DID与合成控制法的差别。该研究想要评估的是马列尔偷渡事件（Mariel boatlift）对迈阿密劳动力市场上低技能工人工资水平的影响。Card使用的是传统的DID方法：他对比了处理组（迈阿密）与单一控制组（休斯敦、匹兹堡和亚特兰大这三座城市中的一个）的工资水平变化。与之不同的是，合成控制法不是使用单一的控制组，而是对备选的三座城市进行加权平均，从而“合成”一个与迈阿密更相似的控制组。例如，假设偷渡发生前休斯敦的工资水平要比迈阿密高，而亚特兰大则比迈阿密低，那么相较于使用单一的城市（休斯敦或亚特兰大）作为控制组，二者通过平均“合成”的城市显然与迈阿密更具可比性。
实施合成控制法的关键在于确定权重。标准的做法是使用最小距离法（minimum distance approach，参见Abadie, Diamond, and Hainmueller 2010），而Doudchenko和Imbens（2016）则提出了在备选控制单元数目庞大时更为有效的权重设定方法，如最优子集回归以及LASSO和弹性网方法（LASSO and elastic methods）。
接下来，作者介绍了他们提出的非线性双重差分法（Athey & Imbens, 2006），并称其为双重变换模型“changes-in-changes”。与经典的DID不同，这一方法不依赖于对函数形式的假设，同时也允许时间及处理效应在个体间存在系统性差异。
估计多值处理变量（multivalued treatment）的平均处理效应
早期的计量经济学文献关注的是二值处理变量（binary treatments）的效应。但现实生活中，处理变量往往存在多个取值。而新近的文献表明（Imbens 2000），推广后的倾向得分法能够应用于多值处理变量的情形，并且其降维性质（dimension-reducing properties）以及扩展后得到的双重稳健性都能够得到保留。所谓倾向得分是指控制了可观测特征之后后个体接受处理的条件概率，在无干扰的假设下，我们估计处理效应是只需控制倾向得分即可，而不需要把因变量刻画为所有可观测变量的函数。倾向得分作为一维变量，替代了多维的协变量，实现了“降维”。
网络与社会交互中的因果效应
网络中的同群效应以及各种处理的因果效应是一个重要的研究领域，本部分介绍了该领域中计量方法的一些进展。这些文献关注的是当个体间发生交互并违背了通常的无干扰假设（或SUTVA假设，见 Rosenbaum & Rubin 1983; Imbens & Rubin 2015）时，如何进行因果推断。此外，有时个体间的交互，即同群效应（peer effects）本身也是被研究的对象。
Manski（1993）讨论了线性均值模型（linear-in-means model），是该领域的一篇重要计量文献。文中假设总体被分为若干组，并且组内同群效应是常数，基本的模型设置如下：

其中图片表示个体i的结果，图片表示个体i所在组内的平均结果，图片表示个体i的一系列外生特征，图片表示个体i所在组内成员外生特征的均值，图片表示个体i所在组内成员具有的共同特征。
Manski考虑了三种导致同组个体的结果发生关联的同群效应。第一种被称为“相关同群效应（correlated peer effect）”，这是由同组个体共享相同环境造成的，由图片表示。第二种被称为“外生同群效应（exogenous peer effect）”，由图片表示。第三种为“内生同群效应（endogenous peer effect）”，由图片表示。Manski指出，即便是利用常系数线性模型，对这些影响分别进行识别也要依赖于非常强的假设和不现实的设定。后续的实证文献在两方面作出了努力：一是为这些效应附加额外的结构，二是通过额外的信息来实现识别。
之后，作者们又介绍了在网络结构中进行因果推断的两个文献分支。第一个分支关注的是构建网络形成（network formation）的模型，第二个分支则讨论的是在包含网络的因果回归中利用随机推断（randomization inference）来获得准确的p值。感兴趣的读者可以查看原文了解相关的文献。
外部有效性
即便分析与实证设计都十分完善，我们也无法确定研究所得的因果效应是否适用于未被研究的其他总体与设定。因此，诸多学着呼吁关注研究的外部有效性（external validity）。
最近的一些工作为研究者直接评估因果效应估计量的外部有效性提供了可行的方法。例如，用来估计局部平均处理效应（LATE）的工具变量估计量何时能够代表对全样本的处理效应呢？Angrist（2004）建议检验always-takers和never-takers平均结果的差值是否与顺从者（compliers）的平均结果相等。Bertanha和Imbens（2014）则提出应该同时进行两个检验：第一，未接受处理的compliers与never-takers的平均效应是否相等；第二，接受处理的compliers与always-takers的平均效应是否相等。此外，Angrist和Fernandez-Val（2010）还提出了利用其它外生协变量的方法。
同时，利用断点回归设计的研究也格外重视外部有效性。虽然从原理上看，通过这种方法得到的估计只对于强制变量在临界值附近取值的个体有效，但是现在已有一些方法来检验我们能否将估计推广到总样本的其他部分。这些方法有的同时适用于清晰和模糊断点回归，而有的仅适用于模糊断点；有的需要额外的外生协变量，而有的则只需要强制变量即可。感兴趣的读者，请参考Dong 和 Lewbel（2015）、Angrist 和 Rokkanen（2015）以及Bertanha和Imbens（2014）。
利用实验数据
实验研究与观测研究的结合能够为我们关注的问题提供更加丰富的答案。为此，作者讨论了三个案例。

Athey, Chetty, Imbens和Kang（2016）利用实验得到的中间变量（intermediate variable）作为处理变量（treatment variable）的替代（surrogate）来估计平均效应。
Athey, Chetty和Imbens（2016）获取了随机实验数据（包括处理变量、中间变量和预处理变量），并通过比较分别利用实验数据和观测数据估计得到的中间结果的平均效应是否一致，从而判断无干扰假设是否成立。
还有一种方法是研究利用多项实验的数据，这些实验的样本取自不同的总体，并且接受处理的性质也可能不同。结合这些实验结果有助于获得更有效的估计，并能够预测一个处理对于别的总体的影响，或者估计其他具有不同特征的处理的效应。此领域尚未得到太多关注，但有着较广阔的研究前景。

辅助分析
主要分析（primary analyses）关注的是对主要被估计量及其标准差的点估计，而辅助分析（supplementary analyses）则致力于检验前者所得结果的可靠性。本文讨论了如下四种形式的辅助分析：
安慰剂分析
安慰剂分析（placebo analysis）是应用最为广泛的辅助分析。它将主要分析中的结果变量替换为已知不会被处理所影响的“伪结果（pseudo-outcome）”后，重复原来的分析过程——理论上来说这样得到的处理效应估计量应该为0。因此如果所得估计值显著异于0，就意味着主要分析可能是不可靠的。
接下来我们分享文中提到的一个例子，其中安慰剂分析将滞后的结果变量作为“伪结果”。Imbens, Rubin和Sacerdote（2001）研究了彩票中奖对于参与人收入的影响。其中处理组为获得大奖（奖金份20年支付）的个体，控制组为获得小额单期奖金的个体。对于处理效应的估计依赖于无干扰假设：控制了彩票开奖前的诸多变量（例如滞后六年的收入、教育程度和性别等）之后，彩票奖项的分配可以被看作是随机的。可以通过将开奖前的收入作为“伪结果”估计平均处理效应来检验该假设是否成立。利用实际的结果估计发现，中大奖后平均工资减少了
；
而
利用伪结果得到的估计则是中奖前的工资会增加530。所以，无干扰假设是成立的。
稳健性(Robustness)与敏感性(sensitivity analysis)
现代实证工作的标准做法是在最终的论文中展现模型在最佳识别策略下的估计结果，并辅以对这些实证发现的稳健性评估。这样做是为了表明实证的本质结果对于识别策略中的一些具体选择并不敏感，例如对回归方程函数形式的设置以及对控制子样本之间的差别的方法。
本部分作者综述了诸多文献检验实证结果的稳健性与敏感性的方法，并建议研究者基于多种评价稳健性的方法来报告结果，而不仅局限于单一的最优方法。
识别与敏感性
Gentzkow和Shapiro（2015）采用了另外一种途径来评价敏感性。他们提出了一种方法用以确认数据集中的哪些统计关系与研究关注的参数联系最为密切。这样做是基于如下想法：特定的变量组合之间的相关系数能够识别特定的参数。为了实现这一目标，他们研究了关键参数是如何与一组描述性统计量相联系的。至于具体的做法，感兴趣的读者参考原文。
断点回归设计中的辅助分析
McCrary（2008）为断点回归设计提供了一个有趣的辅助检验。这一检验的目的是确认强制变量的密度函数在其临界值处是否存在断点——当强制变量由于被操纵而不再外生于个体时，这种情况就应该被重视。
一个经典的案例是以考试分数为强制变量的教育断点回归设计。如果评分者意识到分数超过临界值的重要性，尤其当他与考生私下认识时，便有可能出现操纵分数的情况。这样，考试分数临界值处的密度分布就很有可能出现断点。
机器学习与计量经济学
机器学习可以分为两类：一是有监督的机器学习（supervised machine learning），二是无监督的机器学习（unsupervised machine learning）。
有监督的机器学习关注的是预测问题，它将样本分为训练样本（training sample）和测试样本（test sample），结合一系列预测因子，使用训练样本估计模型从而预测测试样本的结果。需要注意这种方法关注的是预测的表现，对于模型的选择由数据驱动（data-driven model selection），这于因果推断的目标有根本的不同。
无监督的机器学习则用来探索数据的特定模式以实现分类，例如将图片或文件分组。这一方法对于分析高维数据有很大的帮助，但在经济学文献中较少被使用。一个例外是Athey, Mobius和Pal（2016）的工作：他们利用无监督学习，根据话题将报纸文章分类。
本文接下来的部分主要介绍了有监督的机器学习方法如何改进了因果分析的表现，特别关注了协变量较多时的情形。
用于平均因果效应的机器学习方法
近年来，研究者利用机器学习方法实现对大量协变量的灵活控制。一些研究使用的是对应用于协变量较少时的方法的改进，例如结合LASSO方法的加权（Hirano, Imbens, Ridder and Rubin, 2001）和利用随机森林（random forests）估计倾向得分（McCaffrey, Ridgeway, and Morral 2004；Wyss et al., 2014）。但是这些方法在多数时候不具备良好的性质，因为它们没有很好的处理与估计偏误关联较大的协变量。作者介绍了三种更好的途径：
第一种途径是两次利用LASSO回归，分别选出一组与结果变量相关的协变量和一组与处理变量相关的协变量，然后将这两组变量的并集纳入OLS回归，从而得到更好的估计。详情参见Belloni, Chernozhukov, Fernández, and Hansen (2013)。
第二种途径是寻找合适的权重直接平衡处理组与控制组之间的协变量（或协变量的方程），从而使数据在重新加权之后能够更贴近于随机实验的结果。关于这种方法在协变量较多时的应用，参见Zubizarreta（2015）、Imai and Ratkovic (2014)。
第三种途径由利用半参数（semiparametric）方法研究影响函数（influence function）的文献提出。
上述三种途径在实施过程中都需要注意修正数据以消除估计的倾向得分的极值。
用于异质性因果效应的机器学习方法
很多情况下，一项政策或干预应用于不同的设定可能会产生不同的成本与收益。因此，有必要研究这些异质性处理效应的特征。但是，利用机器学习方法可能错误地估计处理效应的差异，因为处理这类问题时，该方法实际上是在协变量及其子集中寻找最佳拟合。
解决上述问题的一种途径是在全面地搜索处理效应的异质性之后，修正由多重假设检验带来的问题。List, Shaikh和Xu（2016）为此提供了具体方案。
还有另外一种途径能够解决上述问题：利用机器学习方法识别具有不同处理效应的子组（subgroups），从而发现异质性的具体形式。“回归树（regression trees）”是划分子组的一种合适的机器学习方法。该方法通过依次考虑哪些协变量需要被分割以及在何处被分割，从而使残差平方和最小化。这一过程形成了“树”的形状，从而将数据依照协变量取值划分成了若干组，这些组构成了树的“叶”。
Athey和Imbens（2016）提出了一种称为“因果树（causal trees）”的方法，它基于回归树的机器学习方法，但在构建树时则以尽可能降低处理效应（而不是预测结果）的均方误差为准则。这一方法需要划分样本：一半用来决定对协变量空间的最优划分，而另一半则用来估计每一个分组的处理效应。该方法最终能得到处理效应的估计以及每个子组的置信区间。“因果树”的优点是无论估计中用到了多少协变量，所得的置信区间都是有效的。同时，在估计因果效应时，研究者可以采用更复杂的结构，例如考虑固定效应或刻画误差结构中不同类型的相关性。但是，“因果树”的缺陷在于它得到是每一个子组的处理效应，所以无法区分组内个体的差异。为了得到更为个体化的预测，Wager和Athey（2015）提出了利用随机森铃来估计异质性处理效应的方法。
此外，还可以利用BART（Bayesian Additive Regression Trees）方法（Hill 2011; Green and Kern, 2010）或LASSO回归方法（Imai and Ratkovic, 2013）来估计异质性处理效应。
Reference: Athey, Susan, and Guido W. Imbens. 2017. "The State of Applied Econometrics: Causality and Policy Evaluation." Journal of Economic Perspectives, 31 (2): 3-32.

注：文中提到的大部分主流计量方法都可以在计量经济圈里找到相关材料和程序。

关于一些计量方法的合辑，各位学者可以参看如下文章：①“实证研究中用到的200篇文章, 社科学者常备toolkit”、②实证文章写作常用到的50篇名家经验帖, 学者必读系列、③过去10年AER上关于中国主题的Articles专辑、④AEA公布2017-19年度最受关注的十大研究话题, 给你的选题方向，⑤2020年中文Top期刊重点选题方向, 写论文就写这些。后面，咱们又引荐了①使用CFPS, CHFS, CHNS数据实证研究的精选文章专辑！，②这40个微观数据库够你博士毕业了, 反正凭着这些库成了教授，③Python, Stata, R软件史上最全快捷键合辑！，④关于(模糊)断点回归设计的100篇精选Articles专辑！，⑤关于双重差分法DID的32篇精选Articles专辑！，⑥关于合成控制法SCM的33篇精选Articles专辑！⑦最近80篇关于中国国际贸易领域papers合辑！，⑧最近70篇关于中国环境生态的经济学papers合辑！⑨使用CEPS, CHARLS, CGSS, CLHLS数据库实证研究的精选文章专辑！⑩最近50篇使用系统GMM开展实证研究的papers合辑！
下面这些短链接文章属于合集，可以收藏起来阅读，不然以后都找不到了。
2.5年，计量经济圈近1000篇不重类计量文章，

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle

更多相关文章

随机推荐