《处理效应异质性分析 机器学习方法带来的机遇与挑战.docx》由会员分享,可在线阅读,更多相关《处理效应异质性分析 机器学习方法带来的机遇与挑战.docx(17页珍藏版)》请在课桌文档上搜索。
1、处理效应异质性是定量社会科学关注的或点。本文以因果随机森林与贝叶斯段加回归树为例,指出以算法为导向的新兴分析手段可以克服模型形式和变量选择的限制,并号虑变量间各种交互关系。因果陵机森林与贝叶斯叠加回归树分别体现r“匹配”和“模拟”的分析逻辑,以帮助研究者勾勒出异侦性处理效应的经验分布并探索该异质性的决定因素。然而,参数设定差异和算法差异都会损害处理效应异质性分析结果的稳健性。、问题的提出社会科学经验研究往往围绕变量之间的关系展开。随着因果推论方法在社会科学领域内的逐渐普及,定量社会科学研窕逐渐从强调相关关系转向强调因果关系(胡安宁,2012;Morgan&Winship,2015).除了常规的
2、平均因果效应之外,越来越多的学芥开始关注处理效应的异版性(谢宇,2(X)8)。这种对于异质性的考察有其社公学基的.一方面,大知的社会学中乂理论都是围绕特定人群的细分展开的,凸显了个体间的异质性。这也就不难理解,在验证和推进这些理论的时候,社会学研究者需要关注处理效应的差异。另一方面,从实践的角度出发,大全的以政策分析为导向的研究关注特定人群之间有差异的处理效应(例如:Heckman&Vyi1.acih2(X)1;Heckman&Garcfa,2017).这与医学研究中日渐兴起的针对特定类型患者的“精准医疗”存在异曲同工的分析逻辑。显然,这类实践导向的分析要求研究者重视处理效应在不同人群之间呈现
3、出的异质性。传统的回归模型通过交互项来分析处理效应异质性(Aikeneta1.,1991).之后方法论的发展则日渐依托了倾向值(propensityscore)的估算,将处理效应异质性问题转为考察处理效应如何随若个体倾向值的变化而变化(XiC&Wu.2005;Xiccta1.,2012:Canicirocta1.,2010:吴晓刚,2008).这些分析方法虽然展示了处理效应异域性估计的多种策略,但各有其不足之处。随着机器学习方法与社会科学因果推断分析的日渐结合,一个前沿的方法论发展方向是使用基T兑法的技术手段来考察处理效应异质性。在此背景卜.,本文希望能够通过系统的梳理,展示社会科学研究在考察
4、处理效应异J贞性时从传统的线性模型到新近的机器学习算法的方法论发展脉络,特别关注不同方法之间的优缺点。在此基础上,本文选取/因果随机森林Ccausa1.randomforests)和贝叶斯强加回归树(Baycsianadditiveregressiontrees)两个以非参数树模型”算法为基础的分析技术,具体介绍其算法原理以及如何克服传统处理效应异域性分析的诸多限制。与此同时,本文也反思了以算法为基础的新兴分析技术可能带来的潜在问题,如因参数设定差异和算法差异而损害处理效应异质性分析结果的稳健性。这种分析异质性处理效应时出现的和健性缺失也可以被称为“异质性的异质性问题。最后,我们以分析中国精英
5、大学教育回报的异质性模型为例,来展示这些方法论的优势和不足。二、处理效应异质性的传统分析:方法概观(一)传统回归模型的交互项分析对于处理效应异质性的探索,传统的分析手段是在某个回归模型中增加交项(Aikene1.a1.,1991)。如果用Y表示因变量,T表示处理变量,C表示某个可能带来处理效应异历性的变量,则交互项模型如模型(1)所示,其中我们关心的系数是03。交互项模型虽然使用广泛,但是相关的方法论研究时其是否能够准确呈现处理效应异质性一直有所质疑(HainmUd1.CreI让,2019)。疑问主要来自两个方面:其一,能够带来处理效应异质性的因素C可能有很多,但是在给定数据的情况下,我们不可
6、能无限制地在模型中添加大盘的交互项。因此,对于交互项的设置便具有一定的主观性甚至随意性.其二,交互项的具体形式(变量C的二次方、三次方项,或者三个甚至更多变量交互的情况)往往也是研究者主观设定的,而这种设定并不必然符合数据生成过程的基本特征。交互关系的更杂性通常不会在常规的双变量交互项分析中涉及。(二)以倾向值为导向的处理效应异质性当倾向值方法逐渐引入定量社会科学研究以后,对于处理效应异质性的考察便逐渐以倾向值为导向展开(Xie&Wu,25:Xiccta1.,2012).所谓倾向值,是指个体接受处理变量某个取值水平影响的概率。假设所有的混渤变量(confoundingvariab1.es)构成
7、矩阵C,那么,倾向值的估计值就是其中y为矩阵C的系数向量。基于帧向值的此种定义,所谓以顺向值为导向的处理效应异质性分析,就是看处理效应如何随着倾向值取值的变化而发生变化。以倾向值为导向的处理效应异质性分析有其独特的优点。例如,这条路径不再看某个特定变量C的作用,而是将所有的C降维为个倾向值Z,进而看顺向值如何异质化处理效应。从这个意义上讲,这一方法克服f上述回归模型交互项的第一个局限。此外,由于处理效应和倾向值构成了一个二维体系,对于它们之间关系的考察也可以突破原有的线性设定,进而采用一些半参数甚至非参数的平滑方法,以应对可能的非线性关系(Kee1.e,2008).这样,回归模型交互项分析的第
8、二个局限便被克服r.具体而言,谢宇和其合作者提出了三种以帧向值为导向的处理效应异质性的分析于段(Xieeta1.,2012:Zhou&Xie,2020)一种被称为细分一多层次法(stratification-mu1.ti1.eve1.method).意指将估知H的倾向值分成不同的取值区间,然后在每个区间内估计处理效应,最后看多个区间的处理效应皇现出何种异质性的变异。第二种方法被称为匹配一平滑法(matching-smoo1.hingmc1.hod),即先通过倾向值匹配,计算每个匹配对(pair)的处理效应,之后,对于这一系列的基于匹配对的处理效应进行曲线拟合,号嚓处理效应如何随着顺向值取值的变
9、化而变化第:种方法被称为平滑一差值法(SmoOIhing-differencingmeihod).与第二种方法相比,这一方法的特点在于,先分别对实验组和控制组的个体取值Y随着倾向值的变化而变化的模式进行曲线拟合,之后再看两条曲线之间的差值,从而得到处理效应异质性的估计。谢宇等人所提出的这一系列以倾向值为导向的处理效应异质性分析方法和经济学家詹姆士,海克咙提出的边际处理效应(margina1.treatmenteffect)有异曲同工之妙(Canicirocia1.,2010),关于边际处理效应方法,可参阅胡安宁(2015)、周翔和谢宇(Zhou&Xie,2019)的研究,这里不再赘述。以倾向值
10、为导向的处理效应异质性分析虽然突破回归模型交互项的一些局限,但也有自身的问愿。首先,倾向值的估计存在着模里不确定性和系数不确定性问题(胡安宁,2017).其次,将各种混淆因素总结为一个倾向值Z的做法虽然通过降维简化了分析,但是我们也无法具体考察究竟是哪个混沿变量C起到了对处理效应进行异质化的作用.的后,无论谢宇还是海克曼的方法,都重在描述处理效应随着帧向值的取值变化而如何变化,但未能分析是什么因素造成了此种处理效应异质性。三、以算法为基础的机器学习新工具:因果随机森林与贝叶斯叠加回归树按照统计学家利欧布密曼(1.eoBreiman)的经典划分(Breiman12(X)1).无论是线性回归模型的
11、交互项,还是以帧向值为导向的处理效应异质性分析,都属于以数据随机生成(StOChaStiCgeneration)为分析基础的模皇。这一分析范式需要对统计模型有清晰的设定。与之相应,分析的关注点则放置于模型提供的特定统计量之上(如特定的系数).与之相比,以算法为基础的分析工具则对数据生成过程存而不论,转而通过在数据上应用特定算法,让数据“说话”,以呈现某种关联性。如果说早期的算法模型因为用力和数据量的限制尚不为社会科学研究界所熟知,那么当我们有足够的计算资源来针对数据使用比较纪杂的算法时,我们则不得不正视算法模型在社公科学领域内可能扮演的重:耍角色.这方面,因果推断技术与机耦学习算法的结合正是当
12、下社会科学方法论发展的前沿方向,在已有的一些探索的基础上,(例如广义登加模型genera1.izedadditivemode1.ing、部分线性模型partia1.1.inearregression等),涌现了系列新的适用于因果推断的算法模型。本文针对因果处理效应的异历性,选取两个以“树模型算法为基础的分析工具:因果随机森林(A1.hCyCIa1.,2019;Wager&Athcy.2018)和贝叶斯累加回归树(ChiPmanCIa1.,2010;Hi1.1.cta1.,2020).由于这两个方法都是以树模型为基础展开的,这里首先对树模型进行概览性的介绍。(一)树模型与随机森林概览树模型是一系
13、列以数据细分为博础的兑法模型的统称(BrCimanC1.a1.,1984)。如果分析的因变量Y为分类数据,通常称之为决策树,而如果分析的Y为连续型变量,则称之为回归树。为了表述方便,这里统称为树模型。一个树模型如图I(八)所示,对下数据中的所有样本,依据某种变量的取值标准,进行不断的细分,从而构建一个树形模型(这里用h指代某一树模型)。例如,我们首先以变量C1.为基础,以取值0.5为界,如果大于0.5,则将数据分配分到左边个树枝,反之则分到右边。在右边这分支下,依据C2来进行进一步细分,C2大丁0.5则到左枝,否则到右枝.究竟在分叉处选取哪个变量以及采用该变量什么数值为界进行细分,都有相应的F
14、算标准(如信息增益比、Gini系数,等等)和算法规则,这里不再赘述。每个树枝的结尾视为一个节点。如果无法进步细分(例如,节点内的人的Y取值已经比较近似,或者没有足够多的人进行进一步的细分),则每个节点内部所有人丫取值的均值视为符合该节点特征的所有人的Y的估计值。例如,对于CI0.5的人,估计值为h1.,对于C1.O.5的人而言,估计值为h2.最后对于C1.0.5和C20.5的人,估计值为h3.这种对于数据的树状划分等价于图1(八)的右图。图I树根至和勃机森林示例树模型的问麴在于这棵树可能会很长,从而带来数据的过度拟合问题。为了解决这一问题,一个常用的技术是随机森林鸵法,这一郛法的逻辑如图I(b
15、)所示。随机森林涉及两个随机。个随机是从分析对象总体中采用自助法(bootstrap)抽样得到多个子样本(假设共M个子样本),之后在每个子样本中拟合树模型。另一个随机是在每个树模型的分叉点,采用的分叉变地是从所有的备选变量中随机选取产生的。例如,在图1(b)中,第一个树模型用到的变量是CI和C2,第二个树模型用的是C6和C7,第m个树模型用的变量是C1.和C5。在得到M个树模型之后,对于某个个体,基于其一系列的背景特征,我们可以得到M个对于其丫值的估计值。假设某个个体的取值为C1.=O6C2=O.2,C5=O.3,C6=0.8,C7=0.2,C在第一棵树卜:其丫的估计值为1.1.,第二棵树下的
16、估计值是21,第m棵树下的估计值是m3.如果丫是个连续型变量.我们就可以计算这m个估计值的平均值,从而得到对丁Y的整体估计-u-如果Y是一个分类变量,那么我们可以采用投票的方式(例如服从多数原则)决定丫的整体估计值(二)因果随机森林因果随机森林可以看作是随机森林算法在因果推断问题上的直接应用(Atheyeta1.,2019;Wager&Athey.2018)。这方法的基本目的是最大化处理效应在不同树模型节点之间的变异.具体而言,因果随机森林和传统随机森林方法相比,在节点分叉、模型拟合和处理效应估计三个方面都有臼己的特点。节点分叉。我们用P表示母节点,其分叉为左右两个子节点C1.和C2。那么,在
17、传统的树模型中,我们判断是否维续分叉的依据可以是分叉后每个子节点内部时Y的估计误差.例如,假设两个子节点C1.和C2时Y的估计值分别为UAC1.和-c2,其样本量分别为nCI和nC2,处于两个子节点中分析对象Y的观测值分别表示为YC1.和YC2,则两个子节点的估计误差分别为*?i(丫叫-如)f那么,如果C1.和C2中个体人数比例分别为那么节点分叉后的总误差为:从方差分析的角度来看,上面的分义标准实际上是要求组内方差最小化。与之相比,因果随机森林则在每个节点内估计因果效果TFI和2(如每个节点内部实验组的Y的均值减去控制组的Y的均值。当然,这里.需要保证每个节点内部有实验组和控制组的个体,详见卜
18、.面的参数设置)。此时在决定节点是否继续分叉时,所采用的标准就不再基于节点内部方差最小,而是节点间变异最大,即希里以节点之间因果效果的彼此差异最大化.顺着这一思路,因果随机森林的节点分叉标准变成了垃小化下面的误差表达式:其中,E(Ty)表示不同节点处理效应的期望值.对r这一误差表达式,经济学家苏珊阿西(SUSanA1.hCy)等人证明errcausa1.(CI.C2尸常数项一二+随机扰动项。所以,我们最小化errcausa1.(C1,C2)等价于最大化丧即节点之间估计的处理效应彼此差异尽可能大。显然,这实际上就是处理效应的异质性。模型拟合,和传统随机森林相比,因果随机森林在模型拟合方面可以选择
19、所谓的诚实(honesty)鸵法。在传统随机森林算法中,数据分为训练组(InIining)和测试组(testing).其中训练组用来建立系列的树模型和估算节点中Y的估计值0,而测试组则是用新的数据来对模型进行应用(如计克新来人员的Q).但是在因果随机森林中,诚实兑法要求构建树模型和估计工人分开进行。也就是说,训练组数据进而分为两部分,一部分用于构建树模里(仍I日称为训练组),一部分用于计算节点内部的处理效应T(可以被称为估计组)。这样做的好处在于减少TA的估计误差。在实际操作中,研究人员可以自行选择是否采用诚实弊法。这是因为尽管诚实算法有其优势,但是在使用的过程中,训练组数据要分割使用,因此会
20、压缩树模型的训练数据集。处理效应估计e基于一系列的树模型(或拧森林),最后步是对处理效应进行估计。如果有新的观测对象(即没有用了树模型拟合和。估计的新的数据),基于其背景特征C,我们可以用因果随机森林来估计某一处理变量对于这一观测对象的Y的处理效应。具体而言,对于这个新的分析对象i,我们可以根据因果随机森林中系列的树模型计算训练组中的所有数据点和i同分到个节点的频数。频数越窃的人(如个体j)和个体i的背景越接近,自然我们就应当在计算针对i的处理效应的时候给j更大的权应。如果没有新的测试数据,可以采用包外(out-of-bag)估计来计整权重。(三)贝叶斯叠加回归树与因果随机森林相比,贝叶斯叠加
21、【可归树虽然也是基丁树模型算法的分析技术,但在对树模型的使用上有其独特之处(参见ChiPmanC1.皿,2010;关于该方法的系统梳理,参见HiUeta1.,2020),为了理解贝叶斯叠加回归树,我们首先来看什么是叠加回归树。顾名思义,叠加回归树将Y的预测值写成多个树模型的福加。如上文所示,一个树模型涉及输入信息X(处理变址和各种混淆变量构成的矩阵,即X是由T和C构成的矩阵,X=T.C),建构的树TrCc,以及节点输出.为了表述的方便,我们可以用函数g来将三者结合起来,写为g(X.Treeh.Mh),其中下标h表示第h个树模型。基于这些信息,我们可以把Y的估计值YA写成如下役加回归树的形式:,
22、=:.产(x7vemj(4)其中,共有M个树模型,每个树模型用Treeh表示,而Mh=(h1.,h2,h1.),指代每个树模型的节点处对于Y的预测值。基于这种设定,我们可以把观测值Y写成穆加模型的形式。假设&是服从均值为0、方差为。2的随机扰动项,我们有:至此,我们建构了个受加模型。而贝叶斯叠加回归树提供了针对它的估计方法。这个方法的优点在于通过调控各种参数先验分布的特征来控制潜在的过拟合。实际上,微加树模型非常容易出现过拟合。例如,先拟合树模型TrCCI,之后计算Y减去Trcc1.得到残差c1.,然后再对e1.拟合TrCe2,然后计算扣除Trcc2后的残差e2,并针对e2拟合Tree3,依次
23、类推。可见,只要树模型的数量足够多,结构足够挺杂,必然会对数据过拟合。而引入贝叶斯的先验概率则有效地控制了这种过拟合情况。具体而言,在上述模型中一共有三个参数:Treh,Mh和2.贝叶斯登加回归树通过分别对它们设定先验概率保证每个g(x.Treeh.Mh)都是个弱学习器,正是因为如此,这些先验概率也被称为正则(regu1.arization)先5短具体而言,贝叶斯叠加回归树设定。2服从反伽马分布,这一分布的均位设为Y的观测数据的标准差。狐但是这个参数需要进行一定的数学变换以保证P(o0.41表示的是一个树模型的树深度(depth),即从顶点到最下面一个节点经过多少分叉。通常我们取a=095,=
24、2,由于-0是一个负值,这一先验分布使得结构非常发杂的树模型出现的概率很小。即树模型越豆杂,出现概率越小。对于Mh,贝叶斯叠加回归树设定节点的系列对Y的估计值服从正态分布。假设某个树模型下有I个节点,则设定ht服从均值为0、方差为s2的正态分布,对于这一正态分布,设定=05kJM.其中k可以取值为2,M为树模型的数量。可见,树模型越多,s2越小,ht的分布越集中于均值0。也就是说,很多ht的取值会被强制接近于0,从而控制了单个树模型的影响力,抑制过拟介。最后,和般的树模型一样,树模型分叉处选用的变量和其取值界限的选择均设定为均匀分布。在完成上述先验分布的设定后,贝叶斯强加回归树的估计就进入到传
25、统的马尔科夫链-蒙特卡洛计算过程,以模拟后验分布。具体的技术细节这里不再赘述,具体参见戈尔强等人的著作(Gehnaneia1.,2013).基F后验分布,我们可以通过改变自变量T的取值,模拟T在不同取值下Y的变化,以此估计出处理效应。例如,对于个体A,假设其X取值为I,C那么,个体A在T=I时的Y的观测值Yobs即为其在实验组时的Y值,我们可以利用贝叶斯叠加回归树来模拟当个体A的T取值为0的时候Y的估计值。例如,我们可以把个体A的T值强制赋值为0,并将其作为一个新的观测样本放入贝叶斯便加回归树(X设置为0,C).得到的预测值YA即为当个体A在控制组时的丫的估计。那么,对于个体A而言,其处理效应
26、为Yobs-Y.(Pq)树模型的可解释性:变量的重要性指标对于定量社会科学经验研究而言,学者们非常歪视模型的“可解择性”。在因果推断研究中,处理变量和因变量的定义非常明用I。因此,模型的可解择性往往落脚点在如何理解控制变量(或者称为混治变星:)在估算因果关系过程中的作用(Mo1.nar,2020)。对于树模型而言,由于在每个树分叉节点处需要对各个混满变量逐一“扫描”,那么多个树节点下,有的混淆变量就会被使用很多次,而有的混淆变量被使用的次数更少。这种使用次数的差异本质上代表了某一个混淆变量M卜某一因变量的,解释”能力。解释能力越高,被用来进行节点分割的次数就会越多.那么我们就可以看多个树模型下
27、,哪些混洛变st更受“重用“,从而r解不同的混淆变量跨越多个树模型的整体“重要性程度。在机器学习文献中,这种混淆因素的重要性也被称为特征重要性(featureimportance)o这里需要指出的是,混潴变量的特征重要性,在因果随机森林和贝叶斯叠加PI归树这两个模型之间有不同的含义:贝叶斯福加网归树进行的是传统的树模型拟合,混谓变域的作用在于在每一个节点处提升因变量Y在子节点内的“纯度”,而因果随机森林则要求每个节点处选取的混淆变量可以提高子节点彼此之间因果效应估计上的差异。换句话说,贝叶斯叠加回归网中重要的混涌变量是那些能够最大化区分因变出取值的变量,因果随机森林中重要的混淆变量是那些能够区
28、分处理效应的变量。这种特征歪要性定义上的差异需要特别注意。四、新工具、新机遇、新挑战与传统回归交互项和以恤向值为基础的处理效应异版性分析不同,无论是因果随机森林还是贝叶斯卷加网归柯,都是基丁更为兔杂的树模型算法对数据进行处理的。这两种方法为我们提供了估计处理效应异质性的新工具。基于其方法特点,它们为定量社会科学研究者提供了新的机遇,也带来新的挑战。(一)新机遇:个体处理效应的趋近及其应用与传统的方法相比,因果随机森林和贝叶斯福加回归树的一个优势在于,可以为我们提供对个体处理效应的趋近(app)imation)估计。众所周知,因果推论过程中的一个基木问题是我们无怯同时观测到一个个体的观测值与反事
29、实(CounterfactuaI)值(HoHand,1986)。也正是由于这,点,常规的因果推断技术往往估计的是特定群体的“平均”处理效应,而不是个体处理效应.虽然反事实状态难以直接观测,但我们可以将其看成是一个缺失俏井填充之(Ding&1.i,2018).换句话说,我们只需要通过某种手段把反事实状态这一缺失值填补进去,然后与观测到的事实状态相战就能够获知个体处理效应的个估计。顺者缺失值填充的.思.路,现有文献提供了两种策略“一种策略是“匹配”,即尽可能寻找那些与被研究个体接近、但是T取值不同的分析对象来进行匹配(Stuart,2010)另一种策略是“模拟、(Abadie&Imbens,201
30、1)其思路是尽可能地拟合一个完备的针对因变量Y的模型。通过这个模型,我们可以知道,究竟是哪些因素能够影响丫以及如何影响。个体A只要服从这个模型,那么只需要改变个体A的T取值,就能够近似地估算出个体A的反事实状态。换句话说,T取值不同时丫的取值差异可以用来趋近个体处理效应。通过上面的方法论介绍不难发现,因果随机森林采取了,、匹配的策略。通过生成不同的树模型,训练组中的每个个体都获得了一个权重,代表/在各个树模型中与我们关心的个体出现在同一个树节点内的概率。由于划分到同一个节点的个体在大量的混淆变量C上取值相同,因此这一权重木质上反映了训练组中的个体与我们关心的个体的接近程度,或者说匹配度。权重越
31、大,与我们关心的对象越相像,就越能够影响个体处理效应的估计。与之相比,贝叶斯会加同归树则采取了“模拟”的策略,通过贝叶斯方法,我们施于先验分布的参数值设冏可以获取一系列参数的后验分布,即会加回叼树的基本分布状态。那么,我们如果想估计个体A的个体处理效应,只需要将个体A的信息代入,让叠加回归树估算个体A的T在取值不同时的Y的期望值并相减之,由此就得到/个体A的个体处理效应估计。其分析过程的依据在于存在一个训练得很好的登加树模型,以供我们“模拟”出反事实的取值。那么,利用因果随机森林和贝叶斯叠加回归树来趋近个体处理效应,对于处理效应异质性的分析有何价值呢?首先,因果随机森林和贝叶斯福加回归树都是基
32、于算法建构树模型的。因此,这两个方法尽可能地避免了对于模型形式的人为设定和干扰。这就在一定程度上突破了回归模型交互项以及以径向值为导向的处理效应异质性考察在模型形式上的限制。其次,树模型的建构过程(如设置分叉点)不断地对混消变量取值的组合进行考察(T除外),因此,因果随机森林和贝叶斯叠加回归树的一个特点在于几乎可以穷尽处理变量T和各种其他混沿变量之间的交互关系。这种对于交互关系的穷尽是传统处理效应异质性分析方法无法完成的。最后,个体处理效应的估计值可以成为进步分析的对象。如上文所述,传统的同归模型交互项和以倾向值为导向的分析重在展示而非解释异质性.与之相比,因果随机森林和贝叶斯段加回归树帮助研
33、究者估计某个处理变量在每个人”身上的处理效应大小。那么,我们自然可.以进一步看,充竟是什么因素影响了这种个体间的差异,从而“解释”了处理效应异质性。(二)新挑战:异域性的异质性虽然因果随机森林和贝叶斯袂加回归树通过趋近个体处理效应为我们考察处理效应异质性提供了新的思路,但这两种方法也给经验研究者带来了新的挑故。这个挑战我们称为“异质性的异版性“(heterogeneityofheierogeneity):前个“异质性”是指对处理效应异质性的估计,后一个“异项性”指的是这种估计会因为算法出现经险结果彼此不致的情况。具体而言,造成异质性的异质性现象的原因有二。一方面,与传统的统计分析相比,基于算法
34、的分析手段需要对更多的算法参数进行设定。虽然基本上大多数的算法模型都提供了默认值,但是此种默认值并非基丁具体何侬设定,因此无法保证普适性。在这种情况下,不同的研究者可能会有不同的参数设定偏好。其结果便是,即使分析同样的问题,也有可能因为算法参数设定不同而出现分析结果的差异性。另方面,分析结果还仃可能因为算法本身的不同而出现差异。在以机器学习为基础的各种分析技术中,相较于传统模型,克法被推到一个非常重要的地位。在非学术研究的商业应用中,甚至有算法霸权一说(奥尼尔,2018)。尽管目前在社会科学领域内谈算法衍权似乎为时过早,但是算法无疑是决定经验结果的个重要因素,而不同算法的差异则有可能成为造成经
35、验结果异域性的重要原因。五、经验示例(一)研究问题与数据本文的经验示例分析了中国精英大学教育回报的异质性,即与般大学相比,进入精英大学学习的收入I可报在不同个体之间是否以及如何呈现出异质性特征(HU&Vargas.2015),数据来自于“首都大学生成长追踪调隹“(BeijingCOHCgCStudentsPane1.Suncy.BCSPS).这一数据提供了大量学生进入大学之前的背景信息,这些信息构成了研究中的潜在混治变量,从而有助于抑制潜在的选择性误差。此外,由丁是追踪数据,我们在后续调查中获取广大学生毕业后的初职收入信息。在下面的分析中,精英大学选取的是北大、清华和中国人民大学三所大学,这三
36、所大学构成了BCSPS调查三个独立的抽样框,因此保证了足够的样本量。首都大学生成长追踪调查的相关信息可以参阅吴晓刚(2016)。(一)变量选择下面分析的处理变量为是否毕业于清华、北大或者人大(I=是,O=否),因变量则是初职月收入水平。除了这两个变量之外,我们还考虑了其他潜在的混淆变盘,包括性别(I=女,O=男),民族(I=汉,0=少数民族),年龄,是否高中曳读(I=是,O=否),目前所在年级(I=大学一年级,3=大学三年级),家庭年收入(Iog转换),兄弟姐妹数量,父亲教育水平(I=未受过正式教白,2=小学,3=初中,4=高中,5=职高/技校,6=中专,7=大专,8=本科,9=研究生及以上)
37、,母亲教育水平(I=未受过正式教育,2=小学,3=初中,4=高中,5=职高/技校,6=中专,7=大专,8=本科,9=研究生及以上),父亲是否党员(I=是,O=否),母亲是否党员(I=是,0=否),父亲是否全职工作(I=是,0=否),母亲是否全职工作(I=是,O=否),高中中学等级(I=全国重点中学,2=省重点中学,3=地市重点中学,4=县重点中学,5=非重点中学)以及入学前的所在地区(I=东部省份,2=中部省份,3=西部省份)。(三)传统分析方法的结果如上文所述,我们研究与一般大学相比,精英大学对于收入的影晌异质性。我们首先看精英大学的收入回报异质性是否和进入精英大学的概率(倾向值)相关(Bm
38、nd&Xie,2()10).在表1中,模型I利用一系列的背景变属拟合f1.ogistic回归模型。基于此模型,我们进一步估计每个分析对象的倾向值。模型II建立了最小二乘回归(O1.S)模型,并考虑处理变量和倾向值的交互关系。结果表明,精英大学的收入回报与倾向值的交互并不显著。因此,仅就回归模型交互项来看,不存在处理效应随若倾向值变化而变化的情况.图2展示了谢宇等人的三个处理效应异质性分析方法以及海克咙的边际处理效应模型的结果。细分一多层次法说明存在明显的正向选择效应,即越容易进入精英大学的人,其教育回报越高(斜向上的趋势)。但是,如果看匹配一平滑法和平滑一差值法的分析结果,则没有明显的异痂性处
39、理效应,最后,边际处理效应的结果也支持了正向选择效应的结论(横轴是阻碍变垓,其与倾向值含义相反)。nxnc三)45(1.ft1.5.ttvtt-oMtarmnI,M.jJdJ*1.-!RBR7,mr*S:,.MRfft$1.多我仇OJatttn(三)K布法图2基于修向值的处理效应界展性综上所述,回归模型的交互项、匹配一平滑法和平滑一差值法的分析结果都没有提供证据来支持处理效应的异质性,但是细分一多层次法和边际处理效应分析都显示出定的处理效应异质性。这种差异本身体现了不同的分析方法对于分析结论的影响.那么,如果基于个体处理效应的趋近,我们能够得出什么结论呢?下面我们就分别采用因果随机森林和贝叶斯
40、强加回归树进行分析,(四)个体处理效应的趋近及其使用利用因果瓯机森林和贝叶斯叠加回归树可以估计出个体处理效应。我们这里采用核密度分布勾勒其基本分布状态.我们的带宽为115,核函数用的是常见的叶帕涅奇尼科夫(EPanCChnikov)核函数。以某一观测值为中心,这个核函数规定了权重在左右两边呈抛物线状卜降,并服从公式O75x(1.-x)2.对于我们分析的样本,两种方法得到的处理效应的核密度分布如图3所示。图3呈现三个特征.其一,两个分布基本上重叠,且形状近似,这说明通过因果随机森林与贝叶斯段加回归树估计出的个体层次上的因果效果具有比较高的一致性。其二,两个分布的最高点彼此不同。落实到X轴上,可以
41、看到贝叶斯叠加回归树的“众值点”(分布峰部对应的X轴取值)大于因果随机森林的“众值点”。因此,二者的估计在最有可能出现的因果效应值上有所不同。第三,两个分布显示出比较明显的数据离散度。这说明,同样是考察精英大学的收入回报,处理效应在人和人之间存在很强的异质性。那么,为了得到这些估计,哪些混消因素比较重要呢?为了回答这问题,我们展示了混清变氏的特征重要性指标,如图4所示。ttwa图4溟4变量的要性幡征图.1个体处理效JS的倭密度估计在两种方法中,家庭收入均是一个关键的混清变量.但是对丁因果随机森林而言,次亚要的混淆因素是父母的教育水平,但是在贝叶斯校加回归树中,次全要的混淆因素是母亲是否全职和是
42、否为汉族。如上文所述,混淆变量的重要性在两种方法之间存在定义上的差别,因此这种经验结果上的差异可以理解。需要指出的是,我们也计算r两种方法下混淆变量重要性排序的斯皮尔变排序相关系数(P).结果发现,在两种方法下不同混沿变量的排序具有较高的相关性(p=036:P=O.I37)e这说明,尽管在不同方法卜混淆变量重要性指标的定义有所不同,但整体而言,各个混渤变量的重要性顺序具有较高的致性。基丁个体U次的处理效应估计,我们可以直接用散点图来观察处理效应如何随着倾向值的变化而变化。相关的结果参见图5。无论采用哪种分析方法,共估计出的个体处理效应都和倾向值之间存在正向的联系P*IgSIIH&4371.A(
43、Ktt)68.W(1.1.231)-W281(9.046)-全M戏中学-510,073(46.6301-W6W3(J7.SS8)-幡宗nrt水平37.1WWa,493)-24.311(6.母亲全取工作561.452261.M68)-MOn.641)n(叁然为:女)I6,6K2.MK)-567(17.559)年代WI4.295)-2a5M2(1.1.51.4)KIMU用类I汉)088919)151.N(27.321)有看点中学4a832jaW)II(1.V2(M9I3)-本A中学-14.999M(MM)IIO1.612129.000)-北戏中学-33.SMXM3I9)-609198(29.253
44、)一1.tt(参男类,槃)24.KM3.4U)45.415(25.327)年AK用拈大竽Ff1.oa955(19.420)91.06S(IS.642)中部石份-27.9MM855)010(n241)*Q部帚份2O531ROS)(548(M424)父亲班育兔员(舟黑类:型)-1.1.MJKM2n)W(21.161)*公余全取I件H05M4M)2101.aMH29.M6)-巧余是传Q员(孰噢类;型55.35532.555)51227(M220)ana532(621)-477.MI246.911),倭R7O.57BIa6356W*tt1.2X21注,(|)惧川的坦仑M为礁q!zt*的个体或应体计.俊
45、书N的典变*联rwt斯曼Ma树制个体气应依计一C)星.怀专化w”星KiIn标I,中是标淮调)户o.0s.PO.OI.F上面的分析结果显示了两种分析方法彼此之间的差异。例如,对于个体层次的因果处理效应估计,基于贝叶斯叠加回归树的分析结果表明,诸如学校等级、年级、省份、父亲是否党抗以及工作状态这些混淆变量都有显著的相关性。但是施于因果随机森林的分析结果没有展示出类似的经验模式。这种差异或是不同的算法逻辑所致,关于这一点,卜.文对于异质性的异质性的分析将进行讨论。除此之外,另外个可能性在于数据量的限制。基于算法的分析技术往往需要“海员数据的支掠,以便有足够的信息进行模型的训练.因此,本文2821的数据质对于训练因果随机森林和贝叶斯舲加回归树而言或许不够。如果是这样的话,那么训练出的模型有可能不够精确,从而带来了因果随机森林与贝叶斯叠加回归树之间的差异。我们这里借助自助法(bootstrap)的思路来检验下数据量大小的潜在影响,具体而言,我们采用放网抽样的方式,以原始的首都大学生成长追踪调杳数据为基础,生成了一个IO万样本量的新数据。分析发现,即使我们把样本扩充到IO7J,不同的方法所估计出的个体层次处理效应与混淆变量的关系依旧呈现明显的方法间差异。基于这发现,我们可以初步认为,上面呈现的经验结果差异应当主要归因于不同方法之间的差异,而不