倾向得分匹配只看这篇就够了

03-04 1345阅读 0评论

一、倾向得分匹配法说明

倾向得分匹配模型是由Rosenbaum和Rubin在1983年提出的，首次运用在生物医药领域，后来被广泛运用在药物治疗、计量研究、政策实施评价等领域。倾向得分匹配模型主要用来解决非处理因素（干扰因素）的偏差。

‍1、基本原理——反事实推断

基本原理是：根据处理组的特征，找出与处理组特征尽可能类似的控制组进行匹配，从而消除非处理因素的干扰。

例如：研究“是否读研”对于“收入”的帮助时，我们只能得到已经读研的处理组的收入情况，但是无法得到处理组的人没有读研的收入情况（反事实）。同时，是否读研和收入本身还受到其他非处理因素（干扰因素）的影响（比如学习成绩、家庭背景、学校差异等），此时，为了明确没有读研的反事实情况，进行反事实推断，校正非处理因素的影响就可以使用倾向得分匹配法，找到与读研的处理组学习成绩、家庭背景、学校差异等非处理因素类似的但是没有读研的控制组进行匹配，然后进行“是否读研”对于“收入”的帮助研究。

‍2、算法步骤

倾向得分匹配算法步骤如下：

计算倾向得分Pscore值
构建一个是否接受培训的二分类变量作为因变量，以干扰因素作为自变量X进行二元logit回归模型构建，然后根据logit模型计算倾向得分Pscore值。Pscore值代表了干扰因素的整体水平情况，Pscore值越接近，说明两个研究对象（员工）的特征（初始工资等）越接近，第二步进行match匹配时，直接针对Pscore值进行。
进行匹配
根据计算的倾向得分Pscore值进行处理组和控制组的样本进行匹配。SPSSAU会默认对样本进行编号（id），进行匹配时，针对研究因素Y= 1（处理组）的样本，去找对应Y=0（控制组）的匹配对象。
PSM效果分析

匹配完成后，需要对匹配效果进行分析，包括分析PSM匹配基本信息、匹配后标准差偏差的变化、平行趋势检验、共同支撑检验等，后续将进行重点说明。

二、案例及SPSSAU实现

‍1、案例介绍

当前有一个公司，想要研究 “ 是否培训 ” 对于 “ 当前工资 ” 的影响。在公司内部，共收集到78个员工的相关信息，其中有17名员工接受过培训，61名员工未接受培训。已知当前工资会受到 “ 初始工资 ”、“ 工作经验 ”、“ 岗位 ”这3个基本特征的影响。因此，使用倾向得分匹配法找到除 “ 是否培训 ” 这一处理因素不同外，其他基本特征一致的两类人进行研究。

2、SPSSAU匹配操作

SPSSAU进行倾向得分匹配操作如下：将 “ 是否培训 ” 放到研究变量分析框中； “ 初始工资、工作经验、岗位 ” 这三个干扰因素放到特征项分析框中；“ 当前工资 ” 放在结果变量分析框中。同时勾选【保存信息】按钮，SPSSAU会默认输出id、matchid、weight、Pscore四项信息，id和matchid用于展示员工之间的匹配关系；weight用于标识匹配成功的次数；Pscore为二元logit回归模型估计值。SPSSAU操作如下图：

进行匹配时，SPSSAU需要选择匹配方法和抽样方法。

（1）匹配方法选择

SPSSAU提供 “ 最近临法 ”（默认）和 “ 半径匹配法 ” 。“ 最近临法 ” 指找到PScore最接近的意思，“ 半径匹配 ” 找到PScore在可接受范围（阀值，卡钳值）内，阀值越小匹配越精确。本案例选择半径匹配法(0.05)进行匹配，如下图：

（2）抽样方法选择

SPSSAU提供 “ 放回抽样 ”默认和 “ 不放回抽样 ” 两种抽样方式。放回抽样是指某个样本会被重复匹配多次，不放回抽样是指样本最多被匹配1次就截止了。放回抽样的算法运行效率较低，当数据量非常大时可能不合适，本例数据较少，用两种抽样方法都可以，选择使用不放回抽样进行匹配，如下图：

以上操作完成之后，点击【开始分析】按钮，SPSSAU即输出匹配结果，接下来进行匹配效果分析。

3、匹配效果分析

倾向得分匹配效果分析包括分析匹配基本信息、匹配后标准化偏差、PSM平行假设检验、共同支撑检验四个方面。接下来，将逐个进行分析。

（1）匹配基本信息

SPSSAU输出PSM基本信息汇总表如下：

从上表可知，本次匹配使用半径匹配法并且精确匹配优先（精确匹配是指两个样本的Pscore值完全相等），匹配半径值为0.05，使用不放回抽样的方法。需要匹配个数（接受培训人数）为17，最终有16人匹配成功，匹配成功率94.118%。

（2）匹配后标准化偏差

标准化偏差对比图直观展示匹配前和匹配后标准化偏差的变化情况，如果标准化偏差变化明显（或者匹配后标准化偏差0（不放回抽样也可以选择weight=1）的数据后再进行核密度图绘制。SPSSAU操作如下：

再次进行分析，得到匹配后核密度图如下：

从匹配后的核密度图看，经过匹配，处理组和控制组之间出现了显著的靠近与覆盖，存在较大的共同取值区间，表明两组样本在各方面特征已经非常接近，匹配效果较好，即说明通过共同支撑检验。

4、研究结论分析

经过匹配后，研究 “ 是否培训 ” 是否会对 “ 当前工资 ” 产生显著影响可以使用t检验进行分析，但是SPSSAU在倾向得分匹配中可以做到 “ 一步到位 ” ，无需单独进行t检验，在此前将 “ 当前工资 ” 放入【结果变量】中，就是为了直接获得分析结果。SPSSAU输出结果为ATT效应分析，结果如下表：

ATT效应分析的目的在于分析匹配后结果变量在处理组和控制组之间是否有显著性差异。在本例中，即分析匹配后 “ 是否培训 ” 的两类人“当前工资”是否有显著差异。 “ Unmatched匹配前 ” 即第1行数据是指在匹配之前， “ 研究变量 ” 与 “ 结果变量 ” 之间是否存在着差异性，其意义较小；主要看第二行数据ATT效应。

从上表可以看出，在匹配前，是否培训与当前工资之间呈现性差异(p