首页手记面板数据的双重机器学习方法

面板数据的双重机器学习方法

标签：

机器学习深度学习数据分析&挖掘

看来看和平协议是怎样影响暴力程度的

点击这里访问来自Pixabay的图片网站：pixabay.com 或者更自然地说：“一个提供免费图片和视频的网站（pixabay.com）”，一个免费的图片和视频资源网站。更多内容请访问“一个免费的图片和视频资源网站”

我们经常听到和平协议被签署的消息，尤其是在暴力问题严重的国家，但这些协议实际上能在减少暴力方面起到多大作用呢？虽然领导人签署这些条约时希望结束暴力冲突，但这些协议在现实中产生的实际效果却很难量化。我们知道和平不是瞬间就能实现的——一些效果可能需要几个月甚至几年才能显现，而且很多因素都会影响暴力是否真的会减少。

在我攻读硕士学位期间，我和一位同事决定接受这样一个挑战：我们想测量和平协议对暴力的真正影响。为此，我们使用了双重机器学习法（DML）——一种利用机器学习来提高在数据中估计因果关系准确性的一种方法。我们的挑战在于使DML适应观察性面板数据。在这篇文章里，我会分享我们是如何克服这一挑战的，同时揭示和平协议对暴力的真正因果影响。如果你想查看我们的代码的话，这里是GitHub仓库。

揭秘因果关系的挑战

估计和平协议的实际影响并不容易。与实验室中的控制实验不同，现实世界的数据混乱且复杂。比如，如果和平协议后暴力减少了，我们怎么知道一定是协议起了作用？可能还有其他因素，比如国家经济改善或国际援助增加。这就是为什么在社会科学领域中弄清楚因果关系会如此棘手。

进入双重机器学习法（DML）

传统的因果推断方法有时处理这些复杂性会有些吃力，但现在有一种新工具叫双重机器学习（即DML），它结合了机器学习的强大之处和因果推断，能更好地区分相关和因果。这种方法受到Chernozhukov等人（2018）工作的启发，结合了机器学习处理庞大复杂数据集的能力与因果推断，以更准确地识别因果关系。简单来说，DML帮助我们更好地理解和平协议（即处理因素）真正的影响，而排除其他因素的干扰。

pixabay.com

分解方法

处理 📜：这就是和平协议本身——无论是否真的签署了和平协议。
结果 🎯：这就是我们关注的指标——衡量一个国家的暴力程度。
干扰因素 🌀：这些是其他因素，比如经济稳定或新闻报道中的舆论，它们可能同时影响和平协议的签订几率以及暴力的程度。

你知道DML是如何运作的吗？

混杂因素控制：首先，DML 使用机器学习来控制这些混杂因素。它帮助我们分离和平协议的真实效果，同时抑制其他影响因素的干扰✅。
正交化和交叉拟合：这两个关键步骤使得DML更加稳健。正交化消除了混杂变量的作用，而交叉拟合通过划分数据并分别测试来防止过拟合。这就像双重检查我们的结果以确保其可靠性✅✅。

我们对DML的特别看法：处理面板数据和固定效应的方法

所以，究竟是什么让我们的方法如此特别？为了这项研究，我们设计了一种专门的DML方法，用于解决面板数据分析中的问题，比如固定效应的处理和和平协议的时间滞后影响。

首先，我们先来谈谈面板数据到底是什么。面板数据是一种类型的数据，它在一段时间内追踪多个实体（如国家、公司或个人）的变化。基本上，它包含了每个实体在不同时间点上的多次测量。例如，面板数据可以显示多个国家在多年中的经济指标（如通胀），帮助我们研究国家之间的差异以及它们随时间的变化。

以下是一些示例面板数据，作者通过WorldBank API在Python中生成。

好的，这就是我们方法的独特之处：

面板数据中的固定效应处理：

面板数据的主要挑战之一是控制固定影响——这些是各国独有的、不变的、未被观察到的特性，但这些特性在时间上保持不变。这些可能是文化因素、历史背景或长期的政治环境，它们可能会影响和平协议的可能性以及暴力水平。

为解决这个问题，我们为每个国家使用了one-hot编码方法，引入了代表特定国家固定效应的“哑元”变量。这使我们能够在不直接观察它们的情况下，考虑到每个国家的独特特点，从而减少了因果估计中的偏误。

2. 滞后效应的会计考量 ⌛

我们知道和平协议往往不会即时产生影响。相反，为了更好地捕捉这种滞后效应，我们纳入了延迟变量来表示之前时间段中的和平协议的存在与否。通过这样做，这样，我们的模型就可以同时分析和平协议对暴力的短期和长期影响，从而更全面地展示这些协议如何随时间影响暴力水平。

数据：了解和平协议与暴力程度

为了衡量和平协议对暴力影响的情况，我们汇集了来自不同来源的数据集，使我们能够随时间分析定量和定性因素。以下是数据种类概览，我们使用了这些类型的数据。

和平协议资料：
我们还加入了来自PA-X和平协议数据库的数据，该数据库收录了1990年至2023年间签署的和平协议。其中包括每个协议的签署国家、签署日期和协议编号等详细信息。

折线图显示了每年签署的和平协议数量。

文本数据：
我们还使用了Mueller 和 Rauh (2022) 数据集中的编译数据。这些数据涵盖了超过六百万篇新闻文章，来自各种来源，时间跨度从1989年到现在。这些文本数据已利用自然语言处理（NLP）技术，尤其是潜在狄利克雷分配（LDA），进行了处理，以识别新闻文章中的主题。为了捕捉新闻周期对近期事件的突出报道，还应用了指数加权移动平均（EWMA）方法，使近期文章的权重更高。确保主题分布能够反映出最新的趋势。

上述图表显示了利比亚新闻话题的份额，你可以看到在第一个和平协议签署之后，政治话题出现了激增（实际上在签署之前就已经开始上升），而家庭与社会以及军事与行动则有所减少（在签署之后）。

致命事件数据：
为了捕捉暴力水平，我们使用了Uppsala冲突数据项目（UCDP）地理参考事件数据集（GED）。该数据集提供了全球暴力事件的月度数据，分类为：
- 战斗相关暴力： 即由组织间武装冲突引起的暴力。
- 单边暴力： 专门针对平民并造成死亡的事件。
- 非国家间的冲突暴力： 非国家行为者如叛乱或民族群体之间的冲突。
定义暴力强度作为目标变量：
我们的目标变量，暴力强度，首先将各个国家的伤亡人数按人口比例进行归一化处理。然后对这一测量值取对数形式，以减少数据分布的偏斜，从而得到更均匀的分布。

暴力事件记录

这使我们能够比较和平协议前后暴力的水平。这有助于揭示这些条约可能带来的任何影响。

分析平均暴力水平，我们可以看到一个模式显现，在和平协议签订前暴力水平上升，而在协议签订后下降。

我们的方法与实施

pixabay.com

好的，现在我们来谈谈项目的“核心内容”；我们专门为面板数据设计并实现的DML。下面是我们采取步骤的简要说明：

控制国家特定差异 🌍：
如前所述，我们为每个国家引入了虚拟变量，有效地捕捉并控制了国家特有的效应。这样我们就将每个国家置于同样的环境中。
包含滞后变量以捕捉滞后效应 ⏱️：
我们知道和平协议的影响可能不会立即显现——暴力水平的变化可能需要几个月的时间。这样我们就能同时观察到和平协议对暴力的即时效应和滞后效应。
我们创建了一个滞后变量来指示在协议签署前的12个时间段内是否存在和平协议，并且我们也为协变量（影响和平协议和暴力的其他因素）做了同样的处理。等等，这意味着我们需要为每个滞后处理变量运行DML模型？是的，我们为每个滞后变量都运行了模型。
拆分数据以获得可靠结果（交叉拟合） ✂️：
为了避免过拟合——模型在训练数据上表现良好但在新数据上表现不佳的情况，我们使用了交叉拟合这一技术，这是DML中的一个关键步骤。这涉及将数据拆分为不同的组或“折叠”。我们用一些分组来训练模型，并用其他分组来验证模型，确保模型没有使用相同的数据进行两步操作。
但是，如何在保持数据时间顺序的同时将数据拆分为不同的折叠？我们使用了一个名为PanelSplit的工具，有效地拆分数据同时保留了面板数据中的时间序列和截面依赖性。这是一个处理面板数据时非常有用的工具！以下是该GitHub仓库。
估计和平协议对暴力的真实因果效应 🔍：
在DML中，我们估计某些“辅助参数”以控制同时影响处理（和平协议）和结果（暴力）的因素。以下是分解步骤：
第1步 — 处理模型： 我们使用随机森林分类器来估算和平协议存在的概率，考虑其他影响因素。我们为每个滞后处理（确保仅使用相应的滞后混杂因素来预测处理）进行此操作。
第2步 — 结果模型： 然后我们使用随机森林回归器来估算暴力的强度，再次考虑各种因素。对于每个滞后时期，我们使用相应的滞后混杂变量和当前混杂变量。
第3步 — 回归残差：
首先，我们计算残差。什么是残差？这基本上是你预测值与实际值之间的差异。所以为了找到这一点，我们用实际值减去预测值。
其次，我们通过将结果残差回归到处理残差上来估计因果效应（我们基本上只是运行回归分析来找出变量之间的关系）。这一部分称为正交化。
平均结果以获得可靠的因果估计 📊：
最后，我们将所有折叠的结果进行平均，以获得和平协议对暴力影响的良好、稳定的估计。这一过程涉及多次运行模型并平均结果，确保我们的结论不会受到任何一部分数据的影响（是的，这个代码需要运行数小时）。

关键技术包括：正交化技术和交叉验证

正交化处理 减少了由混杂变量引起的偏倚。记得我们在这一部分进行残差回归。
交叉拟合 将数据分割开来，以确保训练和验证使用不同的数据部分。

结果与最终感想

研究发现，和平协议不仅显著减少了暴力，而且随着时间的推移逐渐降低了暴力。我们查看了每次运行的系数。

所有滞后中的负系数：所有滞后期，包括未滞后处理的，都产生了负系数，表明存在一致的负趋势。
统计显著性：除了没有滞后的处理和最后一个滞后期之外，DML结果的置信区间均未包含零。这表明结果稳健，和平协议对暴力行为的负面影响随时间推移变得明显。

你可以看到每个滞后效应的估计值。很明显，除了0和12这两个以外的所有结果都位于零线以下，这意味着它们具有统计显著性。

鲁棒性检验：安慰剂检验

为了验证我们的结果并确保其可靠性，我们进行了敏感性分析，使用了“安慰剂式”的滞后变量。这意味着我们将处理变量提前滞后，也就是说我们是在研究“虚假”和平协议的因果关系。

结果都没有统计学上的显著性，所以这倒是个好消息！不过，在和平协议正式签署前的那段时间里，效果开始减弱，这可能表明在协议签署之前已经开始有一些变化被实施了。

探索前瞻性和延迟效应

从这些图来看，我们可以看出，和平协议并不能立即减少暴力；相反，它们的效果逐渐显现，这合情合理，因为和平协议的影响需要时间来落实（我们也知道政府办事通常很慢）。

这是我们希望通过建立分阶段治疗来进一步探索的内容——一个包含多个阶段的治疗过程。这样一来，我们可以将治疗视为一段较长的时间，而不仅仅是一个瞬间。

那么，我们从这一切中到底学到了什么？

pixabay.com

你终于看完了！好的，我们来总结一下——我们分享了一些关键点：

DML 是一个非常强大的工具，特别适用于寻找因果效应，尤其是在处理复杂和混乱的数据时。
面板数据 只要小心地拆分数据，并通过适当的方法处理固定效应（例如，通过 one-hot 编码），就可以用 DML 来处理。
在控制所有混杂因素后，我们证明了和平协议导致暴力的显著减少。敏感性分析确认了结果并非随机偶然或噪音所致。
由于引入了滞后效应，我们观察到和平协议的效果会随着时间逐渐展开，这表明需要进一步研究以探讨“分阶段”的处理方式。

谢谢关注一下！

如果你觉得这篇文章对你有帮助，可以点个 👏 支持一下，并在 Medium 和 LinkedIn 上与我联系。

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

哈士奇WWW

手记
篇

粉丝

71

获赞与收藏

400

关注作者，订阅最新文章

阅读免费教程

后端通用面试教程

41个小节 30543 343

网络编程入门教程

20个小节 12524 235

Pandas 入门教程

25个小节 18423 333

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空

面板数据的双重机器学习方法

阅读免费教程