为了账号安全,请及时绑定邮箱和手机立即绑定

社交网络邮箱分析

标签:
深度学习

作者:Multiangle
链接:https://www.zhihu.com/question/41676600/answer/113216461
来源:知乎
著作权归作者所有,转载请联系作者获得授权。

分析了6000封左右邮件,对收件人之间的关系进行了简单的分析,也没什么严密的分析计划,分析到哪就写到哪吧
------------------------------------- update 7.27 --------------------------------------------------------------------
1.首先来看收发邮件数
在6000封邮件中,涉及了600个左右的邮箱
单看发送邮件的数目,前五强邮箱分别是
kaplanj@dnc.org 645封 MirandaL@dnc.org 645封 DNCPress@dnc.org 200封 PaustenbachM@dnc.org 149封 postmaster@finance.democrats.org 147封

单看接收和抄送的数目,则前五强分别是
kaplanj@dnc.org 2224封 MirandaL@dnc.org 1030封 PaustenbachM@dnc.org 656封 Comm_D@dnc.org 649封 comers@dnc.org 540封

具体的一些信息如下图所示(按照发送邮件数目排序)
社交网络邮箱分析 - 黄大仙 - 黄大仙
如果按照发件数或者收件数对各邮箱进行排序,都可以看到社交分析中常见的指数曲线

社交网络邮箱分析 - 黄大仙 - 黄大仙社交网络邮箱分析 - 黄大仙 - 黄大仙
令我比较惊讶的是,在对发送邮件数取对数以后,所得到的结果仍旧是一条指数曲线。如下图所示。
社交网络邮箱分析 - 黄大仙 - 黄大仙
这表明,这个竞选团队中极少数人有着极大的话语权。毕竟在求对数以后一般是得到一条直线的,例如微博中排名前几千的大V的粉丝数分布,就像下面这个图(原谅我的灵魂画技)
社交网络邮箱分析 - 黄大仙 - 黄大仙纵轴在接近0的地方会迅速向0靠近,这是由于对数函数本身的性质导致的。

2. 邮箱之间的社交分析(SNA)

这一部分的分析就比较好玩了,首先使用PageRank算法来计算各个邮箱的重要性。
结果发现收发最频繁的两个邮箱重要性反而不怎么高
社交网络邮箱分析 - 黄大仙 - 黄大仙
可以看到PageRank值最高的邮箱是DNCPress@dnc.org, 达到了0.07, 看名字似乎是负责对外推送消息的。排第二的是postmaster@finance.democrats.org, 似乎与民主党的经济事务有关。

对上述社交网络进行可视化表示,在使用ForceAtlas2展开以后,得到如下图所示
社交网络邮箱分析 - 黄大仙 - 黄大仙其中节点表示邮箱,边代表邮箱间发送的邮件。点的颜色深度与收发邮件的数目有关,而点的大小则与PageRank值有关。可以看到上面有两个非常深的节点,分别是KaplanJ@dnc.org(左上)和MirandaL@dnc.org(右下)。而最大的节点即DNCPress@dnc.org . 所以说啊,邮件往来频繁的也不见得重要性就高,真正重要的人都躲在后面闷声发大财。

从上面还可以看到竞选团队很明显的分成左上和右下两个部分,这个后面会讲

还有一点,上面的图有很多排成很密集的小白点, 比如说红线框起来的部分
社交网络邮箱分析 - 黄大仙 - 黄大仙这些有很多是外部邮箱,而且往往排在一起的那些邮箱都只与一个邮箱进行单线联系。虽然大部分只是进行了一次通信,不过也可以借此看出每个人负责哪一部分工作。下方红线部分的邮箱大部分是媒体,包括网络媒体和传统媒体,以及一些LGBT网站,教师工会等等,主要由MirandaL联系。而左上部分的邮箱比较杂,包括一些服务软件公司,策略咨询公司,金融服务公司,服装公司等。总的来讲是维持竞选团队正常运行的,主要由KaplanJ联系。
社交网络邮箱分析 - 黄大仙 - 黄大仙
由MirandaL负责联系的有(主要看靠下红框,我随机抽了一些,一个个在Google上查后缀,这一部分是最累的)
社交网络邮箱分析 - 黄大仙 - 黄大仙
由Kaplan J 负责联系的有
社交网络邮箱分析 - 黄大仙 - 黄大仙


3. 社区发现

如果在第二步的基础上使用社区发现算法,就能够将整个竞选团队分成若干个子社区,如下图所示
社交网络邮箱分析 - 黄大仙 - 黄大仙一种颜色即代表了一个子社区。通过这个可以看到,算法显然比肉眼要更加精确,除了区分出绿色的子社区以外,还将右下角的大块分成了蓝色,紫色和橙色三个子社区。

绿色部分的大人物有
KaplanJ@dnc.org,
CoxC@dnc.org 等。

紫色部分不用说了,最明显的DNCPress@ http://dnc.org

橙色部分不知道干嘛的,比较有分量的是weis@dnc.org

蓝色部分我也不知道是干嘛的,没有特别显眼的人物。但是从位置上来看,估计是竞选团队中的普通人员,负责日常事务和分析。

------------------------------------- update 7.28 --------------------------------------------------------------------
4.邮件数目与日期的关系
邮件大部分是从今年4月20号以后开始的。首先绘制每天的邮件数目变化
社交网络邮箱分析 - 黄大仙 - 黄大仙可以看到在从4月20日到5月25日的一个月时间里,邮件数呈现明显的周期变化。细心的人应该已经猜到了,这是由于周末的缘故。几乎所有的低谷都发生在周六和周末。看来他们的双休制度执行的不错,加班情况不明显。

看完了低谷,再来看几个几个邮件数目比较高的日期: 5/4, 5/10, 5/17. 显然,这几天肯定有大事情发生。我跑去GoogleTrend 搜了下democratic party的搜索指数,结果发现跟邮件数是高度吻合的
社交网络邮箱分析 - 黄大仙 - 黄大仙其中橙色代表邮件数目,蓝色代表搜索指数。为了将两组数据放在一张图里,我对邮件数进行了等比例缩减。

跑去Democracy Now! 翻了翻之前的新闻,在忽略掉大量Trump的八卦以后,找到了那几天的大新闻
5/4 Ted Cruz 退选
5/10 Sanders 拿下了 West Virginia Primary (我之前不太关注这些,不知道这个该怎么翻)
5/17 Sanders 拿下了 Oregon Primary, 而Hillary 拿下了Kentucky

5.神秘的小团体
在之前的关系图中,还有一个点没讲,就是左上角的那一坨黑点
社交网络邮箱分析 - 黄大仙 - 黄大仙可以看出来这坨黑点内部交流十分紧密,而与外界联系十分的少,只通过少数人与Kaplan J 联系。非常神秘的样子。那么这个小团体里究竟是哪些人呢?首先要列出这些人的邮箱。这些人中任何一人都与名单中其他所有人有过联系

tyler@commongoodva.orgpatrick.w.hallahan@gmail.comdan.turrentine@hrblock.comadam@goers.netmichaelmhalle@gmail.comsambrown@amalgamatedbank.comjmantz@bgrdc.combrian@commongoodva.orgacopeland@businessfwd.orgjackson.dunn@fticonsulting.com

我查了一些人的资料,因为我对它们也不熟,所以只列个大概资料。

邮箱 jackson.dunn@fticonsulting.com姓名 Jackson Dunn简介:Jackson Dunn is a Senior Managing Director in the Strategic Communications segment at FTI Consulting, and is based in Washington, D.C. He also serves as head of the segment’s Public Affairs practice in the Americas. 大意是做咨询工作
邮箱 brian@commongoodva.org姓名 Brian Zuzenak职务 Political Director at Gov. Terry McAuliffe根据LinkedIn上的资料,此人目前就职于Common Good VA曾经就职于Democratic Congressional Campaign Committee, Kate Marshall for Congress,Missouri Democratic Party
邮箱 jmantz@bgrdc.com姓名 Jonathan Mantz目前就职 BGR Group曾经就职 Barbour Griffith & Rogers, Hillary Clinton for President, DSCC
邮箱 michaelmhalle@gmail.com姓名 Michael HalleDirector, Battleground Analytics and Strategy at Hillary for America

暂时就只搜4位,其他各位感兴趣的可以去Google搜,还是挺好搜的
可以看出来,这些人大部分是属于咨询机构,看起来是专门进行出谋划策的=。=

------------------------------------- update 7.26 --------------------------------------------------------------------
写个比较无关的,看到很多人对 @XY Lee 写的感兴趣,花了一个晚上+上午写了个分析邮件往来关系的单线程小爬虫来玩玩,很简陋而且代码也比较乱,实现的功能也比大神差远了,不过能生成基本的社交关系数据。至于分析嘛,是用gephi来完成的,很好玩的一个软件,号称SNA的matlab,可以做pagerank,社区发现等一些算法。代码放在GitHub - multiangle/HillaryEmailAnalysis ,注意要用到networkx库。
所有分析用到的工具:
python3.4 + networkx 库
gephi
excel
社交网络邮箱分析 - 黄大仙 - 黄大仙社交网络邮箱分析 - 黄大仙 - 黄大仙社交网络邮箱分析 - 黄大仙 - 黄大仙
当然,如果不想用爬虫下邮件,我这有下了一晚上的成果,大概6k封的社交关系数据,还有已经生成的供gephi使用的gexf格式文件链接: http://pan.baidu.com/s/1qYpdVB2 密码: 9fax


点击查看更多内容
TA 点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
  • 推荐
  • 评论
  • 收藏
  • 共同学习,写下你的评论
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
意见反馈 帮助中心 APP下载
官方微信

举报

0/150
提交
取消