为了账号安全,请及时绑定邮箱和手机立即绑定

手把手教你完成一个数据科学小项目(4):评论数变化情况

标签:
Python
import pandas as pd
df = pd.read_csv('Sina_Finance_Comments_All_20180811_Cleaned.csv',encoding='utf-8')
df.head()

请无视前面几列多出来的:


webp

先来看看评论数随时间戳变化情况:

import matplotlib.pyplot as plt%matplotlib inlineplt.plot(df.stamp, df.cmntcount);


webp


时间戳不太好识别,所以还是用常规的日期,并使用 pyechartspyecharts 配置文档 )绘制每日评论数的变化折线图:


df_ymdcount = df.groupby('time_ymd')['cmntcount'].count()from pyecharts import Line
line = Line("每日评论数变化情况")
line.add("日期", df_ymdcount.index, df_ymdcount.values,line_type='dotted')
line

按天来看,这篇文章的大部分评论都是产生于在8月8号,即2008年北京奥运会十周年的当日,当然可能并不相关。


webp

df_mdhcount = df.groupby('time_mdh')['cmntcount'].count()from pyecharts import Line
line = Line("每小时评论数")
line.add("小时", df_mdhcount.index, df_mdhcount.values,line_opacity=1,line_type='dotted')
line

细分到每个小时上,评论的峰值发生在8号的9点,高达658条,数值大小在本文的图里看不出来,但 jupyter notebook 代码里的 pyecharts 图表都是交互式的,每个点的数值和时间均可查看。需注意的是需要运行过过代码才能看到,Github上点开是空白的。


webp

然后是看起来更为立体的每小时评论数柱形图:

from pyecharts import Bar
bar = Bar("每小时评论数")
bar.add("小时", df_mdhcount.index, df_mdhcount.values,is_label_show=True,xaxis_interval=0,xaxis_rotate=-90)
bar

该新浪财经这篇《中国年轻人正带领国家走向危机》文章,有着极其“耸人听闻”的标题,但同样逃不过“速朽”的命运,在一两天内就趋于平淡了。


webp

组合图 overlap

评论数随时间的变化情况大概就是这样了,其实没太多可说的,如果把后面提取地理位置(area 列)中的省份和城市数据,并调用百度地图API拿到所有位置的经纬度,并用BDP绘制动态热力图的实现过程先在这里一起讲的话,可能更有的可说,不过内容所限还是后续再讲哈。感兴趣的朋友可以按照这里的思路自行尝试绘制出下面的动态图哈。

webp

4-heat-map-BDP-2h-8FPS.gif


唠嗑

仍值得一说的是在作图和可视化的过程中,对评论数相关图表还是不满意,于是想把每小时评论数的柱形图和总评论数变化的曲线图组合到一起,就像当初爬取张佳玮138w+知乎关注者:数据可视化完成项目时,在完全不懂 ECharts3里的代码和配置项的情况下,硬着头皮坑 JavaScript 代码,搞了个知乎第一大V“张公子”张佳玮的138万关注中自身有100+关注的人群的性别人数和比例图,今日看来,依旧兼具美感和创意,不像别处看到的可视化图一般“丑陋”(逃...);

webp


也在简书=鸡汤?爬取简书今日看点:1916篇热门文章可视化项目里绘制了简书热门文章发布时间的年月分布图,审美杠杠的(逃...):

webp


当然这里不必像上述二者那样需要去啃 ECharts3 的 JavaScript 代码(相关实现:图表太丑怎么破,ECharts神器带你飞!),直接在 pyecharts 配置文档  里有组合图多种示例,轻松实现下图:

df_mdhmax = df.groupby('time_mdh')['cmntcount'].max()
df_mdhcount = df.groupby('time_mdh')['cmntcount'].count()from pyecharts import Bar, Line, Overlap
bar = Bar("每小时评论数")
bar.add("小时", df_mdhcount.index, df_mdhcount.values,is_label_show=True,xaxis_interval=-90,
        xaxis_rotate=-90, yaxis_interval=200,yaxis_max=800)
line = Line("每小时评论数")
line.add("小时", df_mdhmax.index, df_mdhmax.values,line_opacity=1,
         line_type='dotted', yaxis_interval=1000,yaxis_max=4000)

overlap = Overlap()
overlap.add(bar)
overlap.add(line, is_add_yaxis=True, yaxis_index=1)#overlap.render() # 使用 render() 渲染生成 .html 文件overlap

便捷的代价就是配色上没有太多选择的余地:


webp



作者:古柳_Deserts_X
链接:https://www.jianshu.com/p/85e7986396b5


点击查看更多内容
TA 点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
  • 推荐
  • 评论
  • 收藏
  • 共同学习,写下你的评论
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
意见反馈 帮助中心 APP下载
官方微信

举报

0/150
提交
取消