为了账号安全,请及时绑定邮箱和手机立即绑定

当百度统计遇到数据观 | 数据洗一洗 分析更健康

webp

文:数据观 https://www.shujuguan.cn/?from=jianshu

[摘要]:

数据清洗在数据分析中的重要性毋庸置疑。就像日料一样,“食材”质量越高,“食物”的口感就越好。然而这个过程并不简单,令很多有分析愿望的业务人员都望“洗”生畏。其实,数据观的ETL工具就可以帮助你快速地完成一些主要的清洗工作,而且非常简单。快跟小观练起来吧!

[主文]:

料理菜式:

找出最近30天内,访问量最高的7个入口页面(不含首页),并能下钻查看网页的累计访问次数和平均访问时长。

所需食材:

1、一份Down自百度统计的实时访客CSV文件。

webp

2、一个数据观免费使用账号。

料理前的准备工作:

1、连接数据

webp

点击“数据连接”,选择“文件”,选择“上传CSV”,上传您的实时访客数据即可。

2、新建ETL

webp

点击“创建数据”,选择“ETL”,进入到这张画布,激动人心的时刻就要开始啦!

食材处理难关之——

[日子每天都在过,表格每天都得做?]

描述:我每天都想知道最近30天访问量最高的入口页面,但是我并不想每天调数据。有自动跟着变的方案吗?

答案:有!

秘密武器:[日期计算]+[过滤]

webp

[日期计算]顾名思义,就是对日期进行计算。您可以对日期、月份、年份、季度等不同时间段动手脚。而我们这次要用的叫做“日期差”,可以很轻松地计算出每一次访问的“距今时间”。

webp

将新列命名为“距今天数”,将操作方式选择为“日期差”,用“当前日期”减去“访问时间”,您的原始表格上就会出现一个名为“距今天数”的新列,并且里面是算好的天数啦!

webp

接下来,我们用一手[过滤],直接解决“30天内”这个需求。

webp

将需要过滤的列选为“距今天数”,比较类型为“小于等于”,因为天数是我们自己设定的,所以选成“与指定值比较”,并输入“30”。

PS:如果您希望得到的7天或者15天,那么输入“7”或“15”就可以了。

webp

我们会得到“距今天数”小于等于30的数据,也就是在30天内的访问数据。

食材处理难关之——

[时长构成太混乱,不是整数怎么算?]

描述:我要计算访问时长的平均值,但默认格式是文本,里面有空值、未知、正在访问等等,时长数值后面还有个单位‘s’,完全不具备把它转换为“整数”的条件。有什么功能能批量把单位去掉,并把空值、未知、正在访问都转换为空值吗?

答案:有!

秘密武器:[替换文本]+[修改列类型]

webp

第一次[替换文本],解决的是单位问题。

webp

我们需要处理的列是“访问时长”,所以选择该列,输入要去掉的字符“s”,将之替换为“空字符串”即可。

第二次[替换文本],解决的是将“未知”转成空值的问题。

webp

第三次[替换文本],解决的是将“正在访问”转成空值的问题。

最终,“访问时长”只剩下数值及空值,此时再来一招[修改列类型],将“文本”转换成“整数”即可。

webp

此时,“访问时长”已经变成“整数”类型了。

webp

是数字就好办——计数、平均、最大值、最小值……想怎么算就怎么算!

食材处理难关之——

[入口页面一大批 偏偏只想看前七]

描述:访客从各个页面来访,但我们最关注的是前七个页面,能实现只看TOPN,而不看其它吗?

答案:能!

秘密武器:[排序和累计]

webp

首先扪心自问——我要对什么排序?在空白框中写下你的答案——“访问量排序”。

接下来选择排序的方法——“排序值(连续)”。

然后找到右上方那个“应用”按钮,点击,即可进入下一步设置了。

webp

选择要排序的列——“访问入口页面”

然后选择排序方式——“降序”

所有访问入口页面的名次就出来啦!不过,这还不是前七啊?别着急,前七的问题,“摆盘”的时候就给您解决!

摆盘:

webp

首先,将图表类型选择为“条图”——最适合展示 TopN的图表类型。

然后,将“纵轴”选为“访问入口页面”,横轴选为“访问IP”(统计方式为“计数”),所有访问入口页面就按照访问量排列出来了。

webp

此时,我们添加“过滤”,将过滤字段选为“访问量排序”,将数值设为“1~7”,前七位就出来啦!当然,如果您想看前10,前20,也可以随时调整,非常方便。

webp

最后,点击“数据下钻”,添加想要查看的列,就可以看到该页面的详情。是不是很方便呢?

最方便的是,这些处理您只做一次就行。以后,更新数据,结果自动出图哦~

webp

手动处理这些数据,台前1分钟,台后一天功。

交给数据观ETL工具的话,台前1分钟,台后也就10分钟。

[结语]:

百度统计后台设计的已经足够好,但如果能把百度统计的数据按照自己的需求进行分析,甚至和产品数据、其它推广渠道的数据结合起来共同分析,那就更好。

当很多运营都止步于那份看起来密密麻麻的CSV文件时,你手起刀落,干净利索地将之变成一份有价值的数据洞察,是多么有成就感的事。

大家的原始字段虽然都是流水线出品,但有些字段的待遇却是萨维尔街的,这就是运营与运营之间的不同。

当普通运营把后台当作一切,而你把后台当作一切的开始时,你就赢了。

让我们都具备让数据说话、让商业智能的魔力吧!



作者:数据观数据分析平台
链接:https://www.jianshu.com/p/a6cab8a31ff5


点击查看更多内容
TA 点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
  • 推荐
  • 评论
  • 收藏
  • 共同学习,写下你的评论
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
意见反馈 帮助中心 APP下载
官方微信

举报

0/150
提交
取消