为了账号安全,请及时绑定邮箱和手机立即绑定

数据平台建设整体思路阐述和总结

标签:
大数据

数据工作的理解

1,数据的每一次的输出,永远不会有bug,只有对和错。

2,数据人永远是在怀疑和被怀疑,孤独和寂寞中完成。每次的输出可能只有一个数字,概率,猜测。。。 但是其背后可能是一堆人无数个夜晚不断数据处理,验证,分析,最终剩下的东西(精华)。

3,数据人不能浮躁,不能功利,必须站在中立立场,客观分析,客观给出结论。

4,必须要有韧性。特别在创业公司,数据体系基本不完整,各线对数据的认知有高有低。数据收益不是那么显而易见,单单数据仓库建设周期就需要3-5年,坚持和持续的建设显得尤为重要.

数据处理流程

webp

数据处理流程

数据收集

巧妇难为无米之炊,数据工作的第一步就是收集数据。

数据收集的途径

埋点
优点:和业务能够紧密结合,支持灵活多变的业务需求。
缺点:有码埋点对业务代码有入侵;无码埋点影响APP性能;有一定维护成本。

爬虫(没做过)
优点:可以抓取应用外数据,丰富数据类型
缺点:有一定开发难度;有一定开发和维护成本;需要考虑数据的应用场景

采购(不做详细描述)
优点:获取数据容易
缺点:注意法律红线;需要谨慎考虑数据应用场景

数据库同步
优点:和业务数据高度一致;和业务需求天然具有关联性。
缺点:对业务数据库有性能消耗,需要考虑数据库性能的极限。

数据收集方案选择
数据库同步>埋点>爬虫>采购

数据库同步方案
1,根据DB log 日志。例如Sqlserver 开启CTLog,PG 开启WLlog
2,Sqoop 进行数据同步。Sqoop支持目前市场主流数据库数据和Hdfs的相互同步
3,依赖消息队列开发数据同步工具。

注意:
1,要考虑数据同步的时候 对业务数据库的压力。尽量使用从库,对没有从库的业务一定要考虑让步策略,异常策略,一切以业务正常运行为前提。
2,充分考虑数据安全,在大数据安全不够健全的情况下,一定要对于敏感业务的数据,可以通过脱敏,混淆,隔离等方式处理。

埋点-前端埋点
场景:主要用于用户行为分析,UI分析,优化用户体验场景,非精准类的数据分析,和后端数据做交叉验证

埋点-服务端埋点
场景:对数据数据库同步方案的补充,大多用做BI统计,对数据精准度有一定要求的数据分析,和前端数据做交叉验证

前端埋点有那些特点
1,埋点变更受发版限制
2,前端数据上报需要在wifi条件下上报数据,数据会有延迟
3,对Key做特殊处理,前端埋点可读性差,需要做好字典
4,前端埋点位置需要注意默认加载位置的埋点,否则会造成埋点数据虚高
5,对前端代码会有入侵

服务端数据埋点有哪些特点
1,埋点变更灵活
2,数据准确度介于数据库同步和前端埋点之间
3,埋点时机,需要在数据写入数据库后
4,对服务端代码会有入侵

前后端埋点如何设计
1,埋点描述内容:什么主体在什么时间做了什么事情
2,埋点通用设计:公共埋点+业务埋点
3,埋点格式:JSON结构。因为json具有较好的兼容性,大多数平台都能够比较容易解析。数据传输高效。
4,埋点原则:
    1.一旦埋点上线,并且被用于数据分析,尽量不要做删除操作,多做追加操作。
    2.埋点设计过程中,不可闭门造车,一定要和充分了解业务,充分沟通,自上而下,从全局到局部做设计。
5,埋点实施
特别是对于从0到1 的平台搭建,各个业务线和团队,一定会遇到很大困难,一定要有极强执行力和耐力,否则埋点在初期会推进的非常缓慢,初期基本上需要手把手去引导
6,埋点监控
    1,检查埋点是否错埋
    2,检查埋点是否漏报
    3,埋点字段的类型和上报的数据类型是否一致
    4,非空字段是否有控制
7,异常埋点处理策略
    1.如果业务理解透彻,埋点明确,需求交付时间充足,校验机制成熟可靠,异常数据肯定不允许进入后面的数据仓库,但是需要标记并作统计。
    2.如果业务理解模糊,需求交付时间不充足,可以收集,具体使用的时候在做兼容或者其它处理。

收集工具:Flume
1,需要在各个业务服务器安装agent。
2,管道内存和磁盘设置,数据不易丢失。但是在实际工作中出现过Flume进程不工作的情况,需要健全对Flume的监控,防止数据丢失

数据仓库-设计原则
1,全面且深入了解业务,需要和业务专家深入沟通
2,数据按照最细粒度组织
3,基于业务过程
4,推荐扁平的大宽表设计,易用,效率高,消耗的存储可以忽略

数据仓库架构
1,注意表命名规范。
2,需要确定各层,各表的业务边界,尽量做到表复用,防止表膨胀或者爆炸,造成无法过多的维护负担

数据仓库几个需要关注的点
1,业务矩阵:是前期调研的方法,我们需要把各个业务过程中的每个环节涉及到哪些维度,尽可能穷举出来。
2,事实:为了量化,事实数据通常用于计算
3,维度:为了分组和过滤,用于多维度分析
4,缓慢变化维:为了历史留痕,分析的主体历史状态可以查询
5,分区:为了快速定位需要的数据
6,数据仓库需要数据统一,形同含义的业务的命名不要重复
如何制作业务矩阵,如何确定事实表,如何确定维度,如何处理缓慢变化维,如何处理分区,事实和维度如何划分 不做细节描述

数据仓库的地位和重要性
1,是整个公司的基础数据,一定要保证安全、可靠、平稳、维护简单,上手容易
2,是未来走过BI阶段 进行数据挖掘、机器学习、神经网络 的基石头,在数据仓库没有稳定之前 数据挖掘等更上层的数据相关的研究会陷入被动。

数据分析-数据分析发展过程
下面数据分析开展的顺序,可以同时进行,但是数据建设的不同阶段重点会不同,整体发展过程如下:

webp

数据分析发展过程


1,BI报表:常规的市场,运营分析;抽取指标;经验获取;数据感知能力的培养;数据是二维,更多的是定量分析。
2,多维数据分析:数据是三维,多个三维的数据 组成一个数据立方体,最终构成一个完整数据分析矩阵;这里会衍生出更多的指标,和特征;更多的也是定量分析
3,数据挖掘:当数据分析更加复杂,无法通过经验进行合理的分类,无法根据经验提取更多的特征,就需要通过算法模型来处理;这部分还是需要一些经验,人工干预还是比较多一些。定量和定性都会有。
4,机器学习:脱离人工,通过反复训练的出结论,抽取特征。这里更多的是定性分析。
5,神经网络、AI 不懂。
注意:
    这里面的任何一个阶段,数据可视化和数据信息化一致都贯穿始终。如何用正确合适的图标展示数据是数据可视化重点考虑的内容。如何提取数据的重点内容,传递一个完整故事是数据信息化要考虑的内容。

数据分析的内容
任何分析,都是基于产品和用户两个主题来进行分析。
问题一:我们的产品被什么样的用户使用
问题二:我们的用户都是在怎么使用产品
这两个问题无法分割,关键看每个分析的需求和场景

数据分析流程
经验分析:确定问题和论点,通过经验来定
数据准备:数据收集,准备数据,确认数据是否完整
数据处理:统一数据格式,去除重复,增补,数据转换,数据分组
数据分析及展现:确定数据分析方法,以及合适的图标
专业报告:背景,目的,分析思路,数据展示,结论和建议
跟踪、反馈:根据需求,确定是否需要跟踪和收取反馈,持续迭代优化分析报告。

指标体系建设
目标:最终的指标体系指标间能够交叉验证,粒度统一,数据一致,数据可解释
1,明确分析主体
2,确定分析业务过程,找到核心环节,每个环节的维度
3,确定分析粒度
4,明确收益矩阵,确定优先级

数据应用-产品的增值服务
这个最容易实现,有直接让用户付费,也有提高产品粘性,提高产品趣味性。例如:淘宝数据魔方,头条后台数据统计,微博的对每个客户开放的数据分析,微信热搜。

数据应用-内部支撑系统
2B-用户生命周期管理

webp

2B-用户生命周期管理

2B-客户生命周期价值曲线

webp

客户生命周期价值曲线

2C-用户生命周期

webp

2C-用户生命周期

2C用户生命周期价值曲线,没有思考过。

3,独立的数据产品
大多提供的数据数据分析解决方案。方便用户进行数据分析,更加快速获取数据认知,通过数据支撑自身业务发展。
例如:神策,诸葛,growthingIO 都是抽取通用的分析场景,然后产品化。
最终的数据变现只能通过企业自身去实现。还有咨询类企业 可以直接通过数据变现。



作者:数据僧
链接:https://www.jianshu.com/p/73717303fd1a


点击查看更多内容
1人点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
意见反馈 帮助中心 APP下载
官方微信

举报

0/150
提交
取消