课程名称:数据分析体系课
课程章节:走进数据分析
课程讲师: DeltaF
课程内容:数据导论
包括以下章节
什么是数据查看
什么是统计指标查看
统计指标之集中趋势查看
统计指标之离散趋势查看
统计指标之分布形态查看
异常值的识别查看
异常值的处理查看
数据分析的流程查看
学而不思则罔,思而不学则殆
数据分析的应用:了解数据背后与实际业务的关系,通过数据的表征确定背后的业务情景,进行归因分析。
而且计算机本身的诞生场景就是计算验证,数据分析也是脱胎于技术及情报验证科学,比如NASA的云杉,CCCP的箭,可以广泛的应用到冶金、航天、生物制药、通讯、政府决策等数据计算,运用有限元算法等进行方案数据验证,降低研发成本提高准确率。
课程导学部分对比课程有不同理解:
实际企业的数据分析岗,对行业业务知识的理解是基本要求,也是核心的硬技能。
课程描述的硬技能,其实是工具的使用的软技能,包括但不限于:execl ,tabule,R,Python.以及其他BI类工具,配套使用的还有思维导图,PPT等表述类工具。
底层的逻辑知识按照岗位不同还应该包括 财务知识、应用知识、行为心理学、统计学、高等数学 逻辑学,美学设计 沟通技巧
数据和信息的关系:
数据:对客观事物的性质、状态以及相互关系等进行记载的物理符号或是这些物理符号的组合,也包含数值数据和非数值数据。
信息:是数据经过加工处理后得到的另一种形式的数据,这种数据在某种程度上影响接收者的行为。具有客观性、主观性和有用性。
数据和信息的关系:信息是数据的含义,数据是信息的载体。
实际应用中数据 分为2个部分 指标 和 维度。
指标与维度最基本的作用是描述与衡量,维度与指标往往成对出现,搭配使用
维度:可以简单理解成为<标签>,即:分类属性
指标:标识数据特征,
比如说温度: 20℃, 温度即为维度,20代表指标。
分析的主要目标:定性分析 定量分析
定性分析和定量分析的方法
定性分析中,一般的结论做个大致分类分级,例如年终奖工资水平定性分析,分类可以是“很低”“比较低”“一般”“比较多”“很多”,最终结论一定是个形容词。
定量分析呢,可能需要有量化评估的模型,例如年终奖组成是什么,包括“几个月的工资”“项目奖”“年终抽奖”“股票分红”等等。然后分别计算,最终结论一定是一个“数字”。
3、定性分析和定量分析的关系
定性分析和定量分析都是分析、解决问题的一种方式。在实际解决问题的过程中,通常两者是结合在一起应用的。先对目标问题进行拆解,进行量化分析,实现定量分析,在输出结论的时候,根据适用场景会给出定性分析的结论还是定量分析的结论。
当然,要是目标问题,实在没有办法进行量化分析,就只能定性的描述描述了。
课程里的数据处理流程:
数据处理的步骤:
1.问题的定义:明确目的和思路(具有数据思维)
问正确的问题往往是成功的一半。——邱老师
首先你需要确定去分析的问题是什么?你想得出哪些结论?即,先明确分析目的:问题的定义可能需要你去了解业务的核心知识,并从中获得一些可以帮助你进行分析的经验。
然后梳理分析思路,并搭建分析框架,把分析目的分解成若干个不同的分析要点,即如何具体开展数据分析,需要从哪几个角度进行分析,采用哪些分析指标(各类分析指标需合理搭配使用)。同时,确保分析框架的体系化和逻辑性。
2.数据收集
一般数据来源于四种方式:
1)内部数据:如公司的数据库;
2)第三方统计数据:如专业的调研机构的统计年鉴或报告、市场调查;
3)编写网页爬虫,去收集互联网上的数据;
3.数据预处理
数据处理主要包括:
数据清洗:如异常值、重复值等的处理,缺失值的处理
数据转化:如将男女,转化为01
数据抽取:特征的选择()
数据合并:几项数据的汇总成一项特定的数据项
数据计算
这些处理方法,将各种原始数据加工成为数据分析所要求的样式。
4.数据分析
在这个部分需要了解基本的数据分析方法、数据挖掘算法,了解不同方法适用的场景和适合的问题。
1)常用的数据分析工具,掌握Excel的数据透视表,就能解决大多数的问题。需要的话,可以再有针对性的学习SPSS、R等工具。
2)数据挖掘是一种高级的数据分析方法,侧重解决四类数据分析问题:分类、聚类、关联和预测,重点在寻找模式与规律。
5.数据展现
一般情况下,数据是通过表格和图形的方式来呈现的。
常用的数据图表包括饼图、柱形图、条形图、折线图、气泡图、散点图、雷达图等。进一步加工整理变成我们需要的图形,如金字塔图、矩阵图、漏斗图、帕雷托图等。
一般能用图说明问题的就不用表格,能用表说明问题的就不用文字。
图表制作的五个步骤:
1、确定要表达主题
2、确定哪种图表最适合
3、选择数据制作图表
4、检查是否真实反映数据
5、检查是否表达观点
6.报告撰写
数据分析报告不仅是分析结果的直接呈现,还是对相关情况的一个全面的认识。我们经常看到一些行业分析报告从不同角度、深入浅析地剖析各种关系。所以你需要一个讲故事的逻辑,如何从一个宏观的问题,深入、细化到问题内部的方方面面,得出令人信服的结果,这需要从实践中不断训练。
一份好的数据分析报告,首先需要有一个好的分析框架,并且图文并茂,层次明晰,能够让阅读者一目了然。
1)结构清晰、主次分明可以使阅读者正确理解报告内容;
2)图文并茂,可以令数据更加生动活泼,提高视觉冲击力,有助于阅读者更形象、直观地看清楚问题和结论,从而产生思考。
3)好的数据分析报告需要有明确的结论、建议或解决方案。
5.数据分析的四大误区
1.分析目的不明确,为了分析而分析,这是菜鸟常常容易出现的问题;
2.缺乏行业、公司业务认知,分析结果偏离实际。数据必须和业务结合才有意义。摸清楚所在产业链的整个结构,对行业的上游和下游的经营情况有大致的了解,再根据业务当前的需要,制定发展计划,归类出需要整理的数据。同时,熟悉业务才能看到数据背后隐藏的信息;
3.为了方法而方法,为了工具而工具,只要能解决问题的方法和工具就是好的方法和工具;
4.数据本身是客观的,但被解读出来的数据是主观的。同样的数据由不同的人分析很可能得出完全相反的结论,所以一定不能提前带着观点去分析。
二.常用的统计和建模方法
回归
分类
聚类
关联分析
降维:主成分分析、奇异值分解
共同学习,写下你的评论
评论加载中...
作者其他优质文章