-
分类变量的特征和可视化 一个分类变量的可视化 —频率表(frequency table)、条形图(bar plot) 两个分类变量的关系 —关联表(continggency table)、相对频率表(relative frequencies) —分段条形图、相对频率分段条形图 —马赛克图(mosaicplot) 一个分类变量、一个数值变量的关系 ——并排箱图(side-by-side box plot)查看全部
-
两个变量的关系 —散点图(scatter plot):方向、形状、强度、极端值查看全部
-
数据变量的特征和可视化 —集中趋势的测量: 均值(mean)、中位数(median)、众数(mode) 分散趋势的测量: —值域(range:max-min)、方差(variance)、标准差(standard variance)、四分位距(interquartile range) 稳健统计量:中位数、四分位差(受极端值影响小) 否:均值、标准差、值域(受极端值影响大) 一个变量的可视化 —柱状图(histogram)、点图(dot plot)(分布) —箱图(box plot)(中位数、分位点、极端值)查看全部
-
观测(observation)、变量(variable)、数据矩阵(data matrix) 变量的类型:数值(定量分析){连续型、离散型} 分类(定性分析){无序,有序}查看全部
-
数据分析流程 一、准备阶段 定义研究问题:不是为了分析数据而分析数据,而是为了解决问题或为决策提供依据 定义理想的数据集 确定能够获取什么数据 获取数据 清理数据 二、探索性分析(数据可视化):快速对数据进行了解,缺失值,绘图等。 统计分析/建模(机器学习)等 三、解释/交流结果(数据可视化) 挑战结果(有没有其他可能?) 书写报告(Reproducible原则)查看全部
-
数据科学家需要具备的知识和技能 了解数据的特征 数据可视化:R的绘图系统 制作并发布报告查看全部
-
ggplot2分层查看全部
-
用图指南查看全部
-
箱图中的几个概念:四分位距:1/4分位点到3/4分位点的距离。最左和最右两条线代表1/4分位点-1.5倍的四分位距、3/4分位点+1.5倍四分位距。查看全部
-
稳健统计量的概念:受极端值影响较小。查看全部
-
需要具备的知识查看全部
-
一起加油查看全部
-
NO.3查看全部
-
NO.2查看全部
-
NO.1查看全部
举报
0/150
提交
取消