-
箱图(box plot)(中位数、分位点、极端值)查看全部
-
方差 标准差 公式查看全部
-
数据变量的特征和可视化 —集中趋势的测量: 均值(mean)、中位数(median)、众数(mode) 分散趋势的测量: —值域(range:max-min)、方差(variance)、标准差(standard variance)、四分位距(interquartile range) 稳健统计量:中位数、四分位差(受极端值影响小) 否:均值、标准差、值域(受极端值影响大) 一个变量的可视化 —柱状图(histogram)、点图(dot plot)(分布) —箱图(box plot)(中位数、分位点、极端值) ------------------------------------------------ 探索性数据分析:函数包括: Mean()求平均值,median()求中位数,mode()众数。 Range()求值域,var()求方差,sd()求标准差,summary()求总体评价值。 稳健统计量包括:中位数、四分位差(受极端值影响小)。 非稳健统计量包括:均值、标准差、值域(受极端值影响大)。 可视化的各种函数:均有多个参数可选 Hist()柱状图 Boxplot()箱图:包括中位数、分位点、极端值。 Plot()散点图,表示变量之间的关系。 ------------------------------------- 数据变量的特征: 集中趋势:均指mean、中位数median、众数mode 分散趋势:值域range、方差variance、标准差standard variance、四分位距interquartile ranage查看全部
-
变量的类型查看全部
-
数据基础查看全部
-
数值变量就是可以进行加减乘除的,其中分为离散型变量跟连续变量 比如说一二三四五六七八九十 分类变量又分为有序变量跟无序变量 其中无序变量比如说苹果桃子梨他们就不能进行比较 也不能进行哦加减乘除 然后有序变量就比如说大一大二大三 他们虽然不能进行加减乘除 但是我们就知道大二的比大一的多上了一年学 他们是其中是有一些逻辑关系的 ---------------------------------------------------------------------------- 观测(observation)、变量(variable)、数据矩阵(data matrix) 变量的类型:数值(定量分析){连续型、离散型} 分类(定性分析){无序,有序} ------------------------------查看全部
-
完整的数据分析流程查看全部
-
数据分析流程 一、准备阶段 定义研究问题:不是为了分析数据而分析数据,而是为了解决问题或为决策提供依据 定义理想的数据集 确定能够获取什么数据 获取数据 清理数据 二、探索性分析(数据可视化):快速对数据进行了解,缺失值,绘图等。 统计分析/建模(机器学习)等 三、解释/交流结果(数据可视化) 挑战结果(有没有其他可能?) 书写报告(Reproducible原则)查看全部
-
所占技能比重查看全部
-
四大 数据科学家 所需 掌握知识的比重查看全部
-
数据科学家需要具备哪些知识与技能?查看全部
-
#数据科学家必须具备的只是和技能 #了解数据的特征 #数据可视化 #探索性数据分析 #制作和发布报告查看全部
-
分析性作图: 1.凸显比较;查看全部
-
一个分类变量与一个数值变量的关系:并排箱图查看全部
-
两个变量的关系: 散点图:方向(正、负相关)、形状(是否为线性)、强度(相关性强弱)、极端值(远离趋势线)查看全部
举报
0/150
提交
取消