为了账号安全,请及时绑定邮箱和手机立即绑定

20181215统计学知识汇总—完(基础篇)

标签:
大数据

前言:统计学由统计和概率两部分组成。关于统计初步思路总结在《20181128总结-统计概率(分析思路)》有入门级的分析。本文以概率知识为主。

统计概率与数据挖掘的关系?理论上统计概率是数据挖掘基础,统计更多是教会我们如何使用统计的思维面对数据分析数据。概率描述的是一种不确定性。


webp

图片发自简书App

统计学掌握内容:条件概率、贝叶斯公式、相关独立、几何分布(超几何分布)、泊松分布、正态分布、统计抽样、估计、置信区间、假设检验

学习标准:理解公式、会推导公式

文章构成

一、概率(条件概率、全概率、贝叶斯)

二、离散型概率(二项分布、泊松分布、超几何分布)

三、连续性概率(正态分布)

四、统计抽样(点估计量、抽样分布)

五、估计(置信区间)

六、假设检验(P值、理解中……)

一、概率

1、随机试验

定义:如果试验可以在相同的条件下重复进行;试验所有可能结果是明确可知道的,并且不止一个;每一次试验会出现哪一个结果事先不能确定.称一个试验为随机试验

2、 古典概型

定义:如果其基本事件空间(样本空间)满足有限个基本事件(样本点);每个基本事件(样本点)发生的可能性都一样.称随机试验(随机现象)的概率模型为古典概型.

如果古典概型的基本事件总数为 n ,事件 A 包含 k 个基本事件,即有利于 A 的基本事件 k个.则 A 的概率定义为

P(A)= K / n =事件A所含基本事件的个数 / 基本事件总数

3、乘法公式

假发法则用来计算两个事件的并的概率,而乘法公式则是用来计算两个事件交的概率

P(AB)=P(A|B)P(B)=P(B|A)P(A)

4、条件概率公式

    设A,B是两个事件,且P(B)>0,则在事件B发生的条件下,事件A发生的条件概率为:P(A|B)=P(AB)/P(B)

5、全概率公式

定义:如果事件B1、B2、B3…Bn 构成一个完备事件组,即它们两两互不相容,其和为全集;并且P(Bi)大于0,则对任一事件A有

P(A)=P(A|B1)P(B1) + P(A|B2)P(B2) + ... + P(A|Bn)P(Bn)。

或者:p(A)=P(AB1)+P(AB2)+...+P(ABn)),其中A与Bn的关系为交

理解:“B已经发生的条件下,A发生的概率”,这句话中,“B已经发生”就相当于已经把样本的可选范围限制在了圆圈B中,其实就等价于这句话:“在圆圈B中,A发生的概率”,显然P(A|B)就等于AB交集中样本的数目/B的样本数目。为什么这里用的是样本的数目相除,而上面的公式却是用的概率相除,原因很简单,用样本数目相除时,把分子分母同除以总样本数,这就变成了概率相除。

6、贝叶斯公式

定义:贝叶斯定理是关于随机事件A和B的条件概率(或边缘概率)的一则定理。其中P(A|B)是在B发生的情况下A发生的可能性

定义:假设H[1],H[2]…,H[n]互斥且构成一个完全事件,已知它们的概率P(H[i]),i=1,2,…,n,现观察到某事件A与H[1],H[2]…,H[n]相伴随机出现,且已知条件概率P(A/H[i]),求P(H[i]/A)

理解:与全概率公式解决的问题相反,贝叶斯公式是建立在条件概率的基础上寻找事件发生的原因(即大事件A已经发生的条件下,分割中的小事件Bi的概率)

在条件概率讨论中,我们指出在获得新的信息之后对概率进行修正是重要的概率分析手段。通常,总是对所关心的特定事件估计一个初始或先验概率。当我们从样本获取了有关该事件的新信息时,就能根据这些新增的信息系计算修正概率。更新先验概率值得出后验概率。贝叶斯定理提供了进行这种概率计算的一种方法。

7、相关独立

随机变量的相关性和独立性是随机变量两个最重要的关系。

独立性:两个随机变量发生的概率互不 影响

相关性是指两个随机变量之间的线性关系,不相关只是说明它们之间不具有线性关系,但是可以有别的关系,所以不一定相互独立。

如果两个随机变量独立,就是说它们之间没有任何关系,自然也不会有线性关系,所以它们不相关。反过来说如果两个随机变量相关,也就是说它们之间有线性关系,自然不独立。

二、离散型概率

1、两点分布

定义:两点分布是一次实验,成功的概率是p,失败的概率是1-p

2、二项分布B(n,p)

定义:二项分布是n次实验每次实验服从两点分布,成功概率为p,失败概率为1-p。B(n,p) 二项分布是放回抽取(独立重复)

定义:二项分布就是重复n次独立的试验。在每次试验中只有两种可能的结果,而且两种结果发生与否互相对立,并且相互独立,与其它各次试验结果无关,事件发生与否的概率在每一次独立试验中都保持不变,则这一系列试验称为n重伯努利实验(二项分布)

理解:N次试验,每次试验两个结果。EG:连续N 次抛硬币

3、超几何分布

定义:一共有N个不同元素,包括M个特殊元素,从中取n个成功抽出特殊元素的概率。(不放回抽样)

理解:N件产品,合格M,不合格N – M,取三件恰有一件合格。

4、泊松分布

定义:在任意两个相等长度的区间上,事件发生的概率相等,事件在某一区间上是否发生与事件在其他区间上是否发生时独立的

理解:当二项分布的n很大而p很小时,泊松分布可作为二项分布的近似,其中λ为np。通常当n≧20,p≦0.05时,就可以用泊松公式近似得计算。事实上,泊松分布正是由二项分布推导而来的,具体推导过程参见本词条相关部分。

泊松分布适合于描述单位时间(或空间)内随机事件发生的次数


webp

离散型概率分布


webp

离散型概率

三、连续性随机变量

1、均匀概率分布

定义:测量值某一范围中各处出现的机会一样

2、正态分布

定义:若随机变量X服从一个数学期望为μ、方差为σ^2的正态分布,记为N(μ,σ^2)。其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。

特征:

A、正态分布每个分布因均值和标准差这两个参数的不同而不同

B、正态曲线的最高点在均值处达到

C、正态分布是对称的

D、标准差决定曲线的宽度和平缓程度

E、正太随机变量的概率由正态曲线下的面积给出

标准分:

二项概率的正态近似

当实验次数很大,np >= 5 并且nq > = 5,可使用正态分布近似计算。注意修正

泊松分布的正态近似

注意连续性修正


webp

图片发自简书App


webp

图片发自简书App

四、统计抽样

如果从一个总体中用相同的方法抽取许多大小相同但存在差异的样本,然后用每个样本的某个属性形成一个分布,则所得的结果称为抽样分布。由此可知,用每个样本的比例形成的抽样分布就是“比例的抽样分布”

从同一个总体中取得的所有大小为n的可能样本,由这些样本的比例形成一个分布,这就是比例的抽样分布。

比例的标准误差是抽样分布的方差的平方

目的:如何通过总体了解样本,如何通过样本了解总体

定义:个体是搜集数据的基本单位;总体是所有感兴趣的个体的集合;样本是总体的一个子集。我们选取样本是为了搜集推断所需要的证据,并且回答关于总体的研究问题。

A、 如何搜集数据(无偏样本)

B、 如何通过样本了解总体,如何通过总体了解样本(如何用样本、分析样本)

A、 如何搜集数据(无偏样本)

1、 简单随机抽样:既随机选择抽样单位并形成样本,包括重复抽样和不重复抽样。具体方式抽签或使用随机编号生成器(我们提到的简单随机抽样假定时去放回的)

理解:从容量为N的有限总体中抽取一个容量为n的样本,如果容量为n的每一个可能的样本都以相等的概率被抽中,则称改样本为简单随机样本

2、 分层抽样:既将总体划分为几个组,或者叫做几个层,组或层中的单位都很相似,每一层都尽可能与其他层不一样。分好层之后,就对每一个层执行简单随机抽样

3、 整群抽样:既将总体划分为几个群,每个群尽量与其他群相似,可通过简单随机抽样抽取几个群然后用这些群中的每一个抽样单位形成样本

4、 系统抽样:既选择一个数字K,然后没到第K个抽样单位就抽一次

B、如何通过样本了解总体,如何通过总体了解样本(如何用样本、分析样本)

1、点估计

2、样本均值的抽样分布(均值、方差)

定义:样本均值的抽样分布是样本均值所有可能值的概率分布,即μ的概率分布。

研究样本均值的抽样分布的性质,可研究其他概率分布一样:样本均值的抽样分布有均值、数学期望、标准差以及形状或形态特征

2.1中心极限定理

样本均值的抽样分布在形状上却是对称的。随着样本量n的增大,不论原来的总体是否服从正态分布,样本均值的抽样分布都将趋于正态分布,其分布的数学期望为总体均值μ,方差为总体方差的1/n。这就是中心极限定理

2.2 t分布

如果总体不是正态分布,当n为小样本时(通常n<30),样本均值的分布则不服从正态分布,服从t分布

3、样本比例的抽样分布(均值、方差)


webp

图片发自简书App


webp

图片发自简书App


webp

图片发自简书App

五、估计(置信区间=区间估计)

点估计量是根据样本估计总体统计量的最佳猜测值。因为我们没有使用整个总体,我们只是得到了最佳猜测值,估计量也只很可能接近总体的真值。

与其选一个精准值作为总体均值的估计值,不如指定某个区间(置信区间)作为总体的估计值。

估计区间 = 点估计 +- 边际误差

求置信区间四步骤:

A 选择总体统计量(如总体的均值)

B 求出其统计量的抽样分布(既样本的分布:样本的均值、期望、方差、以及分布形态)。抽样分布就是样本的分布。比如求均值,就是求均值的抽样分布(N个样本间各自的均值间的关系)

C 决定置信水平(我们有百分之多少确信总体中的值落在一个特定范围内;一般情况下,取95%的置信度就可以;)

D 求出置信上下限

1. 误差界限

2. 置信度

我们有百分之多少确信总体中的值落在一个特定范围内;

一般情况下,取95%的置信度就可以

六、假设检验


webp

图片发自简书App

陈述事实、而不是找借口。的确是学习半个月才学习完统计学。

分享:学习之前清晰自己的学习标准。即使自己不会看别人的计划也好。自己现在有一个缺点快而不动脑。如果你也在学习学习统计学根据上面的模块进行针对性学习。思路会清晰很多。关于这篇总结希望大家能帮我补充和修正

解释是不负责的表现,我也想解释为什么这两天没写总结。比如侄女来我家……天天让我跟她一起耍。



作者:夜希辰
链接:https://www.jianshu.com/p/e1eb9a376cd1


点击查看更多内容
TA 点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
  • 推荐
  • 评论
  • 收藏
  • 共同学习,写下你的评论
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
意见反馈 帮助中心 APP下载
官方微信

举报

0/150
提交
取消