为了账号安全,请及时绑定邮箱和手机立即绑定

【九月打卡】第六天 数据分析进阶:统计分析与机器学习

学习课程:Python全能工程师2022版

章节名称:第21周 数据分析进阶:统计分析与机器学习

讲师:DeltaF


课程内容:


SciPy

SciPy是一个开源的Python算法库和数学工具包。

SciPy包含的模块有最优化、线性代数、积分、插值、特殊函数、快速傅里叶变换、信号处理和图像处理、常微分方程求解和其他科学与工程中常用的计算。

pip install scipy

import scipy

scipy.optimize.curve_fit() #拟合曲线


随机变量

https://img1.sycdn.imooc.com//631d813000015c9013700727.jpg

概率分布

https://img1.sycdn.imooc.com//631d815e00016f4d13690730.jpg

正态分布

自然分布大都呈现正态分布,比如身高、体重、成绩、价格

https://img1.sycdn.imooc.com//631d81da0001a69c13720730.jpg

import scipy.stats as st

st.norm.rvs(loc=0,scale=1,size=1000)


统计推断

https://img1.sycdn.imooc.com//631d86020001610b17680973.jpg

假设检验

https://img1.sycdn.imooc.com//631d86270001a3a817360964.jpg

显著性检验

https://img1.sycdn.imooc.com//631d8643000131d417480968.jpg

单样本t检验

问题:样本均值与标准t分布是否存在显著性差异

假设(α=0.05)

H0:不存在显著差异

H1:存在小助兴差异


Scikit-Learn

scikit-learn,又写作sklearn,是一个开源的基于python语言的机器学习工具包。它通过NumPy, SciPy和

Matplotlib等python数值计算的库实现高效的算法应用,并且涵盖了几乎所有主流机器学习算法。

sklearn有一个完整而丰富的官网,里面讲解了基于sklearn对所有算法的实现和简单应用。然而,这个官网是全英文的,并且现在没有特别理想的中文接口,市面上也没有针对sklearn非常好的书。

官方文档:https://scikit-learn.org/stable/index.html

pip install sklearn


非监督学习:KMeans

聚类算法,是无监督学习的代表算法之一,其目的是将数据划分成有意义或有用的组(或簇)

作为聚类算法的典型代表,KMeans可以说是最简单的聚类算法没有之一

KMeans算法将一组N个样本的特征矩阵X划分为K个无交集的簇,直观上来看是簇是一组一组聚集在一起的数

据,在一个簇中的数据就认为是同一类。簇就是聚类的结果表现。

簇中所有数据的均值通常被称为这个簇的“质心”(centroids)。在一个二维平面中,一簇数据点的质心的

横坐标就是这一簇数据点的横坐标的均值,质心的纵坐标就是这一簇数据点的纵坐标的均值。同理可推广至高

维空间。


学习收获:

1、对SciPy和Scikit-Learn这2个python包有了进一步理解

2、了解了一些统计学原理


打卡截图:

https://img1.sycdn.imooc.com//631d7f3b00015cea18101016.jpg

https://img1.sycdn.imooc.com//631d80fc0001569d13690729.jpg




点击查看更多内容
TA 点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
  • 推荐
  • 评论
  • 收藏
  • 共同学习,写下你的评论
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
意见反馈 帮助中心 APP下载
官方微信

举报

0/150
提交
取消