为了账号安全,请及时绑定邮箱和手机立即绑定

《统计学习方法》读书笔记(第一章)

标签:
大数据

记录和总结自己读书的一些心得与体会。

第一章主要介绍一些基本概念与思想,回答了几个基本问题。

一些基本概念:

输入空间,输出空间,特征空间,输入空间和输出空间分别是X和Y所有可能取值的集合,输入由特征向量表示,所有特征向量的空间称为特征空间。输入空间与特征空间可以相同,也可以不同。

损失函数针对单一样本,风险函数针对损失期望,经验风险指模型在训练数据集上的平均损失,期望风险指模型在整个数据上的损失期望。

1. 统计学习是什么?

统计学习是一门数据驱动的学科,又称为统计机器学习。它由监督学习、非监督学习、半监督学习和强化学习组成。目的是对数据进行预测与分析,特别是未知数据。

2.如何构建一种统计学习方法?

统计学习方法三要素:模型,假设空间(例如某个函数集合);策略,评估模型的方法(例如平方损失、对数损失等);算法,学习模型的方法(最优模型求解),构建一种统计学习方法就是确定具体的统计学习三要素。

3.统计学习为什么有效?在有限的训练数据集上所得出的模型为什么可以用到未知的测试数据上?

首先有一个基本假设,输入和输出的随机变量X和Y服从P(X,Y)分布,训练数据和测试数据都是依联合概率分布P(X,Y)独立同分布产生的。

webp

期望风险

webp

经验风险

由大数定律可以得知,当N趋近于无穷大时,经验风险趋近于期望风险,可以用经验风险估计期望风险。

4. 经验风险与结构风险分别是什么?

当样本容量较小时,采用经验风险最优化的学习方式可能导致“过拟合”现象的发生,泛化能力较差,结构风险(如下图)在经验风险的基础上添加了模型复杂度作为惩罚项,监督学习问题转化为经验风险或结构风险的最优化问题。λ作为一个权衡经验风向与模型复杂度的系数。模型复杂度又称为正则化项,常用的有L1范数和L2范数。

webp

结构风险

5. 如何评价一种统计学习方法的泛化能力?

通常,模型f是通过求解经验风险的最优化问题获取的,然而我们真正关心的是模型f在整个样本空间的期望风险,即泛化能力。在实际中,我们采用测试误差来评价模型泛化能力,但这种方法受测试集数据的样本数量影响较大。统计学理论采用泛化误差上界来评价模型的泛化能力。

webp

泛化误差上界

利用Hoeffding不等式,很容易可以证出在假设空间是有限集的情况下,训练误差与期望误差是满足上式关系的,并且泛化误差上界随着N的增加而减小,假设集包含函数越多,其值越大。

附录:

A. 大数定律

webp

大数定律

通俗点讲就是依某概率分布对样本进行采样,当样本数量足够大时,样本均值依概率收敛于样本期望。

B. Hoeffding不等式

webp

Hoeffding不等式

我感觉Hoeffding不等式像是大数定律的定量版,进一步阐述了n个独立随机变量的均值与期望之间的概率关系(在一定的限定条件下)。N个随机变量X1到Xn可以看做N个样本的随机变量L(Y,f(X)),上式中的Sn和ESn即可以看做N倍的训练误差和泛化误差。

C. 奥卡姆剃刀准则

在所有可能选择的模型中,能够很好解释已知数据并且十分简单才是最好的模型。



作者:bazinga_dmc
链接:https://www.jianshu.com/p/00483474c73f


点击查看更多内容
TA 点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
  • 推荐
  • 评论
  • 收藏
  • 共同学习,写下你的评论
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
意见反馈 帮助中心 APP下载
官方微信

举报

0/150
提交
取消