首页手记 Instance Based Learning

Instance Based Learning

标签：

机器学习算法

Udacity
Machine Learning
Instance Based Learning

Supervised Learning
给你一些数据集，用算法去训练函数，训练出来后，就可以投入新的数据进行预测。

Instance Based Learning

不包含训练函数这个过程，只需要把所有数据放在数据库里，投入新的数据时，只需要去数据库里查找，

优点是：
Remember：可信，不需要平滑什么的近似
Fast：不需要 learning
Simple：
缺点是：
Overfitting：太依赖已有数据了
看起来只能返回已有数据，无法返回新数据

应用举例：
红色很贵，蓝色中等，绿色最便宜，要预测黑色点的颜色。
方法就是看 Nearest Neighbor，如果只看一个neighbor，有些点比较容易看出来，有些点需要看很多 neighbor 才能看准，不能单纯只取一个最近的，所以是 K Nearest Neighbors。

KNN

可以分类，可以回归。
可以用 vote 和 mean，也可以用 Similarity 去算入 Weight。

复杂度对比:

并不是 LR 就比 NN 慢，因为 learning 只需要一次，但是可以 query 很多次

这个例子计算一下 q 这个点，在不同的 Domain 和不同的 k 时，结果是怎样的，不过与实际值 18 差了很远。
但是 KNN 表现还是不错的，不过它有一些基本的 Bias，而这个例子只是恰好违背了这些 Bias，所以才如此不准。

Preference Bias

Why we prefer one hypothesis over another,

2. Smooth
与 locality 很像，但是区别是，虚线上的点更 smooth，而四周的辐射状的点也是 locality。

3. All Feature Matters Equally
如上面的例子，x1 和 x2 的重要性是不同的，

其他

Distances
要选择合适的距离，不然会得到不太好的结果。
K
需要选择合适的K，注意一种情况是K＝N时，

Curse of Dimensionality

随着 Feature 和 Dimension 的数量增加，训练算法所需要的数据将成指数级增加。
比如训练 KNN，训练一维的点，就想要找到一条线上离它最近的，如果是三维的，就想找到空间上离它最近的一个小立方区域。
这个问题不只是在KNN发生，在ML算法中普遍存在。

总结

你要先明确你要解决的问题，并知道一些 Domain Knowledge，然后去选择最优的算法，DT还是KNN等等。

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

Alice嘟嘟

手记
篇

粉丝

75

获赞与收藏

279

关注作者，订阅最新文章

阅读免费教程

Python 算法入门教程

15个小节 27731 1084

算法入门教程

15个小节 32586 682

后端通用面试教程

41个小节 31348 348

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空

Instance Based Learning

Instance Based Learning

KNN

Preference Bias

其他

Curse of Dimensionality

总结

阅读免费教程