首页手记（五） K-Nearest Neighbor...

（五） K-Nearest Neighbor (临近取样，KNN算法)

标签：

人工智能

综述

1.1 Cover和Hart在1968年提出了最初的邻近算法
1.2 分类(classification)算法
1.3 归属于输入基于实例的学习(instance-based learning), 懒惰学习(lazy learning)。在处理训练集的时候，我们并没有建任何的模型，而是对于一个未知的实例，我们开始归类的时候，我们才来看，根据它和我们已知类型的比较，来给他归类，也就是说，在开始并不建什么广泛的模型，而是在我们要进行测试，要对测试集的每一个数进行归类的时候，我们才具体的比较他和训练集之间的关系，给他及时的进行分类，这就是所谓的懒惰学习

归类出动作片还是爱情片：

2.未知电影属于什么类型？
算法详述

步骤：

1.为了判断未知实例的类别，以所有已知类别的实例作为参照
2.选择参数K个已知实例（最近实例的个数）
3.计算未知实例与所有已知实例的距离
4.根据少数服从多数的投票法则(majority-voting)，让未知实例归类为K个最邻近样本中最多数的类别

细节:关于距离的衡量方法

Euclidean Distance 定义

以上是二维定义，python源码如下：

import mathdef ComputeEuclideanDistance(x1, y1, x2, y2):
    distance = math.sqrt(math.pow((x1 - x2), 2) + math.pow((y1 - y2), 2))    return distance12345

可以推广到多维，每个维度求差平方之后求和之后在开方(分别计算个点与未知点的Euclidean距离)
其他距离衡量：余弦值（cos）, 相关度（correlation）, 曼哈顿距离（Manhattan distance）
k若取值3 ，则取 d_ag, d_bg, d_cg,而这三个点所属的实例为爱情片，故未知实例为爱情片

举例（缺点，如下图Y，根据K值的选择，，而且一般选1357等奇数，因为要进行少数服从多数的投票）

算法优缺点：

算法优点
1.简单
2.易于理解
3.容易实现
4.通过对K的选择可具备丢噪音数据的健壮性
算法缺点

1.需要大量空间储存所有已知实例（空间）
2.算法复杂度高（需要比较所有已知实例与要分类的实例）
3.当其样本分布不平衡时，比如其中一类样本过大（实例数量过多）占主导的时候，新的未知实例容4.易被归类为这个主导样本，因为这类样本实例的数量过大，但这个新的未知实例实际并木接近目标样本

改进版本
考虑距离，根据距离加上权重
比如: 1/d (d: 距离）离他近的点，会得到一个好的权重

原文出处作者：AngelovLee

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

大话西游666

手记
篇

粉丝

140

获赞与收藏

620

关注作者，订阅最新文章

阅读免费教程

后端通用面试教程

41个小节 30787 345

网络编程入门教程

20个小节 12720 239

Pandas 入门教程

25个小节 18599 341

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空

（五） K-Nearest Neighbor (临近取样，KNN算法)

阅读免费教程