首页手记机器学习西瓜书 Day10 聚类（上）

机器学习西瓜书 Day10 聚类（上）

标签：

机器学习

p197 - p201
Day09偷懒了，所以兑现flag，今天多看一些。

第九章聚类

9.1 聚类任务

无监督学习：label未知。
研究最多，应用最广的是聚类。

聚类将样本划分为若干个不相交的子集：每个子集称为一个“簇”

聚类算法将D划分为k个不相交的簇，C1,C2,..Ck
用λj 表示xj的簇标记。

两个基本问题：性能度量，距离计算

9.2 性能度量

结果咋才叫好？聚类结果的簇内相似度高且簇间相似度低。

性能度量的两大类：
1）与某个参考模型进行比较，称为外部指标。
2）直接考察而不利用参考模型，称为内部指标。

定义abcd，a = |SS|，b = |SD|..
基于abcd定义了一些外部指标：
Jaccard系数（JC），FM指数（FMI），Rand指数（RI）。越大越好

dist：两个样本的距离。
μ：簇的中心点。
avg(C)：簇C内样本间平均距离、
diam(C)：簇C内样本最远距离
dmin
dcen

基于以上导出内部指标，DB指数（DBI），Dunn（DI）。
DBI越小越好，DI越大越好。

9.3 距离计算

如何计算dist？

距离要满足一些性质：p199-200 。
值得注意的是直递性

给定两个样本，最常用的是闵可夫斯基距离。
p= 2 欧氏距离
p = 1 曼哈顿距离

Mink distance适用于有序属性，如（1，2，3），而不是（飞机，货车，轮船）

对无序属性可采用VDM距离。

还有需注意的是：
用于度量相似性而定义的距离不一定非要满足那些性质，尤其是直递性。
如人、马、人马。
人 like 人马
马 like 人马
但人和马距离大。
不满足直递性。
这样的距离成为“非度量距离”。

因此，在现实任务中，有必要基于数据样本来确定合适的距离计算式，可通过“距离度量学习”来实现

作者：皇家马德里主教练齐达内
链接：https://www.jianshu.com/p/985b665a0427

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

撒科打诨

移动开发工程师

手记
篇

粉丝

46

获赞与收藏

145

关注作者，订阅最新文章

阅读免费教程

后端通用面试教程

41个小节 32888 371

网络编程入门教程

20个小节 13641 256

Pandas 入门教程

25个小节 20282 387

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空

机器学习 西瓜书 Day10 聚类（上）

第九章 聚类

9.1 聚类任务

9.2 性能度量

9.3 距离计算

阅读免费教程

机器学习西瓜书 Day10 聚类（上）

第九章聚类