为了账号安全,请及时绑定邮箱和手机立即绑定

聚类算法-近邻聚类算法

标签:
Java MySQL Python

每篇一句:

Time is always too short for those who need it, but for those who love, it lasts forever. —Dracula Untold


近邻聚类法:

近邻聚类法同样是一种基于距离阈值的聚类算法。

  • 问题:

    有N个待分类的模式{X1,X2,...,Xn},要求按距离阈值T分类到以Z1,Z2,...为聚类中心的模式类中。(T_threshold)

  • 算法描述:

  1. 任取样本Xi作为第一个聚类中心的初始值,如令Z1 = X1。

  2. 计算样本X2到Z1的欧式距离D21= ||X2 - Z1||,若D21>T,定义一新的聚类中心Z2 = X2;否则X2 ∈以Z1为中心的聚类。

  3. 假设已有聚类中心Z1,Z2,计算D31=||X3 - Z1||和D32=||X3 - Z2||,若D31>T且D32>T,则建立第三个聚类中心Z3 = X3;否则X3∈离Z1和Z2中最近着(最近邻的聚类中心)。

  4. ......以此类推,直到将所有的N个样本都进行分类。

  • 算法特点:

    1. 局限性:很大程度上依赖于第一个聚类中心的位置选择、待分类模式样本的排列次序、距离阈值T的大小以及样本分布的几何性质等。

    2. 优点:计算简单。(一种虽粗糙但快速的方法)

    • 算法讨论:

    用先验知识指导阈值T起始点Z1的选择,可获得合理的聚类结果。否则只能选择不同的初值重复试探,并对聚类结果进行验算,根据一定的评价标准,得出合理的聚类结果。

    https://img1.sycdn.imooc.com//5d31b1a30001c65c07100224.jpg

    对聚类结果进行修改



    Python实现:

    • 解释说明见代码中注释。

    # coding=utf-8# 近邻聚类算法的Python实现# 数据集形式data=[[],[],...,[]]# 聚类结果形式result=[[[],[],...],[[],[],...],...]# 其中[]为一个模式样本,[[],[],...]为一个聚类from Max_Min_Cluster import get_distance, classifydef knn_cluster(data, t):
    
        # data:数据集,t:距离阈值
        # 算法描述中的介绍的是在寻找聚类中心的同时进行聚类,本次实现中并未采取这种方式,
        # 原因是同时进行的话要既要考虑聚类中心,又要考虑某个类,实现较为麻烦,
        # 此次采取与上次最大最小距离算法相同的方式,先寻找聚类中心,再根据最近邻原则分类,
        # 两种方式实现效果是相同的,同时又可以直接利用最大最小距离聚类算法中写好的classify()分类方法
    
        zs = [data[0]]  # 聚类中心集,选取第一个模式样本作为第一个聚类中心Z1
        # 计算聚类中心
        get_clusters(data, zs, t)    # 分类
        result = classify(data, zs, t)    return resultdef get_clusters(data, zs, t):
        for aData in data:
            min_distance = get_distance(aData, zs[0])        for i in range(0, len(zs)):
                distance = get_distance(aData, zs[i])            if distance < min_distance:
                    min_distance = distance        if min_distance > t:
                zs.append(aData)# data = [[0, 0], [3, 8], [1, 1], [2, 2], [5, 3], [4, 8], [6, 3], [5, 4], [6, 4], [7, 5]]# t = 4.5# result = knn_cluster(data, t)# for i in range(len(result)):#     print "----------第" + str(i+1) + "个聚类----------"#     print result[i]# 打印结果:# ----------第1个聚类----------# [[0, 0], [1, 1], [2, 2]]# ----------第2个聚类----------# [[3, 8], [4, 8]]# ----------第3个聚类----------# [[5, 3], [6, 3], [5, 4], [6, 4], [7, 5]]

    注:算法描述中的介绍的是在寻找聚类中心的同时进行聚类,本次实现中并未采取这种方式,原因是若同时进行的话要既要考虑聚类中心集合的表现形式,又要考虑某个聚类的表现形式,总体来说,数据表示形式较为麻烦。此次实现采取与上次最大最小距离聚类算法相同的方式:先寻找聚类中心,再根据最近邻原则分类,两种方式实现效果是相同的,同时又可以直接利用最大最小距离聚类算法中写好的classify()分类方法。


    最后:

    本文简单的介绍了 聚类算法 —— 近邻聚类算法 的相关内容,以及相应的代码实现,如果有错误的或者可以改进的地方,欢迎大家指出。

    代码地址:聚类算法——近邻聚类算法(码云)



    作者:猫不爱吃鱼
    链接:https://www.jianshu.com/p/a18dc58a96a9


    点击查看更多内容
    TA 点赞

    若觉得本文不错,就分享一下吧!

    评论

    作者其他优质文章

    正在加载中
    • 推荐
    • 评论
    • 收藏
    • 共同学习,写下你的评论
    感谢您的支持,我会继续努力的~
    扫码打赏,你说多少就多少
    赞赏金额会直接到老师账户
    支付方式
    打开微信扫一扫,即可进行扫码打赏哦
    今天注册有机会得

    100积分直接送

    付费专栏免费学

    大额优惠券免费领

    立即参与 放弃机会
    意见反馈 帮助中心 APP下载
    官方微信

    举报

    0/150
    提交
    取消