典型聚类算法
基于分区的方法
代表:kmeans算法
基于层级的方法
代表:治愈算法
基于网格的方法
代表:STING算法
将数据集X分成多层网格结构,从某一层开始计算查询该层网格间的属性值,计算属性值与阈值的关系,判断网格间的相关性。如果网格是相关的,则进入下一层的相关区域,继续第二步,直到下一层是最低层,并返回相关的网格结果。
基于密度的方法
代表:DBSCAN算法
输入数据集X,随机选择一个点,找出这个点的所有高密度可达点,遍历这个点的ε邻域内的所有点,找到这些密度可达点,确定一个点的ε邻域内的点,找到这些密度可达点,确定一个点的ε邻域内的点是否超过阈值点数,如果是,形成核心点扫描数据集,找到没有聚类的数据点,重复第二步输出划分的类,输出离群值(discord
神经网络的方法
代表:SOM算法
基于图的聚类方法
代表:谱聚类算法
聚类算法的评价指标
好的聚类方法可以产生高质量的聚类,类内相似度高,类间相似度低。一般来说,评价聚类质量有两个标准,内部质量评价指标和外部评价指标。
内部质量评估标准
内部评价指标是利用数据集的属性特征来评价聚类算法的优劣。通过计算总体相似度、类间平均相似度或类内平均相似度来评估聚类质量。聚类的有效性指标通常用来评价聚类的效果,所以目前聚类的有效性指标主要用类间距离和类内距离来衡量。这种指标通常被用作CH(Calinski-Harabasz)指标。
频道指示器
CH指标定义为:
簇的凝聚度
集群的内聚度
聚类中成对点之间的平均距离反映了聚类的内聚程度,通常用组内误差的平方(SSE)来表示:
集群的邻近性
一个聚类的接近度用组间平方和(SSB)来表示,即该聚类的质心C_i与该聚类中所有数据点的总平均值C之间距离的平方和。
外部质量评价标准
外部质量评价指标基于已知的分类标签数据集,使得原始标签数据可以与聚类输出结果进行比较。客观质量评价指标的理想聚类结果是,不同类别标签的数据聚类在不同的簇中,相同类别标签的数据聚类在同一簇中。外在质量评价标准通常用熵、纯度等指标来衡量。
熵:
一个簇包含单个类对象的度量。对于每个聚类,首先计算数据的类分布,即对于聚类I,计算聚类I的成员属于类j的概率。
其中m_i表示聚类I中所有对象的数量,m_ij是聚类I中类J的对象的数量。使用类分布,使用标准公式:
计算每个聚类I的熵,其中k是类的数量。一个聚类的总熵是通过每个聚类的熵的加权和来计算的,即:
其中k是聚类数,m是一个聚类中数据点的总和。
纯度:
另一个度量是一个簇包含一个类对象。簇I的纯度为
,总簇纯度为:
本文来自笑醉生梦投稿,不代表舒华文档立场,如若转载,请注明出处:https://www.chinashuhua.cn/24/617188.html