ROCK: A Robust Clustering Algorithm for Categorical Attributes_心得技巧

心得技巧

html5 HTML/Xhtml CSS XML/XSLT Dreamweaver教程 Frontpage教程心得技巧

上一篇: 【C#表达式树四】Expression类上... 下一篇:创建SpringBoot分布式项目

ROCK: A Robust Clustering Algorithm for Categorical Attributes

发布时间：2022-07-02 发布网站：脚本宝典

脚本宝典收集整理的这篇文章主要介绍了ROCK: A Robust Clustering Algorithm for Categorical Attributes，脚本宝典觉得挺不错的，现在分享给大家，也给大家做个参考。

这是一篇研究聚类的文章。对于聚类的点来说，它可能同时具有一些属性，包括数值型的（大小和差值是有具体意义的），bool（True/False）类型的，还有类别类型的（一个数字代表一个类别，大小无意义）。对于后两种类型的属性，直接算距离就不合理。所以作者就开发了一个基于Hierachical的聚类算法，在合并cluster（簇）的时候，没有使用距离，而是使用了links这种度量。最后，作者使用ROCK进行了实验，在实际应用和合成数据集上work well，并且具有很好的可拓展性。

聚类方法主要可以分成两类，第一类是基于分区聚类（partITional clustering）还有hierArchical clustering。

第一类的表达式如下：

ROCK: A Robust Clustering Algorithm for Categorical Attributes

预先分成k组，然后运用某种度量计算每一个点与类中心点距离。

这种聚类比较适合于数值类型的数据，不太适合于有很多类别数据，bool型数据的点。

一个motivating example就是说，对于经常买一些比较贵产品的人来说，他们购买的东西类别交集很小。但是有一个共同点是都很贵，这个时候直接算他们的距离很小，这很不合理。合理的方式，使用一些links将他们连接起来（比如A与B常常一起出现，B与C常常一起出现，A与C应该是有某种联系的），体现出他们的相似性。而且，这种算法会倾向于将大的cluster切分。

另一种hierarchical clustering的算法可能也不是很行。centROId based agglomerative hierarchical clustering algorithm就是，开始的时候，每一个点都是一类。然后计算每两类的质心，或者平均值。距离最近的俩合并到一起。但是基于质心的这种度量其实也是很差的。并且不同簇的点划分到同一个簇之后，会越来越差。可以想像一下，这种算法其实是很难区分一些属性完全不同和所有属性都有一点小不同的。还有一些基于文本的聚类，相似度是用Jaccard Coefficient这种来度量的，但是其质心不是数值型的，所以这种也没法用。

作者的方法：

选取一种度量（可以是Jaccard Coefficient或者查表之类的）。当两个点的度量超过一定阈值的时候，称它们俩为邻居。两个点之间的links就是它们共同的neighbor数。在merge cluster的时候，选取links最多的cluster进行merge。

首先，定义neighbor：

ROCK: A Robust Clustering Algorithm for Categorical Attributes