分割式相似度传播数据聚类方法技术

技术编号：2827910 阅读：212 留言：0更新日期：2012-04-11 18:40

本发明专利技术公开了一种相似度传播数据聚类方法的加速方法。首先，分块输入的数据集合的相似度矩阵，并在每个子矩阵上使用相似度传播数据聚类方法对子数据集合进行聚类；然后，把子数据集合的聚类结果以某种方式组合在一起，以此为初始状态，再次使用相似度传播数据聚类方法对整个数据集合进行聚类。本发明专利技术处理大数据量的关系密集型数据集合，可以在更短的时间内得到与相似度传播数据聚类方法基本相同的结果。在保持聚类结果的精度基本不变的前提下，本发明专利技术对于大数据量的关系密集型数据集合的聚类，与相似度传播数据聚类方法相比，有着明显的加速效果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及海量多媒体数据处理领域，尤其涉及一种数据聚类方法。技术背景在信息大爆炸的年代，人们所面对的数据是海量的。在Googlew上搜索汽车这个关键词，你会得到217， 000， 000个结果；搜索赛车这个关键词，你的结果数量就只有13， 600， 000 了；搜索蓝色赛车这个关键词，你的结果数量将进一步下降，只有455， 000。由此可见，对已有数据进行聚类分组，使每组内的数据都具有某些共同的特征，将为你对数据的进一步处理带来很大的方便。目前的聚类方法有很多种，最常用的是A-均值聚类方法。A-均值聚类方法实现起来很方便，但是它对初始聚类中心的选取很敏感——如果初始聚类中心选取不当，将导致错误的聚类结果。对于海量的结构未知的数据集合，我们通常采用随机采样的方法来产生这个初始聚类中心集合。当fc值越来越大时，初始聚类中心集合选择正确的几率会越来越小。而且，对于^均值聚类方法而言，我们需事先指定类的个数。而对于海量的结构未知的数据集合，我们究竟应该把它分成几类是不知道的。相似度传播数据聚类方法AP (Affinity Propagation, AP, Brendan J. Frey and Delbert Dueck, Clustering by passing messages between data points, 5Wewce, 315(5814): 972-951, 2007)就没有以上缺点。它将两两数据对象之间的相似度作为输入，而且此相似度可以是非对称的，即数据对象^到数据对象B的相似度可以不等于数据对象S到数据对...

【技术保护点】
一种相似度传播数据聚类方法的加速方法，其特征在于包括如下步骤：　　　　１）输入需要聚类的具有Ｎ个数据对象的集合的相似度矩阵Ｓ↓［Ｎ×Ｎ］，ｓ［ｉ，ｊ］≤０，ｉ∈｛１，Λ，Ｎ｝，ｊ∈｛１，Λ，Ｎ｝；　　　　２）将矩阵Ｓ↓［Ｎ×Ｎ］分割成ｋ部分：　　　　＊＊＊　　　　其中　　　　ｋ必须大于１，小于「Ｎ／（４×Ｃ）」，　　　　Ｃ是聚类结果中的类的个数的最大值，　　　　子矩阵Ｓ↓［１１］，Ｓ↓［２２］，Λ，Ｓ↓［ｋｋ］都是方阵，　　　　子矩阵Ｓ↓［１１］，Ｓ↓［２２］，Λ，Ｓ↓［ｋ－１，ｋ－１］的大小是「Ｎ／ｋ」×「Ｎ／ｋ」，　　　　子矩阵Ｓ↓［ｋｋ］的大小是［Ｎ－（ｋ－１）×「Ｎ／ｋ」］×［Ｎ－（ｋ－１）×「Ｎ／ｋ」］；　　　　３）把子矩阵Ｓ↓［１１］，Ｓ↓［２２］，Λ，Ｓ↓［ｋｋ］作为相似度传播数据聚类方法的输入，得到ｋ个可用性矩阵Ａ↓［１１］，Ａ↓［２２］，Λ，Ａ↓［ｋｋ］；　　　　４）将步骤３）中的可用性矩阵Ａ↓［１１］，Ａ↓［２２］，Λ，Ａ↓［ｋｋ］合并，得到整个数据集合的可用性矩阵Ａ′：　　　　＊＊＊　　　　其中　　　　除去Ａ↓［１１］，Ａ↓［２２］，Λ，Ａ↓［ｋｋ］，可用性矩阵Ａ...

【技术特征摘要】
1.一种相似度传播数据聚类方法的加速方法，其特征在于包括如下步骤1)输入需要聚类的具有N个数据对象的集合的相似度矩阵SN×N，s[i，j]≤0，i∈{1，Λ，N}，j∈{1，Λ，N}；2)将矩阵SN×N分割成k部分其中k必须大于1，小于N/(4×C)，C是聚类结果中的类的个数的最大值，子矩阵S11，S22，Λ，Skk都是方阵，子矩阵S11，S22，Λ，Sk-1，k-1的大小是N/k×N/k，子矩阵Skk的大小是[N-(k-1)×N/k]×[N-(k-1)×N/k]；3)把子矩阵S11，S22，Λ，Skk作为相似度传播数据聚类方法的输入，得到k个可用性矩阵A11，A22，Λ，Akk；4)将步骤3)中的可用性矩阵A11，A22，Λ，Akk合并，得到整个数据集合的可用性矩阵A′2.根据权利要求1所述的一种相似度传播数据聚类方法的加速方法，其特征在于所述的输入需要聚类的具有7V个数据对象的集合的相似度矩阵Swxw,小'，y]S0,/e {1,A e {1,A ,w:不同的数据对象z'和_/之间相似度S(7》的度量取决于待聚类的数据对象的类别；对于二维空间中的点，采用负欧氏距离度量任意两个对象之间的相似度，负欧氏距离的公式如下<formula>formula see original document page 3</formula>其中p和g是两个二维的矢量；自相似度^^》代表了对象M乍为聚类中心的合适程度，其值越接近于0，则说明其越适合作为聚类中心；在数据分布未知的情况下，将自相似度s^统一设成所有不同数据对象之间相似度啦力,/Ml,A ,7VWe{l,A ,iV}，y的中值。3.根据权利要求1所述的一种相似度传播数据聚类方法的加速方法，其特征在于所述的把子矩阵^,S22,7V 分别作为相似度传播数据聚类方法的输入，得到A:个可用性矩阵^，h,A ，* :设输入相似度矩阵S的大小为iVxiV :(1) 创建大小...

【专利技术属性】
技术研发人员：吴飞，庄越挺，张绪青，郭同强，夏丁胤，
申请(专利权)人：浙江大学，
类型：发明
国别省市：86[中国|杭州]

全部详细技术资料下载我是这个专利的主人