当前位置: 首页 > 专利查询>浙江大学专利>正文

分割式相似度传播数据聚类方法技术

技术编号:2827910 阅读:212 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种相似度传播数据聚类方法的加速方法。首先,分块输入的数据集合的相似度矩阵,并在每个子矩阵上使用相似度传播数据聚类方法对子数据集合进行聚类;然后,把子数据集合的聚类结果以某种方式组合在一起,以此为初始状态,再次使用相似度传播数据聚类方法对整个数据集合进行聚类。本发明专利技术处理大数据量的关系密集型数据集合,可以在更短的时间内得到与相似度传播数据聚类方法基本相同的结果。在保持聚类结果的精度基本不变的前提下,本发明专利技术对于大数据量的关系密集型数据集合的聚类,与相似度传播数据聚类方法相比,有着明显的加速效果。

【技术实现步骤摘要】

本专利技术涉及海量多媒体数据处理领域,尤其涉及一种数据聚类方法。技术背景在信息大爆炸的年代,人们所面对的数据是海量的。在Googlew上搜索汽 车这个关键词,你会得到217, 000, 000个结果;搜索赛车这个关键词, 你的结果数量就只有13, 600, 000 了;搜索蓝色赛车这个关键词,你的结 果数量将进一步下降,只有455, 000。由此可见,对已有数据进行聚类分组, 使每组内的数据都具有某些共同的特征,将为你对数据的进一步处理带来很大 的方便。目前的聚类方法有很多种,最常用的是A-均值聚类方法。A-均值聚类方法实 现起来很方便,但是它对初始聚类中心的选取很敏感——如果初始聚类中心选 取不当,将导致错误的聚类结果。对于海量的结构未知的数据集合,我们通常 采用随机采样的方法来产生这个初始聚类中心集合。当fc值越来越大时,初始 聚类中心集合选择正确的几率会越来越小。而且,对于^均值聚类方法而言,我们需事先指定类的个数。而对于海量的结构未知的数据集合,我们究竟应该 把它分成几类是不知道的。相似度传播数据聚类方法AP (Affinity Propagation, AP, Brendan J. Frey and Delbert Dueck, Clustering by passing messages between data points, 5Wewce, 315(5814): 972-951, 2007)就没有以上缺点。它将两两数据对象之间的相似度作 为输入,而且此相似度可以是非对称的,即数据对象^到数据对象B的相似度 可以不等于数据对象S到数据对象^的相似度。实值信息在数据对象之间交换 传播直至一组高质量的聚类中心和相应的聚类产生。它的工作过程如下输入需要聚类的具有TV个数据对象的集合的相似度矩阵Shw ,不同的数据对 象z'和_/之间相似度s》的度量取决于待聚类的数据对象的类别;对于二维空间 中的点,采用负欧氏距离度量任意两个对象之间的相似度,负欧氏距离的公式 如下<formula>formula see original document page 5</formula>; 和《是两个二维的矢量;自相似度^ 力代表了对象/作为聚类中心的合适程度,其值越接近于0,则 说明其越适合作为聚类中心;在数据分布未知的情况下,将自相似度s^统一 设成所有不同数据对象之间相似度<formula>formula see original document page 6</formula>的中值。1) 创建大小为iVxiV可用性矩阵j和责任矩阵7 ,并将它们全部初始化为0;2) 对于所有的/^,A,iV),根据公式<formula>formula see original document page 6</formula>更新矩阵i 的所有元素;3) 对于所有^0,A,W,根据公式-<formula>formula see original document page 6</formula>更新矩阵X的所有元素;4) 根据公式<formula>formula see original document page 6</formula>4 来确定每个数据对象/的代表点;5) 重复步骤2到步骤4,直至步骤4中公式argmax^(/,力+ K/,川的计算结果 在连续的50次迭代中保持不变,或者总的迭代次数达到最大迭代次数。对 于数据规模为2000的数据集合,这个最大迭代次数为1000。但是,对于关系密集型数据集合,即任意两个对象之间的相似度都是有限的 数据集合,用相似度传播数据聚类方法AP进行聚类时,其运行时间会随着数据 量的增大成三次多项式增长。
技术实现思路
本专利技术的目的是提高相似度传播数据聚类方法AP在处理关系密集型数据 集合时的效率,提供一种相似度传播数据聚类方法的加速方法。相似度传播数据聚类方法的加速方法包括如下步骤l)输入需要聚类的具有W个数据对象的集合的相似度矩阵Swx w,<formula>formula see original document page 7</formula>2)将矩阵Sw^分割成t部分:<formula>formula see original document page 7</formula>A必须大于l,小于LaV(c)」, c是聚类结果中的类的个数的最大值,子矩阵Su,&2,A,&都是方阵,子矩阵SU,S22,A —!的大小是LiVA」xL^A」,子矩阵&的大小是<formula>formula see original document page 7</formula>3) 把子矩阵^,&2,A ,&作为相似度传播数据聚类方法的输入,得到A个可用<formula>formula see original document page 7</formula>4) 将步骤3)中的可用性矩阵—哉八,血合并,得到整个数据集合的可用性<formula>formula see original document page 7</formula>其中除去D2,A ,血,可用性矩阵i的其余部分为0;5)以l作为相似度传播数据聚类方法的初始可用性矩阵,得到最终聚所述的输入需要聚类的具有JV个数据对象的集合的相似度矩阵&x;v, 4U] ^ 0,/ e {1,A ,JV},_/ e {1,A ,iV}:不同的数据对象Z'和_/之间相似度S(7力的度量取 决于待聚类的数据对象的类别;对于二维空间中的点,采用负欧氏距离度量任 意两个对象之间的相似度,负欧氏距离的公式如下<formula>formula see original document page 7</formula>其中p和《是两个二维的矢量;自相似度sO代表了对象M乍为聚类中心的合适程度,其值越接近于0,则 说明其越适合作为聚类中心;在数据分布未知的情况下,将自相似度s^统一 设成所有不同数据对象之间相似度W,力,/e(l,A ,W,六仏A ,W,y的中值。所述的把子矩阵^,&2,A ,&分别作为相似度传播数据聚类方法的输入,得到 t个可用性矩阵A,血设输入相似度矩阵的大小为:1) 创建大小为iVxTV可用性矩阵j和责任矩阵/ ,并将它们全部初始化为0;2) 对于所有的/eO,A,W,根据公式<formula>formula see original document page 8</formula>更新矩阵W的所有元素;3) 对于所有ye(l,A,iV),根据公式<formula>formula see original document page 8</formula>更新矩阵^的所有元素;4) 根据公式<formula>formula本文档来自技高网
...

【技术保护点】
一种相似度传播数据聚类方法的加速方法,其特征在于包括如下步骤:    1)输入需要聚类的具有N个数据对象的集合的相似度矩阵S↓[N×N],s[i,j]≤0,i∈{1,Λ,N},j∈{1,Λ,N};    2)将矩阵S↓[N×N]分割成k部分:    ***    其中    k必须大于1,小于「N/(4×C)」,    C是聚类结果中的类的个数的最大值,    子矩阵S↓[11],S↓[22],Λ,S↓[kk]都是方阵,    子矩阵S↓[11],S↓[22],Λ,S↓[k-1,k-1]的大小是「N/k」×「N/k」,    子矩阵S↓[kk]的大小是[N-(k-1)×「N/k」]×[N-(k-1)×「N/k」];    3)把子矩阵S↓[11],S↓[22],Λ,S↓[kk]作为相似度传播数据聚类方法的输入,得到k个可用性矩阵A↓[11],A↓[22],Λ,A↓[kk];    4)将步骤3)中的可用性矩阵A↓[11],A↓[22],Λ,A↓[kk]合并,得到整个数据集合的可用性矩阵A′:    ***    其中    除去A↓[11],A↓[22],Λ,A↓[kk],可用性矩阵A′的其余部分为0;    5)以A′作为相似度传播数据聚类方法的初始可用性矩阵A↓[N×N],得到最终聚类结果。...

【技术特征摘要】
1.一种相似度传播数据聚类方法的加速方法,其特征在于包括如下步骤1)输入需要聚类的具有N个数据对象的集合的相似度矩阵SN×N,s[i,j]≤0,i∈{1,Λ,N},j∈{1,Λ,N};2)将矩阵SN×N分割成k部分<!--img id=icf0001 file=S2008100591237C00011.gif wi=178 he=102 img-content=drawing img-format=tif/-->其中k必须大于1,小于N/(4×C),C是聚类结果中的类的个数的最大值,子矩阵S11,S22,Λ,Skk都是方阵,子矩阵S11,S22,Λ,Sk-1,k-1的大小是N/k×N/k,子矩阵Skk的大小是[N-(k-1)×N/k]×[N-(k-1)×N/k];3)把子矩阵S11,S22,Λ,Skk作为相似度传播数据聚类方法的输入,得到k个可用性矩阵A11,A22,Λ,Akk;4)将步骤3)中的可用性矩阵A11,A22,Λ,Akk合并,得到整个数据集合的可用性矩阵A′2.根据权利要求1所述的一种相似度传播数据聚类方法的加速方法,其特 征在于所述的输入需要聚类的具有7V个数据对象的集合的相似度矩阵Swxw,小',y]S0,/e {1,A e {1,A ,w:不同的数据对象z'和_/之间相似度S(7》的度量取决于待聚类的数据对象的类别;对于二维空间中的点,采用负欧氏距离度量任 意两个对象之间的相似度,负欧氏距离的公式如下<formula>formula see original document page 3</formula>其中p和g是两个二维的矢量; 自相似度^^》代表了对象M乍为聚类中心的合适程度,其值越接近于0,则 说明其越适合作为聚类中心;在数据分布未知的情况下,将自相似度s^统一 设成所有不同数据对象之间相似度啦力,/Ml,A ,7VWe{l,A ,iV},y的中值。3.根据权利要求1所述的一种相似度传播数据聚类方法的加速方法,其特征 在于所述的把子矩阵^,S22,7V 分别作为相似度传播数据聚类方法的输入,得 到A:个可用性矩阵^,h,A ,* :设输入相似度矩阵S的大小为iVxiV :(1) 创建大小...

【专利技术属性】
技术研发人员:吴飞庄越挺张绪青郭同强夏丁胤
申请(专利权)人:浙江大学
类型:发明
国别省市:86[中国|杭州]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1