【技术实现步骤摘要】
本专利技术涉及海量多媒体数据处理领域,尤其涉及一种数据聚类方法。技术背景在信息大爆炸的年代,人们所面对的数据是海量的。在Googlew上搜索汽 车这个关键词,你会得到217, 000, 000个结果;搜索赛车这个关键词, 你的结果数量就只有13, 600, 000 了;搜索蓝色赛车这个关键词,你的结 果数量将进一步下降,只有455, 000。由此可见,对已有数据进行聚类分组, 使每组内的数据都具有某些共同的特征,将为你对数据的进一步处理带来很大 的方便。目前的聚类方法有很多种,最常用的是A-均值聚类方法。A-均值聚类方法实 现起来很方便,但是它对初始聚类中心的选取很敏感——如果初始聚类中心选 取不当,将导致错误的聚类结果。对于海量的结构未知的数据集合,我们通常 采用随机采样的方法来产生这个初始聚类中心集合。当fc值越来越大时,初始 聚类中心集合选择正确的几率会越来越小。而且,对于^均值聚类方法而言,我们需事先指定类的个数。而对于海量的结构未知的数据集合,我们究竟应该 把它分成几类是不知道的。相似度传播数据聚类方法AP (Affinity Propagation, AP, Brendan J. Frey and Delbert Dueck, Clustering by passing messages between data points, 5Wewce, 315(5814): 972-951, 2007)就没有以上缺点。它将两两数据对象之间的相似度作 为输入,而且此相似度可以是非对称的,即数据对象^到数据对象B的相似度 可以不等于数据对象S到数据对 ...
【技术保护点】
一种相似度传播数据聚类方法的加速方法,其特征在于包括如下步骤: 1)输入需要聚类的具有N个数据对象的集合的相似度矩阵S↓[N×N],s[i,j]≤0,i∈{1,Λ,N},j∈{1,Λ,N}; 2)将矩阵S↓[N×N]分割成k部分: *** 其中 k必须大于1,小于「N/(4×C)」, C是聚类结果中的类的个数的最大值, 子矩阵S↓[11],S↓[22],Λ,S↓[kk]都是方阵, 子矩阵S↓[11],S↓[22],Λ,S↓[k-1,k-1]的大小是「N/k」×「N/k」, 子矩阵S↓[kk]的大小是[N-(k-1)×「N/k」]×[N-(k-1)×「N/k」]; 3)把子矩阵S↓[11],S↓[22],Λ,S↓[kk]作为相似度传播数据聚类方法的输入,得到k个可用性矩阵A↓[11],A↓[22],Λ,A↓[kk]; 4)将步骤3)中的可用性矩阵A↓[11],A↓[22],Λ,A↓[kk]合并,得到整个数据集合的可用性矩阵A′: *** 其中 除去A↓[11],A↓[22],Λ,A↓[kk],可用性矩阵A ...
【技术特征摘要】
1.一种相似度传播数据聚类方法的加速方法,其特征在于包括如下步骤1)输入需要聚类的具有N个数据对象的集合的相似度矩阵SN×N,s[i,j]≤0,i∈{1,Λ,N},j∈{1,Λ,N};2)将矩阵SN×N分割成k部分<!--img id=icf0001 file=S2008100591237C00011.gif wi=178 he=102 img-content=drawing img-format=tif/-->其中k必须大于1,小于N/(4×C),C是聚类结果中的类的个数的最大值,子矩阵S11,S22,Λ,Skk都是方阵,子矩阵S11,S22,Λ,Sk-1,k-1的大小是N/k×N/k,子矩阵Skk的大小是[N-(k-1)×N/k]×[N-(k-1)×N/k];3)把子矩阵S11,S22,Λ,Skk作为相似度传播数据聚类方法的输入,得到k个可用性矩阵A11,A22,Λ,Akk;4)将步骤3)中的可用性矩阵A11,A22,Λ,Akk合并,得到整个数据集合的可用性矩阵A′2.根据权利要求1所述的一种相似度传播数据聚类方法的加速方法,其特 征在于所述的输入需要聚类的具有7V个数据对象的集合的相似度矩阵Swxw,小',y]S0,/e {1,A e {1,A ,w:不同的数据对象z'和_/之间相似度S(7》的度量取决于待聚类的数据对象的类别;对于二维空间中的点,采用负欧氏距离度量任 意两个对象之间的相似度,负欧氏距离的公式如下<formula>formula see original document page 3</formula>其中p和g是两个二维的矢量; 自相似度^^》代表了对象M乍为聚类中心的合适程度,其值越接近于0,则 说明其越适合作为聚类中心;在数据分布未知的情况下,将自相似度s^统一 设成所有不同数据对象之间相似度啦力,/Ml,A ,7VWe{l,A ,iV},y的中值。3.根据权利要求1所述的一种相似度传播数据聚类方法的加速方法,其特征 在于所述的把子矩阵^,S22,7V 分别作为相似度传播数据聚类方法的输入,得 到A:个可用性矩阵^,h,A ,* :设输入相似度矩阵S的大小为iVxiV :(1) 创建大小...
【专利技术属性】
技术研发人员:吴飞,庄越挺,张绪青,郭同强,夏丁胤,
申请(专利权)人:浙江大学,
类型:发明
国别省市:86[中国|杭州]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。