The present invention provides a method for determining the relevance of data. The method includes the following steps: first, the data of graph G is clustered to obtain N clusters; the second step is to merge the N clusters, and generate K clusters, K < N. The method of the invention solves the slow process to determine the data association in the prior art, the defect clustering quality is not high enough, to provide high quality clustering can also ensure faster processing speed.
【技术实现步骤摘要】
一种数据关联性的确定方法
本专利技术涉及信息
,具体涉及一种数据关联性的确定方法。
技术介绍
聚类分析是根据对象之间的相似度将对象划分成不同的簇,使得同一簇内的对象相似度最大化,而不同簇之间的对象相似度最小化。聚类分析中的图聚类是指把图分成互不相交的一些子图,使得同一子图内的节点具有较高的紧密性,而子图之间的各节点紧密性较低。一个图通常表示为G=(V,E,W),其中V是节点的集合,E是边的集合,W是边权重。图聚类问题就是把图G划分成K个互不相交的子图Gi=(V,E,W),i=1,2,…,K。现有技术中的图聚类方法存在以下不足之处:1)分割质量不够高,易产生小聚类;2)计算速度较慢等问题.
技术实现思路
本专利技术的主要目的在于克服上述现有技术的缺陷,提供了一种数据关联性的确定方法,以解决现有技术中数据关联性确定过程中速度较慢,聚类质量不够高的缺陷,在能够提供高质量的聚类结果的同时,保证了较快的处理速度。本专利技术一方面提供一种数据关联性的确定方法,包括以下步骤:第一步,对图G的数据进行聚类,获得N个簇,G‘={G’i},i=1,2,…,N;第二步,对获得的所述N ...
【技术保护点】
一种数据关联性的确定方法,其特征在于,包括以下步骤:第一步,对图G的数据进行聚类,获得N个簇;第二步,对获得的所述N个簇,进行归并,生成K个簇,K<N;其中,第一步进一步包括以下步骤:第1.1步,计算图G的邻接矩阵A;第1.2步,对每个节点添加自环,即A′:=A+I,;其中,I为对角线元素为1的对角矩阵;第1.3步,计算转移概率矩阵M:
【技术特征摘要】
1.一种数据关联性的确定方法,其特征在于,包括以下步骤:第一步,对图G的数据进行聚类,获得N个簇;第二步,对获得的所述N个簇,进行归并,生成K个簇,K<N;其中,第一步进一步包括以下步骤:第1.1步,计算图G的邻接矩阵A;第1.2步,对每个节点添加自环,即A′:=A+I,;其中,I为对角线元素为1的对角矩阵;第1.3步,计算转移概率矩阵M:M(i,j)代表节点vi到节点vj的转移概率;第1.4步,M进行扩展参数为e的扩展操作,其中,e为大于1的正整数,得到矩阵M1;M1=Mexp=Expand(M,e)=Me第1.5步,对M1进行膨胀参数为r的膨胀操作,膨胀参数r为正实数,得到矩阵M2;重复执行步骤1.4、步骤1.5步,直至矩阵M2不发生变化,此时生成稳定的转移矩阵M2;第1.6步,对稳定的转移矩阵M2并进行归类,获得N个簇。2.根据权利要求1的方法,其特征在于,其中所述第1.6步对稳定的转移矩阵M2并进行归类具体为,对于M2中的每一行,将吸引节点与被吸引节点归为一类。3.根据权利要求1或2的方法,其特征在于,其中所述重复执行步骤1.4、步骤1.5步之前,将M2中的每列中小于0.0001的元素移除。4.根据权利要求1-3任一所述的方法,其特征在于,所述第二步具体为:第2.1步,针对N个簇中的每个簇G’i,计算与其邻近的每个簇G’j之间的相似度;Sim(G’i,G’j)=RC(G’i,G’j)×RI(G’i,G’j)α其中,RC为簇之间的近似度,RI为簇之间的互连度;α是互连度的重要度参数;...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。