当前位置: 首页 > 专利查询>深圳大学专利>正文

一种动态图上的增量结构聚类方法及系统技术方案

技术编号:15747429 阅读:103 留言:0更新日期:2017-07-03 04:52
本发明专利技术适用于网络技术领域,提供了一种动态图上的增量结构聚类方法,包括:接收无向无权简单图,利用图的结构聚类算法对所述无向无权简单图进行初始化处理,得到初始化的广度优先森林及其非树边集合,当检测到插入新的边时,根据所述新的边和初始化后的广度优先森林及其非树边集合进行合并聚类或聚类拆分的处理,得到目标广度优先森林。通过本实施例提供的方法不需要重新计算整个图,仅仅需要更新部分边,就能够重新的划分聚类,本实施例相较于与现有提供的SCAN算法在进行更新操作时速度能够提升3个数量级,解决了现有技术中当出现静态图更新时需要重新计算整个网络,计算过程耗时的问题。

Incremental structure clustering method and system on dynamic graph

The invention is applicable to the technical field of network, provides a dynamic graph clustering incremental structure method includes: receiving undirected and unweighted graph, without initialization processing on the right to a simple graph structure using graph clustering algorithm, get the breadth first forest and non tree edge set initialization, when detected insertion the new edge, according to the edge and initialize the new after the breadth first tree forest and non edge set to merge or split clustering clustering, get the target breadth first forest. The method provided by the embodiment of the do not need to recompute the whole map, only need to update the part edge, can re clustering, this example compared to provide the existing SCAN algorithm can enhance the 3 orders of magnitude in the update operation speed is solved in the prior art when the static map updates need re calculation of the whole network, the calculation process and time-consuming problem.

【技术实现步骤摘要】
一种动态图上的增量结构聚类方法及系统
本专利技术属于网络
,尤其涉及一种动态图上的增量结构聚类方法及系统。
技术介绍
随着信息技术的快速发展,各种真实的网络所形成的图数据随处可见。例如社交网络、通信网络以及生物网络。每种网络中都包含对应的社区结构,发现这些隐含的社区结构在现实生活中意义重大并且有很多的应用。在生物网络中,一个社区可能代表具有相同性质的分子。在社交网络中,一个社区可能代表着关系比较紧密的团体。图的聚类是发现这些社区的一个重要的手段。在过去十年里,针对图的聚类,研究人员提出了大量的模型和相关的算法。在这些算法中,SCAN算法(StructuralClusteringAlgorithmonNetworks,图的结构聚类算法)是一个非常卓越的模型,并且在实际应用中取得了很好的效果。相对于其他的图的聚类算法,SCAN不仅能够找到图中的社区还能发现边界点(outliers)和桥结点(hubs)。SCAN算法思想和基于密度聚类的DBCSAN(Density-BasedSpatialClusteringofApplicationswithNoise)算法很相似。具体地说,SCAN算法首先定义了图中边的两个结点的结构相似性。如过一条边的结构相似性大于给定的阈值ε,就会保存它,若小于给定的阈值则删除。最终,当与某个结点相关联的并且满足结构相似性的边的个数至为k(手动设置的阈值)时,称该结点为一个核心点,然后该算法从该核心点出发,不断的扩展,从而得到其中一个聚类。SCAN算法对于静态图的聚类具有很好的效果。但是在真实的世界里所形成的网络总是在不断地更新。如果用原始的SCAN算法去计算更新后的图,每次更新都需要重新计算整个网络,这个过程则非常的耗时。因为SCAN算法本身的时间复杂度是O(m1.5),(其中m是边的条数)是非线性的算法。
技术实现思路
本专利技术所要解决的技术问题在于提供一种动态图上的增量结构聚类方法及系统,旨在解决现有技术中当出现静态图更新时需要重新计算整个网络,计算过程耗时的问题。本专利技术是这样实现的,一种动态图上的增量结构聚类方法,包括:接收无向无权简单图,利用图的结构聚类算法对所述无向无权简单图进行初始化处理,得到初始化的广度优先森林及其非树边集合;当检测到插入新的边时,根据所述新的边和初始化后的广度优先森林及其非树边集合进行合并聚类或聚类拆分的处理,得到目标广度优先森林。进一步地,所述利用图的结构聚类算法对所述无向无权简单图进行初始化处理,得到初始化的广度优先森林及其非树边集合包括:遍历所述无向无权简单图,得到所有未处理的结点;判断当前的结点是否是核心结点,若否,则判断下一结点是否为核心结点;若是,则生成聚类编号给作为核心结点的结点,将所述作为核心结点的结点的直接可达且未被处理的邻居插入至预置队列,并将所述作为核心结点的结点作为其余未被处理的结点在其广度优先森林中的父亲结点;当判断所述预置队列不为空时,获取所述预置队列的首元素,并找出所述首元素的所有直接可达邻居;判断所述首元素的邻居是否已被处理,若未被处理,则给未处理的邻居分配队列编号后插入预置队列,并将所述首元素作为插入预置队列的邻居在其对应的广度优先森林中的父亲结点;若所述首元素的邻居已被处理,则将所述首元素和所述已被处理的邻居组成的边插入所述非树边集合。进一步地,所述当检测到插入新的边时,根据所述新的边和初始化后的广度优先森林及其非树边集合进行合并聚类或聚类拆分的处理,得到目标广度优先森林包括:当检测到插入新的边时,获取所述新的边的任一端点的结构相似性改变的边的集合,及所述新的边的两个端点的所有邻居的并集;计算所述结构相似性改变的边的集合中所有边的相似性,得到结构相似性参数;获取所述新的边的两个端点的所有邻居的并集中的所有结点,并判断当前结点是否为核心结点,若是,则合并需要合并的聚类,若否,则判断下一结点是否为核心点;判断所述结构相似性改变的边的集合中的边的结构相似性参数,若当前的边的结构相似性参数满足断裂条件,则断裂当前的边对应的广度优先森林,若当前边的结构相似性参数不满足断裂条件,则判断下一个边的结构相似形参数是否满足断裂条件;遍历所述非树边集合,合并需要合并的广度优先森林,形成目标广度优先森林。进一步地,以w表示所述核心结点,以v表示所述新的边的两个端点的所有邻居的并集中的任意一个结点,以ewv表示以w和v为端点的边,则所述合并需要合并的聚类包括:遍历w的所有邻居结点,若w直接可达v,则判断v的聚类与w的聚类是否相同;若v不属于任何聚类,则将v加入到w对应的聚类;若v的所属聚类与w的聚类不同,则判断v是否为核心结点,若v是核心结点,则合并v所属的聚类和w所属的聚类,若v不是核心结点,则将ewv插入所述非树边集合;若v所属聚类与w的聚类相同,则判断v和w是否在广度优先树中存在父子关系,若不存在,则将ewv插入所述非树边集合。进一步地,分别以u和v表示当前的边的两个端点,euv表示以w和v为端点的边,则断裂当前的边对应的广度优先森林包括:判断u和v是否为核心结点;若u和v均为核心结点,则判断u和v是否有直接父子关系,若没有,则从所述非树边集合中删除euv,若有,则从广度优先树中删除euv;若u和v其中一个为核心结点,则判断u和v是否有直接父子关系,若没有,则从所述非树边集合中删除euv,若有,则从广度优先树中删除euv;若u和v均不是核心结点,则判断u在插入新的边之前是否为核心结点;若u在插入新的边之前是核心结点,则判断u是否为v的父亲结点,若是,则从广度优先树中删除euv,若否,则从所述非树边集合中删除euv;若u在插入新的边之前非核心结点,且v在插入新的边之前是核心结点,则判断v是否为u的父亲结点,若是,则从广度优先树中删除evu,若否,则从所述非树边集合中删除euv。本专利技术实施例提供了一种动态图上的增量结构聚类系统,包括:初始化单元,用于接收无向无权简单图,利用图的结构聚类算法对所述无向无权简单图进行初始化处理,得到初始化的广度优先森林及其非树边集合;动态更新单元,用于当检测到插入新的边时,根据所述新的边和初始化后的广度优先森林及其非树边集合进行合并聚类或聚类拆分的处理,得到目标广度优先森林。进一步地,所述初始化单元具体用于:遍历所述无向无权简单图,得到所有未处理的结点;判断当前的结点是否是核心结点,若否,则判断下一结点是否为核心结点;若是,则生成聚类编号给作为核心结点的结点,将所述作为核心结点的结点的直接可达且未被处理的邻居插入至预置队列,并将所述作为核心结点的结点作为其余未被处理的结点在其广度优先森林中的父亲结点;当判断所述预置队列不为空时,获取所述预置队列的首元素,并找出所述首元素的所有直接可达邻居;判断所述首元素的邻居是否已被处理,若未被处理,则给未处理的邻居分配队列编号后插入预置队列,并将所述首元素作为插入预置队列的邻居在其对应的广度优先森林中的父亲结点;若所述首元素的邻居已被处理,则将所述首元素和所述已被处理的邻居组成的边插入所述非树边集合。进一步地,所述动态更新单元包括:集合获取模块,用于当检测到插入新的边时,获取所述新的边的任一端点的结构相似性改变的边的集合,及所述新的边的两个端点的所有邻居的并集;本文档来自技高网
...
一种动态图上的增量结构聚类方法及系统

【技术保护点】
一种动态图上的增量结构聚类方法,其特征在于,包括:接收无向无权简单图,利用图的结构聚类算法对所述无向无权简单图进行初始化处理,得到初始化的广度优先森林及其非树边集合;当检测到插入新的边时,根据所述新的边和初始化后的广度优先森林及其非树边集合进行合并聚类或聚类拆分的处理,得到目标广度优先森林。

【技术特征摘要】
1.一种动态图上的增量结构聚类方法,其特征在于,包括:接收无向无权简单图,利用图的结构聚类算法对所述无向无权简单图进行初始化处理,得到初始化的广度优先森林及其非树边集合;当检测到插入新的边时,根据所述新的边和初始化后的广度优先森林及其非树边集合进行合并聚类或聚类拆分的处理,得到目标广度优先森林。2.如权利要求1所述的增量结构聚类方法,其特征在于,所述利用图的结构聚类算法对所述无向无权简单图进行初始化处理,得到初始化的广度优先森林及其非树边集合包括:遍历所述无向无权简单图,得到所有未处理的结点;判断当前的结点是否是核心结点,若否,则判断下一结点是否为核心结点;若是,则生成聚类编号给作为核心结点的结点,将所述作为核心结点的结点的直接可达且未被处理的邻居插入至预置队列,并将所述作为核心结点的结点作为其余未被处理的结点在其广度优先森林中的父亲结点;当判断所述预置队列不为空时,获取所述预置队列的首元素,并找出所述首元素的所有直接可达邻居;判断所述首元素的邻居是否已被处理,若未被处理,则给未处理的邻居分配队列编号后插入预置队列,并将所述首元素作为插入预置队列的邻居在其对应的广度优先森林中的父亲结点;若所述首元素的邻居已被处理,则将所述首元素和所述已被处理的邻居组成的边插入所述非树边集合。3.如权利要求1所述的增量结构聚类方法,其特征在于,所述当检测到插入新的边时,根据所述新的边和初始化后的广度优先森林及其非树边集合进行合并聚类或聚类拆分的处理,得到目标广度优先森林包括:当检测到插入新的边时,获取所述新的边的任一端点的结构相似性改变的边的集合,及所述新的边的两个端点的所有邻居的并集;计算所述结构相似性改变的边的集合中所有边的相似性,得到结构相似性参数;获取所述新的边的两个端点的所有邻居的并集中的所有结点,并判断当前结点是否为核心结点,若是,则合并需要合并的聚类,若否,则判断下一结点是否为核心点;判断所述结构相似性改变的边的集合中的边的结构相似性参数,若当前的边的结构相似性参数满足断裂条件,则断裂当前的边对应的广度优先森林,若当前边的结构相似性参数不满足断裂条件,则判断下一个边的结构相似形参数是否满足断裂条件;遍历所述非树边集合,合并需要合并的广度优先森林,形成目标广度优先森林。4.如权利要求3所述的增量结构聚类方法,其特征在于,以w表示所述核心结点,以v表示所述新的边的两个端点的所有邻居的并集中的任意一个结点,以ewv表示以w和v为端点的边,则所述合并需要合并的聚类包括:遍历w的所有邻居结点,若w直接可达v,则判断v的聚类与w的聚类是否相同;若v不属于任何聚类,则将v加入到w对应的聚类;若v的所属聚类与w的聚类不同,则判断v是否为核心结点,若v是核心结点,则合并v所属的聚类和w所属的聚类,若v不是核心结点,则将ewv插入所述非树边集合;若v所属聚类与w的聚类相同,则判断v和w是否在广度优先树中存在父子关系,若不存在,则将ewv插入所述非树边集合。5.如权利要求3所述的增量结构聚类方法,其特征在于,分别以u和v表示当前的边的两个端点,euv表示以w和v为端点的边,则断裂当前的边对应的广度优先森林包括:判断u和v是否为核心结点;若u和v均为核心结点,则判断u和v是否有直接父子关系,若没有,则从所述非树边集合中删除euv,若有,则从广度优先树中删除euv;若u和v其中一个为核心结点,则判断u和v是否有直接父子关系,若没有,则从所述非树边集合中删除euv,若有,则从广度优先树中删除euv;若u和v均不是核心结点,则判断u在插入新的边之前是否为核心结点;若u在插入新的边之前是核心结点,则判断u是否为v的父亲结点,若是,则从广度优先树中删除euv,若否,则从所述非树边集合中删除euv;若u在插入新的边之前非核心结点,且v在插入新的边之前是核心结点,则判断v是否为u的父亲结点,若是,则从广度优先树中删除evu...

【专利技术属性】
技术研发人员:陈亚中李荣华李振军代强强张伟鹏
申请(专利权)人:深圳大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1