基于最短路径和密度聚类的图分割方法技术

技术编号:11264617 阅读:83 留言:0更新日期:2015-04-08 10:13
本发明专利技术涉及一种基于最短路径和密度聚类的图分割方法,包括:1.将图G=(V,E)上的任意两点间的距离定义为两点间的最短路径长度,由此获得一个定义了任意两点距离的距离空间;2.利用基于密度的聚类方法对上述步骤一得到的点集进行聚类,并将未能归类的噪声点归为一类;3.将步骤2得到的子集还原成原图分割后的子图。本发明专利技术能够确保分割后的子图具有连通性,且分割速度快,通用性佳。

【技术实现步骤摘要】
【专利摘要】本专利技术涉及一种,包括:1.将图G=(V,E)上的任意两点间的距离定义为两点间的最短路径长度,由此获得一个定义了任意两点距离的距离空间;2.利用基于密度的聚类方法对上述步骤一得到的点集进行聚类,并将未能归类的噪声点归为一类;3.将步骤2得到的子集还原成原图分割后的子图。本专利技术能够确保分割后的子图具有连通性,且分割速度快,通用性佳。【专利说明】
本专利技术涉及一种。
技术介绍
图论中的图是一种计算机科学中最常用的,适用范围很广的抽象数据结构。现实世界中的许多复杂关系都能够用图来表示,如蛋白质的分子结构,社交网络,电路布线等,与图相关的应用涉及了很多领域,传统的有最优运输路线的确定、疾病爆发路径的预测、科技文献的引用关系等;新兴的有社交网络分析、语义Web分析、生物信息网络分析等。图分割(Graph Partit1n)是指对给定图G= (V, E)的节点集合V进行划分。通常的目标是使得划分后,属于同一子图中的节点之间联系较为紧密,不同子图之间的联系较为松散,即子图内部的高耦合性,子图之间的低耦合性。这一技术可以运用于大规模图计算数据分割,社交网络中社区的发现等场景。 近十几年来,随着互联网的普及和Web2.0技术的推动,网页数量增长迅猛,据CNNIC统计,2010年中国网页规模达到600亿,年增长率78.6%,而基于互联网的社交网络也后来居上,如全球最大的社交网络Facebook,已有约7亿用户,国内如QQ空间、人人网等,发展也异常迅猛。真实世界中实体规模的扩张,导致对应的图数据规模迅速增长,动辄有数十亿个顶点和上万亿条边。大规模强调的就是单个图的大规模性,通常包含10亿个以上顶点。面对这样大规模的图,对海量数据处理技术提出了巨大挑战。 目前,常用的图分割算法主要有基于经典割集理论的方法、基于谱分析的图分割算法、基于分治和层次策略的分割算法、几何图分割算法等,这些方法都无法保证分割后所得到的子图是连通的,基于布尔代数的二分树法复杂度高,只能适用于节点规模小的图分割问题,其他启发式图分割算法虽然也能够保证子图的连通,但都是通过结合图的某些特点而得出的方法,只能适用具有特殊结构的图。针对规模巨大,结构复杂的无向图,传统图分割算法无法做到快速而准确的图分割。 何慧等人在中国专利CN101741611B中专利技术了一种基于MLKP/CR算法的无向图分割方法。该方法首先通过对无向图进行规约降低图的规模,然后对得到的较小规模的图进行K划分获得K个自连通的子图,最后对K个子图进行优化求精,使最终所得K个子图能够还原得到原无向图。该方法需要设定参数K,即分割后的子图数,无法适用于初始时难于确定子图数量的图分割问题。 刘静等人在中国专利CN102722639A中专利技术了一种基于进化计算对社会系统进行社区检测的方法。该方法通过构建社会系统对应的加权无向图模型,将社会系统社区检测问题转换为其对应的加权无向图分割问题,提出了一种选取修正模块度Q作为图分割准则的带有进化策略的图分割技术,该方法存在算法收敛性问题。
技术实现思路
有鉴于此,有必要提供一种。 本专利技术提供一种,其特征在于,该方法包括如下步骤:a.设定图G= (V, E),V = {vj,每个节点Vi的类别标记为O ;b.判断V中所有节点的类别是否都不为0,如果V中有节点的类别为0,则随机选取一个类别为O的节点Vj,并计算得到'的邻域集合N(Vp ;c.判断'的邻域集合的密度|N(Vp I是否小于密度阈值minPt,如果Vj的邻域集合的密度| N(v」)|不小于密度阈值minPt,则将Vj的类别标记为k,并令集合X = N(Vj),将 '从集合X中删除;d.判断集合X是否为空,当集合X不为空时,计算集合X中每个节点Vm的邻域集合的密度IN (V J I,当|N (Vm) I不小于minPt时,将N (Vm)中类别为O和-1的节点加入到集合X中;e.对于V中的所有节点重复步骤b至步骤d,直至所有的节点都被标记为非O ;f.将所有标记过的类别相同的节点归为一个子类,并将所有子类节点集合还原成子图。 其中,所述的步骤b还包括:如果V中所有节点的类别均不为0,则直接进入步骤 fo 所述的步骤C还包括:如果Vj的邻域集合的密度IN (V j) I小于密度阈值minPt,则将Vj的类别标记为-1,然后返回步骤b。 所述的步骤d具体包括:dl.判断集合X是否不为空,如果集合X不为空,则随机选取集合X中的一个节点Vm,并判断\的类别是否为-1 ;d2.如果vm的类别不为-1,则计算得到N(Vm) ;d3.判断IN(Vm) I是否小于密度阈值minPt,如果I N(Vm) |不小于密度阈值minPt,则将N(vm)中类别为O和-1的节点加入到集合X中;d4.将Vni的类别标记为k,并将v J人X中删除。 所述的步骤d2还包括:如果\的类别为-1,则直接进入步骤d4。 所述的步骤d3还包括:如果|N(vm)|小于密度阈值minPt,则直接进入步骤d4。 本专利技术一种,采用密度聚类的思想对图进行分割,能够有效地进行图分割。本专利技术能够确保分割后所得的子图具有连通性;当图的规模较大时,也能以较快的速度得到很好的分割效果;具有很好的通用性,能扩展到有向图的分割;能够将孤立点单独归类。 【专利附图】【附图说明】 图1为本专利技术的流程图。 【具体实施方式】 下面结合附图及具体实施例对本专利技术作进一步详细的说明。 参阅图1所示,是本专利技术较佳实施例的作业流程图。 本实施例以加权无向图的分割为例进行说明: 步骤S400,初始化。加权无向图G= (V, E), V = IviKE= {ej,w(ej表示边Oi的权重。密度阈值记为minPt,距离阈值记为minEp。定义两点间的距离为两点间的最短路径长度,最短路径即为可达路径中路径权重之和最小的路径,不可达的节点之间的距离定义为正无穷。 对于一个节点Vi,到Vi的距离小于距离阈值minEp的所有节点构成一个邻域集合N(Vi),Vi是该邻域集合的中心点。 初始设定类别k = 1,并将每个节点的类别标记为O。 步骤S401,判断V中所有节点的类别是否都不为O。如果V中所有节点的类别都不为0,则直接进入步骤S413 ;否则,进入步骤S402。 步骤S402,随机选取一个类别为O的节点Vj,计算得到N(Vj)。 步骤S403,判断Vj的邻域集合的密度|Ν(ν」)|是否小于密度阈值minPt。如果Vj的邻域集合的密度|N(Vj) I小于密度阈值minPt,则进入步骤S404后,返回步骤S402 ;否则,直接进入步骤S405。 步骤S404,将Vj的类别标记为-1。 步骤S405,将Vj的类别标记为k,并令集合X = N(v」),将Vj从集合X中删除。 步骤S406,判断集合X是否不为空。如果集合X为空,则直接进入步骤S412 ;否贝I],如果集合X不为空,则进入步骤S407。 步骤S407,随机选取集合X中的一个节点vm,并判断Vm的类别是否为_1。如果v m的类别为-1,则直接进入步骤S411 ;否则,进入步骤S408。 步骤S408,计算得到N (Vm)。 步骤S409,本文档来自技高网
...

【技术保护点】
一种基于最短路径和密度聚类的图分割方法,其特征在于,该方法包括如下步骤:a.设定图G=(V,E),V={vi},每个节点vi的类别标记为0;b.判断V中所有节点的类别是否都不为0,如果V中有节点的类别为0,则随机选取一个类别为0的节点vj,并计算得到vj的邻域集合N(vj);c.判断vj的邻域集合的密度|N(vj)|是否小于密度阈值minPt,如果vj的邻域集合的密度|N(vj)|不小于密度阈值minPt,则将vj的类别标记为k,并令集合X=N(vj),将vj从集合X中删除;d.判断集合X是否为空,当集合X不为空时,计算集合X中每个节点vm的邻域集合的密度|N(vm)|,当|N(vm)|不小于minPt时,将N(vm)中类别为0和‑1的节点加入到集合X中;e.对于V中的所有节点重复步骤b至步骤d,直至所有的节点都被标记为非0;f.将所有标记过的类别相同的节点归为一个子类,并将所有子类节点集合还原成子图。

【技术特征摘要】

【专利技术属性】
技术研发人员:李刚宁立张涌
申请(专利权)人:中国科学院深圳先进技术研究院
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1