在网络中识别相似子图的方法和设备技术

技术编号:4317626 阅读:322 留言:0更新日期:2012-04-11 18:40
本发明专利技术提出了一种从大网络图形中寻找与给定子图相似的子图的方法和系统,尤其适用于寻找大网络图形中的相似群落结构。当样本子图是群落结构时,其中通常包含紧密关联的大量节点,因此可以通过样本子图中的关键节点而进行筛选以寻找与样本子图相似的候选子图,然后再严格地比较每个候选子图与样本子图,以确定与样本子图相似的子图。

【技术实现步骤摘要】

本专利技术涉及网络中的相似子图的识别,进一步涉及包含群落的网 络中的相似子图识别。
技术介绍
许多现代应用处理能够被表示为图的对象。例如,交通运输需要处理道路网络,CAD/CAM应用需要组织电子或电路元件,图形识别 和计算机视觉应用程序需要对未知对象进行分类,化学和分子生物学 需要操作分子。在上述以及更多的应用中,对象的本质是结构性的 (structural )并因此能够被作为图考虑。例如,图可以被表示为G(V, E),由一组节点V以及一组边E组成, 一条边连接两个节点。图1 示出了一个简单的网络图形的例子。在许多领域,所涉及的对象非常 多,对象之间的关系也很复杂,因此可以被表示为巨大且复杂的网络 图形。为了更好的理解本专利技术,以下介绍网络图形处理中的一些常用 术语。通常把图分为几类,包括单图、伪图(带有环)、多图(两条或多 条边连接一对节点)、有向图(边具有方向)、加权图(每条边有相 关的权重)等。为了便于讨论,本专利技术的具体实施例是结合单图来举 例的。图之间的相似度可以通过计算图之间的距离(distance )来实现。 图之间的距离越小,则图相似度越高。如果图之间的距离是0,则可 以认为图是完全相同的。度量图之间的距离通常有两种方式-基于特征的距离(feature-based distance ):从对象的结构表示 中提取一组特征,这些特征被用作n维向量,从而可以计算欧几里德 空间距离。-基于成本的距离(cost-based distance):两个对象之间的距离度量了把第一对象变换为第二对象所需要的操造(编辑)次数。现有技术中已经提出若干使用上述方式之一来计算图相似度的方法,例如 Apostolos N. Papadopoulos, Yannis Manolopoulos 的 "Structure-Based Similarity Search with Graph Histograms", 10th International Workshop on Database & Expert Systems Applications, pp. 174-178, September 1-3, 1999,就是基于成本函数来计算图形相似 度;还例如J. Raymond, E. Gardiner, and P. Willett的"Rascal: Calculation of Graph Similarity Using Maximum Common Edge Subgraphs", 77re CV 附戸/c vol. 45, no. 6, pp. 631-644, 2002;还例如 A. sanfeliu 和 K.-S.Fu 的"A Distance Measure between Attributed Relational Graphs for Pattern Recognition", 7Vwi5"""/o/w < 5^他附s, Man and Cybernetics, vol.13, pp.353-362, 1983。网络图形领域经常面临的一个问题是如何从一个大且复杂的网络 图形中检测群落结构(community structure )。所谓的群落是顶点V 組成的一些子集,每个子集中的顶点之间的连接很密集,而子集和子 集之间的连接很疏松,如图2所示。这种不均匀的连接表明了所述网 络内有某种程度的自然分割。群落结构在真实的网络中是很常见的。 例如,社区网络经常包含基于共同的位置、兴趣、职业等的群落。新 陈代谢网络具有基于功能性分组的群落。通过识别网络内的这些子结 构,能够深入理解网络的功能和拓朴结构。找出任意网络中的群落是一个艰巨的任务。网络中的群落数目(如 果有的话)通常是未知的,群落经常具有不同的大小和密度。尽管有 这些困难,但是现有技术中已经提出了一些方法来寻找群落。最早的 一种算法是把网络分割,即最小切割方法(Minimum-cut method), 其变体为比例切割、规范切割等。该方法应用于例如并行计算的负载 平衡,以最小化处理器节点之间的通信。在最小切割方法中,网络被 分割为预定数目的部分(组),每个部分的大小通常基本相同,其被 选择为使每组之间的边数是最小化的。该方法在为其最初设计的多个领域表现不错,但是在一般的网络中寻找群落时并不理想,因为它不 考虑群落是否隐含在网络中,而且只寻找固定数目的群落。此外,一种最广泛使用的群落检测方法是模块最大化(Modularity Maximization)。模块是一种利益函数,其度量把网络分为群落的特定 分割的质量。模块最大化方法搜索网络的可能分割以寻找一个或多个 具有特别高的模块化程度的分割,从而检测出群落。由于穷尽式地搜 索所有可能的分割通常是不可能的,因此提出了一些实际算法来近似 优化,例如贪婪算法、仿真退火、或光i普优化等。但是,当上述这些方法应用于巨大且复杂的网络图形时,所要求 的计算量也是巨大的,常常是0(113)数量级的计算复杂度。因此,釆 用现有方法来从巨大网络中寻找相似的子图(例如,群落结构)是有 难度的。
技术实现思路
为了解决上述问题,本专利技术提出了一种从巨大的网络图形中寻找 与样本子图相似的子图的方法和系统,尤其适用于寻找巨大网络图形 中相似的群落结构。具体而言,当样本子图是群落结构时,其中通常 包含大量的紧密关联的节点,因此可以通过群落结构中的关键节点而 进行篩选以寻找与样本子图相似的候选子图,然后再严格地比较每个 候选子图与样本子图,以确定与样本子图相似的子图。本专利技术的一个主要优点是,首先通过处理样本子图的关键节点而 进行预筛选,再从筛选结果中进行严格比较。这样减少了需要严格比 较的网络图形规模,从而极大地提高了性能。本专利技术一方面提出了一种从网络中识别可能与样本子图相似的候 选子图的方法,包括确定所述样本子图中的样本关键节点;从所述 网络中选择与所述样本关键节点相似的关键节点;把所选出的相似关 键节点分组;分别把至少一个相似关键节点组扩展为相应的候选子图。本专利技术另一方面还提出了一种从网络中识别与样本子图相似的子 图的方法,包括确定所述样本子图中的样本关键节点;从所述网络7中选择与所述样本关键节点相似的关键节点;把所选出的相似关键节 点分组;分别把至少一个相似关键节点组扩展为相应的候选子图;比 较每个候选子图与所述样本子图,从而识别所述网络中与所述样本子 图相似的子图。本专利技术另一方面还提出了一种从网络中识别与样本子图相似的子 图的设备,包括样本关键节点提取单元,用于从所述样本子图中提 取样本关键节点;相似关键节点提取单元,用于从所述网络中选择与 所述样本关键节点相似的关键节点;关键节点分组单元,用于所选出 的相似关键节点分组;扩展单元,用于分别把至少一个相似关键节点 组扩展为相应的候选子图;比较单元,用于比较每个候选子图与所述 样本子图,从而识别所述网络中与所述样本子图相似的子图。附图说明这里所公开的系统和方法在其各种实施例中克服了上述现有技术 的缺点,并且实现了这种系统和方法之前不可能存在的优点。以下将参考附图更完整地描述本专利技术,附图示出了本专利技术的优选 实施例。但是本专利技术可体现在许多其他的形式本文档来自技高网
...

【技术保护点】
一种从网络中识别与样本子图相似的子图的方法,包括:    确定所述样本子图中的样本关键节点;    从所述网络中选择与所述样本关键节点相似的关键节点;    把所选出的相似关键节点分组;    分别把至少一个相似关键节点组扩展为相应的候选子图;    比较每个候选子图与所述样本子图,从而识别所述网络中与所述样本子图相似的子图。

【技术特征摘要】

【专利技术属性】
技术研发人员:钱伟红刘世霞曹楠
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1