当前位置: 首页 > 专利查询>吉林大学专利>正文

基于马尔科夫过程亚稳性的复杂网络簇结构分析和识别方法技术

技术编号:4031269 阅读:398 留言:0更新日期:2012-04-11 18:40
一种基于马尔科夫(Markov)过程亚稳性的复杂网络簇结构分析和识别方法,包括下列主要步骤:构造给定复杂网络上的马尔科夫过程;计算该马尔科夫过程的转移概率矩阵;计算矩阵的特征值;通过分析特征值计算出网络簇个数;计算马尔科夫过程的第一个亚稳态;根据第一个亚稳态识别出网络的全部网络簇及其层次结构。本发明专利技术为复杂网络簇分析和识别提供一种全新和高效的方法,与现有同类方法相比,具有无偏(不依赖主观定义的优化目标或启发式规则)、计算速度快(具有近似线性的计算时间复杂性)、识别精度高(能够准确识别出现实世界中复杂网络的网络簇及其层次结构)和无监督(不需要先验知识)的特性。

【技术实现步骤摘要】

本专利技术属于模式识别和数据挖掘领域,尤其涉及社会网、万维网和生物网络等复 杂网络的分析。
技术介绍
现实世界中的诸多系统都以网络形式存在,如社会系统中的人际关系网、科学家 协作网和流行病传播网,生态系统中的神经元网、基因调控网和蛋白质交互网,科技系统中 的电网、因特网和万维网等。由于这些网络具有很高的复杂性,因此被称为“复杂网络”。与 小世界性和无标度性并列,复杂网络簇结构(CNCS)是复杂网络最普遍和最重要的拓扑结 构属性之一,具有同簇节点相互连接紧密、异簇节点相互连接稀疏的特点。CNCS识别方法旨 在揭示出复杂网络中真实存在的网络簇结构。CNCS识别方法对分析复杂网络的拓扑结构、理解其功能、发现其隐模式和预测其 行为都具有十分重要的意义,具有广泛的应用前景,目前已被应用于恐怖组织识别、组织机 构管理等社会网络分析,新陈代谢网络分析、蛋白质交互网络分析和未知蛋白质功能预测、 基因调控网络分析和主控基因识别等生物网络分析,万维网社区挖掘和基于主题词的万维 网文档聚类,搜索引擎,空间数据聚类和图像分割,关系数据分析等众多领域。目前已存在多种CNCS识别算法,按照所采用的基本求解策略,它们中的大多数可 归属为两大类基于优化的识别方法和启发式识别方法。前者将CNCS识别问题转化为优化 问题,通过最优化预定义的目标函数来计算复杂网络的簇结构,后者基于预定义的启发式 规则设计启发式算法。谱方法和局部搜索方法是两类主要的基于优化的CNCS识别方法。谱方法和局部搜索方法是两类主要的基于优化的CNCS识别方法。谱方法将网络 聚类问题转化为二次型优化问题,通过计算特殊矩阵的特征向量来优化预定义的“截”函 数。谱方法具有严密的数学理论,已发展成聚类的一种重要方法(称为谱聚类法),被广 泛应用于图分割和空间点聚类等领域。但是,针对CNCS识别,谱方法的主要不足是需要 借助先验知识定义递归终止条件,即谱方法不具备自动识别网络簇总数的能力。1970年的 Kernighan-Lin算法、2004年的快速Newman算法和2005年的Guimera-Amaral算法是三个 典型的基于局部搜索优化技术的CNCS识别算法。这类算法都包含三个基本部分目标函 数、候选解的搜索策略和最优解的搜索策略,但在具体实现上各不相同。其后提出的具有代 表性的基于优化的CNCS识别算法有2008年提出的基于极大似然的CNCS识别算法、2009 年提出的改进谱方法和2010年提出的基于蒙特卡洛方法的CNCS识别算法。采用优化方法识别出的网络簇结构完全取决于优化目标,因此“有偏”的目标函数 会导致“有偏”的解(即得到的网络簇结构和真实存在的网络簇结构不符)。值得注意的是, 包括以上提到的快速Newman算法和Guimera-Amaral算法在内,很多基于优化的CNCS识别 方法都以最大化2002年Newman提出的Q函数作为优化目标。然而研究发现,Q函数是有偏 的,并不能完全准确地刻画真实的网络簇结构。例如,对于基准测试数据Karate社会网络而言,其真实的网络簇结构对应的Q值是局部极大值,而非全局最大值。2004年,Guimera 等研究发现,对于某些随机网络,由于受到扰动的影响,明显不好的网络簇结构却对应相对 较高的Q值。2007年,Fortunato和Barthelemy系统地研究了 Q函数对识别精度的影响, 指出基于优化Q函数的CNCS识别算法倾向于找到粗糙的而不是精细的网络簇结构。这意 味着,在多数情况下这类算法不能识别出网络中真实存在的全部网络簇。2002 年的 MFC (Maximum Flow Community)算法、2002 年的 Girvan-Newman (GN)算 法、2004 年的 Wu-Huberman(WH)算法和 2005 年的 CPM(Clique Percolation Method)算法 等是典型的启发式CNCS识别算法。其后提出的具有代表性的启发式算法还包括2008年 提出的层次聚类算法、2009年提出的基于信息论的CNCS识别算法、2010年提出的基于拉普 拉斯动力性的多粒度CNCS识别算法等。这类算法的共同特点是基于某些直观的假设来设 计算法采用的启发式信息,对于大部分网络,它们能够快速地找一个近似最优解,但无法从 理论上严格保证它们对任何的输入网络都能找到令人满意的解。综上所述,尽管已存在多种方法,但都具有各自的局限性,CNCS识别问题还远远 没有被很好解决,集中体现在以下2个方面第一,从理论上我们还没有客观地认识清楚网络簇结构的本质含义。目前我们还 无法回答类似如下的基本问题网络簇结构是怎么形成的?它与网络的其它性质有什么必 然联系?它与网络自身的哪些内在属性有关?因此,现阶段我们不得不通过观察有簇网络 所展示出的“外在”现象去理解网络簇概念,进而借助“主观”定义的目标函数或启发式规则 去刻画和识别CNCS。如前分析,基于这些目标函数或启发式规则的算法常常会导致“有偏” 的计算结果,并且采用不同的目标函数或启发式规则常常会计算出不同的CNCS。因此,一个 基本问题是从网络的“内在”属性出发,我们能否给出一种“客观”的理论模型去解释、刻 画和识别CNCS。第二,现有的CNCS识别算法都具有各自的局限性,不能同时满足无偏、计算速度 快、识别精度高、无监督(即不依赖先验知识、对参数不敏感)等基本要求。通过定性和定 量的分析、比较现有的主要算法后发现,识别精度高的算法往往具有很高时间复杂性(高 于0(n2)),而快速的识别算法往往以牺牲精度为代价并且需要较多的参数和先验知识。另 外特别需要指出的是,如何在没有任何先验信息的情况下识别出真实的网络簇总数仍是一 个未解决的难题。因此,如何设计出快速、高精度和无监督的CNCS识别方法是当前最期待 解决的问题之一。
技术实现思路
本专利技术的目的在于揭示复杂网络分簇现象的本质,并提供一种用于定量分析和 快速识别复杂网络簇结构的方法。为实现上述目的,本专利技术提供了一种基于马尔科夫过程亚稳性的复杂网络簇结构 分析和识别方法,其特征在于包括如下步骤构造给定复杂网络上的一个Markov过程;计算该过程的一步转移概率矩阵,并计算该矩阵的特征值;通过分析特征值计算出网络簇个数;计算Markov过程的第一个亚稳态;根据第一个亚稳态识别出网络的全部网络簇及其层次结构。 附图说明图1所示的流程图给出了基于Markov过程亚稳性分析和识别复杂网络簇结构的 理论框架NAP ;图2所示的流程图给出了以上理论框架的一种快速实现方法fast_NAP,该方法能 够在近似线性的时间内识别出网络中真实存在的全部网络簇及其层次结构。该方法免参 数,且不需要网络先验知识;图3-图7给出了采用NAP和fast_NAP方法分析不同网络的结果。 具体实施例方式下面将对本专利技术进行详细说明。参照图1,NAP方法的流程开始于步骤101。步骤102给出了构造网络上Markov过程的方法,具体如下假设网络中存在一个Agent,该Agent能够沿着网络连接从一个网络节点随机的 移动到其它网络节点。用P{xt = i,1彡i彡η}表示Agent经过t时间到达网络节点i的 概率,X = {Xt,t彡0}表示Agent在不同时刻位本文档来自技高网
...

【技术保护点】
一种复杂网络簇结构分析和识别方法,其特征在于,包括如下步骤:构造给定复杂网络N上的一个Markov过程X;计算X的一步转移概率矩阵P,并计算矩阵I-P的特征值;通过特征值计算出N的网络簇个数K;计算X的第一个亚稳态S↓[1];根据S↓[1]识别出N的K个网络簇及其层次结构。

【技术特征摘要】

【专利技术属性】
技术研发人员:杨博刘大有
申请(专利权)人:吉林大学
类型:发明
国别省市:82

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1