当前位置: 首页 > 专利查询>同济大学专利>正文

一种挖掘重叠社区动态演化关联规则的方法技术

技术编号:16365530 阅读:90 留言:0更新日期:2017-10-10 21:34
一种挖掘重叠社区动态演化关联规则的方法。复杂网络演化研究的根本目的是彻底理解网络演化的底层机制。目前的研究主要为对基本演化法则的探索,分析总体拓扑性质以及节点如何演化等。对重叠社区演化的研究局限于检测其合并、分裂、收缩、增长等动态事件,分析其演化的稳定性等,没有提出一种挖掘重叠社区动态演化关联规则的方法,也无法根据重叠社区过去的演化事件预测未来发生的变化。本发明专利技术通过挖掘复杂网络中重叠社区动态演化中的“增长分裂”、“合并后增长”等特定演化序列,给出一种动态演化关联规则的方法,从而有助于深入理解重叠社区动态特征并且预测其演化,为理解复杂网络重叠社区动态演化的底层机制提供一种新的分析工具。

Method for mining dynamic evolution association rules of overlapping community

Method for mining dynamic evolution association rules of overlapping community. The basic purpose of complex network evolution research is to thoroughly understand the underlying mechanism of network evolution. The current research focuses on exploring the basic evolution rules, analyzing the overall topological properties and how nodes evolve. Study on the evolution of overlapping communities is limited to the detection of dynamic events of merger, division, contraction, growth, analysis of the evolution of stability, not put forward a method of mining association rules of the dynamic evolution of overlapping communities, can according to the future changes measured past pre evolution events of overlapping communities. The present invention by mining in complex network overlapping community in dynamic evolution of \growth\ after the merger, split the \growth\ of specific evolution sequence, this paper presents a method for dynamic evolution of association rules, which are helpful to understand the dynamic characteristics of overlapping communities and to predict its evolution, providing a new analytical tool for understanding the underlying mechanism the dynamic evolution of the complex network of overlapping communities.

【技术实现步骤摘要】
一种挖掘重叠社区动态演化关联规则的方法
本专利技术涉及复杂网络重叠社区领域。
技术介绍
近年来,在线社交、邮件、生物等网络的兴起激起了学者们对网络演化分析的兴趣,使其成为新的研究热点。现实世界中的网络是不断演化的,对其动态演化的分析将揭示更多底层特性。该领域的研究分两类:第一类目的在于更新现有的挖掘算法,使结果与网络的状态一致。例如,研究如何更新重叠社区发现的结果,使重叠社区与变化后的网络保持一致;第二类目的在于研究特定类型的变化如何影响重叠社区和网络拓扑,从而深入理解网络演化并建立演化网络模型。网络的动态演化过程常用一组快照序列表示,每个快照对应一个静态网络,一个仅包含两个快照的网络演化过程如图1所示。1959年,Paul和AlfrédRényi最早用概率的方法研究网络的演化过程,并提出了著名的ER图模型。在ER图模型中,节点的数量固定且节点之间生成一条边的概率相同。ER图模型其实是一种随机图模型,用它生成的网络无社区结构、节点度分布服从泊松分布。这些特征与真实世界网络差异很大,表明ER图模型局限性很大,不适合表示真实世界系统。在1998年,Watts和Strogatz在ER图的基础上提出了一种新的网络演化模型,该模型首先将所有节点两两相连,构成一个环。然后,任意两节点之间以概率β生成新的边,生成边的过程不断地重复。用该模型生成的网络,具有了小世界性和社区结构等复杂网络应拥有的性质,但是节点的度服从均匀分布。然而在真实网络中,节点的度服从幂律分布。除了静态网络的拓扑性质,网络演化的基本法则是优先连接(PreferentialAttachment),即一个节点与其余节点建立连接的概率与它的度成正比,满足该性质的模型是BA模型(BA,Barabási-Albert)。BA模型能很好地解释枢纽节点的形成,且所生成网络的度服从指数分布与真实网络匹配。但是,其假设高度节点持续存在于网络中,存在时间越长度越大,使得它们始终有很高的连接概率,而新生节点始终只有很小的连接概率。因此BA模型无法表示新节点也具有很大的连接概率的情况。因此Bianconi等人提出给每个节点引入一个适应度参数η,以描述节点的质量、能力或活跃度等。η和度k共同决定连接概率。因此,即使新节点的度较低,但是若具有较高的η,该节点也能在短时间内生成大量边。例如,在早期的WWW网络中,Google搜索页面作为一个新生节点在很短的时间内获得了大量链接。该适应度模型已考虑了节点度分布的不均匀性且考虑了节点固有的η属性,但所生成的网络无社区结构且假设节点η保持不变,因而不能匹配某些网络的动态演化过程。一种更好的模型是随机块模型(SBM,StochasticBlockmodel),常用于统计学和社交网络分析领域。给定块个数K,将节点分配到这K个块。块内节点间的边生成概率为ψi,块i与另一个块j的节点之间生成边的概率为ψij。因而,可以得到随机块概率矩阵,描述整个网络任意两节点之间的互连概率。SBM模型具有简单、灵活、易于扩展的特点,且使用不同类型的概率矩阵可以生成不同类型的网络。例如,采用对角元素非零、非对角元素为零的概率矩阵,将生成一个包含K个独立子图的网络;对角元素大而非对角元素较小的随机块可以生成具有社区结构的网络;按照主对角线到次对角线的顺序递减概率可以得到一个包含层次社区结构的网络。通过使用后验概率块建模的方法,可以实现社区发现。然而,简单的随机块模型并没有考虑节点度分布的不均匀特点和社区大小分布,与真实网络的匹配不准确。随机块模型要求指定块数限制了其应用范围。以上所讨论的研究以理解和建模网络演化的一般法则为目标,例如优先连接和增长性等。此外,还存在以节点演化、重叠社区演化、参数演化、角色动态演化等为研究对象的网络演化分析方法,从其他角度分析网络演化的过程。例如,Berlingerio等人将关联规则框架应用于网络演化分析,提出了一种挖掘节点的动态演化规则的方法,得到节点的常见演化模式。该方法通过将所有快照压缩为一个网络并给边加上时间戳,再应用DFS策略搜索与一个模式同构的子图实现挖掘,然而这种方法不能得到重叠社区的不同演化事件之间的关联。
技术实现思路
本专利技术通过挖掘复杂网络中重叠社区动态演化中的“增长分裂”、“合并后增长”等特定演化序列,给出一种动态演化关联规则的方法,从而有助于深入理解重叠社区动态特征并且预测其演化,为理解复杂网络重叠社区动态演化的底层机制提供一种新的分析工具。为此,本专利技术给出以下技术方案实现:本专利技术研究方法,其特征在于,以重叠社区作为节点、改变点作为边进行社区演化图建模。基于关联规则挖掘框架定义演化子图模式、支持度、社区演化规则及置信度。根据DFS策略搜索得到所有支持度高于一定阈值的子图从而生成重叠社区动态演化关联规则。有益效果本专利技术基于一种复杂网络中挖掘重叠社区动态演化关联规则的方法,有如下有益效果。虽然目前对网络、社区及节点的动态演化已经有了大量研究,但是依然没有人提出一种挖掘重叠社区动态演化规则的方法。本专利技术得到的重叠社区动态演化关联规则揭示了重叠社区动态演化的模式,具有较好的预测重叠社区未来演化的能力,是一种复杂网络中重叠社区动态演化的新的分析工具。附图说明图1网络的一次动态演化过程。图2重叠社区演化图。图3重叠社区演化图中的同构子图。图4存在一条路径的子图间可达性。图5存在公共部分的子图间可达性。图6为本专利技术方法流程图。图7为算法1流程图。图8为算法2流程图。图9为算法3流程图。具体实施方式本专利技术的具体实施过程包括如下3个方面:①以重叠社区作为节点、改变点作为边进行社区演化图建模②基于关联规则挖掘框架,定义演化子图模式、支持度、社区演化规则及置信度③搜索所有支持度高于一定阈值的子图,从而生成重叠社区动态演化关联规则,并计算置信度①以重叠社区作为节点、改变点作为边进行社区演化图建模一个重叠社区演化图(简称“社区演化图”)EG=(V,E)是定义在演化网络上的、以重叠社区作为节点、改变点作为边的有向无环图,且满足以下条件:1)一个重叠社区作为图中的一个节点。每个节点关联相应社区的节点数。2)演化图EG划分为n个分区,gi中的社区对应第i分区中的节点,且所有分区按时间顺序排列。3)对两个相邻分区中的节点若在一次演化中,通过合并、分裂、增长、收缩、保持等改变事件转变为则存在一条由到的有向边,且这条边关联相应事件的类型。4)每条边可以关联五种改变事件类型,即合并、分裂、增长、缩小和消失。每条边必须介于两个相邻分区的节点之间。5)为了表示社区消亡事件,用一个特殊节点表示已经消失的社区。6)演化图EG至少包含两个分区。通过重叠社区演化图建模,可以将所有社区及改变点统一表示为一个抽象的图(Graph),如图2所示。其中,重叠社区演化图中节点的大小对应社区成员节点个数。②基于关联规则挖掘框架,定义演化子图模式、支持度、社区演化规则及置信度由于没有定义相同分区中的社区之间的边并且图中不存在回路,因而重叠社区演化图也可以视为森林。在这样的森林结构中,每棵树都是社区演化图的一个子图,代表了一部分重叠社区演化历史。为了分析和挖掘社区演化图中的局部演化事件,本专利技术定义重叠社区演化子图如下:定义1重叠社区演化子图:重叠社区演化子图是定义在演本文档来自技高网
...
一种挖掘重叠社区动态演化关联规则的方法

【技术保护点】
一种挖掘重叠社区动态演化关联规则的方法,其特征在于,包括如下步骤实现:

【技术特征摘要】
1.一种挖掘重叠社区动态演化关联规则的方法,其特征在于,包括如下步骤实现:步骤1,以重叠社区作为节点、改变点作为边进行社区演化图建模通过重叠社区演化图建模,将所有社区及改变点统一表示为一个抽象的图(Graph),其中,重叠社区演化图中节点的大小对应社区成员节点个数。所述重叠社区演化图EG=(V,E)是定义在演化网络上的、以重叠社区作为节点、改变点作为边的有向无环图,且满足以下条件:1)一个重叠社区作为图中的一个节点。每个节点关联相应社区的节点数。2)演化图EG划分为n个分区,gi中的社区对应第i分区中的节点,且所有分区按时间顺序排列。3)对两个相邻分区中的节点若在一次演化中,通过合并、分裂、增长、收缩、保持等改变事件转变为则存在一条由到的有向边,且这条边关联相应事件的类型。4)每条边可以关联五种改变事件类型,即合并、分裂、增长、缩小和消失。每条边必须介于两个相邻分区的节点之间。5)为了表示社区消亡事件,用一个特殊节点表示已经消失的社区。6)演化图EG至少包含两个分区。步骤2,基于关联规则挖掘框架,定义演化子图模式、支持度、社区演化规则及置信度定义重叠社区演化子图如下:定义1重叠社区演化子图:重叠社区演化子图是定义在演化网络上的,重叠社区演化图的子集其中且满足:1)SEG至少包含一个入度为0的节点,称为源节点。2)SEG包含多个出度为0的节点,称为目的节点。3)SEG是一个连通子图,即存在一条路径由u到达v或由v到达u。因此,从源节点到任意其他类型的节点都存在一条唯一的路径。4)SEG中不存在回路,因而SEG图也可以视为一棵树。5)SEG图可以只包含社区生命期的一部分,将其起始时间记为ts,结束时间记为te(1≤ts,te≤n)。在重叠社区演化子图基础上进一步定义社区演化模式如下:定义2演化子图模式:给定重叠社区演化图一个演化子图模式是一个EG的特殊演化子图其中的一个节点匹配EG中任意节点,P中的边匹配EG中的任意边。演化子图模式P在EG中的一次出现为函数并且对所有节点u,v∈Vp满足条件:1)2)其中函数将模式P中的有向边(u,v)映射到改变点类型t。3)其中,函数sgn(·)是符号函数,|u|和|v|分别是社区u和v的大小。为了量化社区演化子图的出现次数,定义社区演化子图支持度如下:定义3演化子图支持度:给定社区演化图EG(V,E)和演化子图模式P(Vp,Ep),则P在EG中的支持度为一个函数即其中,fp表示P在EG中的一次出现,v是P中的一个节点,uv是P在EG中的一次出现,即P所匹配的子图中u所映射到的节点,表示自然数。为了挖掘出子图模式间的关联,定义子图之间的可达性。假设A(VA,EA),B(VB,EB)分别为社区演化图EG中的子图,和分别是A,B的起始时间且如果或者存在一条从A的源节点到达B中任意节点的路径则称A可达于B,记为定义子图之间的关联规则,期望从社区演化图中得到的重叠社区演化关联规则。定义4演化子图规则和置信度:给定社区演化图EG,子图模式PA和PB,演化子图A和B分别与模式PA和PB匹配,则演化子图规则即重叠社区演化关联规则定义为蕴含式且同时满足以下条件:1)PA的支持度大于最小支持度阈值∈,即σ(EG,PA)≥∈。2)演化子图A可达于B,即3)该规则的支持度为模式PA的支持度,即4)该规则服从一定的置信度,记为演化子图关联规则描述了两种子图模式在社区演化图中的关系,而它的置信度则可以度量在整个数据集中满足这种关系的规则占总数据的比值,帮助判断发现的关联规则的可信度。根据经典的关联规则框架,演化子图关联规则的置信度定义为:其中,PA∪PB表示PA和PB同时出现,即support(PA∪PB)=σ(EG,PA∪PB)(2)根据前面的定义可知,支持度满足反单调性,则有σ(EG,PA∪PB)≤σ(EG,PA)且σ(EG,PA∪PB)≤σ(EG,PB)。因此,该置信度满足条件由公式(1),演化子图关联规则的置信度取决于支持度σ(EG,PA)和σ(EG,PA∪PB)。通过搜索得到在社区演化图EG中分别匹配PA和PA∪PB的子图集合{A1,A2,…,Am}和{B1,B2,…,Bn}后,生成关联规则并检验其置信度。步骤3,搜索所有支持度高于一定阈值的子图,从而生成重叠社区动态演化关联规则重叠社区演化关联规则的挖掘分为两步:步骤31)在社区演化图中挖掘支持度高的演化子图模式;步骤32)搜索匹配一个模式的所有演化子图...

【专利技术属性】
技术研发人员:程久军张长柱黄震华刘春梅
申请(专利权)人:同济大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1