当前位置: 首页 > 专利查询>南京大学专利>正文

基于频繁项集挖掘的核心节点发现方法技术

技术编号:2913520 阅读:279 留言:0更新日期:2012-04-11 18:40
基于频繁项集挖掘的核心节点发现方法,包括以下步骤:1)项集生成阶段:a)取得多个时间点的网络快照;b)针对每个时间点的网络快照都进行如下操作;i.得到网络快照对应节点之间的关联图;ii.提取关联图中所有的伽马准团;iii.把每一个关联准团所对应的节点集合作为一个项集加入到项集集合。2)核心节点发现阶段:a)把生成的项集集合作为最大频繁项集挖掘的初始集合;b)把项集集合表示成位图向量的形式;c)生成最大频繁项集;d)结束;本发明专利技术结合了子图发现和频繁项集挖掘来进行核心节点的发现。子图发现中采用了伽马准团发现算法,保证子图内部具有可控的紧密度,频繁项集挖掘采用了基于图的最大频繁项集挖掘算法加快了最大频繁项集的生成。

【技术实现步骤摘要】

本专利技术涉及到子图发现和基于图的频繁项集挖掘方法。
技术介绍
社会网络分析是目前数据挖掘中与社会生活联系最紧密的热点之一,作为社会网络分析的新的分支,犯罪网络(Crime Network)的研究受到各国政府和相关机构的特别关注。根据组织犯罪具有的层次性的结构特征,在犯罪组织之内或犯罪成员之间存在领导和被领导的关系,有核心成员和普通人员之分。犯罪网络的核心就是那些代表犯罪团伙的领导或关键人员的网络节点。社会网络不仅有静态的属性特征,还有其动态性的特点,对于犯罪网络而言,其也是处于不断的变化过程中,为了弥补静态性特征的局限性,利用社会网络的动态性是本专利技术的研究出发点。目前在图的核心节点发现上主要有三种不同的方法,一是纯粹基于社会网络分析中的网络的静态参数来进行衡量节点的关键程度;二是借鉴图分割方法中分割标准来进行衡量;三是使用搜索引擎中节点排序的思想来进行核心节点的发现。将社会网络建模成图,节点表示人,边表示两个人之间有某种特定的关系,如朋友关系等。当抽象成数学中图的概念,就可以描述图的一些静态参数来发现图的基本性质,并可以利用这些基本参数来作为核心指标的某个属性,比如用节点的度数来描述节点的关键程度,一个节点的度数越大,越能说明这个节点在这个图中的关键作用。图分割的目的使把大图划分成小图,要求是小图内部联系比较紧密而小图之间联系比较松散。在基于边删除的图分割算法中,分割的关键是找出这个关键边,然后把关键边删除后即可把图分割。此时这个关键边对应的节点就可看成核心节点。本专利技术重新定义了核心概念,即关系网络变化过程中频繁出现的节点。通过子图发现提取各个时间点的由子图节点集合组成的项集集合,然后使用基于图的频繁项集挖掘算法进行频繁项集算法进行核心节点的发现。
技术实现思路
专利技术目的:本专利技术所要解决的技术问题是提供一种基于频繁项集挖掘的核心节点发现算法。本专利技术技术方案是:为解决上述问题,本专利技术的基于频繁项集挖掘的核心节点发现方法包括如下步骤:1)项集生成阶段:c)取得多个时间点的网络快照;时间点的选择需要用户根据网络变化情况和网络的规模来综合指定,保证各个时间点的网络既能反应网络的动态性又不至于打破原有的团伙结构。d)针对每个时间点的网络快照都进行如下操作;iv.得到网络快照对应节点之间的关联图;v.提取关联图中所有的伽马准团;vi.把每一个关联准团所对应的节点组合作为一个项集加入到项集集合2)核心节点发现阶段:e)把生成的项集集合作为最大频繁项集挖掘的初始集合;f)把项集集合表示成位图向量的形式;-->c)生成最大频繁项集;d)结束;其中:步骤1-b)中伽马准团的提取的具体过程如下:1)通过设定最大迭代次数maxIterator来决定要运行的次数。迭代部分包换两个部分,一个是构造阶段,一个是局部搜索阶段。2)判断是不是达到迭代次数,如果达到就退出,否则这继续从第3步开始运行。3)最大准团的构造阶段,初始化一个元素的子图。4)判断当前的子图是不是满足给定的紧密度要求,如果不满足说明构造阶段结束,进行第8)步开始的局部搜索阶段。5)求得当前子图的邻居节点,邻居节点集合的每个节点要求与当前子图的节点之间也是紧密相连的。6)从当前的邻居节点中随机选择一个加入到子图集合中来扩大初始的子图集合7)求出新加入节点后的子图的紧密度。8)局部搜索阶段,由构造阶段的生成初始最大准团作为出发点,寻找新的最大准团。局部搜索通过交换的方式来在生成的子图基础上寻找更大的子图。9)寻找当前子图中有没有可以交换出去的元素。如果有的话就进行第10)步,否则表示局部搜索阶段结束。10)是从当前子图中删除一个元素来形成新的伽马准团。11)按照与第5步同样的方法求得当前伽马准团的所有邻居。12)从11)步生成的邻居中选择两个来替换10步中删除的元素。13)把新加入的节点加入到候选伽马准团中14)在每次迭代之后和上次迭代的结果进行对比,如果发现了更长的准团的话,就更新这个准团。步骤2-b)的具体流程如下:1)生成初始候选k-频繁项集,初始k为3即得到候选3-频繁项集。2)开始进入以下第3-11)步的迭代生成最大频繁项集的流程。3)判断当前的候选k-频繁项集集合是否为空,如果为空表示最大频繁项集生成结束,否则则继续进行最大频繁项集的生成。4)从以下第5)步从候选的最大频繁项集中寻找最大频繁项集的过程。5)取出一个未处理的候选最大频繁项集。如果是频繁的则加入到最大频繁项集集合中,并从候选的最大频繁集合中删除这个元素,否则继续取下一个待处理的候选最大频繁项集。6)以下7)和8)步是循环处理候选K-项集的过程。7)从当前的候选k-频繁项集集合中取出一个候选k-频繁项集8)取出的候选k-频繁项集是否是频繁项集,取出的项集是频繁的话则加入到频繁k-项集集合中,否则的话这加入到非频繁k-项集集合中。9)使用第8)步生成的非频繁k-项集集合来更新最大候选频繁项集MFCS,对MFCS中的元素进行拆分,生成长度更短的最大候选频繁项集MFCS。10)生成下一轮的候选k+1-项集。11)使用生成的最大频繁项集对生成的候选k+1-项集进行剪枝叶。本专利技术有益效果:本专利技术的基于频繁项集挖掘的核心节点发现方法一方面拓宽了核心节点发现的思路,即通过频繁项集的挖掘来进行核心节点的发现;另一方面采用紧密度作为子图的度量标准更切合实际的要求,尤其是犯罪侦查领域的办案要求。-->附图说明图1为本专利技术的基于频繁项集挖掘的核心节点发现流程图2为项集集合生成阶段中项集生成的流程图3为从图中发现伽马准团的流程图4为从项集集合中挖掘最大频繁项集的流程具体实施方式下面结合附图对本专利技术进行详细说明。如图1所示,基于频繁项集挖掘的核心节点发现首先是项集集合的生成阶段。项集生成是把各个快照点的网络图的子图对应的节点集合作为一个项集。步骤0为本专利技术的核心节点发现方法的起始状态。在项集生成阶段(步骤1-4),步骤1的主要是得到各个时间点的网络快照,时间点的选择需要用户根据网络变化情况和网络的规模来综合指定,保证各个时间点的网络既能反应网络的动态性又不至于打破原有的团伙结构。步骤2-4是项集生成过程,针对每一个时间点的时间快照,循环找出各个时间点的项集。步骤2判断是否还有未处理的网络快照,如果还有则转到步骤3继续下去,否则跳转到核心节点发现阶段进行核心节点发现。步骤3是从当前的网络快照中得到其对应的所有伽马准团,即满足一定紧密度的子图。步骤4是把生成的子图加入到项集集合中。步骤5-7是使用基于图的频繁项集挖掘算法来进行核心节点的发现。步骤5是把生成的项集集合转化为位图向量形式,以此来加快频繁项集的支持度计算。步骤6就是调用基于图的最大频繁项集挖掘算法来进行最大频繁项集的生成。步骤7是把生成的频繁项集按照映射表映射到实际的节点集合步骤8是本专利技术的终止状态图2是对图1中步骤3的详细描述,描述从关系数据中生成关系图的过程。步骤10为起始步骤。步骤11设定子图内部的紧密度值即伽马值。其值的范围为0到1之间,为1表示子图内部的各个节点之间互相有联系,即此子图是团。步骤12-15是寻找满足紧密度的所有准团的过程。步骤12是把从当前的图中找出满足给定的紧密度的一个最大准团。步骤13把步骤12得到的准团的所有节点作为一个项本文档来自技高网
...

【技术保护点】
1、基于频繁项集挖掘的核心节点发现方法,其特征是包括如下步骤: 1)项集生成阶段: a)取得多个时间点的网络快照;时间点的选择需要用户根据网络变化情况和网络的规模来综合指定,保证各个时间点的网络既能反应网络的动态性又不至于打破原 有的团伙结构。 b)针对每个时间点的网络快照都进行如下操作; i.得到网络快照对应节点之间的关联图; ii.提取关联图中所有的伽马准团; iii.把每一个关联准团所对应的节点组合作为一个项集加入到项集集合 2) 核心节点发现阶段: a)把生成的项集集合作为最大频繁项集挖掘的初始集合; b)把项集集合表示成位图向量的形式; c)生成最大频繁项集; d)结束; 其中:步骤1-b)中伽马准团的提取的具体过程如下: 1) 通过设定最大迭代次数maxIterator来决定要运行的次数。迭代部分包换两个部分,一个是构造阶段,一个是局部搜索阶段。 2)判断是不是达到迭代次数,如果达到就退出,否则这继续从第3步开始运行。 3)最大准团的构造阶段,初始化一 个元素的子图。 4)判断当前的子图是不是满足给定的紧密度要求,如果不满足说明构造阶段结束,进行第8)步开始的局部搜索阶段。 5)求得当前子图的邻居节点,邻居节点集合的每个节点要求与当前子图的节点之间也是紧密相连的。 6)从 当前的邻居节点中随机选择一个加入到子图集合中来扩大初始的子图集合 7)求出新加入节点后的子图的紧密度。 8)局部搜索阶段,由构造阶段的生成初始最大准团作为出发点,寻找新的最大准团。局部搜索通过交换的方式来在生成的子图基础上寻找更 大的子图。 9)寻找当前子图中有没有可以交换出去的元素。如果有的话就进行第10)步,否则表示局部搜索阶段结束。 10)是从当前子图中删除一个元素来形成新的伽马准团。 11)按照与第5)步同样的方法求得当前伽马准团的所有邻居 。 12)从11)步生成的邻居中选择两个来替换10步中删除的元素。 13)把新加入的节点加入到候选伽马准团中 14)在每次迭代之后和上次迭代的结果进行对比,如果发现了更长的准团的话,就更新这个准团。 步骤2-b)的具 体流程如下: 1)生成初始候选k-频繁项集,初始k为3即得到候选3-频繁项集。 2)开始进入以下第3-11)步的迭代生成最大频...

【技术特征摘要】
1、基于频繁项集挖掘的核心节点发现方法,其特征是包括如下步骤:1)项集生成阶段:a)取得多个时间点的网络快照;时间点的选择需要用户根据网络变化情况和网络的规模来综合指定,保证各个时间点的网络既能反应网络的动态性又不至于打破原有的团伙结构。b)针对每个时间点的网络快照都进行如下操作;i.得到网络快照对应节点之间的关联图;ii.提取关联图中所有的伽马准团;iii.把每一个关联准团所对应的节点组合作为一个项集加入到项集集合2)核心节点发现阶段:a)把生成的项集集合作为最大频繁项集挖掘的初始集合;b)把项集集合表示成位图向量的形式;c)生成最大频繁项集;d)结束;其中:步骤1-b)中伽马准团的提取的具体过程如下:1)通过设定最大迭代次数maxIterator来决定要运行的次数。迭代部分包换两个部分,一个是构造阶段,一个是局部搜索阶段。2)判断是不是达到迭代次数,如果达到就退出,否则这继续从第3步开始运行。3)最大准团的构造阶段,初始化一个元素的子图。4)判断当前的子图是不是满足给定的紧密度要求,如果不满足说明构造阶段结束,进行第8)步开始的局部搜索阶段。5)求得当前子图的邻居节点,邻居节点集合的每个节点要求与当前子图的节点之间也是紧密相连的。6)从当前的邻居节点中随机选择一个加入到子图集合中来扩大初始的子图集合7)求出新加入节点后的子图的紧密度。8)局部搜索阶段,由构造阶段的生成初始最大准团作为出发点,寻找新的最大准团。局部搜索通过交换的方式来在生成的子图基础上寻找更大的子图。9)寻找当前子图中有没有可以交换出...

【专利技术属性】
技术研发人员:王崇骏刘红星宋文军谢俊元
申请(专利权)人:南京大学
类型:发明
国别省市:84[中国|南京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1