基于深度优先搜索的频繁模式挖掘方法技术

技术编号：23787296 阅读：23 留言：0更新日期：2020-04-15 00:36

本发明专利技术属于复杂网络和数据挖掘领域，具体涉及一种复杂网络中基于深度优先搜索的频繁模式挖掘方法，主要步骤为：进行相关概念和定义，标准化图编码，频繁模式挖掘算法的过程，在相关概念和定义的基础上，进行频繁模式挖掘。以复杂网络理论框架为基础，基于深度优先搜索对图遍历后得到由标准化图编码组成的线性序列，对所构建的带标签的关系网络进行频繁模式挖掘，挖掘出网络中的频繁模式集合的同时，在方法上有效地减少了子图同构问题，避免了冗余候选模式的产生；对线性序列的映射操作，大大节省了内存的使用。

Mining frequent patterns based on depth first search

全部详细技术资料下载

【技术实现步骤摘要】
基于深度优先搜索的频繁模式挖掘方法
本专利技术属于复杂网络和数据挖掘领域，涉及面向带标签的异质网络中基于深度优先搜索的频繁模式挖掘方法,具体涉及一种复杂网络中基于深度优先搜索的频繁模式挖掘方法。
技术介绍
现如今，随着大数据时代的到来和网络信息技术的迅速发展，人类社会已经迈入复杂网络时代。复杂网络不仅是一种数据的表现形式，它同样也是一种科学研究的手段。基于复杂网络所建立起来的科学问题越来越多样化，为学科交叉提供了良好的可能性。复杂网络通常作为复杂系统的有力表示，例如社交网络、生物网络、文献网络等。带标签的异质网络通常用来研究和分析这些数据。由于网络和图自身的拓扑结构等优势，使其具有广泛的应用性，针对图挖掘的相关研究也引起越来越多研究者的关注。而且，图挖掘在许多实际应用中具有巨大的潜在价值，这些应用包括语义网络、行为建模、生物网络分析、化学化合物分类等。目前，人们已经提出了很多高效的算法来挖掘图数据中的子图或模式，由于应用的对象及问题背景的不同，这些算法的效果也具有很大的差异。频繁模式挖掘的目的是找到在图集中频繁出现的模式集合，为接下来的研究和分析工作提供重要的帮助。目前的频繁子图挖掘算法大致可以分为两大类：一类是广度优先算法，这类算法包括AGM和FSG等；另一类是深度优先算法，这类算法包括gSpan和FFSM等。大多数的传统算法在时间复杂性上有一个影响最大的问题是子图同构问题。因此，考虑到真实的复杂网络具有多样化的结构和如何节省时间和空间成本这一事实，以及异质网络中带标签的节点不仅能够帮助提高模式挖掘...

【技术保护点】
1.基于深度优先搜索的频繁模式挖掘方法，其特征在于，包括如下步骤：/nS1：相关概念和定义：/n(1)带标签网络：/n将一个带标签的网络看作是一个五元组，G＝{V,E,ΣV,ΣE,L}，其中，V表示网络中节点的集合；/n

【技术特征摘要】
1.基于深度优先搜索的频繁模式挖掘方法，其特征在于，包括如下步骤：
S1：相关概念和定义：
(1)带标签网络：
将一个带标签的网络看作是一个五元组，G＝{V,E,ΣV,ΣE,L}，其中，V表示网络中节点的集合；

表示网络中边的集合；
ΣV和ΣE分别表示的是节点和边的标签的集合；
L是标签函数，V∪E→L，完成标签向节点和边的映射，
因此有：V→ΣV，E→ΣE；
(2)子图同构：图的同构是一个双射
对于图G＝{V,E,ΣV,ΣE,L}与图G'＝{V′,E′,ΣV′,ΣE′,L′}，若它们是同构的，则满足如下条件:
①LG(u)＝LG'(f(u))，
②
③L(u,v)＝LG'(f(u),f(v))；
(3)频繁模式：给定一个网络集合GD，从GD中挖掘出的模式集合是PD，
PD＝{Pi|i＝0,1,…,n}，且给定最小支持度阈值为min_sup，我们称模式集合PD是频繁的，当且仅当集合中的每一个元素Pi的支持度不小于最小支持度阈值，即SUPPi≥min_sup；
(4)模式的支持度：给定一个网络集合GD，从GD中挖掘出的模式集合是PD，
PD＝{Pi|i＝0,1,…,n}，模式Pi(0≤i≤n)的支持度记为SUPPi，计算方法是根据第一步得到的Pi中指定的pivot(也就是挖掘的起始点)，随着Pi的一步步匹配和更新，得到的所有匹配中pivot的映射，也就是模式Pi中节点pivot的出现次数，记作该模式的支持度SUPPi；
S2：标准化图编码：
(1)由S1中(1)可知，带标签网络中的每一条边都存在5个基本元素，那么直接采用这样形式的五元组对边进行编码，将边e＝(vi,vj)表示为(vi,vj,li,le,lj)，其中，vi，vj为节点的唯一标识，li，lj为节点标号，le为边标号；
(2)编码顺序的规则：如果在图的DFS遍历过程中，先遍历的节点是vi，后遍历的节点是vj，那么vi和vj的编码顺序为vi＜vj；
同样，根据节点的标识确定出边标号也存在一定规则，进而定义边之间的线性关系；
(3)编码的线性顺序：给定带标签网络中的任意两条边的编码为e1＝(a1,a2,a3,a4,a5)，e2＝(b1,b2,b3,b4,b5)，其线性顺序由下列条件决定：
①e1＝e2，当且仅当ai＝bi，i＝1,2,…,5；
②e1＜e2，当且仅当使aj＝bj(1≤j<k)，且ak＜bk；
③e1＜e2，其他情况；
S3：频繁模式挖掘算法的过程：
在S1，S2的相关概念和定义的基础上，进行频繁模式挖掘。

2...

【专利技术属性】
技术研发人员：周月双，戴维迪，刘雪莉，王文俊，
申请(专利权)人：天津大学，
类型：发明
国别省市：天津;12

全部详细技术资料下载我是这个专利的主人