一种面向弱结构相关性的多模式图索引构建方法及系统技术方案

技术编号:21184722 阅读:57 留言:0更新日期:2019-05-22 15:19
本发明专利技术公开了一种面向弱结构相关性的多模式图索引构建方法及系统。本方法为:1)读取目标领域的模式图集合中的模式图并为每一模式图生成一模式图标志ID;2)构建模式图同构树:对各模式图进行两两判断,如果两个模式图之间存在子图同构关系,则添加一条从规模较小模式图指向规模较大模式图的有向边,得到模式图集合的模式图同构树;3)对模式图同构树进行频繁子图挖掘,找到公共模式图并将其加入到模式图同构树中;4)当模式图同构树中存在一子模式图具有多个父模式图时,则为该子模式图保留唯一的父模式图;5)计算模式图同构树的最小生成树,并对其进行深度优先遍历,得到模式图集的最优匹配顺序。本发明专利技术能够大大提高匹配效率。

A Method and System for Index Construction of Multimodal Graphs Oriented to Weak Structural Relevance

The invention discloses a method and a system for constructing a multi-pattern graph index oriented to weak structural correlation. The method is as follows: 1) read the pattern graph in the pattern graph set of the target domain and generate a pattern icon ID for each pattern graph; 2) construct the pattern graph isomorphism tree: judge each pattern graph by two or two, if there is a subgraph isomorphism relationship between the two pattern graphs, add a directed edge from the smaller pattern graph to the larger pattern graph, and get the pattern of the pattern graph set. Graph isomorphism tree; (3) Mining frequent subgraphs of pattern graph isomorphism tree, finding common pattern graph and adding it to pattern graph isomorphism tree; (4) When there is a sub-pattern graph in pattern graph isomorphism tree with multiple parent pattern graphs, the only parent pattern graph is retained for the sub-pattern graph; (5) Calculating the minimum spanning tree of pattern graph isomorphism tree, and traversing it in depth first to get the model. The optimal matching order of schema set. The invention can greatly improve the matching efficiency.

【技术实现步骤摘要】
一种面向弱结构相关性的多模式图索引构建方法及系统
本专利技术涉及一种面向弱结构相关性的多模式图索引构建方法及系统,属于计算机软件

技术介绍
随着大数据时代的到来,来自互联网及生活中的海量多源异构数据正以前所未有的速度产生并累积,这些数据之间存在着紧密的关联性,图(graph)作为一种广泛应用的数据结构,非常适合刻画这种具有内在关联性的数据,图模式匹配(graphpatternmatching)作为实现图数据上高效查询的重要手段,是众多基于图数据分析和挖掘的基础技术。图模式匹配是指给定数据图和特定模式图,在数据图中找到与该模式图结点和边的连接拓扑结构相同、对应结点和边上的属性也相同的所有匹配结果。随着数据规模的不断扩大,在大规模图数据上进行快速、准确的图模式匹配是目前亟待解决的问题。现有的图模式匹配技术主要通过优化剪枝策略、对数据图建立索引等方式,提高图模式匹配的性能,然而在实际应用中,有许多应用场景需要处理批量模式图,这种需要同时匹配多个模式图的问题称为多模式图匹配,其实质是对于给定的数据图和一组待查询的模式图,计算每个模式图在数据图上的图模式匹配结果,例如:(1)在网络攻击检测中,网络中的计算机、IP地址、用户、软件服务之间的关系可以表示成图结构,其中计算机、IP地址等抽象为图结构的节点,他们之间的关系表示为边。通过分析病毒(如WittyWorm)和网络攻击(如SmurfDDOS、FraggleDDOS)的数据传输路径和通讯模式,在病毒模式库、网络攻击模式库中,利用多图模式匹配技术,可以实时检测随着图数据更新可能出现的病毒传播、恶意攻击等网络安全问题。(2)在蛋白质结构分析中,蛋白质的分子就是天然的图节点,分子间的作用力则是对应节点的边。在结构分析过程中,需要在蛋白质数据库中,利用多模式图匹配技术,检索大量未知性质分子组合结构。(3)在社会关系查询中,社会关系可以表示为图的形式(例如学术关系图、亲属关系图、社交网络图等),通过多图模式匹配技术,可以实现社区发现和重要角色检测,合作关系图搜索,职工职能重要性评估等。(4)在社会安全分析中,美国著名情报公司DeUmbra研发的以多图模式匹配为核心技术的服务,从2015年至今,应用于恐怖分子追踪、公安情报分析、欺诈分析等安全领域。该公司将人员在物理世界和网络空间的行为进行融合关联,构建大规模人员关系网络,研究其中检测可疑犯罪行为模式的方法,主要利用多模式图匹配技术对各种各样的异常行为实现实时监控和预警。当前已有的图模式匹配算法主要针对单一模式图匹配问题,在处理多个模式图匹配问题时,将每个模式图看作独立的个体,在数据图上进行独立计算,从而忽略了模式图集中存在的结构相关性,在匹配过程中存在大量的冗余计算。因此,面向多模式图匹配问题,研究者们提出了一系列基于结构相关性的多模式图匹配技术,通过挖掘模式图结构相关性,合并重复结构,以树或图的形式存在,减少冗余计算,建立模式图索引结构,通过该结构得到模式图匹配的最优顺序。比如:模式树(PatternTree)方法,对于一组给定的模式图集P,首先通过子图同构算法对模式图进行两两同构计算,在确定所有模式图间的子图同构关系后,建立模式树结构,它是一种树结构,根结点为虚拟结点,用于连接所有的没有子图的模式图。在模式树结构中,子模式图和父模式图之间的关系用有向边进行表示,由子模式图指向父模式图。如果子模式图具有多个父模式图,则根据Chu-Liu算法计算出一棵最小生成树(ChuYJ,LiuTH.OntheShortestArborescenceofaDirectedGraph[J].ScienceSinica,1965,14:1396-1400),作为最终的模式树结果。由此则完成了图索引的构建,之后的图模式匹配过程则根据索引可以确定模式图的匹配顺序,即先匹配父模式图,再匹配子模式图。子模式图只需要匹配父模式图中的扩展部分,对于根结点直接相连的模式图则采用子图同构算法进行匹配计算。根据模式树构建结果,发现该树结构的深度较小,广度较大,仍然存在较多的重复结构。同时仅依靠子图同构算法,无法彻底挖掘到所有模式图之间的公共子图关系。为了解决上述模式树算法中存在的缺点,又有了进一步的改进方法:模式蕴含映射(PCM,PatternContainmentMap)方法,该方法利用最大公共子图关系构建多模式图索引,提出一种用于多模式图索引的结构:模式蕴含映射图结构,对模式图两两挖掘最大公共子图(MaximalCommonSubgraph),将公共子图作为新的模式图进入模式图集的匹配计算中,为了降低最大公共子图挖掘的计算量,论文首先对模式图提取特征进行聚类,在同一类模式图集中进行挖掘计算。与前者相比,通过引入新模式图,增强了模式图间的关联。但是该方法索引构建依赖聚类效果,子图覆盖率较小。综上所述,现有多模式图匹配技术中,多模式索引存在模式图间冗余结构挖掘不彻底、弱结构相关性模式图索引效果较差的问题,因此,如何提升弱结构相关性的多模式图索引构建效果需要进一步研究。现有的多模式图索引构建方法中,存在诸如以下的问题。比如模式树算法,简单使用子图同构方法构建模式图索引,对于相关性较弱的模式图集适应性较差,并且在数据图集中存在许多,没有同构关系但有公共子图的模式图对,而仅使用模式树算法无法建立它们之间的关联,这部分计算量无法忽略。针对模式树的缺点,新的改进算法利用数据图集间的最大公共子图,但是算法较依赖于聚类的效果,并且需要指定聚类系数,对于任一数据集来说可扩展性较差,除此之外模式图两两计算最大公共子图,消耗较多的时间,且没有对公共子图进行筛选,在匹配时容易进行不必要的子图计算。
技术实现思路
针对现有技术中存在的技术问题,本专利技术的目的在于提供一种面向弱结构相关性的多模式图索引构建方法及系统,在此先定义弱结构相关性:在模式图集合中,存在一些模式图子集和剩余模式图子集之间只有少许的同构关系;即设定在模式图集中,含有同构关系的子模式图数目低于或等于总模式图数目的设定比例h(比如h=10%)时,定义该模式图集是弱结构相关的。存在这种状态的模式图集合,则会难以挖掘出其中的公共结构(子结构),本专利技术定义这样的模式图集合为弱结构相关性的模式图集合。面向这样的模式图集合,本专利技术提出了图索引构建方法:混合模式树算法(HybirdPatternTree),该算法在子图同构算法的基础上,融入了公共子图挖掘技术,需要挖掘出更具有代表性的子图(即子模式图),子图的代表性主要体现在:具有一定的规模、出现在较多的模式图中、节约的计算量大于额外计算该子图的计算量。因此,借助频繁子图挖掘技术,挖掘在特定模式图集中出现频率较高的子图,并选择合适的子图作为辅助模式图,加入到模式图索引中。本专利技术的多模式图索引构建技术,采用两级结构相关性挖掘技术,算法首先对模式图集进行子图同构计算,建立一颗同构树,然后对同构树中同一父模式图的所有子模式图进行频繁子图挖掘,选择有代表性的子图,建立多模式图索引。索引构建的具体思想和方法,整个过程主要分为三个步骤:构建模式图同构树、挖掘频繁子图、计算最优匹配路径。本专利技术的技术方案为:一种面向弱结构相关性的多模式图索引构建方法,其步骤包括:1)读取目标领域的本文档来自技高网
...

【技术保护点】
1.一种面向弱结构相关性的多模式图索引构建方法,其步骤包括:1)读取目标领域的模式图集合中的模式图并为每一模式图生成一模式图标志ID;其中,模式图集合为弱结构相关性的模式图集合,即所述模式图集中,含有同构关系的子模式图数目低于或等于模式图总数的设定比例h;2)构建模式图同构树:对各所述模式图进行两两判断,如果两个模式图之间存在子图同构关系,则添加一条从规模较小模式图指向规模较大模式图的有向边,得到所述模式图集合的模式图同构树;3)对所述模式图同构树进行频繁子图挖掘,找到公共模式图并将其加入到所述模式图同构树中;4)当所述模式图同构树中存在一子模式图具有多个父模式图时,则为该子模式图保留唯一的父模式图;5)计算所述模式图同构树的最小生成树,并对其进行深度优先遍历,得到所述模式图集的最优匹配顺序。

【技术特征摘要】
1.一种面向弱结构相关性的多模式图索引构建方法,其步骤包括:1)读取目标领域的模式图集合中的模式图并为每一模式图生成一模式图标志ID;其中,模式图集合为弱结构相关性的模式图集合,即所述模式图集中,含有同构关系的子模式图数目低于或等于模式图总数的设定比例h;2)构建模式图同构树:对各所述模式图进行两两判断,如果两个模式图之间存在子图同构关系,则添加一条从规模较小模式图指向规模较大模式图的有向边,得到所述模式图集合的模式图同构树;3)对所述模式图同构树进行频繁子图挖掘,找到公共模式图并将其加入到所述模式图同构树中;4)当所述模式图同构树中存在一子模式图具有多个父模式图时,则为该子模式图保留唯一的父模式图;5)计算所述模式图同构树的最小生成树,并对其进行深度优先遍历,得到所述模式图集的最优匹配顺序。2.如权利要求1所述的方法,其特征在于,采用双层过滤策略对模式图进行两两判断,其方法为:a)对于两模式图,根据模式图中结点和边的属性进行比较,如果规模较小的模式图中存在规模较大模式图中不存在的属性,或者规模较小的模式图中一属性出现的频数超过规模较大的模式图对应属性的出现频数,则判定规模较小的模式图不是规模较大模式图的子图;b)将结点和边的属性结合起来,构造一个三元组:(l(vi),l(eij),l(vj)),其中l(vi)表示结点vi的属性,l(vj)表示结点vj的属性,l(eij)表示以vi和vj为端点的边eij的属性;如果规模较小的模式图中存在规模较大模式图中不存在的三元组,或者规模较小的模式图中存在一个三元组且该三元组出现的频数超过规模较大的模式图对应三元组的出现频数,则判定规模较小的模式图不是规模较大模式图的子图;其中,所述规模是指模式图中节点的数目和边的数目。3.如权利要求1所述的方法,其特征在于,所述模式图同构树中,如果出现一个子模式图有多个父模式图,则计算所述模式图同构树中该子模式图与对应各父模式图结构之间的差值,选取与该子模式图差值最小的父模式图作为该子模式图的父模式图。4.如权利要求3所述的方法,其特征在于,计算所述差值...

【专利技术属性】
技术研发人员:于静唐钰葆刘小梅刘燕兵曹聪谭建龙郭莉
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1