The invention discloses a method and a system for constructing a multi-pattern graph index oriented to weak structural correlation. The method is as follows: 1) read the pattern graph in the pattern graph set of the target domain and generate a pattern icon ID for each pattern graph; 2) construct the pattern graph isomorphism tree: judge each pattern graph by two or two, if there is a subgraph isomorphism relationship between the two pattern graphs, add a directed edge from the smaller pattern graph to the larger pattern graph, and get the pattern of the pattern graph set. Graph isomorphism tree; (3) Mining frequent subgraphs of pattern graph isomorphism tree, finding common pattern graph and adding it to pattern graph isomorphism tree; (4) When there is a sub-pattern graph in pattern graph isomorphism tree with multiple parent pattern graphs, the only parent pattern graph is retained for the sub-pattern graph; (5) Calculating the minimum spanning tree of pattern graph isomorphism tree, and traversing it in depth first to get the model. The optimal matching order of schema set. The invention can greatly improve the matching efficiency.
【技术实现步骤摘要】
一种面向弱结构相关性的多模式图索引构建方法及系统
本专利技术涉及一种面向弱结构相关性的多模式图索引构建方法及系统,属于计算机软件
技术介绍
随着大数据时代的到来,来自互联网及生活中的海量多源异构数据正以前所未有的速度产生并累积,这些数据之间存在着紧密的关联性,图(graph)作为一种广泛应用的数据结构,非常适合刻画这种具有内在关联性的数据,图模式匹配(graphpatternmatching)作为实现图数据上高效查询的重要手段,是众多基于图数据分析和挖掘的基础技术。图模式匹配是指给定数据图和特定模式图,在数据图中找到与该模式图结点和边的连接拓扑结构相同、对应结点和边上的属性也相同的所有匹配结果。随着数据规模的不断扩大,在大规模图数据上进行快速、准确的图模式匹配是目前亟待解决的问题。现有的图模式匹配技术主要通过优化剪枝策略、对数据图建立索引等方式,提高图模式匹配的性能,然而在实际应用中,有许多应用场景需要处理批量模式图,这种需要同时匹配多个模式图的问题称为多模式图匹配,其实质是对于给定的数据图和一组待查询的模式图,计算每个模式图在数据图上的图模式匹配结果,例如:(1)在网络攻击检测中,网络中的计算机、IP地址、用户、软件服务之间的关系可以表示成图结构,其中计算机、IP地址等抽象为图结构的节点,他们之间的关系表示为边。通过分析病毒(如WittyWorm)和网络攻击(如SmurfDDOS、FraggleDDOS)的数据传输路径和通讯模式,在病毒模式库、网络攻击模式库中,利用多图模式匹配技术,可以实时检测随着图数据更新可能出现的病毒传播、恶意攻击等网络安 ...
【技术保护点】
1.一种面向弱结构相关性的多模式图索引构建方法,其步骤包括:1)读取目标领域的模式图集合中的模式图并为每一模式图生成一模式图标志ID;其中,模式图集合为弱结构相关性的模式图集合,即所述模式图集中,含有同构关系的子模式图数目低于或等于模式图总数的设定比例h;2)构建模式图同构树:对各所述模式图进行两两判断,如果两个模式图之间存在子图同构关系,则添加一条从规模较小模式图指向规模较大模式图的有向边,得到所述模式图集合的模式图同构树;3)对所述模式图同构树进行频繁子图挖掘,找到公共模式图并将其加入到所述模式图同构树中;4)当所述模式图同构树中存在一子模式图具有多个父模式图时,则为该子模式图保留唯一的父模式图;5)计算所述模式图同构树的最小生成树,并对其进行深度优先遍历,得到所述模式图集的最优匹配顺序。
【技术特征摘要】
1.一种面向弱结构相关性的多模式图索引构建方法,其步骤包括:1)读取目标领域的模式图集合中的模式图并为每一模式图生成一模式图标志ID;其中,模式图集合为弱结构相关性的模式图集合,即所述模式图集中,含有同构关系的子模式图数目低于或等于模式图总数的设定比例h;2)构建模式图同构树:对各所述模式图进行两两判断,如果两个模式图之间存在子图同构关系,则添加一条从规模较小模式图指向规模较大模式图的有向边,得到所述模式图集合的模式图同构树;3)对所述模式图同构树进行频繁子图挖掘,找到公共模式图并将其加入到所述模式图同构树中;4)当所述模式图同构树中存在一子模式图具有多个父模式图时,则为该子模式图保留唯一的父模式图;5)计算所述模式图同构树的最小生成树,并对其进行深度优先遍历,得到所述模式图集的最优匹配顺序。2.如权利要求1所述的方法,其特征在于,采用双层过滤策略对模式图进行两两判断,其方法为:a)对于两模式图,根据模式图中结点和边的属性进行比较,如果规模较小的模式图中存在规模较大模式图中不存在的属性,或者规模较小的模式图中一属性出现的频数超过规模较大的模式图对应属性的出现频数,则判定规模较小的模式图不是规模较大模式图的子图;b)将结点和边的属性结合起来,构造一个三元组:(l(vi),l(eij),l(vj)),其中l(vi)表示结点vi的属性,l(vj)表示结点vj的属性,l(eij)表示以vi和vj为端点的边eij的属性;如果规模较小的模式图中存在规模较大模式图中不存在的三元组,或者规模较小的模式图中存在一个三元组且该三元组出现的频数超过规模较大的模式图对应三元组的出现频数,则判定规模较小的模式图不是规模较大模式图的子图;其中,所述规模是指模式图中节点的数目和边的数目。3.如权利要求1所述的方法,其特征在于,所述模式图同构树中,如果出现一个子模式图有多个父模式图,则计算所述模式图同构树中该子模式图与对应各父模式图结构之间的差值,选取与该子模式图差值最小的父模式图作为该子模式图的父模式图。4.如权利要求3所述的方法,其特征在于,计算所述差值...
【专利技术属性】
技术研发人员:于静,唐钰葆,刘小梅,刘燕兵,曹聪,谭建龙,郭莉,
申请(专利权)人:中国科学院信息工程研究所,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。