一种基于图测度的子图相似查询方法技术

技术编号:13464267 阅读:106 留言:0更新日期:2016-08-04 18:24
本发明专利技术属于数据库技术领域,具体涉及一种基于图测度的子图相似查询方法。本方案所描述子图相似为:给定数据图的集合D={G1,G2,…,Gn}、查询图q和子图相似距离阈值s,从D中找出所有和q的子图相似距离小于s的数据图。本方案先将不同测度的子图相似距离的估算转化为图测度距离的估算,再根据图测度距离的估算进行过滤,完成子图相似查询,进一步构建图测度树,基于图测度树进行子图相似查询。将非同意测度的子图相似距离的估计转化为图测度距离的估计,进而可使用三角不等式进行过滤;既支持连通子图的相似查询,也可以支持不连通的子图相似查询;设计一个图测度树来对数据图合集中的数据图进行索引,大大提高查询的效率。

【技术实现步骤摘要】
【专利摘要】本专利技术属于数据库
,具体涉及。本方案所描述子图相似为:给定数据图的集合D={G1,G2,…,Gn}、查询图q和子图相似距离阈值s,从D中找出所有和q的子图相似距离小于s的数据图。本方案先将不同测度的子图相似距离的估算转化为图测度距离的估算,再根据图测度距离的估算进行过滤,完成子图相似查询,进一步构建图测度树,基于图测度树进行子图相似查询。将非同意测度的子图相似距离的估计转化为图测度距离的估计,进而可使用三角不等式进行过滤;既支持连通子图的相似查询,也可以支持不连通的子图相似查询;设计一个图测度树来对数据图合集中的数据图进行索引,大大提高查询的效率。【专利说明】-种基于图测度的子图相似查询方法
本专利技术属于数据库
,具体设及。
技术介绍
近年来,图数据(gra曲-Struc化red data)在很多领域得到了广泛应用。如化学信 息学,生物信息学,社交网络,智能交通,计算机视觉,医学信息学等。子图相似查询 (subgra曲similarity queries)是图数据上一类非常重要的查询,应用范围很广。如在社 交网络上,子图相似查询可用于寻找网络中具有某些特定关系的人;在化学分子数据库中, 用于寻找包含某特定结构的分子;在蛋白质交互网络中,用来寻找一组满足特定功能联系 的蛋白质;在医学上用于医生的辅助诊断等。 现有的子图相似查询方法主要有W下几种:(1)基于图闭包的CTree方法。该方法 首先定义了两个图之间的闭包。然后为数据库(D)中的数据图构建一棵闭包树CTreeXTree 的思想是树中每个节点为子节点的闭包。CTree能够支持子图相似查询,但是有两个不足。 一是仅支持图编辑距离定义下的相似查询,不能支持其他距离定义下的相似查询。二是仅 能找到近似解。(2)基于图分割的方法。该方法的思想是对一个数据图G,枚举出所有的大小 为k的子图。通过比较查询图q和运些子图的哈希值来进行子图相似查询。该方法的不足是G 会有化个大小为k的子图,枚举难W完成。(3)基于图特征过滤的方法。该方法是从D中的数 据图中提取频繁子图作为特征,通过比较查询图q所包含的特征数目和某个数据图G所包含 的特征数目来进行子图相似查询。但该方法要建立一个非常大的稀疏矩阵,存储的效率很 低。(4)基于Ξ角不等式的过滤方法。该方法所使用的子图相似距离满足Ξ角不等式,通过 Ξ角不等式估算查询图q和某个数据图G的距离,如果估算的距离肯定大于t,则G肯定不是 答案,该方法只能支持连通子图的相似查询,不支持非连通子图的相似查询。近来,有人利 用图测度来进行子图相似查询,他们的子图相似的定义和本方案所研究的子图相似的定义 不同。本方案所描述子图相似为:给定数据图的集合D={G1,G2,…,Gn}、查询图q和子图 相似距离阔值S,从D中找出所有和q的子图相似距离小于S的数据图。
技术实现思路
为了解决上述的技术问题,本专利技术提供了。 本专利技术是通过下述的技术方案来解决W上的技术问题的,本方案所描述子图相似 为:给定数据图的集合D={G1,G2,…,Gn}、查询图q和子图相似距离阔值S,从D中找出所 有和q的子图相似距离小于S的数据图。 先将不同测度的子图相似距离的估算转化为图测度距离的估算,再根据图测度距 离的估算进行过滤,完成子图相似查询,所述的基于图测度的子图相似查询方法,进一步构 建图测度树,基于图测度树进行子图相似查询;方案给出子图相似距离计算方法为:给定查 询图q和数据图G,则子图相似距离夫其中,mcs(q,G)为q和G的最大 公共子图,|mcs(q,G)|和kl分别为mcs(q,G)和q的大小;方案给出图测度距离的计算方法 为:两个图G1和G2之间的图测度距离d如下,其中,mcs(Gl,G2)是G1和G2的最大公共子图,|mcs (G1,G2) I、IG11和IG2 I分别为mcs(Gl,G2)、G巧日G2的大小;所述的将不同测度的子图相似距 离的估算转化为图测度距离的估算的转化方法是,给定查询图q,数据图G1和G2和子图相似 距离阔值t,如S近一步引入扩展图,将 图G1相对于G2的扩展图G1*定义为:若|G1|〉=|G2|,G1*=G1;否则G1* = G1UA,A为一个图, 其任何一个点都不在G1和G2中。可得出,若续婚物鶴).一谜键濟乐磅.為'{,则 礙錦'據巧筑'屯。 根据图测度距离的估算进行过滤的过滤方法是,从D中选取一个错数据图P,计算P 的扩展图P*和D中任一数据图G之间的图测度距离d(P*,G),根据用户提交的查询图q,计算 图测度距离d(q,P*)。然后根据戮按誇縱)-雄键游主:鮮為老,则礙:離^^ 礙(敏狼!是否大于t,如果是,贝化被过滤掉,如果不是,需要进一步计算奪錢辨I的确切 值。对错数据图P进一步说明,给定数据图的集合〇={61,62,''',611巧日图测度距离(1,0和(1一 起构成了一个测度空间U=(D,d)。错数据图P是D中的某个数据图或D中某个数据图的子图。 WP为中屯、,通过C个半径rVV-,rK-i,可W把测度空间U分割成C个环形的没有交集的子空 间ιΛυν··,ιτ?,如下所示 ? U°={G|r〇<=d(P*,G)<=ri,G€〇J},其中r°=0 ?对任意的 〇。<。-1,护=间'1<=(1。*,6)<='1",娘1]} ? iri={G|d(P*,G)〉rW, G€U|。 图测度树构建方法是,由于D中可能包含非常多的数据图,只靠一个错数据图进行 过滤性能不佳,在D中选取某个数据图或某个数据图的子图,作为错图P,计算D中所有数据 图和错图之间的图测度最大距离b,WV2为界,把D分为两个子集D1和D2,其中把D中和错图 的图测度距离小于b/2的数据图归为D1,把D中和错图的图测度距离大于等于V2的归为D2, 把D分成了两个子集D1和D2,递归地对D1和D2进行分割,直到集合足够小而不需进一步分 害d,把D进行递归式地分割成多个子集,对每个子集建立一个错数据图。运样便形成了一个 树形结构,称为图测度树。Wp为错图对D的分割为树根错图。对图测度树进一步说明,图测 度树T是一个4元组(V,E,r,c),其中V,E,r,c分别为T的节点集、T的边集,树根和T的扇出。更 进一步地 ? T的叶子节点vl是一个数据图的集合,数据图的数目小于C ?T的中间节点V是一个4元组(P, |P*|, TP,RP),1、P为在V所对应的测度空间U中选 取的错数据图(P*为错数据图的扩展图;Τρ={ΤΛTpi,…,T广1}为WV为树根的子树的集合; RP={tp°,rpi,...,rpc-i}为半径的集合;使得U被均匀分割成C个子空间① U°={G|d(P*,G)<= rp°,G控 U},被 Tp。所覆盖② Ui={G|rpi-i<=d(P*,G)<rpi,G 控U},被 Tpi 所覆盖③ 1]。-1=间巧。-2<=(1 (P*,G) <rpC-i,G€ UI,被Tpc-i所覆盖。 基于图测度树进行子图相似查询方法是,首先计算查询图q和树根错图的图测度 距离,递归判断是否进一步访问。图测度树上的子图相似查询算法的思想是从树根开本文档来自技高网
...

【技术保护点】
一种基于图测度的子图相似查询方法,其特征在于,包括:先将不同测度的子图相似距离的估算转化为图测度距离的估算,再根据图测度距离的估算进行过滤,完成子图相似查询,所述的基于图测度的子图相似查询方法,进一步构建图测度树,基于图测度树进行子图相似查询。

【技术特征摘要】

【专利技术属性】
技术研发人员:吕雪岭彭云
申请(专利权)人:山东联科云计算科技有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1