System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于图嵌入距离预测的子图匹配算法的图数据库查询方法技术_技高网

基于图嵌入距离预测的子图匹配算法的图数据库查询方法技术

技术编号:41123968 阅读:2 留言:0更新日期:2024-04-30 17:50
本发明专利技术属于图数据处理技术领域,具体为一种基于图嵌入距离预测的子图匹配算法的图数据库查询方法;基于图嵌入将数据图结构信息编码成向量,并将这一过程放在离线阶段,不影响在线查询阶段的响应效率;通过图向量的运算预测距离并基于距离预测的结果对候选集进行剪枝,具有向量运算计算量较小、硬件实现效率高的优点,同时可以获得基于高阶信息的剪枝结果。对比现有技术每次查询都会产生与查询图和数据图边数的乘积成正比的在线计算量,本方案具有在线响应时间上的优势。

【技术实现步骤摘要】

本专利技术属于图数据处理,具体的说,涉及一种基于图嵌入距离预测的子图匹配算法的图数据库查询方法


技术介绍

1、根据参考文献[1],现有的前沿子图匹配算法框架由生成候选集和辅助数据结构、生成枚举顺序和枚举三部分构成。候选集是指有可能与查询图结点匹配的数据图结点构成的集合。生成候选集方面,基本的过滤方法有标签和度数过滤器(ldf),即查询图每个结点u的候选集c(u)由数据图中标签与它相同且度数不小于它的结点构成;以及邻居标签频率过滤器(nlf),即若v∈c(u)满足存在某个标签l,u的标签为l的邻居个数大于v的,则将v移出c(u)。

2、graphql[2]将生成候选集分为局部剪枝和全局优化两个阶段。剪枝是指根据查询图路径等约束条件,从候选集种删除不符合约束条件的数据图结点,从而缩小候选集的规模。局部剪枝基于结点r跳可达的邻居结点的标签按字符序排列得到的profile生成候选集。全局优化则枚举查询图结点u的候选集v∈c(u),基于局部剪枝阶段生成的候选集构建查询图结点u的邻居n(u)与u的候选集结点v∈c(u)的邻居n(v)之间的二分图,通过检查该二分图是否有半完美匹配(n(u)被完全匹配),决定v是否留在c(u)中。该过程重复k次,k可由用户指定。cfl[3]在构建候选集的同时,设计了被称为压缩路径索引的树形辅助数据结构用于剪枝。基于基本事实,cfl提出了生成和过滤候选集的规则,即通过结点邻居的候选集的邻居的交求得结点的候选集,以及排除候选结点邻居集与结点邻居候选集的交为空集的候选结点。ceci[4]在cfl的基础上设计了被称为压缩嵌入簇索引的辅助数据结构,该数据结构不仅维护了与bfs树边对应的候选集结点之间的边,也维护了与非树边对应的边。在沿bfs得到的结点序构建候选集时,还会基于当前结点的前向邻居(即在结点序中位于当前结点之前的邻居)和后向邻居(即在结点序中位于当前结点之后的邻居)的候选集对当前结点的候选集进行剪枝。dp-iso[5]设计了名为候选空间的辅助数据结构,维护了所有候选集结点之间与查询图对应的边。该算法使用ldf生成初始候选集,过滤阶段基于前述的过滤规则进行,反复使用前向邻居和后向邻居的候选集优化结点的候选集。cfl、ceci、dp-iso算法生成候选集的时间和空间复杂度均与查询图边数和数据图边数的乘积成正比。

3、生成枚举顺序方面,quicksi[6]提出了出现频率低的边优先的枚举顺序生成方法。该方法根据标签个数定义点权和边权,将查询图转化为点和边的带权图,按照点权/边权的顺序生成枚举顺序。dp-iso提出了一种在枚举过程中动态选择下一个匹配结点的方法,根据与辅助数据结构中与树形路径同构的路径数量和局部候选集决定下一个匹配结点。ri[7]基于查询图的结构生成枚举顺序。首先选择具有最大度数的结点作为枚举顺序的初始结点,然后迭代地选择在当前枚举顺序中有最多邻居的结点,并基于二阶邻居等规则处理平局。vf2++[8]首先选择标签在数据图中最不常见且在查询图中度数最大的结点作为根结点ur,从ur开始做bfs得到bfs树qt,按照结点在qt中的深度将结点自顶向下加入枚举顺序。同一深度的结点按照在当前枚举顺序中的邻居个数多者优先的顺序加入,对于比较时的平局,基于度数大优先和标签在数据图中少见优先的规则处理。上述技术手段在一些查询的情形下,在不同程度上存在生成的枚举顺序导致后续枚举次数较高的问题。

4、枚举方面,quicksi、ri和vf2++属于直接枚举算法,没有生成全局候选集的过程,而是在枚举过程中遍历上一映射结点的邻居,检查是否满足条件以生成局部候选集。vf2++还引入了额外的过滤规则对局部候选集进行剪枝;graphql没有维护候选集结点之间的边,因此需要遍历整个全局候选集以生成局部候选集;cfl可通过辅助数据结构检索全局候选集中上一映射结点的邻居,ceci和dp-iso的辅助数据结构维护了候选集结点之间与查询图边对应的所有边,因此可以通过对辅助数据结构检索结果取交集直接生成局部候选集。此外,dp-iso还在枚举过程中利用失配信息对尚未枚举的部分进行剪枝。上述技术手段在一些查询的情形下,在不同程度上存在未能及时对不存在结果的枚举分支进行剪枝,从而增加枚举时间代价的问题。

5、参考文献[9]提出了与图神经网络结合的子图匹配方法。该方法对数据图中的每个结点提取k跳可达的邻居构成的子图,通过使用k层图神经网络,将该子图结构嵌入到图向量空间。对于查询图,该方法将问题转化成判定查询图的每个结点为中心的k跳邻居构成的结构是否是数据图中某个结点的k跳结构的子图。参考文献[9]提出的方法不能确保完整枚举所有匹配结果的不足。

6、以上,现有子图匹配算法在生成候选集阶段的时间复杂度都与查询图和数据图边数的乘积成正比,对于大规模图数据库的单次查询而言是非常高昂的。且现有子图匹配算法在每次查询时都要在线地构建与查询图相关的辅助数据结构或索引,查询响应效率不高的同时,存在没有充分利用数据图结构信息以及查询历史信息的缺点。


技术实现思路

1、针对上述现有技术的不足,本专利技术的目的在于提供一种基于图嵌入距离预测的子图匹配算法的图数据库查询方法;本专利技术通过距离预测模型获取高阶图结构信息,并利用高阶图结构信息进一步缩小候选集大小,从而降低枚举阶段的运行时间,提升整体子图匹配查询性能。

2、本专利技术将基于图嵌入的距离预测应用到子图匹配问题候选集的过滤剪枝过程中。由于子图匹配主要的计算代价在枚举过程,而候选集的大小直接影响枚举过程的计算量,因此设计高效的候选集过滤方法是子图匹配算法的关键。本专利技术将距离预测引入候选集的过滤剪枝过程,并借助图嵌入在较小计算量下获得了较高精度距离预测结果,基于此结果生成了更小的候选集,从而提升了整个子图匹配过程的效率。本专利技术的技术方案具体如下。

3、本专利技术提供一种基于图嵌入距离预测的子图匹配算法的图数据库查询方法,包括以下步骤:

4、步骤一、离线阶段-预处理

5、在数据图上使用图神经网络模型训练图结点的嵌入向量,将图的结构信息以向量形式编码;

6、在数据图上采样,获取结点对和结点之间的距离;

7、将结点对的嵌入向量和结点间距离作为模型输入,训练距离预测模型;再将起始结点和目的结点的嵌入向量作为训练好的距离预测模型输入,输出这两个结点之间的距离预测结果;

8、步骤二、在线阶段-子图匹配

9、(1)生成候选集

10、首先,用户输入一个查询图,对于查询图上的所有结点,首先使用标签和度数过滤器ldf初步生成查询图结点的候选集,即数据图中标签与查询图结点相同,且度数不小于查询图结点的结点构成的集合;

11、然后,建立查询图结点的索引,索引保存了与查询图结点距离为特定值的所有结点信息;索引结构包括:结点id、距离、数量和具体点信息,其中,结点id字段的值是图中唯一标识当前索引结点的id,距离字段的值是从当前索引结点出发经过的距离,数量字段的值是从当前索引本文档来自技高网...

【技术保护点】

1.一种基于图嵌入距离预测的子图匹配算法的图数据库查询方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于图嵌入距离预测的子图匹配算法的图数据库查询方法,其特征在于,步骤一中,距离预测模型采用分类器实现。

3.根据权利要求1所述的基于图嵌入距离预测的子图匹配算法的图数据库查询方法,其特征在于,步骤二(1)中,对于查询图结点u和它的候选集里的数据图结点v,从查询图索引中依次提取u的距离为1,2,…,k的结点u′;对于u′的候选集中的结点v′,将v和v′的结点嵌入向量输入距离预测模型,得到距离预测结果;如果距离预测结果小于等于u与u′的实际距离l,且l大于1,就进入与上层结点连接性检查阶段,检查当前得到的与v之间的预测距离为l的结点v′是否满足与上一层距离索引中的某个结点相邻,以排除不满足条件的候选结点,若v′通过了上层结点连接性检查,则将v′加入v的距离为l的索引中;

4.根据权利要求1所述的基于图嵌入距离预测的子图匹配算法的图数据库查询方法,其特征在于,步骤二(1)中,当将一个数据图结点移出某个查询图结点的候选集后,在为其他数据图结点构建索引时,增加一步检查距离为1的索引中结点的有效性的操作。

5.根据权利要求1所述的基于图嵌入距离预测的子图匹配算法的图数据库查询方法,其特征在于,步骤二(2)中,记上一阶段得到的查询图结点u的候选集为C(u),度数为d(u),首先选择的结点u*作为枚举的起始结点,将该结点加入枚举顺序;接下来,迭代地在未被选择的查询图结点中选择与已经加入枚举顺序的结点有相邻关系,且满足上式的结点加入枚举顺序。

6.根据权利要求1所述的基于图嵌入距离预测的子图匹配算法的图数据库查询方法,其特征在于,步骤二(3)中,对当前被枚举的查询图结点u,将u的候选集C(u)与u的前向邻居映射到的当前数据图结点v′的索引结构中对应的距离索引取交集,并剔除已经被映射的数据图结点,得到u的当前候选集local_C(u);

...

【技术特征摘要】

1.一种基于图嵌入距离预测的子图匹配算法的图数据库查询方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于图嵌入距离预测的子图匹配算法的图数据库查询方法,其特征在于,步骤一中,距离预测模型采用分类器实现。

3.根据权利要求1所述的基于图嵌入距离预测的子图匹配算法的图数据库查询方法,其特征在于,步骤二(1)中,对于查询图结点u和它的候选集里的数据图结点v,从查询图索引中依次提取u的距离为1,2,…,k的结点u′;对于u′的候选集中的结点v′,将v和v′的结点嵌入向量输入距离预测模型,得到距离预测结果;如果距离预测结果小于等于u与u′的实际距离l,且l大于1,就进入与上层结点连接性检查阶段,检查当前得到的与v之间的预测距离为l的结点v′是否满足与上一层距离索引中的某个结点相邻,以排除不满足条件的候选结点,若v′通过了上层结点连接性检查,则将v′加入v的距离为l的索引中;

4.根据权利要求1所述的基于图嵌入...

【专利技术属性】
技术研发人员:汪卫王浩宇吴钟立雷天洋王志平
申请(专利权)人:星环信息科技上海股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1