一种应用于大规模非规则结构数据的图搜索方法技术

技术编号:12879870 阅读:88 留言:0更新日期:2016-02-17 14:00
本发明专利技术提出了一种应用于大规模非规则结构数据的图搜索方法,包括数据预处理方法和查询执行方法,其中数据预处理方法为:将非规则结构数据进行格式统一,为每个图的原图点构造一近邻标签向量表,构造具有属性点的扩充图;查询执行方法为:在原图数据点中利用一近邻标签筛选与关键点对应的候选匹配点,计算候选匹配点的匹配度并选择局部区域的中心点,在中心点周围划分出局部区域并查询子图和局部图的近似图匹配。该算法在保证搜索准确性的同时,大幅度降低运算复杂度,可以实现可行且有效的大规模非规则结构数据的图搜索。

【技术实现步骤摘要】

本专利技术属于图数据管理、图数据挖掘领域,涉及一种应用于大规模非规则结构数 据的图搜索算法。
技术介绍
图模型是最常见的结构模型之一,由自然形成或人工构造产生,广泛应用于各类 关系的描述。其中,点通常用来代表实体,如分子、个人、电子账户等;边通常用来描述两个 实体间的具体关系,如分子键、通讯往来等。 社会计算、生物信息学等应用中存在大量非规则结构数据的处理需求,基于图模 型的挖掘算法逐步受到人们的关注。其中,一种点用离散化标签标识属性、边用权重值表示 点联系紧密程度的非规则结构数据,在社交网络分析、知识发现等领域具有广泛应用,图搜 索是实际应用中一项极为重要的需求。例如,给定一个社交网络图,若想了解某种社交子结 构存在的情况,可以将此种社交子结构表示为查询子图,在给定的大型社交网络图中找到 查询子图的匹配。又例如,生物网络的图模型通常由上万个点和百万条边组成,图搜索可以 确定某个分子结构是否出现于搜索的生物网络中,生物学家可以通过图搜索来减少蛋白质 结构匹配的实验代价。 对于大规模非规则结构数据的图搜索算法,传统的图数据库信息检索方法可能返 回大量查询结果,且查询结果不具有代表性,这是因为没有考虑点的影响力差异;现有方法 大多利用索引(Index)结构剪枝,采用回溯算法的基本框架,返回精确匹配结果,这些方法 复杂度较高,且只能返回完全与查询子图匹配的图搜索结果,但无法返回与查询子图相似 的结果;此外,由于子图匹配本身是一个NP-hard问题,复杂度较高,直接使用图匹配的经 典算法无法解决大规模非规则结构数据的图搜索问题。可见传统的图搜索算法已经无法满 足日益增长的大规模非规则结构数据的处理需求。
技术实现思路
为解决现有图搜索算法的复杂度高和效率不能满足需求的问题,本专利技术提出了一 种应用于大规模非规则结构数据的图搜索算法,在保证精度的条件下,降低了算法的复杂 度,提高了图搜索的效率。 本专利技术提出的,包括数据预处理 方法和查询执行方法; 数据预处理方法包括如下步骤: 步骤S11,将非规则结构数据统一为一种图的数据格式作为原图;统一数据格式 后的每个图中的点为原图点; 步骤S12,为每个图的原图点构造一近邻标签向量表; 步骤S13,在统一数据格式后的每个图中加入新的点作为属性点,并添加对应的 边,形成具有属性点的扩充图; 步骤S14,在扩充图上,使用重启动随机游走算法,以每个属性点为起点,计算属性 点到每个原图点的概率。 查询执行方法包括如下步骤: 步骤S21,确定查询子图的关键性节点作为关键点,并在原图点中利用一近邻标签 向量表筛选与关键点对应的点作为候选匹配点; 步骤22,计算候选匹配点的匹配度,并根据匹配度大小选择局部区域的中心点; 步骤23,在中心点周围进行局部区域的划分,利用松弛法进行查询子图和局部图 的近似图匹配。 优选的,所述扩充图的构建方法为:依据原图的m个不同的标签加入m个属性点, 这m个属性点的数据格式与原图点的数据格式完全相同,点序列号递增;以属性点为起点, 以相同标签的其它原图点为终点,向原图中添加单向边。 优选的,所述为每个图的原图点构造一近邻标签向量表的方法为:依据原图的 m个不同的标签,为每个原图点构造一个m位的一近邻标签向量,若原图点存在标签为 label_i的邻接点,则该原图点一近邻标签向量中对应的第i位取值为1,否则该位取值为 0〇 优选的,所述候选匹配点的筛选方法为: 步骤211,在原图点中筛选出所有标签与关键点标签相同的原图点; 步骤212,对关键点的一近邻标签向量取反后与步骤211中筛选出来的原图点的 标签向量进行或运算,若结果为全1向量,则将该原图点选为候选匹配点。 优选的,所述候选匹配点的匹配度的计算方法为:计算查询子图中关键点到其它 点的概率,并结合步骤S14中的属性点到每个原图点的概率,按照如下公式计算候选匹配 点与关键点的兀配度ε(α,i), 其中查询子图q中的点的下标用1和k表示,k为查询子图的关键点下标,1为查 询子图的非关键点下标;扩充图G'中下标用l_label和i表示,其中i表示候选匹配点的 下标,l_label表示q中非关键点1对应的G'中属性点的下标;rUatelil代表属性点到候选 匹配点的R值,rUk表示查询子图中非关键点1到关键点k的R值。 优选的,所述根据匹配度大小选择局部区域的中心点的方法为:按照候选匹配点 与关键点的匹配度递减顺排序,选择前K个点作为局部区域的中心点。 优选的,采用宽度优先遍历的方法进行局部区域的划分,具体为:设定遍历层数和 点规模的阈值,以局部区域的中心点为根点进行宽度优先遍历,当点数达到点规模的阈值 或层数的阈值或所有点都没有未经遍历的邻接点时,扩展停止,得到该中心点对应的局部 区域。 优选的,在局部区域划分的过程中设置有中心点的邻接点的筛选过程,筛选依据 为:中心点的邻接点的标签属于查询子图的关键点的邻接点的标签的一种,则选择该 中心点的邻接点加入局部区域,否则不予选择; 将中心点的邻接点的一近邻标签向量与关键点所有邻接点的一近邻标签向量取 反后的向量组中各个向量依次做或运算,若存在结果为全1向量,则选择该中心点的邻接 点加入局部区域,否则不予选择。 优选的,近似图匹配采用的松弛法为渐非凸渐凹化过程方法。 本专利技术采用整体线性筛选、局部结构匹配的思路,即利用图的某些信息,对全图进 行快速粗定位,筛选重要点作为局部区域的中心点;然后在该局部区域内,利用渐非凸渐凹 化算法进行图匹配,将图搜索问题转化为搜索范围的多个局部分别与搜索子图相互匹配的 过程,在保证一定精度的条件下,降低算法的复杂度。【附图说明】 图1为本专利技术实施例的整体框架图示; 图2为本专利技术实施例的大规模非规则结构数据的预处理方法的图示; 图3为本专利技术实施例的应用于大规模非规则结构数据图搜索的方法的图示。【具体实施方式】 为使本专利技术的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照 附图,对本专利技术进一步详细说明。 如图1所示,本专利技术的,包括两 大部分:数据预处理部分和查询执行部分。 数据预处理部分主要包含数据规范化、一近邻标签向量构建、扩充图构建以及离 线计算R值(R值具体表示为&j,表示重启动随机游走中从起始点i到达点j的概率,可以 反映两点间联系的紧密程度),即针对大规模非规则结构数据的特点,对数据进行统一格式 的存储,并为每个点构造一近邻标签向量表,并根据图搜索的需要,扩充原图数据获得扩充 图,在扩充图上为每个点离线计算R值。 查询执行部分的主要思路是利用关键点匹配度确定中心点,并在中心点周围划分 局部区域,在每个局部区域利用渐非凸渐凹化过程进行近似图匹配,从而得到图搜索结果。 在我们的方法中,我们采用重启动的随机游走取得的R值来衡量两点关系的紧密 程度,较好的利用了边的权重信息,在计算匹配度的同时,考虑了点在图中的重要性差异, 利用关键点的匹配度,使得返回查询结果更具代表性;同时由于采用了松弛法进行局部的 子图匹配,可以返回近似查询结果;离线计算R值、利用匹配度定位中心点、利用一近邻标 签筛选点以及只在局部区域内利用松弛法进行图匹配等方法,降低了算法复杂度,可用于 大规模非规则结构数据的图搜索。 如本文档来自技高网
...

【技术保护点】
一种应用于大规模非规则结构数据的图搜索算法,其特征在于,包括数据预处理方法和查询执行方法;数据预处理方法包括如下步骤:步骤S11,将非规则结构数据统一为一种图的数据格式作为原图;统一数据格式后的每个图中的点为原图点;步骤S12,为每个图的原图点构造一近邻标签向量表;步骤S13,在统一数据格式后的每个图中加入新的点作为属性点,并添加对应的边,形成具有属性点的扩充图;步骤S14,在扩充图上,使用重启动随机游走算法,以每个属性点为起点,计算属性点到每个原图点的概率。查询执行方法包括如下步骤:步骤S21,确定查询子图的关键性节点作为关键点,并在原图点中利用一近邻标签向量表筛选与关键点对应的点作为候选匹配点;步骤22,计算候选匹配点的匹配度,并根据匹配度大小选择局部区域的中心点;步骤23,在中心点周围进行局部区域的划分,利用松弛法进行查询子图和局部图的近似图匹配。

【技术特征摘要】

【专利技术属性】
技术研发人员:刘智勇王晶晶乔红杨旭苏建华
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1