一种应用于大规模非规则结构数据的图搜索方法技术

技术编号：12879870 阅读：88 留言：0更新日期：2016-02-17 14:00

本发明专利技术提出了一种应用于大规模非规则结构数据的图搜索方法，包括数据预处理方法和查询执行方法，其中数据预处理方法为：将非规则结构数据进行格式统一，为每个图的原图点构造一近邻标签向量表，构造具有属性点的扩充图；查询执行方法为：在原图数据点中利用一近邻标签筛选与关键点对应的候选匹配点，计算候选匹配点的匹配度并选择局部区域的中心点，在中心点周围划分出局部区域并查询子图和局部图的近似图匹配。该算法在保证搜索准确性的同时，大幅度降低运算复杂度，可以实现可行且有效的大规模非规则结构数据的图搜索。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于图数据管理、图数据挖掘领域，涉及一种应用于大规模非规则结构数据的图搜索算法。
技术介绍
图模型是最常见的结构模型之一，由自然形成或人工构造产生，广泛应用于各类关系的描述。其中，点通常用来代表实体，如分子、个人、电子账户等；边通常用来描述两个实体间的具体关系，如分子键、通讯往来等。社会计算、生物信息学等应用中存在大量非规则结构数据的处理需求，基于图模型的挖掘算法逐步受到人们的关注。其中，一种点用离散化标签标识属性、边用权重值表示点联系紧密程度的非规则结构数据，在社交网络分析、知识发现等领域具有广泛应用，图搜索是实际应用中一项极为重要的需求。例如，给定一个社交网络图，若想了解某种社交子结构存在的情况，可以将此种社交子结构表示为查询子图，在给定的大型社交网络图中找到查询子图的匹配。又例如，生物网络的图模型通常由上万个点和百万条边组成，图搜索可以确定某个分子结构是否出现于搜索的生物网络中，生物学家可以通过图搜索来减少蛋白质结构匹配的实验代价。对于大规模非规则结构数据的图搜索算法，传统的图数据库信息检索方法可能返回大量查询结果，且查询结果不具有代表性，这是因为没有考虑点的影响力差异；现有方法大多利用索引（Index)结构剪枝，采用回溯算法的基本框架，返回精确匹配结果，这些方法复杂度较高，且只能返回完全与查询子图匹配的图搜索结果，但无法返回与查询子图相似的结果；此外，由于子图匹配本身是一个NP-hard问题，复杂度较高，直接使用图匹配的经典算法无法解决大规模非规则结构数据的图搜索问题。可见传统的图搜索算法已...

【技术保护点】
一种应用于大规模非规则结构数据的图搜索算法，其特征在于，包括数据预处理方法和查询执行方法；数据预处理方法包括如下步骤：步骤S11，将非规则结构数据统一为一种图的数据格式作为原图；统一数据格式后的每个图中的点为原图点；步骤S12，为每个图的原图点构造一近邻标签向量表；步骤S13，在统一数据格式后的每个图中加入新的点作为属性点，并添加对应的边，形成具有属性点的扩充图；步骤S14，在扩充图上，使用重启动随机游走算法，以每个属性点为起点，计算属性点到每个原图点的概率。查询执行方法包括如下步骤：步骤S21，确定查询子图的关键性节点作为关键点，并在原图点中利用一近邻标签向量表筛选与关键点对应的点作为候选匹配点；步骤22，计算候选匹配点的匹配度，并根据匹配度大小选择局部区域的中心点；步骤23，在中心点周围进行局部区域的划分，利用松弛法进行查询子图和局部图的近似图匹配。

【技术特征摘要】

【专利技术属性】
技术研发人员：刘智勇，王晶晶，乔红，杨旭，苏建华，
申请(专利权)人：中国科学院自动化研究所，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人