【技术实现步骤摘要】
一种图相似性搜索方法、装置及计算机存储介质
[0001]本专利技术涉及图像搜索
,尤其涉及一种图相似性搜索方法、装置及计算机存储介质。
技术介绍
[0002]近年来,随着互联网技术的飞速发展,数据量呈现指数型增长,实现数据的高效存储与检索至关重要。在大数据时代,由于数据实体具有各自的特征属性且大量数据之间存在相互关联的复杂关系,通常将这些数据实体以及数据之间的关系抽象为图结构。面对大规模图数据集,图相似性搜索算法在数据分析中具有重要意义,且已被广泛应用于各个领域,如生化信息学、计算机视觉、模式识别和数据检索等。
[0003]在图数据集中,对于给定的查询图和编辑距离阈值,根据指定的图相似性度量标准检索所有编辑距离不超过编辑距离阈值的数据图的过程称为图相似性搜索。目前,评估图相似性(查询图与数据图的相似性评估)的度量标准有图编辑距离、最大公共子图和图对齐等。其中,图编辑距离(Graph Edit Distance,GED)作为最常用的度量保准,基本可以评估所有类型的图,精确计算图之间的结构差异。由于图编辑距离计算是
【技术保护点】
【技术特征摘要】
1.一种图相似性搜索方法,其特征在于,包括以下步骤:提供查询图和包括多个数据图的数据图集合;确定编辑距离阈值,确定每一所述数据图与所述查询图之间的顶点数和边数的差值,从所述数据图集合中过滤掉顶点数和边数的差值大于所述编辑距离阈值的所述数据图,得到预候选数据图集合;基于扩展概率对所述查询图进行分区以获得查询图分区集合;所述查询图分区集合中包括若干个非重叠分区;所述非重叠分区的数量为所述编辑距离阈值与下界参数值的和;确定所述查询图与所述预候选数据图集合中每一所述数据图之间的不匹配分区数,从所述预候选数据图集合中过滤掉所述不匹配分区数大于所述编辑距离阈值的所述数据图,以获得候选数据图集合;构建多层索引,每一层所述索引配置有子候选查询图集合,每一所述子候选查询图集合均包括多个所述非重叠分区,多个所述子候选查询图集合构成候选查询图集合;所述下界参数值为所述非重叠分区所在的所述索引的层数;划分所述索引序列,并计算所述索引序列中元素相似性差值,设置所述索引序列的压缩阈值;压缩所述索引,当所述元素相似性差值大于所述压缩阈值时,采用分区压缩方法对所述索引进行压缩,当所述元素相似性差值小于或等于所述压缩阈值时,采用差值压缩方法对所述索引进行压缩;计算所述数据图与所述查询图之间的图编辑距离,当所述图编辑距离小于等于编辑距离阈值时,将查询图加入结果集并返回所述结果集。2.根据权利要求1所述的图相似性搜索方法,其特征在于,基于扩展概率对所述查询图进行分区,包括:对所述查询图所包括的顶点进行分配;对所述查询图所包括的跨区域边进行分配。3.根据权利要求2所述的图相似性搜索方法,其特征在于,所述对所述查询图所包括的顶点进行分配包括:随机选取所述非重叠分区的初始顶点,将所述初始顶点扩展为非重叠初始分区;将每一所述初始顶点的邻居顶点加入到所述非重叠初始分区中,计算所述邻居顶点对每一所述非重叠初始分区的贡献值,将所述邻居顶点加入到所述贡献值最大的非重叠初始分区中;当所述贡献值相等时,则将所述邻居顶点随机加入较小的非重叠初始分区中;重复步骤上一步骤,计算每个所述非重叠初始分区的所述邻居顶点对每一所述非重叠初始分区的所述贡献值,直到分配完所有所述邻居顶点。4.根据权利要求3所述的图相似性搜索方法,其特征在于,所述对所述查询图所包括的跨区域边进行分配,包括:所有所述邻居顶点分配完之后,将所述跨区域边分配到其顶点所在的所述非重叠初始分区中,计算所述贡献值,将所述跨区域边分配到所述贡献值最大的所述非重叠初始分区中,以获得所述非重叠分区。5.根据权利要求4所述的图相似性搜索方法,其特征在于,定义所述贡献值为
△
p
i
且
△
p
i
通过
△
p
i
=|s(p
i
∪{v})
‑
s(p
i
)|确定;
其中,
△
p
i
代表贡献值,p
i
为某一分区;v为初始顶点;s(p
i
)为某一所述分区的扩展概...
【专利技术属性】
技术研发人员:郑朝晖,王健翔,邱珍,
申请(专利权)人:苏州海加网络科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。