当前位置: 首页 > 专利查询>辽宁大学专利>正文

面向大规模向量空间路径约束连接查询方法技术

技术编号:34280614 阅读:24 留言:0更新日期:2022-07-24 18:14
本发明专利技术涉及一种面向大规模向量空间路径约束连接查询方法,属于大数据应用领域。具体方案为:步骤1基于多节点的分布式集群系统构建整体网络,制定整体网格划分策略;步骤2在分布式集群系统中引入Map

A path constrained join query method for large-scale vector space

【技术实现步骤摘要】
面向大规模向量空间路径约束连接查询方法


[0001]本专利技术属于大数据应用领域,具体涉及一种基于面向大规模向量空间路径约束连接查询方法。

技术介绍

[0002]近年来,随着交通路网、社交网络等与空间位置有关的新型服务逐渐增多,向量空间数据规模正以极快的速度增长和累积,传统数据处理技术在大规模向量空间数据上的执行效率及结果集优化等方面面临着巨大的挑战。约束连接查询是处理大规模向量数据时一种比较常见的操作,在许多应用程序中,都是数据分析的重要载体。约束连接查询将两个不同的关系连接成为一个关系,在新的关系中包含两个原关系。在约束连接查询中,自连接是一种比较特殊的连接,自连接将自身关系看作是一个镜像,即另一个自身关系,在操作时将自身关系的属性进行对比,根据属性对比结果进行连接,也可以说是利用自身相似性进行连接,它的本质是基于相似关系分析处理输入数据。自相似性连接技术在清洗数据方面起到了非常重要的作用,这种特殊类型的连接在数据分析中有非常好的应用效果,如重复检测、文档相似性分析、数据挖掘任务和聚类等,合理应用相似性将能使算法具有高可利用性和伸缩性。
[0003]现有的约束连接查询方法主要有两方面的不足:首先,一些连接方法,比如基于编辑距离的字符串相似连接、空间Top

k相似连接等方法,多是基于某些空间索引(如R树)进行连接,此类方法在数据规模较小、维度较低的数据集中具有很好的执行效率,但在大规模向量空间中,由于数据集的海量性及高维性,现有方法已经越来越无法满足实际需求;第二,在高维数据空间上和大规模矢量数据集上进行算法设计时,算法通常设计在一个计算节点上,难以处理数百万或数十亿的大数据集,计算能力和伸缩性较差,不能满足用户实时查询的需求。因此,设计一种大规模向量空间中数据集的约束连接路径查询方法是非常必要的。

技术实现思路

[0004]为了解决传统数据处理技术在大规模向量空间数据上的执行效率及结果集优化的问题,本专利技术提供一种面向大规模向量空间路径约束连接查询方法。其目的在于解决现有的向量数据处理过程中计算节点的数量过多、优化效果不明显的技术问题以及无法处理海量数据的技术问题。
[0005]本专利技术的目的是通过下述技术方案实现的:面向大规模向量空间路径约束连接查询方法,在大规模向量空间上的数据处理方法包括以下步骤:
[0006]步骤1基于多节点的分布式集群系统构建整体网络,制定整体网格划分策略;
[0007]步骤2在分布式集群系统中引入Map

Reduce处理框架,设计基于网格的距离计算优化方法;
[0008]步骤3在Map阶段中设计四阶段筛选策略,根据计算结果进行减枝操作,找到所有
满足四阶段筛选策略的备选节点,产生的结果集缓存在分布式系统中各机器节点的内存中;
[0009]步骤4在Reduce阶段进行结果路径选取,调用Map阶段输出的最终结果集并写入主计算节点中进行计算,不断删掉起点进行递归扩展遍历,最终得到查询路径;
[0010]步骤1中所述的基于多节点的分布式集群系统构建整体网络,制定整体网格划分策略,具体包括如下步骤:
[0011]步骤1

1基于多节点的分布式集群系统构建整体网络
[0012]基于分布式集群系统构建整体网络G=(V,E),整体网络是全部查询点和单向边的总和,即包含全部查询点集合E和单向边集合V。查询点的含义为分布式集群系统中的各机器节点,单向边为个机器节点间的局域网单向连接,若两个查询点对不在单向边集合V中,则默认这两个查询点之间是可以双向抵达的;
[0013]步骤1

2网格划分策略
[0014]将向量空间中的节点投影到网格中,以约束距离ε进行等宽网格划分,将全部备选节点划分至对应的单元格内,创建网格索引,设置出发节点p及约束距离ε,计算到出发节点p的其他所有不超过给定约束距离ε的备选节点,表示为p

ε近邻节点查询。查询某一出发节点的最近邻居节点需要以全部节点作为代表,考虑每一节点时必须要计算整体网络G内全部节点到所考虑节点的距离。
[0015]步骤2中所述在分布式集群系统中引入Map

Reduce处理框架,设计基于网格的距离计算优化方法,具体包括如下步骤:
[0016]步骤2

1查询点到单元格的距离计算
[0017]查询点到单元格的距离。在计算查询点到邻居单元格的距离的时候分为两种不同的情况。第一种情况,查询点所在的单元格与对应需要计算的邻居单元格在某一维度上是相同的,在这种情况下,只计算不同维度上的距离,相同那一维度上的距离默认为0。第二种情况,查询点所在的单元格与对应需要计算的邻居单元格在两个维度上都不相同,在这种情况下需要同时考虑两个不同维度的距离,计算实际距离。查询点到单元格的距离计算公式为;
[0018][0019]其中,c是一个邻居单元格,q为主单元格内的一个查询点,lb
c
[i]为c单元格下界,ub
c
[i]是c单元格上界,p为向量空间总维度数,q[i]为主单元格内选定的查询点,当查询点q位于上下界范围内时,默认该维度的距离为0,反之,则需要具体计算距离;
[0020]步骤2

2查询点间的距离计算
[0021]查询点之间的距离为空间上的节点之间的实际距离,查询点间的距离计算公式为:
[0022][0023]公式(Ⅱ)中q点及o点是整体网络G中的两个查询点,i为的含义为向量空间节点累
加的下界,p的含义是向量空间的总维度数,q
i
和o
i
是具体到某一维度上的实际距离;
[0024]步骤3中所述在Map过程中设计四阶段筛选策略,根据计算结果进行减枝操作,找到所有满足四阶段筛选策略的备选节点,产生的结果集缓存在分布式系统中各机器节点的内存中,具体按照如下步骤进行:
[0025]四阶段筛选策略实现由单元格粒度到节点粒度的逐级细化删减方式,分为出发节点到单元格距离筛选、出发节点所在约束区域筛选、单向边筛选以及出发点备选点实际距离筛选。
[0026]步骤3

1设计筛选满足条件的备选节点方法
[0027]在Map阶段,计算出发节点到单元格的距离、出发节点所有的约束区域、单向边的删选以及出发点到备选点之间的距离,根据所得到的计算结果进行删选操作,每一个Map最终得到下一步可以前进的一个结果子集:{
……
;出发节点;
……
}。即在Map阶段,找到所有到出发节点距离小于给定约束距离ε的备选节点的集合,将结果集缓存在分布式系统中各机器节点的内存中。
[0028]步骤3

2出发节点到单元格距离筛选策略
[0029]在这一阶段计算出发节点到单元格的距离,设置出发节点q,根据步骤2

1中的公式(Ⅰ)计算出发节本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.面向大规模向量空间路径约束连接查询方法,其特征在于,包括以下步骤:步骤1基于多节点的分布式集群系统构建整体网络,制定整体网格划分策略;步骤2在分布式集群系统中引入Map

Reduce处理框架,设计基于网格的距离计算优化方法;步骤3在Map阶段中设计四阶段筛选策略,根据计算结果进行减枝操作,找到所有满足四阶段筛选策略的备选节点,产生的结果集缓存在分布式系统中各机器节点的内存中;步骤4在Reduce阶段进行结果路径选取,调用Map阶段输出的最终结果集并写入分布式系统的主计算节点中进行计算,不断删掉起点进行递归扩展遍历,最终得到查询路径。2.按照权利要求1所述的面向大规模向量空间路径约束连接查询方法,其特征在于步骤1中所述的基于多节点的分布式集群系统构建整体网络,制定整体网格划分策略,包括如下步骤:步骤1

1基于多节点的分布式集群系统构建整体网络基于多节点的分布式集群系统构建整体网络G=(V,E),整体网络是全部查询点和边的总和,即包含全部查询点集合E和单向边集合V;其中,查询点的含义为分布式集群系统中的各机器节点,单向边为个机器节点间的局域网单向连接;若两个查询点对不在单向边集合V中,则默认这两个查询点之间是可以双向抵达的;步骤1

2网格划分策略将向量空间中的节点投影到网格中,以约束距离ε进行等宽网格划分,将全部备选节点划分至对应的单元格内,创建网格索引,设置出发节点p及约束距离ε,计算到出发节点p的其他所有不超过给定约束距离ε的备选节点,表示为p

ε近邻节点查询。查询某一出发节点的最近邻居节点需要以全部节点作为代表,考虑每一节点时必须要计算整体网络G内全部节点到所考虑节点的距离。3.按照权利要求1所述的面向大规模向量空间路径约束连接查询方法,其特征在于步骤2中所述在分布式集群系统中引入Map

Reduce处理框架,设计基于网格的距离计算优化方法,包括如下步骤:步骤2

1查询节点到单元格的距离计算查询节点到单元格的距离,在计算查询节点到邻居单元格的距离的时候分为两种不同的情况:第一种情况,查询节点所在的单元格与对应需要计算的邻居单元格在某一维度上是相同的,在这种情况下,只计算不同维度上的距离,相同那一维度上的距离默认为0。第二种情况,查询节点所在的单元格与对应需要计算的邻居单元格在两个维度上都不相同,在这种情况下需要同时考虑两个不同维度的距离,计算实际距离。查询点到单元格的距离计算公式为;其中,c是一个邻居单元格,q为主单元格内的一个查询点,lb
c
[i]为c单元格下界,ub
c
[i]是c单元格上界,p为向量空间总维度数,q[i]为主单元格内选定的查询点,当查询点q位于上下界范围内时,默认该维度的距离为0,反之,则需要具体计算距离;
步骤2

2查询点间的距离计算查询点之间的距离为空间上的节点之间的实际距离,查询点间的距离计算公式为:公式(II)中q点及o点是整体网络G中的两个查询点,i为的含义为向量空间节点累加的下界,p的含义是向量空间的总维度数,q
i
和o
i
是具体到某一维度上的实际距离。4.按照权利要求1所述的面向大规模向量空间路径约束连接查询方法,其特征在于步骤3中所述在Map过程中设计四阶段筛选策略,根据计算结果进行减枝操作,找到所有满足四阶段筛选策略的备选节点,产生的结果集缓存在分布式系统中各机器节...

【专利技术属性】
技术研发人员:王俊陆隋宇宋宝燕纪婉婷陈廷伟张师文
申请(专利权)人:辽宁大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1