【技术实现步骤摘要】
面向大规模向量空间路径约束连接查询方法
[0001]本专利技术属于大数据应用领域,具体涉及一种基于面向大规模向量空间路径约束连接查询方法。
技术介绍
[0002]近年来,随着交通路网、社交网络等与空间位置有关的新型服务逐渐增多,向量空间数据规模正以极快的速度增长和累积,传统数据处理技术在大规模向量空间数据上的执行效率及结果集优化等方面面临着巨大的挑战。约束连接查询是处理大规模向量数据时一种比较常见的操作,在许多应用程序中,都是数据分析的重要载体。约束连接查询将两个不同的关系连接成为一个关系,在新的关系中包含两个原关系。在约束连接查询中,自连接是一种比较特殊的连接,自连接将自身关系看作是一个镜像,即另一个自身关系,在操作时将自身关系的属性进行对比,根据属性对比结果进行连接,也可以说是利用自身相似性进行连接,它的本质是基于相似关系分析处理输入数据。自相似性连接技术在清洗数据方面起到了非常重要的作用,这种特殊类型的连接在数据分析中有非常好的应用效果,如重复检测、文档相似性分析、数据挖掘任务和聚类等,合理应用相似性将能使算法具有高可利用性和伸缩性。
[0003]现有的约束连接查询方法主要有两方面的不足:首先,一些连接方法,比如基于编辑距离的字符串相似连接、空间Top
‑
k相似连接等方法,多是基于某些空间索引(如R树)进行连接,此类方法在数据规模较小、维度较低的数据集中具有很好的执行效率,但在大规模向量空间中,由于数据集的海量性及高维性,现有方法已经越来越无法满足实际需求;第二,在高维数据空间上和大规 ...
【技术保护点】
【技术特征摘要】
1.面向大规模向量空间路径约束连接查询方法,其特征在于,包括以下步骤:步骤1基于多节点的分布式集群系统构建整体网络,制定整体网格划分策略;步骤2在分布式集群系统中引入Map
‑
Reduce处理框架,设计基于网格的距离计算优化方法;步骤3在Map阶段中设计四阶段筛选策略,根据计算结果进行减枝操作,找到所有满足四阶段筛选策略的备选节点,产生的结果集缓存在分布式系统中各机器节点的内存中;步骤4在Reduce阶段进行结果路径选取,调用Map阶段输出的最终结果集并写入分布式系统的主计算节点中进行计算,不断删掉起点进行递归扩展遍历,最终得到查询路径。2.按照权利要求1所述的面向大规模向量空间路径约束连接查询方法,其特征在于步骤1中所述的基于多节点的分布式集群系统构建整体网络,制定整体网格划分策略,包括如下步骤:步骤1
‑
1基于多节点的分布式集群系统构建整体网络基于多节点的分布式集群系统构建整体网络G=(V,E),整体网络是全部查询点和边的总和,即包含全部查询点集合E和单向边集合V;其中,查询点的含义为分布式集群系统中的各机器节点,单向边为个机器节点间的局域网单向连接;若两个查询点对不在单向边集合V中,则默认这两个查询点之间是可以双向抵达的;步骤1
‑
2网格划分策略将向量空间中的节点投影到网格中,以约束距离ε进行等宽网格划分,将全部备选节点划分至对应的单元格内,创建网格索引,设置出发节点p及约束距离ε,计算到出发节点p的其他所有不超过给定约束距离ε的备选节点,表示为p
‑
ε近邻节点查询。查询某一出发节点的最近邻居节点需要以全部节点作为代表,考虑每一节点时必须要计算整体网络G内全部节点到所考虑节点的距离。3.按照权利要求1所述的面向大规模向量空间路径约束连接查询方法,其特征在于步骤2中所述在分布式集群系统中引入Map
‑
Reduce处理框架,设计基于网格的距离计算优化方法,包括如下步骤:步骤2
‑
1查询节点到单元格的距离计算查询节点到单元格的距离,在计算查询节点到邻居单元格的距离的时候分为两种不同的情况:第一种情况,查询节点所在的单元格与对应需要计算的邻居单元格在某一维度上是相同的,在这种情况下,只计算不同维度上的距离,相同那一维度上的距离默认为0。第二种情况,查询节点所在的单元格与对应需要计算的邻居单元格在两个维度上都不相同,在这种情况下需要同时考虑两个不同维度的距离,计算实际距离。查询点到单元格的距离计算公式为;其中,c是一个邻居单元格,q为主单元格内的一个查询点,lb
c
[i]为c单元格下界,ub
c
[i]是c单元格上界,p为向量空间总维度数,q[i]为主单元格内选定的查询点,当查询点q位于上下界范围内时,默认该维度的距离为0,反之,则需要具体计算距离;
步骤2
‑
2查询点间的距离计算查询点之间的距离为空间上的节点之间的实际距离,查询点间的距离计算公式为:公式(II)中q点及o点是整体网络G中的两个查询点,i为的含义为向量空间节点累加的下界,p的含义是向量空间的总维度数,q
i
和o
i
是具体到某一维度上的实际距离。4.按照权利要求1所述的面向大规模向量空间路径约束连接查询方法,其特征在于步骤3中所述在Map过程中设计四阶段筛选策略,根据计算结果进行减枝操作,找到所有满足四阶段筛选策略的备选节点,产生的结果集缓存在分布式系统中各机器节...
【专利技术属性】
技术研发人员:王俊陆,隋宇,宋宝燕,纪婉婷,陈廷伟,张师文,
申请(专利权)人:辽宁大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。