【技术实现步骤摘要】
本专利技术涉及一种查询方法,具体涉及一种在海量数据集中分布式环境下基于度量空间的并行top-k支配查询方法。
技术介绍
基于度量空间的top-k支配查询作为一种重要的复杂查询越来越得到更多的关注,它从海量多维数据集中返回一部分满足用户需求的数据。这种类型的查询为用户提供决策,例如在网页搜索、多媒体检索、电子商务等领域有广泛的应用。该查询不需要用户给定评价函数且结果集可控,计算每个对象支配分数,返回支配分数最高的k个结果集。基于度量空间的top-k支配查询定义如下:用O={o1,o2,…,on
【技术保护点】
一种分布式环境下基于度量空间的top‑k支配查询方法,其特征在于:依次包括以下顺序执行的步骤:(1)给定查询输入数据对象集合Q以及度量空间中的距离公式d(),距离公式d()用来衡量整个数据对象O与查询输入数据对象集合Q之间的距离;(2)根据步骤(1)提出基于集合ANN和k‑skyband并行算,该并行算法的具体内容为:(21)利用ANN(Q,k)剪枝:根据距离度量函数d()和查询输入Q计算所有数据对象与查询输入对象之间的距离Deal_Data_RDD并将其保存在各个分区中,然后每个分区单独并行求解该分区的中ANN(Q,k),最后将每个分区的ANN(Q,k)结果通过reduc ...
【技术特征摘要】
1.一种分布式环境下基于度量空间的top-k支配查询方法,其特征在于:依次包括以下顺序执行的步骤:(1)给定查询输入数据对象集合Q以及度量空间中的距离公式d(),距离公式d()用来衡量整个数据对象O与查询输入数据对象集合Q之间的距离;(2)根据步骤(1)提出基于集合ANN和k-skyband并行算,该并行算法的具体内容为:(21)利用ANN(Q,k)剪枝:根据距离度量函数d()和查询输入Q计算所有数据对象与查询输入对象之间的距离Deal_Data_RDD并将其保存在各个分区中,然后每个分区单独并行求解该分区的中ANN(Q,k),最后将每个分区的ANN(Q,k)结果通过reduce接口进行筛选得到全局的ANN(Q,k);将获取的全局ANN(Q,k)广播到各个节点上,利用ANN(Q,k)去过滤原始的数据集,最后得到候选集KANN(Q,k)_RDD,KANN(Q,k)_RDD中一定包含最后的top-k支配结果集D;其中,ANN(Q,k)是指查询集合Q的k-NN,过滤的规则是不被ANN(Q,k)中...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。