当前位置: 首页 > 专利查询>东南大学专利>正文

一种分布式环境下基于度量空间的top-k支配查询方法技术

技术编号:13942624 阅读:92 留言:0更新日期:2016-10-29 20:00
本发明专利技术公开一种分布式环境下基于度量空间的top‑k支配查询方法,依次包括以下步骤:步骤1:给定查询输入集合Q以及度量空间中的距离公式d(),距离公式用来衡量整个数据对象与查询对象Q之间的距离;步骤2:根据步骤1提出基于集合ANN和k‑skyband并行算法。通过在分布式环境下充分利用各个节点之间的并行计算的特点,通过剪枝、排序极大的改善了在大数据集环境下基于度量空间的top‑k支配查询性能,加快查询速度,为用户的决策提供服务。

【技术实现步骤摘要】

本专利技术涉及一种查询方法,具体涉及一种在海量数据集中分布式环境下基于度量空间的并行top-k支配查询方法。
技术介绍
基于度量空间的top-k支配查询作为一种重要的复杂查询越来越得到更多的关注,它从海量多维数据集中返回一部分满足用户需求的数据。这种类型的查询为用户提供决策,例如在网页搜索、多媒体检索、电子商务等领域有广泛的应用。该查询不需要用户给定评价函数且结果集可控,计算每个对象支配分数,返回支配分数最高的k个结果集。基于度量空间的top-k支配查询定义如下:用O={o1,o2,…,on

【技术保护点】
一种分布式环境下基于度量空间的top‑k支配查询方法,其特征在于:依次包括以下顺序执行的步骤:(1)给定查询输入数据对象集合Q以及度量空间中的距离公式d(),距离公式d()用来衡量整个数据对象O与查询输入数据对象集合Q之间的距离;(2)根据步骤(1)提出基于集合ANN和k‑skyband并行算,该并行算法的具体内容为:(21)利用ANN(Q,k)剪枝:根据距离度量函数d()和查询输入Q计算所有数据对象与查询输入对象之间的距离Deal_Data_RDD并将其保存在各个分区中,然后每个分区单独并行求解该分区的中ANN(Q,k),最后将每个分区的ANN(Q,k)结果通过reduce接口进行筛选得到全...

【技术特征摘要】
1.一种分布式环境下基于度量空间的top-k支配查询方法,其特征在于:依次包括以下顺序执行的步骤:(1)给定查询输入数据对象集合Q以及度量空间中的距离公式d(),距离公式d()用来衡量整个数据对象O与查询输入数据对象集合Q之间的距离;(2)根据步骤(1)提出基于集合ANN和k-skyband并行算,该并行算法的具体内容为:(21)利用ANN(Q,k)剪枝:根据距离度量函数d()和查询输入Q计算所有数据对象与查询输入对象之间的距离Deal_Data_RDD并将其保存在各个分区中,然后每个分区单独并行求解该分区的中ANN(Q,k),最后将每个分区的ANN(Q,k)结果通过reduce接口进行筛选得到全局的ANN(Q,k);将获取的全局ANN(Q,k)广播到各个节点上,利用ANN(Q,k)去过滤原始的数据集,最后得到候选集KANN(Q,k)_RDD,KANN(Q,k)_RDD中一定包含最后的top-k支配结果集D;其中,ANN(Q,k)是指查询集合Q的k-NN,过滤的规则是不被ANN(Q,k)中...

【专利技术属性】
技术研发人员:何洁月罗浩
申请(专利权)人:东南大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1