基于云计算的动态Skyline查询方法技术

技术编号:15219422 阅读:59 留言:0更新日期:2017-04-26 16:35
基于云计算的动态Skyline查询方法,用于海量数据的动态Skyline查询问题,进行全局Skyline格计算,整个计算流程是一个DAG图执行过程,得到的数据点作为动态Skyline计算的候选集,在动态Skyline计算中扫描候选集里的数据点,将数据点转换坐标,以将动态Skyline的计算转换成以查询点为坐标原点的静态Skyline计算,这个DAG执行过程启动一个基于Tez的MapReduce作业,利用Map函数在各节点中并行进行,结果进行缓存,接下来再启动一个MapReduce作业检查转换后数据点的Skyline格支配关系,进行Skyline的计算并返回结果。采用轮询方式进行全局Skyline格计算,有效剪枝后进行Skyline计算,节省了大量的计算。

Dynamic Skyline query method based on Cloud Computing

Dynamic Skyline cloud computing query method based on dynamic Skyline for massive data query, global Skyline lattice calculation, the calculation process is a DAG implementation process, the data point as the dynamic calculation of Skyline scanning in candidate set, candidate set of data points in dynamic Skyline calculation, data conversion coordinate to calculate dynamic Skyline converted to the query point for the calculation of static Skyline coordinates, the DAG implementation process starts a Tez based on the MapReduce operation, using the Map function in each node and thus, the cache, Skyline lattice then start a MapReduce homework check after conversion of data points dominance relation, and calculate the Skyline result. The use of polling for the global Skyline grid computing, effective pruning after Skyline calculation, saving a lot of computing.

【技术实现步骤摘要】

本专利技术属于云计算、空间数据库、大数据处理领域,涉及一种动态数据查询方法。
技术介绍
Skyline算法是从一个给定数据集中返回不被其他任何数据对象支配的数据对象集合的过程,查询的结果是数据集中一部分特殊的数据对象,即数据集的边界点,其主要目标是提取数据集的边界点作为候选集提供给用户进行决策。我们设计的新的动态Skyline查询算法有两个特点,第一是支持动态的Skyline查询,第二是支持分布式计算环境,可以运行于云计算系统中进行大数据处理,第三采用了基于流的动态DAG优化技术,比之前的各类分布式动态Skyline查询效率高。随着互联网、物联网的飞速发展以及社交网络、云计算等技术的广泛应用,海量数据技术得到了飞速发展。海量的数据被采集和记录,并用来进行科学、工程和商业等领域的研究及分析等工作。据最新研究表明:全球互联网、移动互联网、GPS网络等数据源每天要产生超过2.5×1018字节的海量数据,并且这些海量数据的来源广泛。互联网上的数据每两年翻一翻,物联网、移动互联网、车联网以及各种的传感器网络无时无刻不在增加海量数据。有研究表明,世界上90%以上的数据是最近几年才产生出来的。例如Facebook的活跃用户每个月为13亿,每天产生海量的文本和图像数据;再如Wal-Mart公司已有数据量高达4PB的购买记录。这些海量数据不仅具有数据量大的特点,它们还蕴含着巨大的商业价值。例如分析Facebook用户的上网行为和喜好,可以指导商家进行相关的个性化推荐;分析挖掘超市的购买记录可以给生产厂家和卖家带来利润。然而,海量数据的爆炸式增长,使得传统的单机数据分析处理技术已经越来越不适应当前密集型数据分析和处理的需求。为了节约成本,为大规模数据的存储和计算提供分布式处理框架,云计算、大数据、云存储、MapReduce、BigTable等相关技术被提出。云计算作为新兴的分布式共享计算平台,它可以建立在大规模廉价PC机的基础上,利用网络中的资源进行海量数据的存储和计算。目前,云计算的研究非常活跃,已成为IT业界最热门的研究方向之一。许多主流IT厂商都在关注云计算,其中既包括硬件厂商(IBM、英特尔等)、软件开发商(微软等),也包括互联网服务提供商(Google、Amazon等)和电信运营商(AT&T、中国移动等)。海量数据被认为是无法在一定时间内用常规的软件工具、传统的算法及数据库系统去分析处理的数据。由于云计算技术非常适合处理海量数据,许多公司研究并开发了云计算处理平台,其中包括Google的搜索引擎云平台、IBM的“蓝云”平台、Amazon的弹性计算云]和Hadoop开源云平台]等。Hadoop作为一种大规模数据分布式处理的软件框架,它的核心技术包含分布式文件系统HDFS和并行编程模型MapReduce。它以大量普通机器代替了集群中的高性能服务器,已被证明具有易部署、高容错性及可扩展性等特点[7],近些年来Hadoop得到了广泛应用,成为海量数据并行处理的代表技术之一。正如思科公司所预测,2016年全球将有79%的数据中心托管着云计算平台。海量数据存储在这些云计算平台中,由于数据量过大,使得这些海量数据处理技术对软硬件要求非常高、系统资源占用非常多,带来了算法效率低下的问题。海量数据处理是一个热点的研究方向,众多学者们依托云计算平台提出很多新的高效的海量数据处理算法,动态Skyline算法是其中的一种高效的数据查询和提取方法,可以快速地从海量多因素关联数据中抽取出关键的信息,大大减少数据量,降低海量多维空间数据处理中对软硬件的要求,提高空间数据处理的效率。
技术实现思路
为了提高海量多为空间数据处理的效率,本专利技术提出如下方案:基于云计算的动态Skyline查询方法,包括如下步骤:S1.建立基于数据分布密度的倒排网格索引,将数据区间分割成许多片段,以将数据空间分割成不等分的网格单元,然后映射每个数据点到网格单元中,利用MapReduce构建基于数据分布密度的倒排网格索引;当一个新的查询开始时,首先映射查询点到相应的网格单元中;S2.进行全局Skyline格计算,整个计算流程是一个DAG图执行过程,得到的数据点作为动态Skyline计算的候选集,在动态Skyline计算中扫描候选集里的数据点,将数据点转换坐标,以将动态Skyline的计算转换成以查询点为坐标原点的静态Skyline计算,这个DAG执行过程启动一个基于Tez的MapReduce作业,利用Map函数在各节点中并行进行,结果进行缓存,接下来再启动一个MapReduce作业检查转换后数据点的Skyline格支配关系,进行Skyline的计算并返回结果。进一步的,步骤1中所述用MapReduce构建基于数据分布密度的倒排网格索引倒排网格索引的方法是:以<key,value>对形式存在,其具体格式由<ci,{pj,pk,...,pn本文档来自技高网
...

【技术保护点】
基于云计算的动态Skyline查询方法,其特征在于,包括如下步骤:S1.建立基于数据分布密度的倒排网格索引,将数据区间分割成许多片段,以将数据空间分割成不等分的网格单元,然后映射每个数据点到网格单元中,利用MapReduce构建基于数据分布密度的倒排网格索引;当一个新的查询开始时,首先映射查询点到相应的网格单元中;S2.进行全局Skyline格计算,整个计算流程是一个DAG图执行过程,得到的数据点作为动态Skyline计算的候选集,在动态Skyline计算中扫描候选集里的数据点,将数据点转换坐标,以将动态Skyline的计算转换成以查询点为坐标原点的静态Skyline计算,这个DAG执行过程启动一个基于Tez的MapReduce作业,利用Map函数在各节点中并行进行,结果进行缓存,接下来再启动一个MapReduce作业检查转换后数据点的Skyline格支配关系,进行Skyline的计算并返回结果。

【技术特征摘要】
1.基于云计算的动态Skyline查询方法,其特征在于,包括如下步骤:S1.建立基于数据分布密度的倒排网格索引,将数据区间分割成许多片段,以将数据空间分割成不等分的网格单元,然后映射每个数据点到网格单元中,利用MapReduce构建基于数据分布密度的倒排网格索引;当一个新的查询开始时,首先映射查询点到相应的网格单元中;S2.进行全局Skyline格计算,整个计算流程是一个DAG图执行过程,得到的数据点作为动态Skyline计算的候选集,在动态Skyline计算中扫描候选集里的数据点,将数据点转换坐标,以将动态Skyline...

【专利技术属性】
技术研发人员:李媛媛季长清肖鹏邓武徐克圣
申请(专利权)人:大连交通大学
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1