Dynamic Skyline cloud computing query method based on dynamic Skyline for massive data query, global Skyline lattice calculation, the calculation process is a DAG implementation process, the data point as the dynamic calculation of Skyline scanning in candidate set, candidate set of data points in dynamic Skyline calculation, data conversion coordinate to calculate dynamic Skyline converted to the query point for the calculation of static Skyline coordinates, the DAG implementation process starts a Tez based on the MapReduce operation, using the Map function in each node and thus, the cache, Skyline lattice then start a MapReduce homework check after conversion of data points dominance relation, and calculate the Skyline result. The use of polling for the global Skyline grid computing, effective pruning after Skyline calculation, saving a lot of computing.
【技术实现步骤摘要】
本专利技术属于云计算、空间数据库、大数据处理领域,涉及一种动态数据查询方法。
技术介绍
Skyline算法是从一个给定数据集中返回不被其他任何数据对象支配的数据对象集合的过程,查询的结果是数据集中一部分特殊的数据对象,即数据集的边界点,其主要目标是提取数据集的边界点作为候选集提供给用户进行决策。我们设计的新的动态Skyline查询算法有两个特点,第一是支持动态的Skyline查询,第二是支持分布式计算环境,可以运行于云计算系统中进行大数据处理,第三采用了基于流的动态DAG优化技术,比之前的各类分布式动态Skyline查询效率高。随着互联网、物联网的飞速发展以及社交网络、云计算等技术的广泛应用,海量数据技术得到了飞速发展。海量的数据被采集和记录,并用来进行科学、工程和商业等领域的研究及分析等工作。据最新研究表明:全球互联网、移动互联网、GPS网络等数据源每天要产生超过2.5×1018字节的海量数据,并且这些海量数据的来源广泛。互联网上的数据每两年翻一翻,物联网、移动互联网、车联网以及各种的传感器网络无时无刻不在增加海量数据。有研究表明,世界上90%以上的数据是最近几年才产生出来的。例如Facebook的活跃用户每个月为13亿,每天产生海量的文本和图像数据;再如Wal-Mart公司已有数据量高达4PB的购买记录。这些海量数据不仅具有数据量大的特点,它们还蕴含着巨大的商业价值。例如分析Facebook用户的上网行为和喜好,可以指导商家进行相关的个性化推荐;分析挖掘超市的购买记录可以给生产厂家和卖家带来利润。然而,海量数据的爆炸式增长,使得传统的单机数据分析处理 ...
【技术保护点】
基于云计算的动态Skyline查询方法,其特征在于,包括如下步骤:S1.建立基于数据分布密度的倒排网格索引,将数据区间分割成许多片段,以将数据空间分割成不等分的网格单元,然后映射每个数据点到网格单元中,利用MapReduce构建基于数据分布密度的倒排网格索引;当一个新的查询开始时,首先映射查询点到相应的网格单元中;S2.进行全局Skyline格计算,整个计算流程是一个DAG图执行过程,得到的数据点作为动态Skyline计算的候选集,在动态Skyline计算中扫描候选集里的数据点,将数据点转换坐标,以将动态Skyline的计算转换成以查询点为坐标原点的静态Skyline计算,这个DAG执行过程启动一个基于Tez的MapReduce作业,利用Map函数在各节点中并行进行,结果进行缓存,接下来再启动一个MapReduce作业检查转换后数据点的Skyline格支配关系,进行Skyline的计算并返回结果。
【技术特征摘要】
1.基于云计算的动态Skyline查询方法,其特征在于,包括如下步骤:S1.建立基于数据分布密度的倒排网格索引,将数据区间分割成许多片段,以将数据空间分割成不等分的网格单元,然后映射每个数据点到网格单元中,利用MapReduce构建基于数据分布密度的倒排网格索引;当一个新的查询开始时,首先映射查询点到相应的网格单元中;S2.进行全局Skyline格计算,整个计算流程是一个DAG图执行过程,得到的数据点作为动态Skyline计算的候选集,在动态Skyline计算中扫描候选集里的数据点,将数据点转换坐标,以将动态Skyline...
【专利技术属性】
技术研发人员:李媛媛,季长清,肖鹏,邓武,徐克圣,
申请(专利权)人:大连交通大学,
类型:发明
国别省市:辽宁;21
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。