聚合式大数据查询方法及装置制造方法及图纸

技术编号：14687825 阅读：139 留言：0更新日期：2017-02-23 10:05

本发明专利技术提供一种聚合式大数据查询方法及装置，所述方法包括：获取聚合式大数据查询请求；根据所述聚合式大数据查询请求，从n个数据处理节点中获取n个查询任务；将每个所述查询任务分解为m个数据组；获取每个数据组的大小，并确定所述n个查询任务中具有相同键值的数据组中数据量最大的数据组；确定所述数据量最大的数据组所对应的查询任务的数据处理节点为查询任务执行节点；通过所述查询任务执行节点执行聚合式大数据查询任务。本发明专利技术提供的聚合式大数据查询方法及装置，通过确定所述数据量最大的数据组所对应的查询任务的数据处理节点为查询任务执行节点，可以减小聚合式大数据查询过程中数据传输的网络开销。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据查询领域，尤其涉及一种聚合式大数据查询方法及装置。
技术介绍
二十一世纪以来，随着电子商务、科学计算及社交网络等新一代大规模网络应用的迅猛发展，互联网数据量大幅增加。云计算的发展和大数据时代的到来使得基于单台主机的传统关系数据库系统在扩展能力和处理能力等方面都捉襟见肘，越来越无法满足管理海量数据的需求。在大数据时代，基于大数据的数据分析处理需求得到了越来越多的重视。为了应对大数据带来的困难和挑战，以Google、Facebook、Linkedin、Microsoft等为代表的互联网企业和学术界近几年推出了各种不同类型的大数据处理系统。借助于新型的处理系统，深度学习、机器学习、数据挖掘等大数据分析技术也得到了迅速发展。由于高可用、低延迟、易扩展的大数据处理要求，Hadoop和Spark等当前业界和学术界使用最为广泛的大数据处理系统通过水平扩展来提升自身这方面的性能。水平扩展不仅仅是物理机器的扩展还蕴含着对存储的数据进行分区操作，即同一个数据大表的数据分割放置于不同的物理节点上。这种方式对于扩展集群的并发访问能力有着显著的提升。但是，现有技术中的大数据处理系统，基于数据的操作及数据传送会带来网络开销。在系统面临聚合式数据查询，如Join，Aggregation,Groupby等聚合式数据查询操作时，往往涉及到两个或多个数据表，数据表的元组数量巨大，而且数据跨越多个节点，因此会导致巨大的网络通信开销，影响整个系统的性能。
技术实现思路
本专利技术实施例提供一种聚合式大数据查询方法及装置，用于解决现有技术中的聚合式大数据查询方法及装置导致巨大的网络...

【技术保护点】
一种聚合式大数据查询方法，其特征在于，包括：获取聚合式大数据查询请求；根据所述聚合式大数据查询请求，从n个数据处理节点中获取n个查询任务；n为大于或等于1的整数；将每个所述查询任务分解为m个数据组；m为大于或等于1的整数；获取每个数据组的大小，并确定所述n个查询任务中具有相同键值的数据组中数据量最大的数据组；确定所述数据量最大的数据组所对应的查询任务的数据处理节点为查询任务执行节点；通过所述查询任务执行节点执行聚合式大数据查询任务。

【技术特征摘要】
1.一种聚合式大数据查询方法，其特征在于，包括：获取聚合式大数据查询请求；根据所述聚合式大数据查询请求，从n个数据处理节点中获取n个查询任务；n为大于或等于1的整数；将每个所述查询任务分解为m个数据组；m为大于或等于1的整数；获取每个数据组的大小，并确定所述n个查询任务中具有相同键值的数据组中数据量最大的数据组；确定所述数据量最大的数据组所对应的查询任务的数据处理节点为查询任务执行节点；通过所述查询任务执行节点执行聚合式大数据查询任务。2.根据权利要求1所述的方法，其特征在于，所述通过所述查询任务执行节点执行聚合式大数据查询任务，包括：通过所述查询任务执行节点从其它数据处理节点中，获取与所述数据量最大的数据组具有相同键值的数据组；将所述查询任务执行节点中的所述数据量最大的数据组，及与所述数据量最大的数据组具有相同键值的数据组进行合并。3.根据权利要求2所述的方法，其特征在于，还包括：根据所述聚合式大数据处理请求，从所述n个数据处理节点存储的数据中选取热点数据，在每个数据处理节点的相邻数据处理节点中进行备份，其中，所述热点数据为被访问频率满足预设条件的数据；所述通过所述查询任务执行节点执行聚合式大数据查询任务，包括：在所述通过所述查询任务执行节点从其它数据处理节点中，获取与所述数据量最大的数据组具有相同键值的数据组之前，确定所述查询任务执行节点本地是否存在其它数据处理节点的备份数据，且所述备份数据中包括与所述数据量最大的数据组具有相同键值的数据组；若是，则所述查询任务执行节点从本地获取所述获取与所述数据量最大的数据组具有相同键值的数据组；将所述查询任务执行节点中的所述数据量最大的数据组，及与所述数据量最大的数据组具有相同键值的数据组进行合并。4.根据权利要求1-3任一项所述的方法，其特征在于，所述根据所述聚合式大数据查询请求，从n个数据处理节点中获取n个查询任务，包括：根据所述聚合式大数据查询请求，从所述n个数据处理节点中存储的第一数据表及第二数据表的数据中获取与所述聚合式大数据处理请求相关的数据，生成所述n个查询任务。5.一种聚合式大...

【专利技术属性】
技术研发人员：王旭，孙海龙，肖邦，邓婷，
申请(专利权)人：北京航空航天大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人