聚合式大数据查询方法及装置制造方法及图纸

技术编号:14687825 阅读:139 留言:0更新日期:2017-02-23 10:05
本发明专利技术提供一种聚合式大数据查询方法及装置,所述方法包括:获取聚合式大数据查询请求;根据所述聚合式大数据查询请求,从n个数据处理节点中获取n个查询任务;将每个所述查询任务分解为m个数据组;获取每个数据组的大小,并确定所述n个查询任务中具有相同键值的数据组中数据量最大的数据组;确定所述数据量最大的数据组所对应的查询任务的数据处理节点为查询任务执行节点;通过所述查询任务执行节点执行聚合式大数据查询任务。本发明专利技术提供的聚合式大数据查询方法及装置,通过确定所述数据量最大的数据组所对应的查询任务的数据处理节点为查询任务执行节点,可以减小聚合式大数据查询过程中数据传输的网络开销。

【技术实现步骤摘要】

本专利技术涉及数据查询领域,尤其涉及一种聚合式大数据查询方法及装置
技术介绍
二十一世纪以来,随着电子商务、科学计算及社交网络等新一代大规模网络应用的迅猛发展,互联网数据量大幅增加。云计算的发展和大数据时代的到来使得基于单台主机的传统关系数据库系统在扩展能力和处理能力等方面都捉襟见肘,越来越无法满足管理海量数据的需求。在大数据时代,基于大数据的数据分析处理需求得到了越来越多的重视。为了应对大数据带来的困难和挑战,以Google、Facebook、Linkedin、Microsoft等为代表的互联网企业和学术界近几年推出了各种不同类型的大数据处理系统。借助于新型的处理系统,深度学习、机器学习、数据挖掘等大数据分析技术也得到了迅速发展。由于高可用、低延迟、易扩展的大数据处理要求,Hadoop和Spark等当前业界和学术界使用最为广泛的大数据处理系统通过水平扩展来提升自身这方面的性能。水平扩展不仅仅是物理机器的扩展还蕴含着对存储的数据进行分区操作,即同一个数据大表的数据分割放置于不同的物理节点上。这种方式对于扩展集群的并发访问能力有着显著的提升。但是,现有技术中的大数据处理系统,基于数据的操作及数据传送会带来网络开销。在系统面临聚合式数据查询,如Join,Aggregation,Groupby等聚合式数据查询操作时,往往涉及到两个或多个数据表,数据表的元组数量巨大,而且数据跨越多个节点,因此会导致巨大的网络通信开销,影响整个系统的性能。
技术实现思路
本专利技术实施例提供一种聚合式大数据查询方法及装置,用于解决现有技术中的聚合式大数据查询方法及装置导致巨大的网络通信开销,从而影响系统性能的问题。第一方面,本专利技术实施例提供一种聚合式大数据查询方法,包括:获取聚合式大数据查询请求;根据所述聚合式大数据查询请求,从n个数据处理节点中获取n个查询任务;n为大于或等于1的整数;将每个所述查询任务分解为m个数据组;m为大于或等于1的整数;获取每个数据组的大小,并确定所述n个查询任务中具有相同键值的数据组中数据量最大的数据组;确定所述数据量最大的数据组所对应的查询任务的数据处理节点为查询任务执行节点;通过所述查询任务执行节点执行聚合式大数据查询任务。可选地,所述通过所述查询任务执行节点执行聚合式大数据查询任务,包括:通过所述查询任务执行节点从其它数据处理节点中,获取与所述数据量最大的数据组具有相同键值的数据组;将所述查询任务执行节点中的所述数据量最大的数据组,及与所述数据量最大的数据组具有相同键值的数据组进行合并。可选地,所述方法还包括:根据所述聚合式大数据处理请求,从所述n个数据处理节点存储的数据中选取热点数据,在每个数据处理节点的相邻数据处理节点中进行备份,其中,所述热点数据为被访问频率满足预设条件的数据;所述通过所述查询任务执行节点执行聚合式大数据查询任务,包括:在所述通过所述查询任务执行节点从其它数据处理节点中,获取与所述数据量最大的数据组具有相同键值的数据组之前,确定所述查询任务执行节点本地是否存在其它数据处理节点的备份数据,且所述备份数据中包括与所述数据量最大的数据组具有相同键值的数据组;若是,则所述查询任务执行节点从本地获取所述获取与所述数据量最大的数据组具有相同键值的数据组;将所述查询任务执行节点中的所述数据量最大的数据组,及与所述数据量最大的数据组具有相同键值的数据组进行合并。可选地,所述根据所述聚合式大数据查询请求,从n个数据处理节点中获取n个查询任务,包括:根据所述聚合式大数据查询请求,从所述n个数据处理节点中存储的第一数据表及第二数据表的数据中获取与所述聚合式大数据处理请求相关的数据,生成所述n个查询任务。第二方面,本专利技术实施例还提供一种聚合式大数据查询装置,包括:获取模块,用于获取聚合式大数据查询请求;所述获取模块,还用于,根据所述聚合式大数据查询请求,从n个数据处理节点中获取n个查询任务;n为大于等于1的整数;数据分解模块,用于将每个所述查询任务分解为m个数据组;m为大于等于1的整数;所述获取模块,还用于获取每个数据组的大小,确定模块,用于确定所述n个查询任务中具有相同键值的数据组中数据量数据量最大的数据组;所述确定模块,还用于确定所述数据量数据量最大的数据组所对应的查询任务对应的数据处理节点为查询任务执行节点;查询处理模块,用于通过所述查询任务执行节点执行聚合式大数据查询任务。可选地,所述查询处理模块,具体用于:通过所述查询任务执行节点从其它数据处理节点中,获取与所述数据量最大的数据组具有相同键值的数据组;并将所述查询任务执行节点中的所述数据量最大的数据组,及与所述数据量最大的数据组具有相同键值的数据组进行合并。可选地,所述装置还包括:备份模块,用于根据所述聚合式大数据处理请求,从所述n个数据处理节点存储的数据中选取热点数据,在每个数据处理节点的相邻数据处理节点中进行备份;其中,所述热点数据为被访问频率满足预设条件的数据;所述查询处理模块,具体用于:在所述通过所述查询任务执行节点从其它数据处理节点中,获取与所述数据量最大的数据组具有相同键值的数据组之前,确定所述查询任务执行节点本地是否存在其它数据处理节点的备份数据,且所述备份数据中包括与所述数据量最大的数据组具有相同键值的数据组;若是,则所述查询任务执行节点从本地获取所述获取与所述数据量最大的数据组具有相同键值的数据组;将所述查询任务执行节点中的所述数据量最大的数据组,及与所述数据量最大的数据组具有相同键值的数据组进行合并。可选地,所述获取模块,具体用于:根据所述聚合式大数据查询请求,从所述n个数据处理节点中存储的第一数据表及第二数据表的数据中获取与所述聚合式大数据处理请求相关的数据,生成所述n个查询任务。本专利技术提供的聚合式大数据查询方法及装置,通过确定所述数据量最大的数据组所对应的查询任务的数据处理节点为查询任务执行节点,由于所述查询任务执行节点本地存储的数据组的数据量最大,执行所述聚合式大数据查询任务时,所述查询任务执行节点可以直接使用本地的数据组,从而减小所述查询任务执行节点通过网络从其他数据处理节点中获取的数据组的数据量,减小聚合式大数据查询过程中数据传输的网络开销。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例聚合式大数据查询系统的框架结构示意图;图2为本专利技术实施例聚合式大数据查询方法的流程示意图;图3为本专利技术实施例聚合式大数据查询操作的过程示意图;图4为本专利技术实施例聚合式大数据查询操作的另一过程示意图;图5为本专利技术实施例聚合式大数据查询装置的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术实施例提供一种可以节省本文档来自技高网...
聚合式大数据查询方法及装置

【技术保护点】
一种聚合式大数据查询方法,其特征在于,包括:获取聚合式大数据查询请求;根据所述聚合式大数据查询请求,从n个数据处理节点中获取n个查询任务;n为大于或等于1的整数;将每个所述查询任务分解为m个数据组;m为大于或等于1的整数;获取每个数据组的大小,并确定所述n个查询任务中具有相同键值的数据组中数据量最大的数据组;确定所述数据量最大的数据组所对应的查询任务的数据处理节点为查询任务执行节点;通过所述查询任务执行节点执行聚合式大数据查询任务。

【技术特征摘要】
1.一种聚合式大数据查询方法,其特征在于,包括:获取聚合式大数据查询请求;根据所述聚合式大数据查询请求,从n个数据处理节点中获取n个查询任务;n为大于或等于1的整数;将每个所述查询任务分解为m个数据组;m为大于或等于1的整数;获取每个数据组的大小,并确定所述n个查询任务中具有相同键值的数据组中数据量最大的数据组;确定所述数据量最大的数据组所对应的查询任务的数据处理节点为查询任务执行节点;通过所述查询任务执行节点执行聚合式大数据查询任务。2.根据权利要求1所述的方法,其特征在于,所述通过所述查询任务执行节点执行聚合式大数据查询任务,包括:通过所述查询任务执行节点从其它数据处理节点中,获取与所述数据量最大的数据组具有相同键值的数据组;将所述查询任务执行节点中的所述数据量最大的数据组,及与所述数据量最大的数据组具有相同键值的数据组进行合并。3.根据权利要求2所述的方法,其特征在于,还包括:根据所述聚合式大数据处理请求,从所述n个数据处理节点存储的数据中选取热点数据,在每个数据处理节点的相邻数据处理节点中进行备份,其中,所述热点数据为被访问频率满足预设条件的数据;所述通过所述查询任务执行节点执行聚合式大数据查询任务,包括:在所述通过所述查询任务执行节点从其它数据处理节点中,获取与所述数据量最大的数据组具有相同键值的数据组之前,确定所述查询任务执行节点本地是否存在其它数据处理节点的备份数据,且所述备份数据中包括与所述数据量最大的数据组具有相同键值的数据组;若是,则所述查询任务执行节点从本地获取所述获取与所述数据量最大的数据组具有相同键值的数据组;将所述查询任务执行节点中的所述数据量最大的数据组,及与所述数据量最大的数据组具有相同键值的数据组进行合并。4.根据权利要求1-3任一项所述的方法,其特征在于,所述根据所述聚合式大数据查询请求,从n个数据处理节点中获取n个查询任务,包括:根据所述聚合式大数据查询请求,从所述n个数据处理节点中存储的第一数据表及第二数据表的数据中获取与所述聚合式大数据处理请求相关的数据,生成所述n个查询任务。5.一种聚合式大...

【专利技术属性】
技术研发人员:王旭孙海龙肖邦邓婷
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1