The invention discloses a data query processing method, an electronic device, a computer device and a storage medium, the method comprises: receiving a user's query request; transforming the query request based on the data warehouse tool to obtain a corresponding MapReduce task; setting a mapping function and a reduction function based on the MapReduce task; obtaining a mapping function and a reduction function based on the mapping function and a reduction function Query results. Applying the data query processing method, electronic device, computer equipment and storage medium provided by the embodiment of the invention can solve the problem of data processing for hive which cannot be effectively operated in the prior art.
【技术实现步骤摘要】
数据查询处理方法、电子装置、计算机设备及存储介质
本专利技术涉及Hadoop平台的数据查询
,尤其涉及一种数据查询处理方法、电子装置、计算机设备及存储介质。
技术介绍
Hadoop平台是由Apache基金会基于MapReduce并行处理模型而实现的开源软件平台,具有良好的可扩展性,可以被简单、快速地部署在由数十乃至上千台计算机所组成的集群平台上,以便以批量形式对海量数据进行高效的并行处理。MapReduce是面向大数据并行处理的计算模型、框架和平台,MapReduce用于把杂乱无章的数据按照某种特征归纳起来,然后处理并得到最后的结果。要求用户按照MapReduce编程范型来编写相应的处理程序,即可实现对以key-value形式分布存储的数据进行处理的目的。然而,相较于类似SQL这样的数据库查询描述语言,对于缺乏数据库专业背景的普通用户而言,编写数据处理程序的任务依旧复杂,并且对用户之间的沟通与协调造成障碍。hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。现有技术中,由于数据服务平台的数据量基本是过十亿,例如金管家、埋点、talkingdata、webtrends、ubars数据,并且好多都是没有分区、索引、主键等,经常查询一个数据要几个小时或者根本无法查询、运行脚本慢,这就导致了无法有效的通过hive进行数据的优化处理。因此,提供一种有效的基于hive任务进行 ...
【技术保护点】
1.一种数据查询处理方法,其特征在于,所述方法包括步骤:/n接收用户的查询请求;/n基于数据仓库工具,对所述查询请求进行转换,得到对应的MapReduce任务;/n基于所述MapReduce任务,设置映射函数和归约函数;/n基于所述映射函数和归约函数,获取查询结果。/n
【技术特征摘要】
1.一种数据查询处理方法,其特征在于,所述方法包括步骤:
接收用户的查询请求;
基于数据仓库工具,对所述查询请求进行转换,得到对应的MapReduce任务;
基于所述MapReduce任务,设置映射函数和归约函数;
基于所述映射函数和归约函数,获取查询结果。
2.根据权利要求1所述的一种数据查询处理方法,其特征在于,所述基于数据仓库工具,对所述查询请求进行转换,得到对应的MapReduce任务的步骤,包括:
获取数据仓库工具在数据库集群对应的分区描述信息;
根据所述查询请求、所述数据仓库工具和所述分区描述信息生成MapReduce任务。
3.根据权利要求1所述的一种数据查询处理方法,其特征在于,所述基于所述映射函数和归约函数,获取查询结果的步骤,包括:
分别为每个分区表分配一个映射函数,获得第一查询结果;
将所述第一查询结果反馈至所述归约函数,通过所述第一查询结果得到第二查询结果;
将所述第二查询结果确定为与所述查询请求对应的查询结果。
4.根据权利要求3所述的一种数据查询处理方法,其特征在于,所述分别为每个分区表分配一个映射函数,获得第一查询结果的步骤,包括:
分别为每个分区分配一个映射函数;
根据设置的执行参数和时间参数,执行所述映射函数,获得第一查询结果。
5.根据权利要求4所述的一种数据查询处理方法,其特征在于,所述分别为每个分区分配一个映射函数的步骤,包括:
根据所述分区和数据库集群在Hadoop中的输入格式,将所述数据库集群的各个分区表转换为各自对应的输入分片;
对于每个所述输入分片,启动预先分配的映射函...
【专利技术属性】
技术研发人员:刘行行,
申请(专利权)人:中国平安人寿保险股份有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。