The invention discloses a method and system for improving the efficiency of Hadoop-based large data comprehensive query engine, which utilizes the advantages of each computing engine and avoids the disadvantages of each engine by technical means to achieve the effect of improving the efficiency of large data query; in the interface needed for real-time stream processing, the invention switches the engine to Spark, and then processes tasks that need to be switched to batch processing when the task ends. It greatly reduces the exclusive effect of the new computing engine on the previous computing engine, and reduces the business code refactoring of developers, especially the complex business computing on the old computing engine. The intelligent switching of the computing engine of the invention improves the efficiency of large data comprehensive query and the adaptability of business scenarios.
【技术实现步骤摘要】
一种提高基于Hadoop大数据综合查询引擎效率的方法及系统
本专利技术属于搜索引擎
,具体涉及一种提高基于Hadoop大数据综合查询引擎效率的方法及系统。
技术介绍
随着互联网的迅猛发展,人们已经越来越依赖网络来获取信息,搜索引擎的出现在人们与海量网络信息之间架起了一道桥梁;然而,随着网络用户的激增和网络信息呈指数性增长,网络流量急增,传统的集中式搜索引擎出现了瓶颈。以Internet上产生的数据为例,在Facebook公司,每天处理的新数据量超过20TB,随着Facebook用户的不断增加以后要处理的数据会变的更加庞大,面对着如此海量传统的存储数据,分布式存储正是为解决这些问题。Hadoop是一种由Apache软件基金会所开发的分布式系统基础架构,实现了一个分布式文件系统(HadoopDistributedFileSystem),简称HDFS,用户可以在不了解分布式底层细节的情况下开发分布式程序,充分利用集群的威力进行高速运算和存储。目前基于Hadoop的大数据生态圈越来越繁荣,尤其是查询计算引擎的不断的更新迭代,针对不同场景和业务下的计算引擎出现许多的差异,导致各种计算的优势无法在一个平台和多种业务下融合应用。例如MapReduce,是Google提出的一个软件架构,用于大规模数据集(大于1TB)的并行运算,Map(映射)和Reduce(归纳)的概念是其主要思想,都是从函数式编程语言借来的,还有从矢量编程语言借来的特性;MapReduce极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上,其编程模型实现是指定一个Ma ...
【技术保护点】
1.一种提高基于Hadoop大数据综合查询引擎效率的方法,包括如下步骤:(1)在Hadoop分布式服务器集群中对MapReduce、Tez、Spark三种计算引擎进行部署及测试;(2)通过互联网与用户交互,获取用户提交的数据查询任务;(3)根据任务的具体要求智能选择MapReduce、Tez或Spark来执行所述数据查询任务,并将执行后生成的任务结果重新整理汇总给业务端数据库后通过可视化配置使结果显示反馈给用户。
【技术特征摘要】
1.一种提高基于Hadoop大数据综合查询引擎效率的方法,包括如下步骤:(1)在Hadoop分布式服务器集群中对MapReduce、Tez、Spark三种计算引擎进行部署及测试;(2)通过互联网与用户交互,获取用户提交的数据查询任务;(3)根据任务的具体要求智能选择MapReduce、Tez或Spark来执行所述数据查询任务,并将执行后生成的任务结果重新整理汇总给业务端数据库后通过可视化配置使结果显示反馈给用户。2.根据权利要求1所述的提高基于Hadoop大数据综合查询引擎效率的方法,其特征在于:所述步骤(1)的具体实现过程如下:1.1部署基于Hadoop的大数据分布式服务器集群,服务器中必须包含MapReduce、Tez、Spark三种计算引擎;1.2分别对MapReduce、Tez、Spark三种计算引擎进行测试,保证各引擎运行状况正常;1.3在YARN中增加MapReduce、Tez、Spark各自的调用接口。3.根据权利要求1所述的提高基于Hadoop大数据综合查询引擎效率的方法,其特征在于:所述步骤(3)中对于任务结果延时要求较低、业务已经按照MapReduce设计的且计算量较大的数据查询任务选择MapReduce引擎来执行。4.根据权利要求1所述的提高基于Hadoop大数据综合查询引擎效率的方法,其特征在于:所述步骤(3)中对于任务结果延时要求高、业务没有按照MapReduce设计的且计算量较大的数据查询任务选择Spark引擎来执行。5.根据权利要求1所述的提高基于Hadoop大数据综合查询引擎效率的方法,其特征在于:所述步骤(3)中对于任务结果延时要求较高、业务没有按照MapReduce设计的且...
【专利技术属性】
技术研发人员:欧阳涛,
申请(专利权)人:上海派博软件有限公司,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。