一种实现多种大数据计算框架统一接口的方法技术

技术编号:12300519 阅读:83 留言:0更新日期:2015-11-11 10:58
建立统一的hadoop计算框架接口,实现以统一的接口来访问hadoop的多种计算框架,用户通过JDBC接口透明访问Hive、HBase、spark、Impala等框架中的数据,实现了多种hadoop计算框架统一接口的方法,让用户通过JDBC接口透明访问Hive、HBase、spark、Impala等框架中的数据。

【技术实现步骤摘要】

建立统一的hadoop计算框架接口,实现以统一的接口来访问hadoop的多种计算框架。用户通过JDBC接口透明访问Hive、HBase、spark、Impala等框架中的数据。
技术介绍
在大数据时代,为了存储和处理海量数据,需要规模较大的服务器集群,一般说来,这些集群上运行着数量众多类型纷杂的应用程序和服务,比如离线作业,流式作业,迭代式作业等,传统的做法是,每种类型的作业或者服务对应一个单独的集群,以避免相互干扰。这样,集群被分割成数量众多的小集群,有的集群运行Hadoop,有的运行Spark,等等。然而,由于不同类型的作业/服务需要的资源量不同,因此,这些小集群的利用率通常很不均衡,有的集群满负荷、资源紧张,而另外一些则长时间闲置、资源利用率极低。另外,由于不同计算框架的有不同的调用API,所以需要分别开发每一种计算框架的调用程序,导致开发效率极低。
技术实现思路
实现了多种hadoop计算框架统一接口的方法,让用户通过JDBC接口透明访问Hive、HBase、spark、Impala等框架中的数据。在hadoop之上实现一个任务分析控制器,任务分析控制器对外提供符合JDBC标准的接口,可以接收标准的SQL语句,接收客户端的请求后,任务分析控制器能够自动将SQL请求转化成不同的任务,分发给对应的计算框架执行,并将结果返回给客户端。从而实现了 Hive,HBase,Spark,Impala等多种计算框架的统一访问。用户可以透明地调用Hive,HBase,Spark,Impala这几种计算框架,无需根椐不同计算框架的API编写不同的调用程序。【附图说明】图1为本专利技术的架构图;【具体实施方式】第I步:实现一个元数据管理模块,用数据库保存hadoop中的“技术元数据”和“业务元数据”,供用户和任务分析控制器调用。“业务元数据”是从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够“读懂”数据仓库中的数据。用户可以访问“业务元数据”,知道有哪些业务数据可用;“技术元数据”是描述关于数据仓库技术细节的数据,这些元数据应用于开发、管理和维护数据仓库。系统程序(任务分析控制器)则可以调用“技术元数据”,知道数据存放在什么地方,可以用哪种计算框架去操作。第2步:实现一个基于JDBC标准接口层 外提供接口服务,接受客户端的请求,可以接收标准的SQL语句,支持多种前台应用和专业BI工具(如Tableau,QlikView等)以JDBC方式访问。第3步:实现一个任务分析控制器,实现以下功能: 1.根椐“系统元数据”,将客户端请求的SQL语句转换为不同的计算任务,提交给Hive, HBase, Spark, Impala等计算框架执行,如SQL请求中访问的是Hive中的数据,则将请求转化为hive命令,通过调用hive API发送给Hive执行,并将执行结果返回给客户端。2.实现任务管理和调度控制。因为本方法在一个集群上实现了多种计算框架(Hive,HBase, Spark,Impala),可以统一管理多种计算框架的资源,如CPU,内存等,可以根椐各框架的任务负载,统一调度管理,可以实现任务的队列管理,优先级管理。在集群资源紧张的时候,让优先级低的任务等候。【主权项】1.,其特征在于,所述方法包括以下步骤: 1)、实现一个元数据管理模块,用数据库保存hadoop中的“技术元数据”和“业务元数据”,供用户和任务分析控制器调用; 2)、实现一个基于JDBC标准的接口层,对外提供接口服务,接受客户端的请求; 3)、实现一个任务分析控制器,根椐“系统元数据”,将客户端请求的SQL语句转换为不同的计算任务,提交给Hive, HBase, Spark, Impala等计算框架执行,并将执行结果返回给客户端。2.如权利要求1所述的实现多种大数据计算框架统一接口的方法,其特征在于,用户在系统中可以查看元数据,了解系统中的数据,可以向系统发出访问请求。3.如权利要求1所述的实现多种大数据计算框架统一接口的方法,其特征在于,系统对外提供JDBC标准的服务接口,客户端可以向系统发出标准SQL请求。4.如权利要求1所述的实现多种大数据计算框架统一接口的方法,其特征在于,实现一个任务分析控制器,将客户端请求的SQL语句转换为不同的计算任务,提交给Hive, HBase, Spark, Impala等计算框架执行,并将执行结果返回给客户端。5.如权利要求5所述的实现多种大数据计算框架统一接口的方法,其特征在于,实现一个任务分析控制器,按请求和数据来分别将任务转到Hive,HBase, Spark, Impala等计算框架上执行,可以根椐各框架的任务负载,统一调度管理,可以实现任务的队列管理,优先级管理,在集群资源紧张的时候,让优先级低的任务等候。【专利摘要】建立统一的hadoop计算框架接口,实现以统一的接口来访问hadoop的多种计算框架,用户通过JDBC接口透明访问Hive、HBase、spark、Impala等框架中的数据,实现了多种hadoop计算框架统一接口的方法,让用户通过JDBC接口透明访问Hive、HBase、spark、Impala等框架中的数据。【IPC分类】G06F9/44【公开号】CN105045607【申请号】CN201510552031【专利技术人】柴满, 徐健, 王国辉 【申请人】广东创我科技发展有限公司【公开日】2015年11月11日【申请日】2015年9月2日本文档来自技高网...

【技术保护点】
一种实现多种大数据计算框架统一接口的方法,其特征在于,所述方法包括以下步骤:1)、实现一个元数据管理模块,用数据库保存hadoop中的“技术元数据”和“业务元数据”,供用户和任务分析控制器调用;2)、实现一个基于JDBC标准的接口层,对外提供接口服务,接受客户端的请求;3)、实现一个任务分析控制器, 根椐“系统元数据”,将客户端请求的SQL语句转换为不同的计算任务,提交给Hive,HBase,Spark,Impala等计算框架执行,并将执行结果返回给客户端。

【技术特征摘要】

【专利技术属性】
技术研发人员:柴满徐健王国辉
申请(专利权)人:广东创我科技发展有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1