一种实现多种大数据计算框架统一接口的方法技术

技术编号：12300519 阅读：83 留言：0更新日期：2015-11-11 10:58

建立统一的hadoop计算框架接口，实现以统一的接口来访问hadoop的多种计算框架，用户通过JDBC接口透明访问Hive、HBase、spark、Impala等框架中的数据，实现了多种hadoop计算框架统一接口的方法，让用户通过JDBC接口透明访问Hive、HBase、spark、Impala等框架中的数据。

全部详细技术资料下载

【技术实现步骤摘要】

建立统一的hadoop计算框架接口，实现以统一的接口来访问hadoop的多种计算框架。用户通过JDBC接口透明访问Hive、HBase、spark、Impala等框架中的数据。
技术介绍
在大数据时代，为了存储和处理海量数据，需要规模较大的服务器集群，一般说来，这些集群上运行着数量众多类型纷杂的应用程序和服务，比如离线作业，流式作业，迭代式作业等，传统的做法是，每种类型的作业或者服务对应一个单独的集群，以避免相互干扰。这样，集群被分割成数量众多的小集群，有的集群运行Hadoop，有的运行Spark，等等。然而，由于不同类型的作业/服务需要的资源量不同，因此，这些小集群的利用率通常很不均衡，有的集群满负荷、资源紧张，而另外一些则长时间闲置、资源利用率极低。另外，由于不同计算框架的有不同的调用API，所以需要分别开发每一种计算框架的调用程序，导致开发效率极低。
技术实现思路
实现了多种hadoop计算框架统一接口的方法，让用户通过JDBC接口透明访问Hive、HBase、spark、Impala等框架中的数据。在hadoop之上实现一个任务分析控制器，任务分析控制器对外提供符合JDBC标准的接口，可以接收标准的SQL语句，接收客户端的请求后，任务分析控制器能够自动将SQL请求转化成不同的任务，分发给对应的计算框架执行，并将结果返回给客户端。从而实现了 Hive，HBase，Spark，Impala等多种计算框架的统一访问。用户可以透明地调用Hive，HBase，Spark，Impala这几种计算框架，无需根椐不同计算框架的API编写不同的调用程序。【...

【技术保护点】
一种实现多种大数据计算框架统一接口的方法，其特征在于，所述方法包括以下步骤：1）、实现一个元数据管理模块，用数据库保存hadoop中的“技术元数据”和“业务元数据”,供用户和任务分析控制器调用；2）、实现一个基于JDBC标准的接口层,对外提供接口服务，接受客户端的请求；3）、实现一个任务分析控制器, 根椐“系统元数据”，将客户端请求的SQL语句转换为不同的计算任务，提交给Hive,HBase,Spark,Impala等计算框架执行，并将执行结果返回给客户端。

【技术特征摘要】

【专利技术属性】
技术研发人员：柴满，徐健，王国辉，
申请(专利权)人：广东创我科技发展有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人