基于异构数据源和分布式文件系统的融合查询方法技术方案

技术编号:15864007 阅读:66 留言:0更新日期:2017-07-23 08:37
本发明专利技术公开了一种基于异构数据源和分布式文件系统的融合查询方法,包括如下步骤:(1)用户向系统发起查询请求;系统包括处理节点、源数据节点和维护节点;(2)处理节点接收用户的请求,分析请求生成语法执行树;(3)处理节点和源数据节点交互,获取各个表的源数据信息,并根据源数据类型的不同进行任务的下发;(4)目标数据源根据请求进行数据提取和分析,并返回筛选后的数据;(5)处理节点对返回的数据进行传输、聚合和连接操作,将处理后的结果返回给用户。本发明专利技术中的用户可以方便的进行异构数据源查询,查询不同的结构化数据库和全文引擎数据;用户可以利用分布式查询技术,实现分布式文件系统和结构化数据库的融合查询。

【技术实现步骤摘要】
基于异构数据源和分布式文件系统的融合查询方法
本专利技术涉及异构数据源查询
,尤其是一种基于异构数据源和分布式文件系统的融合查询方法。
技术介绍
近年来,伴随着计算机技术和互联网的快速发展,开启信息爆炸的时代。社会上充斥着比以往更多的数据,促成种类繁多的数据系统的建立。传统的数据存储方式多是基于关系型数据库如myspl、oracle和sqlserver进行存储,在少量数据的场景下,获得了良好的用户体验。但随着海量数据时代的到来,新型的分布式文件系统HDFS,因其高容错和更廉价的存储扩展,收到越来越多人的青睐。全文搜索是大数据时代的关键应用,ElasticSearch作为当前流行的企业级搜索引擎,能够达到实时搜索、稳定、可靠、快速的效果。由于历史原因及当时的技术条件限制,上述数据系统多是独立建设并自成系统。在便捷化、信息化的大趋势下,这些数量众多的数据系统存在的问题也逐渐凸显出来,主要有如下两个方面:1、各数据源独立,无统一标准,很难通过统一的接口进行数据查询;2、各应用系统基于不同数据源建立,由于数据源间的标准不统一,无法实现系统之间的数据共享、连接和融合查询。基于以上的情况,建立一套融合数据查询接口,用于所有数据源的规范化查询,就成为了一个紧迫的任务。
技术实现思路
本专利技术所要解决的技术问题在于,提供一种基于异构数据源和分布式文件系统的融合查询方法,能够方便的进行结构化数据库查询。为解决上述技术问题,本专利技术提供一种基于异构数据源和分布式文件系统的融合查询方法,包括如下步骤:(1)用户向系统发起查询请求;系统包括处理节点、源数据节点和维护节点;(2)处理节点接收用户的请求,分析请求生成语法执行树;(3)处理节点和源数据节点交互,获取各个表的源数据信息,并根据源数据类型的不同进行任务的下发;(4)目标数据源根据请求进行数据提取和分析,并返回筛选后的数据;(5)处理节点对返回的数据进行传输、聚合和连接操作,将处理后的结果返回给用户。优选的,步骤(1)中,源数据节点存放源数据信息,并对源数据进行缓存操作;维护节点监控源数据节点和处理节点的健康状态,如果运行过程中某一个节点发生异常情况,则对异常情况作出处理;处理节点接收用户请求,并与源数据节点交互获取源数据信息,根据请求分析的结果进行任务分发、数据接收、传输、聚合操作。优选的,步骤(1)中,查询请求包括特定数据库表查询,分布式文件数据查询和异构数据源数据联合查询。本专利技术的有益效果为:用户可以方便的进行异构数据源SQL查询,例如使用专门的驱动程序,查询不同的数据源如mysql、oracle、sqlserver和ElasticSearch等;用户可以利用分布式查询技术,实现分布式文件系统和异构数据源间的融合查询,如连接操作、子查询等。附图说明图1是本专利技术的结构示意图。图2是本专利技术的方法流程示意图。具体实施方式下文将参考附图并结合具体实施例对本专利技术进行详细说明。图1是根据本专利技术实施的异构数据源和分布式文件系统的融合查询方法的结构示意图。其中包含处理节点、源数据节点和维护节点三个基本逻辑模块。源数据节点负责存放源数据信息,如hdfs文件块位置和结构化数据库信息等,并对源数据进行缓存操作。维护节点负责监控源数据节点和处理节点的健康状态,如果运行过程中,某一个节点发生异常情况,系统对这种异常情况作出处理。处理节点负责接收用户请求,并与源数据节点交互获取源数据信息。根据请求分析的结果进行任务分发,数据接收,传输,聚合等操作。图2是根据本专利技术实施的结构化数据库和分布式文件系统的融合查询方法的流程示意图。下面介绍具体的步骤:(1)用户发起查询请求,含特定数据库表查询,分布式文件数据查询,异构数据源数据联合查询等。(2)处理节点接收请求,并提交内部系统。(3)处理节点分析请求,并生成语法执行树。(4)处理节点和源数据节点交互,获取各个表的源数据信息。并根据源数据类型的不同,进行任务下发。(5)目标数据源根据请求进行数据提取、分析,并返回筛选后的数据。(6)处理节点对返回的数据进行传输,聚合,连接操作。(7)处理节点将处理后的结果返回给用户。通过上述的基本流程,用户可以定制化进行统一接口的异构数据源查询,并能实现异构数据源乃至多数据源间的连接操作。如果数据分布在分布式文件系统上,系统可以充分利用分布式的特性,实现分布查询功能。本专利技术基于标准SQL提供一种规范化的数据详单查询方法,包含查询不同的异构数据源上数据,查询分布式文件系统HDFS上的数据。基于标准SQL提供一种结构化数据库融合查询方法,包含实现不同数据源如mysql,全文表的连接查询基于标准SQL提供一种分布式文件系统和异构数据源融合查询方法。通过采用上述方案,用户可以方便的进行异构数据源查询,比如使用专门的驱动程序,查询不同的数据源如mysql、oracle、全文表。更进一步,用户可以利用分布式查询技术,实现分布式文件系统和异构数据源的融合查询,如连接操作、子查询等。尽管本专利技术就优选实施方式进行了示意和描述,但本领域的技术人员应当理解,只要不超出本专利技术的权利要求所限定的范围,可以对本专利技术进行各种变化和修改。本文档来自技高网...
基于异构数据源和分布式文件系统的融合查询方法

【技术保护点】
一种基于异构数据源和分布式文件系统的融合查询方法,其特征在于,包括如下步骤:(1)用户向系统发起查询请求;系统包括处理节点、源数据节点和维护节点;(2)处理节点接收用户的请求,分析请求生成语法执行树;(3)处理节点和源数据节点交互,获取各个表的源数据信息,并根据源数据类型的不同进行任务的下发;(4)目标数据源根据请求进行数据提取和分析,并返回筛选后的数据;(5)处理节点对返回的数据进行传输、聚合和连接操作,将处理后的结果返回给用户。

【技术特征摘要】
1.一种基于异构数据源和分布式文件系统的融合查询方法,其特征在于,包括如下步骤:(1)用户向系统发起查询请求;系统包括处理节点、源数据节点和维护节点;(2)处理节点接收用户的请求,分析请求生成语法执行树;(3)处理节点和源数据节点交互,获取各个表的源数据信息,并根据源数据类型的不同进行任务的下发;(4)目标数据源根据请求进行数据提取和分析,并返回筛选后的数据;(5)处理节点对返回的数据进行传输、聚合和连接操作,将处理后的结果返回给用户。2.如权利要求1所述的基于异构数据源和分布式...

【专利技术属性】
技术研发人员:何海峰夏飞鹏周艳
申请(专利权)人:南京中新赛克科技有限责任公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1