一种数据湖环境下异构数据源数据汇聚的实现方法技术

技术编号:25835243 阅读:33 留言:0更新日期:2020-10-02 14:16
本发明专利技术公开了一种数据湖环境下异构数据源数据汇聚的实现方法,由以下方法模块构成,其方法模块包括查询处理模块、事务管理模块、完整性约束模块、通信处理器模块与应用模块,所述查询处理模块是由检索子模块、终端系统模块与显示屏模块组成的,本发明专利技术中通过将现有的理论与技术基础上实现数据访问、集成和共享的复杂性和可行性,首先要有统一的中间件架构,在底层实现局部各异的访问,中间层实现统一的中间件操作,高层应用才能进行透明访问,采用CSCW体系结构中的联邦结构方式,数据库元数据目录服务,Agent的三层协作模型,以及统一的中间数据转换格式XML等来解决异构数据库进行汇聚更加的方便。

【技术实现步骤摘要】
一种数据湖环境下异构数据源数据汇聚的实现方法
本专利技术属于异构数据源相关
,具体涉及一种数据湖环境下异构数据源数据汇聚的实现方法。
技术介绍
异构数据库系统是相关的多个数据库系统的集合,可以实现数据的共享和透明访问,几个数据库系统在加入异构数据库系统之前本身就已经存在,拥有自己的数据阵管理系统、外构数据库的各个组成部分具有自身的自治性,实现数据共享的同时,每个数据库系统仍有自己的应用特性、完整性控制和安全性控制。现有的数据湖环境下异构数据源数据汇聚的实现方法技术存在以下问题:在企业信息化建设过程中,由于各业务系统建设和实施数据管理系统的阶段性、技术性以及其它经济和人为因素等因素影响,导致企业在发展过程中积累了大量采用不同存储方式的业务数据,包括采用的数据管理系统也大不相同,从简单的文件数据库到复杂的网络数据库,它们构成了企业的异构数据源。
技术实现思路
本专利技术的目的在于提供一种数据湖环境下异构数据源数据汇聚的实现方法,以解决上述
技术介绍
中提出的由于各业务系统建设和实施数据管理系统的阶段性、技术性以及其它经济和人为因素等因素影响导致数据库具有较大的差异性的问题。为实现上述目的,本专利技术提供如下技术方案:一种数据湖环境下异构数据源数据汇聚的实现方法,由以下方法模块构成,其方法模块包括查询处理模块、事务管理模块、完整性约束模块、通信处理器模块与应用模块,所述查询处理模块是由检索子模块、终端系统模块与显示屏模块组成的,所述查询处理模块内部的检索子模块用于不同数据的检索的作用,所述查询处理模块内部的终端系统模块用于操控者操作的作用,所述查询处理模块内部的显示屏模块用于数据的显示的作用;优选的,所述事务管理模块是由局部事务与全局事务组成的,所述事务管理模块内部的局部事务具有局部数据库的本地应用向本地DBMS提交的事务的作用,所述事务管理模块内部的全局事务具有全局应用向数据库中间件提交的事务的作用;优选的,所述完整性约束模块是指数据的正确性和相容性,加在数据库之上的语义约束条件称为数据库完整性约束条件,它们作为模式的一部分存入数据库中;优选的,所述通信处理器模块是由协调控制器、通信模块与收发单元模块组成的,所述通信处理器模块内部的协调控制器用于提供多种通信方式和通信服务,所述通信处理器模块内部的通信模块用于采用双向、单向、面向连接和非连接等快速安全的通信协议,来满足不同速率、不同质量的通信要求,所述通信处理器模块内部的收发单元模块用于驱动不同传输介质的收发单元,适应和使用不同传输介质构成的系统;优选的,所述应用模块是由显示模块、引导模块与反馈模块组成的,所述应用模块内部的显示模块用于显示的作用,所述应用模块内部的引导模块用于能够启发和引导用户正确、有效地进行界面操作的作用,所述应用模块内部的反馈模块用于对用户的误操作有容忍能力或补救措施时系统及时地给出反馈信息的作用。优选的,所述异构数据源数据汇聚的操作步骤如下:步骤一:首先构建一个数据库元数据目录服务,在建立了数据库元数据目录服务之后将各个不同的数据库进行导入;步骤二、之间建立密码与解密程序,通过该密码与解密控制该数据库元数据目录服务,有了相应的密码与解密程序应用才可能以统一访问接口透明地访问不同数据库的资源;步骤三、先将各个数据库的位置和元数据信息注册到LDAP目录中,之后用户通过目录服务便可查询到所需要的数据库资源位置和元数据信息;步骤四、如果要查询某个数据库的DBMS信息,需先得到目录的基本结构,再确定查找的范围,然后利用LDAP的搜索命令来查找;步骤五、如果想将数据库中的某些动态信息,如当前某个数据库的总数据量大小,存入LDAP,应自动算出该数据库的数据量总和,然后填入LDAP,不要人工干预,步骤六、对于动态实时信息,程序生成后自动填入到LDAP中,保证用户查询的时候是最新的,要采用某种程序调用机制来保证实时性;步骤七、然后根据需要去访问各个数据库,并且得到相应的授权才能进行获取,因为主流数据库都属于关系型,结构上是同构的,所以元数据信息大体上相似,这为以统一方式获取和保存元数据提供了可能。优选的,所述查询处理模块的操作步骤如下:一、语法检查:首先需要进行语法检查,确认正确后方能进行下一步处理。语法检查进行如下处理,对全局查询语句进行关键字析出和语法判别,并对应全局数据字典检查涉及的表名和字段名称。出错则终止并将错误信息返回给系统;二、分解翻译:将正确的全局查询语句分解为面向各局部数据库的查询语句,包括表名、列名、相应函数的替换,生成对应各局部数据库的查询语句;三、查询优化:提高查询效率是重要目标,尤其是对涉及多个异构数据库的连接查询。可以采用启发式方法,寻找一个最优方案;四、并行处理:各局部数据库接收到分解翻译后的子查询语句后,应互不干扰地并行执行,但须保证任意一个发出多个局部查询的应用中的处理串行性,即只有在一个局部数据库完成其局部查询语句的执行后,另一局部数据库方才开始工作。这会导致系统资源的浪费和效率的降低;五、结果汇总:结果汇总就是将从各局部数据库得到的查询结果进行汇总,且以统一的数据形式输出,应用获得的是统一包装的全局数据形式的数据,不必关心其在具体数据库的形态。优选的,所述企业数据源异构性主要表现如下:一、系统异构,即数据源所依赖的业务应用系统、数据库管理系统乃至操作系统之间的不同构成了系统异构;二、模式异构,即数据源在存储模式上的不同。存储模式主要包括关系模式、对象模式、对象关系模式和文档嵌套模式等几种,其中关系模式关系数据库为主流存储模式。同时即便是同一类存储模式,它们的模式结构可能也存在着差异。例如不同的关系数据管理系统的数据类型等方面并不是完全一致的,如DB2、Oracle、Sybase、Informix、SQLServer、Foxpro等;三、来源异构,即企业内部数据源和外部数据源之间的异构。与现有技术相比,本专利技术提供了一种数据湖环境下异构数据源数据汇聚的实现方法,具备以下有益效果:本专利技术中通过将现有的理论与技术基础上实现数据访问、集成和共享的复杂性和可行性。实际上,可以实现异构分布式数据库的统一访问,首先要有统一的中间件架构,在底层实现局部各异的访问,中间层实现统一的中间件操作,高层应用才能进行透明访问,采用CSCW体系结构中的联邦结构方式,数据库元数据目录服务,Agent的三层协作模型,以及统一的中间数据转换格式XML等来解决异构数据库进行汇聚更加的方便。具体实施方式本专利技术提供一种技术方案:一种数据湖环境下异构数据源数据汇聚的实现方法,由以下方法模块构成,其方法模块包括查询处理模块、事务管理模块、完整性约束模块、通信处理器模块与应用模块,查询处理模块是由检索子模块、终端系统模块与显示屏模块组成的,查询处理模块内部的检索子模块用于不同数据的检索的作用,查询处理模块内部的终端系统模块用于操控者操作的作用,查询处理模本文档来自技高网...

【技术保护点】
1.一种数据湖环境下异构数据源数据汇聚的实现方法,由以下方法模块构成,其方法模块包括查询处理模块、事务管理模块、完整性约束模块、通信处理器模块与应用模块,其特征在于:所述查询处理模块是由检索子模块、终端系统模块与显示屏模块组成的,所述查询处理模块内部的检索子模块用于不同数据的检索的作用,所述查询处理模块内部的终端系统模块用于操控者操作的作用,所述查询处理模块内部的显示屏模块用于数据的显示的作用;/n所述事务管理模块是由局部事务与全局事务组成的,所述事务管理模块内部的局部事务具有局部数据库的本地应用向本地DBMS提交的事务的作用,所述事务管理模块内部的全局事务具有全局应用向数据库中间件提交的事务的作用;/n所述完整性约束模块是指数据的正确性和相容性,加在数据库之上的语义约束条件称为数据库完整性约束条件,它们作为模式的一部分存入数据库中;/n所述通信处理器模块是由协调控制器、通信模块与收发单元模块组成的,所述通信处理器模块内部的协调控制器用于提供多种通信方式和通信服务,所述通信处理器模块内部的通信模块用于采用双向、单向、面向连接和非连接等快速安全的通信协议,来满足不同速率、不同质量的通信要求,所述通信处理器模块内部的收发单元模块用于驱动不同传输介质的收发单元,适应和使用不同传输介质构成的系统;/n所述应用模块是由显示模块、引导模块与反馈模块组成的,所述应用模块内部的显示模块用于显示的作用,所述应用模块内部的引导模块用于能够启发和引导用户正确、有效地进行界面操作的作用,所述应用模块内部的反馈模块用于对用户的误操作有容忍能力或补救措施时系统及时地给出反馈信息的作用。/n...

【技术特征摘要】
1.一种数据湖环境下异构数据源数据汇聚的实现方法,由以下方法模块构成,其方法模块包括查询处理模块、事务管理模块、完整性约束模块、通信处理器模块与应用模块,其特征在于:所述查询处理模块是由检索子模块、终端系统模块与显示屏模块组成的,所述查询处理模块内部的检索子模块用于不同数据的检索的作用,所述查询处理模块内部的终端系统模块用于操控者操作的作用,所述查询处理模块内部的显示屏模块用于数据的显示的作用;
所述事务管理模块是由局部事务与全局事务组成的,所述事务管理模块内部的局部事务具有局部数据库的本地应用向本地DBMS提交的事务的作用,所述事务管理模块内部的全局事务具有全局应用向数据库中间件提交的事务的作用;
所述完整性约束模块是指数据的正确性和相容性,加在数据库之上的语义约束条件称为数据库完整性约束条件,它们作为模式的一部分存入数据库中;
所述通信处理器模块是由协调控制器、通信模块与收发单元模块组成的,所述通信处理器模块内部的协调控制器用于提供多种通信方式和通信服务,所述通信处理器模块内部的通信模块用于采用双向、单向、面向连接和非连接等快速安全的通信协议,来满足不同速率、不同质量的通信要求,所述通信处理器模块内部的收发单元模块用于驱动不同传输介质的收发单元,适应和使用不同传输介质构成的系统;
所述应用模块是由显示模块、引导模块与反馈模块组成的,所述应用模块内部的显示模块用于显示的作用,所述应用模块内部的引导模块用于能够启发和引导用户正确、有效地进行界面操作的作用,所述应用模块内部的反馈模块用于对用户的误操作有容忍能力或补救措施时系统及时地给出反馈信息的作用。


2.根据权利要求1所述的一种数据湖环境下异构数据源数据汇聚的实现方法,其特征在于:所述异构数据源数据汇聚的操作步骤如下:
步骤一:首先构建一个数据库元数据目录服务,在建立了数据库元数据目录服务之后将各个不同的数据库进行导入;
步骤二、之间建立密码与解密程序,通过该密码与解密控制该数据库元数据目录服务,有了相应的密码与解密程序应用才可能以统一访问接口透明地访问不同数据库的资源;
步骤三、先将各个数据库的位置和元数据信息注册到LDAP目录中,之后用户通过目录服务便可查询到所需要的数据库资源位置和元数据信息;
步骤四、如果要查询某个数据库的DBMS信息,需先得到目录的基本结构,再确定查找的范围,然后利用LDAP的搜索命令来查找;
步骤五、如果想将数据库中的某些动态信息,如当前某个数据库的总数据...

【专利技术属性】
技术研发人员:吴奇锋
申请(专利权)人:埃睿迪信息技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1