分布式数据源数据集成系统及方法技术方案

技术编号:3518261 阅读:211 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开一种分布式数据源数据集成系统及方法,该发明专利技术利用管理器数据集成应用动态管理;利用应用解析器实现将外部数据集成应用需求解析为内部数据集成任务,并实现将最终数据集成任务结果集返回给外部数据集成应用;利用数据源管理器实现系统中分布式数据源管理,配制数据集成任务;利用查询转换器实现数据集成任务中面向异构数据源的查询指令格式及函数转换;利用通信对话器实现系统与数据源端采集器之间的网络通信;本发明专利技术提供数据集成低成本、高效灵活的应用,也决定了网络数据交换、数据集成等数据应用的现实可行性,具有重要的社会意义和经济效益。

【技术实现步骤摘要】

本专利技术涉及一种与分布式数据存储技术以及网络计算技术相关的数据集成
,更具体地涉及一种。
技术介绍
随着我国各行各业信息化工作的快速发展,各行业、各企业大多建设了内部的信息系统,在发展过程中积累了大量数据。由于企业往往拥有众多分支机构,分布在不同地域,应用不同的系统,采用不同的操作平台,数据信息存储在不同的数据库,各数据库采用不同的结构设计,数据表与字段定义存在差异,这样情况导致在共享信息时遇到诸多问题。由于各个数据源分散在各地,数据集成不可能通过局域网实现;由于数据源的操作平台和数据库类型差异,及数据属性差异和数据结构差异,严重制约众多数据源中存储数据信息共享。现有传统的分布式数据集成系统要求在数据中心搭建中心数据库,将所有分布式数据源的数据全部汇集到中心数据库中,而各项应用只限于对中心数据库的调用。我们发现传统的分布式数据源集成系统存在下列缺陷1.搭建中心数据库需要支付高额的数据库软件费用;2.所有数据存储在中心数据库中,随着数据量迅速膨胀,相应的存储硬件费用巨大;3.中心数据库需要耗费大量系统资源实现与分布式数据源数据同步; 4.面向中心数据库的数据应用不可预知,导致中心数据库存储的数据利用率不高;5.需要开发对不同异构数据源的数据接口;6.对分布式数据源的维护繁琐,当数据源数量、物理位置变化时需要中心数据库进行大量操作;7.数据集成应用计算集中发生在中心数据库中,对数据中心硬件压力大。
技术实现思路
本专利技术的目的是提供一种适用于生产企业集团、金融保险机构、各级政府所需要的低成本、高效的、实用、灵活的、可运行在互联网环境下的、支持数据源集群的。本专利技术是这样实现的一种分布式数据源数据集成系统,该系统是一种在互联网、局域网和广域网环境中,具有开放性和低成本的数据集成应用解析、数据源管理、查询转换、通信对话、数据采集、数据聚集能力的跨网络、跨平台、跨数据库的分布式数据源数据集成系统,该系统包括一个实现了数据集成应用动态管理、应用任务建立、数据源资源分配、数据查询语言转换、数据源通信对话的管理器,该管理器提供上述系统在数据集成系统中的模块调用和设备管理;一个连接在上述管理器的应用解析器,该应用解析器实现将外部数据集成应用需求解析为内部数据集成任务,并实现将最终数据集成任务结果集返回给外部数据集成应用;一个连接在上述管理器的数据源管理器,该数据源管理器实现管理数据集成系统中分布式数据源,配制数据集成任务,将数据集成任务涉及的数据源属性,如数据源地址、数据源连接、数据库类型、数据表名及字段名、数据查询指令赋予数据集成任务;一个连接在上述管理器的查询转换器,该查询转换器实现针对数据集成任务涉及的数据源数据库类型,完成数据查询指令语句中字段格式转换、查询条件格式转换和函数转换;一个连接在上述管理器的通信对话器,该通信对话器建立管理器与采集器之间的对话通道,实现数据集成任务分解及分发,实现数据收集和校验,进行系统与分布式数据源端采集器之间的数据交换和设备管理;一个连接在上述管理器的数据聚集器,该数据聚集器实现聚集基于数据集成任务来自分布式数据源的数据并标准化,实现数据集成任务最终数据结果集管理;一个实现了数据集成任务数据源端数据动态采集管理的采集器,该采集器支持异构数据源访问,提供数据集成采集过程的算法、模型、字典、进程调用和设备管理。所述的管理器、应用解析器、数据源管理器、查询转换器、通信对话器、数据聚集器运行在数据中心,提供数据集成应用与分布式数据源集群上的需求实现,实现接收外部应用需求,并将需求转化为机器语言发布给采集器集合,实现开放平台管理中心的任务调度和数据合并;采集器运行在分布式数据源端,并与分布式数据源动态连接,实现数据源端的指令信息交换和事务调度功能,实现数据交换服务。一种分布式数据源数据集成方法,该方法是一种在互联网、局域网和广域网环境中的数据集成应用解析、数据源管理配制、任务查询格式转换、任务分解及分发、数据采集、数据收集及校验、数据聚集及标准化、集成应用结果输出的分布式数据源数据集成方法,该方法使用数据集成任务包实现模块间控制信息和数据信息传递,是一种具有开放性和标准性的数据集成方法,该方法包括下列步骤利用应用解析器收到外部应用请求,创建数据集成任务包,增加任务序列号包头,数据集成范围包头,数据项集合包头,条件限定信息包头,数据集成属性包头;基于上述步骤的结果,利用数据源管理器根据数据集成任务包中的任务序列号包头信息,创建数据源列表包头;处理数据集成任务包中的数据集成范围包头信息,添加数据源列表包头中的数据源各项参数及属性;处理数据集成任务包中的数据项集合包头信息,确定数据表名集合和数据字段名集合,添加数据源列表包头中的标准查询命令;处理数据集成任务包中的条件限定包头信息,添加数据源列表包头中的标准查询条件;基于上述步骤的结果,利用查询转换器处理数据集成任务包中数据源列表包头信息,根据数据源参数,对数据源列表中的查询命令和查询条件进行文法格式转换及函数转换;基于上述步骤的结果,利用通信对话器处理数据集成任务包,根据数据源列表包头信息,分解生成数据集成任务子包,并分发任务;基于上述步骤的结果,利用采集器运行数据集成任务子包中的数据集成任务,得到数据文件,合并数据集成任务子包和数据文件,生成数据集成任务采集数据包;基于上述步骤的结果,利用通信对话器校验数据集成任务采集数据包,标注确认后,简单合并拥有相同任务序列号的所有采集数据包,生成一个包含所有采集数据的数据集成任务包;基于上述步骤的结果,利用数据聚集器处理数据集成任务包中的数据,统一数据项名描述,统一数据格式,生成完整的、标准的数据采集任务包;基于上述步骤的结果,利用应用解析器处理数据采集任务包,删除所有控制信息包头,生成标准XML数据文件,传给外部应用。所述的数据集成任务包通过增加或删除包头,分解和聚合数据集成任务包来传递数据集成过程中的控制信息和数据集合。与现有技术比较,本专利技术具备如下优点1.系统无需搭建中心数据库,数据集成过程由管理器动态管理;2.数据存储在分布式数据源中,系统不直接存储数据;3.数据集成系统按应用需求动态集成分布式数据源上存储的数据,不存在数据源数据同步问题;4.数据集成任务由应用需求驱动,数据利用率100%; 5.采集器支持异构数据源,向开放平台管理器提供统一接口,解决异构数据源数据集成接口问题;6.分布式数据源字典由管理器集中管理,可以方便适应数据源变化;7.数据集成应用计算分解在数据源端完成,实现数据网络计算。附图说明根据下面附图及最佳实施例的描述,本专利技术的特性和优点将会更加易于理解。图1是本专利技术的分布式数据源数据集成系统的总体方框图;图2是本专利技术的分布式数据源数据集成方法的总体步骤流程图;图3为图2中数据集成应用解析的详细步骤流程图;图4为图2中数据源管理配制的详细步骤流程图;图5为图2中任务查询格式转换的详细步骤流程图;图6为图2中任务分解及分发的详细步骤流程图;图7为图2中数据采集的详细步骤流程图;图8为图2中数据收集及校验的详细步骤流程图;图9为图2中数据聚集及标准化的详细步骤流程图;图10为图2中集成应用结果输出的详细步骤流程图。具体实施例方式图1是本专利技术分布式数据源数据集成系统的本文档来自技高网...

【技术保护点】
一种分布式数据源数据集成系统,该系统是一种在互联网、局域网和广域网环境中,具有开放性和低成本的数据集成应用解析、数据源管理、查询转换、通信对话、数据采集、数据聚集能力的跨网络、跨平台、跨数据库的分布式数据源数据集成系统,其特征在于,该系统包括:    一个实现了数据集成应用动态管理、应用任务建立、数据源资源分配、数据查询语言转换、数据源通信对话的管理器,该管理器提供上述系统在数据集成系统中的模块调用和设备管理;    一个连接在上述管理器的应用解析器,该应用解析器实现将外部数据集成应用需求解析为内部数据集成任务,并实现将最终数据集成任务结果集返回给外部数据集成应用;    一个连接在上述管理器的数据源管理器,该数据源管理器实现管理数据集成系统中分布式数据源,配制数据集成任务,将数据集成任务涉及的数据源属性,如数据源地址、数据源连接、数据库类型、数据表名及字段名、数据查询指令赋予数据集成任务;    一个连接在上述管理器的查询转换器,该查询转换器实现针对数据集成任务涉及的数据源数据库类型,完成数据查询指令语句中字段格式转换、查询条件格式转换和函数转换;    一个连接在上述管理器的通信对话器,该通信对话器建立管理器与采集器之间的对话通道,实现数据集成任务分解及分发,实现数据收集和校验,进行系统与分布式数据源端采集器之间的数据交换和设备管理;    一个连接在上述管理器的数据聚集器,该数据聚集器实现聚集基于数据集成任务来自分布式数据源的数据并标准化,实现数据集成任务最终数据结果集管理;    一个实现了数据集成任务数据源端数据动态采集管理的采集器,该采集器支持异构数据源访问,提供数据集成采集过程的算法、模型、字典、进程调用和设备管理。...

【技术特征摘要】

【专利技术属性】
技术研发人员:杨肖孙晓红
申请(专利权)人:北京慧讯信息技术有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利