异构数据实时同步系统及装置制造方法及图纸

技术编号:27132481 阅读:20 留言:0更新日期:2021-01-25 20:16
本发明专利技术公开了一种异构数据实时同步系统及装置,所述系统包括:批处理引擎,用于将存量数据批量导入大数据平台的分布式数据库;实时同步计算引擎,用于实时增量数据进行非侵入式的数据采集、数据转化,将增量数据实时同步到分布式数据库中;数据完整性保障系统,用于通过可视化技术在监控界面展示批处理引擎和实时同步引擎的实时数据同步处理情况,根据实时数据同步处理情况计算监测数据,根据监测数据判断数据同步是否出现异常,在出现异常的情况下执行数据的修复,进行完整性保障。本发明专利技术既能实现高可靠的数据同步,又能定期验证数据完整性,并保障TB级的数据稳定的落入分布式数据库中。库中。库中。

【技术实现步骤摘要】
异构数据实时同步系统及装置


[0001]本专利技术涉及数据同步
,尤其是涉及一种异构数据实时同步系统及装置。

技术介绍

[0002]传统的数据同步是由数据库自身同构复制技术实现的,当源表发生变化时,由数据库引擎引发同步事件,把源表中变化的数据同步更新到目标数据库中,但是这种复制技术只能在同构数据库之间使用。目前,数据库的同步工具,均是利用数据库本身支持的主从机制,模拟成一个从主库导出binlog/类binlog。
[0003]异构数据库表向大数据平台实时同步,面临了一些挑战:数据完整性问题、难以灵活应对数据源变化、缺少数据同步的监控预警。因此,目前急需一种异构数据库的大数据平台实时同步的技术方案。

技术实现思路

[0004]本专利技术的目的在于提供一种异构数据实时同步系统及装置,旨在解决现有技术中存在的上述问题。
[0005]本专利技术提供一种异构数据实时同步系统,包括:
[0006]批处理引擎,用于将存量数据批量导入大数据平台的分布式数据库;
[0007]实时同步计算引擎,用于实时增量数据进行非侵入式的数据采集、数据转化,将增量数据实时同步到分布式数据库中;
[0008]数据完整性保障系统,用于通过可视化技术在监控界面展示批处理引擎和实时同步引擎的实时数据同步处理情况,根据实时数据同步处理情况计算监测数据,根据监测数据判断数据同步是否出现异常,在出现异常的情况下执行数据的修复,进行完整性保障。
[0009]本专利技术提供一种异构数据实时同步装置,与源数据库服务器和数据推送服务器连接,其中,据推送服务器与源数据库服务器连接,所述装置具体包括:
[0010]文件服务器,用于从源数据库服务器采集存量数据和结构化数据,将结构化数据切割成可计算的矩阵数据,再将矩阵数据批量分发到各个计算存储节点;
[0011]实时采集服务器,用于从数据推送服务器中获取实时增量数据,进行转化,将转换后的实时增量数据发送到各个计算存储节点;
[0012]多个计算存储节点,用于并行对存量数据进行校验和计算,最终将结果存储到分布式数据库,并将转换后的实时增量数据实时的同步到分布式数据库中;根据实时数据同步处理情况计算监测数据;
[0013]应用服务器,用于部署实时同步数据监控系统,通过可视化技术在监控界面展示实时数据同步处理情况;
[0014]多个管理服务器,用于根据实时数据同步处理情况计算监测数据,根据监测数据判断数据同步是否出现异常,在出现异常的情况下执行数据的修复,进行完整性保障;
[0015]关系型数据库服务器,用于保存监测数据。
[0016]采用本专利技术实施例,既能实现高可靠的数据同步,又能定期验证数据完整性,并保障TB级的数据稳定的落入分布式数据库中。
[0017]上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。
附图说明
[0018]为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0019]图1是本专利技术实施例的异构数据实时同步系统的示意图;
[0020]图2是本专利技术实施例的异构数据实时同步装置的示意图;
[0021]图3是本专利技术实施例的监控界面的示意图。
具体实施方式
[0022]本专利技术实施例提供了一种能够将传统的异构数据库的数据向大数据平台中的分布式数据库迁移、实时同步的服务装置,为使用大数据技术分析处理数据做好数据准备。本专利技术实施例的采集端(数据输入端)通过与数据源(传统数据库如:mysql、oracle等)连接,实时采集数据库中的数据,在存储端连接分布式数据库(hbase)存储所采集到的数据。
[0023]本专利技术实施例将批量迁移、实时同步、集成在一起,并引入了数据监控、数据完整性保障机制;本专利技术实施例可以向用户展示数据同步落地的监控信息,还配有异常情况下的数据修复功能;保障了数据同步过程中的可靠性和安全性,能够灵活应对多源异构数据库的采集。
[0024]下面将结合实施例对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0025]在本专利技术的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“坚直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本专利技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本专利技术的限制。
[0026]此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本专利技术的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。此外,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普
通技术人员而言,可以具体情况理解上述术语在本专利技术中的具体含义。
[0027]系统实施例
[0028]根据本专利技术实施例,提供了一种异构数据实时同步系统,图1是本专利技术实施例的异构数据实时同步系统的示意图,如图1所示,根据本专利技术实施例的异构数据实时同步系统具体包括:
[0029]批处理引擎10,用于将存量数据批量导入大数据平台的分布式数据库;在实际应用中,还可以通过传统数据库的备份库,采用同步工具NiFi进行采集数据,直接落入分布式数据库(hive)中,来实现存量数据采集。
[0030]批处理引擎10具体用于:基于Spark技术,对存量数据进行数据清洗,并基于Bulk Load技术,将清洗后的存量数据导入分布式数据库中。
[0031]具体地,批处理引擎10从源数据库服务器将存量数据通过FTP的方式采集到文件服务器中,通过文件共享协议获取上传的结构化数据,通过预设行分隔符和列分隔符的方式将结构化数据切割成可计算的矩阵数据,再将矩阵数据批量分发到各个计算存储节点,通过所述计算存储节点进行平行处理,对存量数据进行校验和计算,最终将结果存储到分布式数据库。
[0032]实本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种异构数据实时同步系统,其特征在于,包括:批处理引擎,用于将存量数据批量导入大数据平台的分布式数据库;实时同步计算引擎,用于实时增量数据进行非侵入式的数据采集、数据转化,将增量数据实时同步到分布式数据库中;数据完整性保障系统,用于通过可视化技术在监控界面展示批处理引擎和实时同步引擎的实时数据同步处理情况,根据实时数据同步处理情况计算监测数据,根据监测数据判断数据同步是否出现异常,在出现异常的情况下执行数据的修复,进行完整性保障。2.根据权利要求1所述的系统,其特征在于,所述批处理引擎具体用于:基于Spark技术,对存量数据进行数据清洗,并基于Bulk Load技术,将清洗后的存量数据导入分布式数据库中。3.根据权利要求2所述的系统,其特征在于,所述批处理引擎具体用于:从源数据库服务器将存量数据通过FTP的方式采集到文件服务器中,通过文件共享协议获取上传的结构化数据,通过预设行分隔符和列分隔符的方式将结构化数据切割成可计算的矩阵数据,再将矩阵数据批量分发到各个计算存储节点,通过所述计算存储节点进行平行处理,对存量数据进行校验和计算,最终将结果存储到分布式数据库。4.根据权利要求1所述的系统,其特征在于,所述实时同步计算引擎具体用于:基于OGG技术和Spark Streaming技术,对于实时增量数据,将从Kafka接收的数据按照Json格式进行转化,并将格式化后的数据保存至分布式数据库。5.根据权利要求4所述的系统,其特征在于,所述实时同步计算引擎具体用于:通过实时采集服务器从数据推送服务器中获取实时增量数据,将从Kafka接收的数据按照Json格式进行转化,将转换后的实时增量数据通过各个计算存储节点实时的同步到分布式数据库中,其中,数据推送服务器与源数据库服务器连接。6.根据权利要求1所述的系统,其特征在于,数据完整性保障系统具体包括:实时同步数据监控系统,设置应用服务器,用于定时刷新数据,通过时间、总体数据同步情况、业务表名维度、Kafka接收的数据、已同步数据、已踢回数据、以及异常条数指标实时监控数据同步情况并在监控界面进行可视化显示;异常数据修复模块,用于通过计算存储节点,根据实时数据同步处理情况计算监测数据,根据监测数据判断数据同步是否出现异常,对处理过程中出现的解...

【专利技术属性】
技术研发人员:万聪马明铭董利钢聂欣慧刘丽娟谢肖伊刘恒良
申请(专利权)人:首都信息发展股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1