大数据平台主数据实时同步方法及系统技术方案

技术编号:35519579 阅读:16 留言:0更新日期:2022-11-09 14:38
本发明专利技术公开了一种大数据平台主数据实时同步方法,包括实时接口模块、批量同步模块、任务管理模块以及数据服务模块;所述批量同步模块用于在系统资源匮乏时同步时效性要求低的主数据;所述实时接口模块用于在系统资源充足时同步所有主数据,在系统资源匮乏时同步时效性要求高的主数据;所述任务管理模块用于切分和调度各个数据同步作业;所述数据服务模块用于提供各个应用访问已同步的数据,本发明专利技术通过根据系统资源占用率选择不同的同步方式将数据从源系统同步到大数据,在保数据同步稳定性的同时也保证数据同步的实时性,并且在数据服务模块中通过实时组件Redis向外部提供数据访问服务,保证了访问的高效实时性和准确性。保证了访问的高效实时性和准确性。保证了访问的高效实时性和准确性。

【技术实现步骤摘要】
大数据平台主数据实时同步方法及系统


[0001]本专利技术属于交通综合自动化
,尤其涉及一种大数据平台主数据实时同步方法及系统。

技术介绍

[0002]目前轨道交通安全生产网内,随着运营数据量的增大和数据类型的增多,越来越多地采取大数据平台进行海量生产数据汇总和存储,并进行数据治理,最终形成数据资产地图。
[0003]目前大数据平台内,对于无时无刻不在产生的海量生产数据,比如设备和点的运行状态、传感器的状态变化等,可以通过流处理方法,在数据ETL后,实时传递到大数据平台内并共享出去。但是对于相对稳定的主数据,比如说设备和点的属性等,目前都是通过定期同步的方法来处理。这种主数据的定期同步,一般采用大数据平台的数据同步组件,比如Sqoop组件,定时把数据从源系统同步到大数据平台内存储主数据的关系数据库表中。
[0004]早期的大数据平台没有实时流处理业务,只用于历史数据的存储,业务也都是T+1类型。这种情况下,即便主数据变化有滞后,对业务也影响不大。但是随着轨道交通运营业务的增长,大数据平台内用于各种智慧运营的实时流任务也越来越多。我们在做实时流处理过程中发现,在某些场合,比如添加传感器、更换设备等导致了源系统主数据变化,需要及时更新到大数据平台。否则导致大数据平台内主数据和生产数据之间数据不匹配,造成某些指标(比如故障统计、故障预测)的计算错误;或者影响了数据质量,在生产数据入库时数据校验不通过,可能会导致数据的后续处理产生问题。

技术实现思路

[0005]为了解决现有技术存在的问题,本专利技术提供一种大数据平台主数据实时同步方法及系统,能够快速将源系统数据同步到大数据平台。
[0006]本专利技术所要解决的技术问题是通过以下技术方案实现的:
[0007]第一方面,提供了一种大数据平台主数据实时同步系统,包括:实时接口模块、批量同步模块、任务管理模块以及数据服务模块;
[0008]所述批量同步模块用于在系统资源匮乏时同步时效性要求低的主数据;
[0009]所述实时接口模块用于在系统资源充足时同步所有主数据,在系统资源匮乏时同步时效性要求高的主数据;
[0010]所述任务管理模块用于切分和调度各个数据同步作业;
[0011]所述数据服务模块用于提供各个应用访问已同步的数据。
[0012]第二方面,进一步的,在系统资源匮乏时通过批量同步模块同步时效性要求低的主数据,通过实时接口模块同步时效性要求高的主数据;
[0013]在系统资源充足时通过实时接口模块同步所有主数据;
[0014]通过任务管理模块对数据同步作业进行切分和调度;
[0015]通过数据服务模块向各个应用提供已同步数据的访问。
[0016]结合第二方面,进一步的,批量同步模块同步主数据采用Sqoop组件,定期把主数据从各个数据源同步到大数据平台中。
[0017]结合第二方面,进一步的,批量同步模块将主数据从数据源同步到大数据平台采用整表同步的方式。
[0018]结合第二方面,进一步的,实时接口模块通过调用接口函数和消息发送进行主数据同步。
[0019]结合第二方面,进一步的,系统资源剩余超过50%时为系统资源充足,低于50%时为系统资源匮乏。
[0020]结合第二方面,进一步的,对时效性要求高的主数据进行同步时,任务管理模块先把数据同步作业按照线路和系统进行切分。
[0021]结合第二方面,进一步的,任务管理模块在启动时把关系库的主数据表加载到内存数据库中,再把内存数据库的数据加载到各个数据同步作业中,建立Map,将数据源中的点ID和大数据平台内的点ID进行映射。
[0022]本专利技术有益效果:本专利技术通过根据系统资源占用率选择不同的同步方式将数据从源系统同步到大数据,在保数据同步稳定性的同时也保证数据同步的实时性,并且在数据服务模块中通过实时组件Redis向外部提供数据访问服务,保证了访问的高效实时性和准确性。
附图说明
[0023]图1为本专利技术中数据同步作业的流程图;
[0024]图2为本专利技术中同步系统的架构图。
具体实施方式
[0025]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0026]如图1

图2所示,本专利技术提供了一种大数据平台主数据实时同步系统,包括批量同步模块、实时接口模块、任务管理模块以及数据服务模块四个模块。
[0027]为了实现数据同步,需要建立主数据设备点表,该表建立在任务管理模块的数据中,住数据的设备点表dev_point_info表结构如下所示:
[0028][0029]其中point_key和source_key分别对应大数据平台存储的数据点ID和源系统也即数据生产者的设备点ID,表征它们的映射关系。
[0030]其中,批量同步模块用于在系统资源匮乏(同步系统剩余资源低于50%)时同步时效性要求低(此处低相较于实时同步的时效性要求高而言)的主数据;
[0031]实时接口模块用于在系统资源充足(系统剩余资源高于50%)时同步所有主数据,在系统资源匮乏时同步时效性要求高的主数据;
[0032]任务管理模块用于切分和调度各个数据同步作业;
[0033]数据服务模块用于提供各个应用访问已同步的数据。
[0034]基于上述的大数据平台主数据实时同步系统,本专利技术的数据同步过程主要如下:
[0035]在系统资源匮乏时通过批量同步模块同步时效性要求低的主数据,通过实时接口模块同步时效性要求高的主数据。
[0036]其中批量同步模块在进行数据同步时通过Sqoop组件,定期(例如一周或者一天)把主数据从各个数据源同步到大数据平台的主数据表中,同步方式为整表同步。
[0037]在系统资源充足时通过实时接口模块同步所有主数据。
[0038]实时接口模块给数据源的系统提供Restful API接口和Kafka主题通道两种方式接收主数据的变化。当数据源的主数据发生变化时,数据源的系统通过调用Restful API接口或者Kafka消息推送方式通知更新的点ID到大数据平台主数据实时同步系统。当(增加、修改、删除)时,可以任选一种方式(Restful API或者Kafka消息)通知同步系统,实时接口模块把源系统的设备点ID映射到大数据平台内的数据点ID,推送到Kafka通道。
[0039]通过任务管理模块对数据同步作业进行切分和调度;
[0040]任务管理模块负责切分和调度各个数据同步作业,每个作业都是个流任务。
[0041]任务管理模块把作业按照线路和系统切分,即对不同的线路和系统启动单独的作业。任务管理模块在启动时把关系库(R本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种大数据平台主数据实时同步系统,其特征在于,包括:实时接口模块、批量同步模块、任务管理模块以及数据服务模块;所述批量同步模块用于在系统资源匮乏时同步时效性要求低的主数据;所述实时接口模块用于在系统资源充足时同步所有主数据,在系统资源匮乏时同步时效性要求高的主数据;所述任务管理模块用于切分和调度各个数据同步作业;所述数据服务模块用于提供各个应用访问已同步的数据。2.基于权利要求1所述系统的一种大数据平台主数据实时同步方法,其特征在于,在系统资源匮乏时通过批量同步模块同步时效性要求低的主数据,通过实时接口模块同步时效性要求高的主数据;在系统资源充足时通过实时接口模块同步所有主数据;通过任务管理模块对数据同步作业进行切分和调度;通过数据服务模块向各个应用提供已同步数据的访问。3.根据权利要求2所述的一种大数据平台主数据实时同步方法,其特征在于,批量同步模块同步主数据采用Sqoop组件,定期把主数据从各个数据源同步到...

【专利技术属性】
技术研发人员:陈莉莉张赛桥狄颖琪张振山胡波张浩费洋
申请(专利权)人:南瑞轨道交通技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1