基于Hadoop的数据更新方法、装置、系统及介质制造方法及图纸

技术编号:22022159 阅读:24 留言:0更新日期:2019-09-04 01:15
本发明专利技术公开了一种基于Hadoop的数据更新方法、装置、系统及介质,该方法包括步骤:当检测到Hadoop集群接收到客户端发送的跑批任务后,在所述Hadoop集群中对所述跑批任务进行编译,得到所述跑批任务对应的任务语句;在数据治理系统中对所述任务语句进行解析,得到所述任务语句对应各个数据库表的逻辑关系;根据所述逻辑关系更新预设图形数据库中对应数据库表的血缘关系。本发明专利技术实现了当执行跑批任务时,根据跑批任务对应各个数据库表的逻辑关系更新图形数据库中对应数据库表的血缘关系,提高了图形数据库中数据库表之间的血缘关系的准确性。

Data Updating Method, Device, System and Media Based on Hadoop

【技术实现步骤摘要】
基于Hadoop的数据更新方法、装置、系统及介质
本专利技术涉及金融科技(Fintech)数据处理
,尤其涉及一种基于Hadoop的数据更新方法、装置、系统及介质。
技术介绍
随着金融科技,尤其是互联网科技金融(Fintech)的不断发展,越来越多的技术(如分布式、区块链Blockchain、人工智能等)应用在金融领域,但金融业也对技术提出了更高的要求。目前,很多企业都已搭建各自的Hadoop大数据平台,基于该Hadoop大数据平台,企业内各个应用系统数据都在该Hadoop大数据平台中进行共享,进而形成各自的数据仓库和针对各个不同主题而建成的若干个数据集市,其中,数据仓库中存储的是某个应用系统的数据,数据集市存储的是各个应用系统中,同一主题的数据。当某个数据集市依赖的某个上游数据库表的数据发生数据重跑时,会通知下游数据库表随着上游数据库表的变化而被动进行重新跑批。这个通知的实现往往依靠一个全局的分布式任务调度平台。当上游某个数据库表发生变化时,Hadoop大数据平台会告知该任务调度平台,由该任务调度平台生成对应的通知发送至下游数据库表对应客户端中,以触发下游数据库表的数据重新处理。当上游数据库表和下游数据库表之间数据的血缘关系比较复杂时,任务调度平台无法确定被影响的所有下游数据库表,导致上游数据库表和下游数据库表之间数据的血缘关系更新不完全,从而导致上游数据库表和下游数据库表之间数据的血缘关系不准确,即导致图形数据库中数据库表之间的血缘关系不准确。
技术实现思路
本专利技术的主要目的在于提供一种基于Hadoop的数据更新方法、装置、系统及介质,旨在解决现有的在执行跑批任务时,图形数据库中数据库表之间的血缘关系不准确的技术问题。为实现上述目的,本专利技术提供一种基于Hadoop的数据更新方法,所述基于Hadoop的数据更新方法包括步骤:当检测到Hadoop集群接收到客户端发送的跑批任务后,在所述Hadoop集群中对所述跑批任务进行编译,得到所述跑批任务对应的任务语句;在数据治理系统中对所述任务语句进行解析,得到所述任务语句对应各个数据库表的逻辑关系;根据所述逻辑关系更新预设图形数据库中对应数据库表的血缘关系。优选地,若所述任务语句为数据更新语句,则所述当检测到Hadoop集群接收到客户端发送的跑批任务后,在所述Hadoop集群中对所述跑批任务进行编译,得到所述跑批任务对应的任务语句的步骤之后,还包括:在所述Hadoop集群中对所述跑批任务对应数据进行加工,得到加工后的数据;根据所述加工后的数据更新元数据库,得到所述更新后的元数据库;通过所述数据治理系统在所述更新后的元数据库中获取更新后的元数据,并获取所述加工后的数据和所述加工后的数据所在数据库表的表名称;根据所述更新后的元数据和所述加工后的数据更新所述图形数据库中所述表名称对应的数据库表,并将更新后的数据库表确定为上游数据库表;在所述根据所述逻辑关系更新预设图形数据库中对应数据库表的血缘关系的步骤之后,根据所述血缘关系确定所述上游数据库表对应的下游数据库表;根据所述更新后的元数据和所述加工后的数据更新所述下游数据库表。优选地,所述根据所述血缘关系确定所述上游数据库表对应的下游数据库表的步骤之后,还包括:发送提示信息给所述下游数据库表对应的客户端,以供所述客户端根据所述提示信息提示用户,所述下游数据库表对应的上游数据库表已更新;若接收到所述下游数据库表对应客户端发送的更新指令,则根据所述更新后的元数据和所述加工后的数据更新所述下游数据库表。优选地,所述通过所述数据治理系统在所述更新后的元数据库中获取更新后的元数据的步骤包括:通过所述数据治理系统中预设的监听程序获取所述更新后的元数据库的监听日志;解析所述监听日志,获取所述监听日志中的目标关键字;根据所述目标关键字获取所述更新后的元数据库中更新后的元数据。优选地,若所述任务语句为数据查询语句,则所述当检测到Hadoop集群接收到客户端发送的跑批任务后,在所述Hadoop集群中对所述跑批任务进行编译,得到所述跑批任务对应的任务语句的步骤之后,还包括:在所述Hadoop集群中获取所述数据查询语句对应的目标数据;将所述目标数据发送给所述跑批任务对应的客户端。优选地,所述在数据治理系统中对所述任务语句进行解析,得到所述任务语句对应各个数据库表的逻辑关系的步骤包括:在数据治理系统中对所述任务语句进行解析,得到所述任务语句对应的数据库表;确定所述任务语句对应数据库表中的源表和目标表,根据所述源表和所述目标表确定所述任务语句对应各个数据库表的逻辑关系。优选地,所述检测到Hadoop集群接收到客户端发送的跑批任务后,在所述Hadoop集群中对所述跑批任务进行编译,得到所述跑批任务对应的任务语句的步骤包括:当检测到Hadoop集群接收到客户端发送的跑批任务后,调用所述Hadoop集群的hive编译器对所述跑批任务进行编译,得到所述跑批任务对应的HQL语句。此外,为实现上述目的,本专利技术还提供一种基于Hadoop的数据更新装置,所述基于Hadoop的数据更新装置包括:编译模块,用于当检测到Hadoop集群接收到客户端发送的跑批任务后,在所述Hadoop集群中对所述跑批任务进行编译,得到所述跑批任务对应的任务语句;解析模块,用于在数据治理系统中对所述任务语句进行解析,得到所述任务语句对应各个数据库表的逻辑关系;更新模块,用于根据所述逻辑关系更新预设图形数据库中对应数据库表的血缘关系。此外,为实现上述目的,本专利技术还提供一种基于Hadoop的数据更新系统,所述基于Hadoop的数据更新系统包括存储器、处理器和存储在所述存储器上并可在所述处理器上运行的基于Hadoop的数据更新程序,所述基于Hadoop的数据更新程序被所述处理器执行时实现如上所述的基于Hadoop的数据更新方法的步骤。此外,为实现上述目的,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有基于Hadoop的数据更新程序,所述基于Hadoop的数据更新程序被处理器执行时实现如上所述的基于Hadoop的数据更新方法的步骤。本专利技术通过当检测到Hadoop集群接收到客户端发送的跑批任务后,在Hadoop集群中对跑批任务进行编译,得到跑批任务对应的任务语句,在数据治理系统中对任务语句进行解析,得到任务语句对应各个数据库表的逻辑关系,根据逻辑关系更新预设图形数据库中对应数据库表的血缘关系,实现了当执行跑批任务时,根据跑批任务对应各个数据库表的逻辑关系更新图形数据库中对应数据库表的血缘关系,提高了图形数据库中数据库表之间的血缘关系的准确性。附图说明图1是本专利技术基于Hadoop的数据更新方法第一实施例的流程示意图;图2是本专利技术基于Hadoop的数据更新方法第二实施例的流程示意图;图3是本专利技术基于Hadoop的数据更新装置较佳实施例的功能示意图模块图;图4是本专利技术实施例方案涉及的硬件运行环境的结构示意图。本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。本专利技术提供一种基于Hadoop的数据更新方法,参照图1,图1为本专利技术基于Hadoop的数据更新方法第一实施例的流程示本文档来自技高网...

【技术保护点】
1.一种基于Hadoop的数据更新方法,其特征在于,所述基于Hadoop的数据更新方法包括以下步骤:当检测到Hadoop集群接收到客户端发送的跑批任务后,在所述Hadoop集群中对所述跑批任务进行编译,得到所述跑批任务对应的任务语句;在数据治理系统中对所述任务语句进行解析,得到所述任务语句对应各个数据库表的逻辑关系;根据所述逻辑关系更新预设图形数据库中对应数据库表的血缘关系。

【技术特征摘要】
1.一种基于Hadoop的数据更新方法,其特征在于,所述基于Hadoop的数据更新方法包括以下步骤:当检测到Hadoop集群接收到客户端发送的跑批任务后,在所述Hadoop集群中对所述跑批任务进行编译,得到所述跑批任务对应的任务语句;在数据治理系统中对所述任务语句进行解析,得到所述任务语句对应各个数据库表的逻辑关系;根据所述逻辑关系更新预设图形数据库中对应数据库表的血缘关系。2.如权利要求1所述的基于Hadoop的数据更新方法,其特征在于,若所述任务语句为数据更新语句,则所述当检测到Hadoop集群接收到客户端发送的跑批任务后,在所述Hadoop集群中对所述跑批任务进行编译,得到所述跑批任务对应的任务语句的步骤之后,还包括:在所述Hadoop集群中对所述跑批任务对应数据进行加工,得到加工后的数据;根据所述加工后的数据更新元数据库,得到所述更新后的元数据库;通过所述数据治理系统在所述更新后的元数据库中获取更新后的元数据,并获取所述加工后的数据和所述加工后的数据所在数据库表的表名称;根据所述更新后的元数据和所述加工后的数据更新所述图形数据库中所述表名称对应的数据库表,并将更新后的数据库表确定为上游数据库表;在所述根据所述逻辑关系更新预设图形数据库中对应数据库表的血缘关系的步骤之后,根据所述血缘关系确定所述上游数据库表对应的下游数据库表;根据所述更新后的元数据和所述加工后的数据更新所述下游数据库表。3.如权利要求2所述的基于Hadoop的数据更新方法,其特征在于,所述根据所述血缘关系确定所述上游数据库表对应的下游数据库表的步骤之后,还包括:发送提示信息给所述下游数据库表对应的客户端,以供所述客户端根据所述提示信息提示用户,所述下游数据库表对应的上游数据库表已更新;若接收到所述下游数据库表对应客户端发送的更新指令,则根据所述更新后的元数据和所述加工后的数据更新所述下游数据库表。4.如权利要求2所述的基于Hadoop的数据更新方法,其特征在于,所述通过所述数据治理系统在所述更新后的元数据库中获取更新后的元数据的步骤包括:通过所述数据治理系统中预设的监听程序获取所述更新后的元数据库的监听日志;解析所述监听日志,获取所述监听日志中的目标关键字;根据所述目标关键字获取所述更新后的元数据库中更新后的元数据。5.如权利要求1所述的基于Hadoop的数据更新方法,其特征在于,若所述任务语句为数据查询语句,则所述当检测到Hadoop集群接收到客户端发送的跑批任务后,在所述Hadoop集群中对所述跑批任务进行编译,得到所述跑批任务对应的任务语句的步骤之后,还包括:在所述Hadoop集群中获取所述数据查询语句对应的目标数据;将所述目标数据发送给所述跑批任务对应的客户端。6.如权利要求1所述的基于Hadoop的数据更新方法,其特征在于,所述在数据治理系统中对所述任务语句进行解析,得到所述任务语句对应各个数据库表的逻辑关系的步骤包括:在数据治理系统中对所述任务语句进行解析,得到所述任务语句对应的数据库表;确定所述任务语句对应数据库表中的源表和目标表,根据所述源表和所述目标表确定所述任务语句对应各个数据库表的逻辑关系。7.如权利要求1至6任一项所述的基于Hadoop的数据更新方法,其特征...

【专利技术属性】
技术研发人员:彭陈成张阳
申请(专利权)人:深圳前海微众银行股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1