异构数据之间的血缘数据获取方法及装置制造方法及图纸

技术编号:38224753 阅读:15 留言:0更新日期:2023-07-25 17:55
本申请提供一种异构数据之间的血缘数据获取方法及装置,所述方法包括:采集离线的异构数据,并基于元数据的异构数据抽取技术采集在线的异构数据;采用分布式系统中的各个子节点对异构数据中的各类数据的全生命周期数据进行分布式元数据采集,将分布式元数据汇聚到分布式系统中的主节点,使得主节点对分布式元数据进行去重融合操作以获取异构数据中的各类数据的全生命周期数据对应的全局血缘数据。本申请能够实现对异构数据的精确采集,能够对分布式系统中异构数据的各类数据的全生命周期数据进行覆盖式元数据采集,同时能够对分布式系统的异构数据进行有效的血缘关系构建。式系统的异构数据进行有效的血缘关系构建。式系统的异构数据进行有效的血缘关系构建。

【技术实现步骤摘要】
异构数据之间的血缘数据获取方法及装置


[0001]本申请涉及大数据领域,尤其涉及一种异构数据之间的血缘数据获取方法及装置。

技术介绍

[0002]任何的数据,从产生、ETL处理、加工、融合、流转,到最终消亡,数据之间自然会形成一种关系。类比人类社会中的人际关系,类似的一种关系来表达数据之间的这种关系,称之为数据的血缘关系。数据血缘属于数据治理中的一个概念,是在数据溯源的过程中找到相关数据之间的联系,它是一个逻辑概念。血缘分析是数据治理的一部分,血缘分析是保证数据融合的一个手段,通过血缘分析实现数据融合处理的可追溯。数据血缘是指数据产生的链路,记录了数据是怎么来的,经过了哪些过程和阶段。一般的血缘分析方法就是针对不同粒度的血缘分析,制定不同的数据血缘解析方案,并以图形化方式展示数据流向,辅助用户了解复杂的血缘关系,实现数据血缘收集、数据血缘解析。
[0003]血缘分析的现有数据来源主要来自于结构化数据的采集,然而随着数据中心的发展和数据的积累,多源异构数据成为数据中心数据的主要来源,现有数据采集技术已无法满足对多源异构数据的采集需求。现有血缘分析技术中元数据采集步骤,主要面向数据仓库,没有覆盖到数据全生命周期。现有血缘分析主要是针对数据中心的数据进行分析,不能对大型分布式系统进行很好的数据血缘分析。

技术实现思路

[0004]鉴于此,本申请实施例提供了一种异构数据之间的血缘数据获取方法及装置,以消除或改善现有技术中存在的一个或更多个缺陷。
[0005]本申请的一个方面提供了一种异构数据之间的血缘数据获取方法,该方法包括以下步骤:
[0006]采集离线的异构数据,并基于元数据的异构数据抽取技术采集在线的异构数据;
[0007]采用分布式系统中的各个子节点对所述异构数据中的各类数据的全生命周期数据进行分布式元数据采集,将所述分布式元数据汇聚到所述分布式系统中的主节点,使得所述主节点对所述分布式元数据进行去重融合操作以获取所述异构数据中的各类数据的全生命周期数据对应的全局血缘数据。
[0008]在本申请的一些实施例中,还包括:
[0009]抽取所述异构数据中的待转换数据,将所述待转换数据从业务模型数据转换为分析模型数据并将所述分析模型数据加载到数据仓库以得到所述待转换数据的处理过程信息,将所述处理过程信息数据作为所述异构数据中的待转换数据对应的血缘关系数据。
[0010]在本申请的一些实施例中,还包括:
[0011]采用数据库连接获取所述异构数据映射的异构数据访问中间件地址,根据所述异构数据访问中间件地址定位异构数据访问中间件并扫描所述异构数据访问中间件中生成
的数据库操作文件以得到对所述异构数据进行操作的操作数据,根据所述操作数据建立所述异构数据和所述操作数据的中间件血缘关系数据。
[0012]在本申请的一些实施例中,还包括:
[0013]在数据存储区上部署数据操作插件,根据所述数据操作插件监控所述数据存储区上所述异构数据的访问操作并获取数据库操作语句,将所述数据库操作语句发送到Kafka服务器作为Kafka数据,读取所述Kafka数据并根据所述Kafka数据建立所述异构数据和所述Kafka数据的存储血缘关系数据。
[0014]在本申请的一些实施例中,还包括:
[0015]根据所述全局血缘数据、所述血缘关系数据、所述中间件血缘关系数据和所述存储血缘关系数据构建血缘关系图,将所述血缘关系图存储到图数据库。
[0016]在本申请的一些实施例中,所述采集离线的异构数据,包括:
[0017]从离线异构数据结构、离线异构数据模型和元数据服务中获取数据采集元数据,对所述数据采集元数据进行编辑并设计离线异构数据字典,通过采集项选择和界面布局设计完成离线异构数据采集表单,对所述离线异构数据采集表单进行登记管理并进行入库配置,将所述离线异构数据采集表单下发给数据采集单位形成离线异构数据采集任务包,以使所述数据采集单位对所述离线异构数据采集任务包进行装载并生成离线异构数据任务包采集表单,使得所述数据采集单位对所述离线异构数据任务包采集表单进行数据录入、保存和上报以形成传输文件,对所述传输文件进行登记并制作形成传输件,对所述传输件进行离线异构数据的收发管理、传输、汇总和登记。
[0018]在本申请的一些实施例中,所述并基于元数据的异构数据抽取技术采集在线的异构数据,包括:
[0019]根据采集元数据库中的采集元数据和抽取规则对在线异构数据进行采集;其中,所述采集元数据由数据源包装器对所述在线异构数据进行包装生成所述采集元数据并发送到采集元数据管理模块进行注册,并将注册后的所述采集元数据发送到所述采集元数据库。
[0020]本申请的另一个方面提供了一种异构数据之间的血缘数据获取装置,该装置包括:
[0021]异构数据抽取模块,用于采集离线的异构数据,并基于元数据的异构数据抽取技术采集在线的异构数据;
[0022]分布式元数据采集模块,用于采用分布式系统中的各个子节点对所述异构数据中的各类数据的全生命周期数据进行分布式元数据采集,将所述分布式元数据汇聚到所述分布式系统中的主节点,使得所述主节点对所述分布式元数据进行去重融合操作以获取所述异构数据中的各类数据的全生命周期数据对应的全局血缘数据。
[0023]本申请的第三个方面提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现前述的第一方面所述的异构数据之间的血缘数据获取方法。
[0024]本申请的第四个方面提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现前述的第一方面所述的异构数据之间的血缘数据获取方法。
[0025]本申请提供一种异构数据之间的血缘数据获取方法及装置,所述方法包括:采集离线的异构数据,并基于元数据的异构数据抽取技术采集在线的异构数据;采用分布式系统中的各个子节点对异构数据中的各类数据的全生命周期数据进行分布式元数据采集,将分布式元数据汇聚到分布式系统中的主节点,使得主节点对分布式元数据进行去重融合操作以获取异构数据中的各类数据的全生命周期数据对应的全局血缘数据。本申请能够实现对异构数据的精确采集,能够对分布式系统中异构数据的各类数据的全生命周期数据进行覆盖式元数据采集,同时能够对分布式系统的异构数据进行有效的血缘关系构建。
[0026]本申请的附加优点、目的,以及特征将在下面的描述中将部分地加以阐述,且将对于本领域普通技术人员在研究下文后部分地变得明显,或者可以根据本申请的实践而获知。本申请的目的和其它优点可以通过在说明书以及附图中具体指出的结构实现到并获得。
[0027]本领域技术人员将会理解的是,能够用本申请实现的目的和优点不限于以上具体所述,并且根据以下详细说明将更清楚地理解本申请能够实现的上述和其他目的。
附图说明
[0028]此处所说明的附图用来提供对本申请的进一步理解,构成本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种异构数据之间的血缘数据获取方法,其特征在于,包括:采集离线的异构数据,并基于元数据的异构数据抽取技术采集在线的异构数据;采用分布式系统中的各个子节点对所述异构数据中的各类数据的全生命周期数据进行分布式元数据采集,将所述分布式元数据汇聚到所述分布式系统中的主节点,使得所述主节点对所述分布式元数据进行去重融合操作以获取所述异构数据中的各类数据的全生命周期数据对应的全局血缘数据。2.根据权利要求1所述的异构数据之间的血缘数据获取方法,其特征在于,还包括:抽取所述异构数据中的待转换数据,将所述待转换数据从业务模型数据转换为分析模型数据并将所述分析模型数据加载到数据仓库以得到所述待转换数据的处理过程信息,将所述处理过程信息数据作为所述异构数据中的待转换数据对应的血缘关系数据。3.根据权利要求2所述的异构数据之间的血缘数据获取方法,其特征在于,还包括:采用数据库连接获取所述异构数据映射的异构数据访问中间件地址,根据所述异构数据访问中间件地址定位异构数据访问中间件并扫描所述异构数据访问中间件中生成的数据库操作文件以得到对所述异构数据进行操作的操作数据,根据所述操作数据建立所述异构数据和所述操作数据的中间件血缘关系数据。4.根据权利要求3所述的异构数据之间的血缘数据获取方法,其特征在于,还包括:在数据存储区上部署数据操作插件,根据所述数据操作插件监控所述数据存储区上所述异构数据的访问操作并获取数据库操作语句,将所述数据库操作语句发送到Kafka服务器作为Kafka数据,读取所述Kafka数据并根据所述Kafka数据建立所述异构数据和所述Kafka数据的存储血缘关系数据。5.根据权利要求4所述的异构数据之间的血缘数据获取方法,其特征在于,还包括:根据所述全局血缘数据、所述血缘关系数据、所述中间件血缘关系数据和所述存储血缘关系数据构建血缘关系图,将所述血缘关系图存储到图数据库。6.根据权利要求1所述的异构数据之间的血缘数据获取方法,其特征在于,所述采集离线的异构数据,包括:从离线异构数据结构、离...

【专利技术属性】
技术研发人员:岳明桥于跃卜宪政马跃飞宋越刘继光宋东海胡永涛姚鹏飞张琳薇
申请(专利权)人:中国人民解放军九二四九三部队信息技术中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1