大数据存储方法、装置、设备以及存储介质制造方法及图纸

技术编号:38131071 阅读:8 留言:0更新日期:2023-07-08 09:38
本公开的实施例提供了大数据存储方法、装置、设备以及存储介质,应用于大数据领域。所述方法包括通过Flink进行数据引接获得待处理的原始数据;对所述待处理的原始数据进行全局唯一编码标识处理及治理阶段标识处理,得到已治理的版本数据;对所述已治理的版本数据进行共享阶段标识修改处理,得到等待订阅的版本数据;对所述等待订阅的版本数据进行订阅阶段标识修改处理,得到等待推送的版本数据;将所述已治理的版本数据、所述等待订阅的版本数据和所述等待推送的版本数据转发至链路消息队列,及存储至检索数据库。以此方式,可以实时对全生命周期各阶段的数据进行记录并保存,以实现快速查阅各阶段数据版本并进行数据追溯的目标。标。标。

【技术实现步骤摘要】
大数据存储方法、装置、设备以及存储介质


[0001]本公开涉及大数据领域,尤其涉及大数据存储方法、装置、设备以及存储介质。

技术介绍

[0002]随着行业数据监管、数据溯源等国家要求和行业趋势兴起,大数据追溯越来越引起广泛重视。但目前大数据领域对于数据追溯技术较少,数据历史版本变化不可追溯,无法快速定位到单条数据,而且一旦数据追溯周期较长,对于PB级大数据则需要进行冷热数据转换和手动查阅,给数据追溯造成了很大的困难和人力成本的增加,此外,如果单条数据信息经过加工和内容变更以及标识改变的,将导致数据无法追溯,并且难以做到对重要阶段的数据版本进行保存,无法对各行业数据进行安全问题排查、数据质量溯源和数据监管提供更便利的帮助。

技术实现思路

[0003]本公开提供了一种大数据存储方法、装置、设备以及存储介质。
[0004]根据本公开的第一方面,提供了一种大数据存储方法。该方法包括:
[0005]通过Flink进行数据引接获得待处理的原始数据,所述待处理的原始数据为多源异构大数据;
[0006]对所述待处理的原始数据进行全局唯一编码标识处理及治理阶段标识处理,得到已治理的版本数据;
[0007]对所述已治理的版本数据进行共享阶段标识修改处理,得到等待订阅的版本数据;
[0008]对所述等待订阅的版本数据进行订阅阶段标识修改处理,得到等待推送的版本数据;
[0009]将所述已治理的版本数据、所述等待订阅的版本数据和所述等待推送的版本数据转发至链路消息队列,及存储至检索数据库。
[0010]进一步地,在所述获得待处理的原始数据之后,还包括:
[0011]响应于所述待处理的原始数据为表数据,将表数据存入资产数据库。
[0012]进一步地,在所述得到已治理的版本数据之后,还包括:
[0013]响应于已治理的数据发生变更,对所述已治理的数据进行变更标识处理,得到已变更的版本数据,并将所述已变更的版本数据转发至所述链路消息队列。
[0014]进一步地,所述方法还包括:
[0015]获取当前查询请求;所述当前查询请求包括全局唯一编码;
[0016]基于所述全局唯一编码进行数据检索,得到各阶段的数据;其中,所述各阶段包括数据引接、数据治理、数据共享、数据订阅和数据版本变更;
[0017]将所述各阶段的数据推送给订阅数据客户端并进行展示。
[0018]进一步地,所述基于所述全局唯一编码进行数据检索,得到各阶段的数据,包括:
[0019]基于所述全局唯一编码从所述检索数据库获取对应的链路消息队列,并获取对应的数据版本信息;
[0020]根据所述数据版本信息获取对应的数据阶段标识;
[0021]根据所述数据阶段标识获取对应的数据。
[0022]进一步地,所述方法还包括:
[0023]获取订阅数据客户端的身份信息;其中,所述身份信息包括订阅数据客户端的检索习惯标签和ID信息;
[0024]根据所述身份信息检索对应的数据,得到周期推送数据;
[0025]根据预设时间周期将所述周期推送数据推送给对应的订阅数据客户端。
[0026]进一步地,所述方法还包括:
[0027]基于集群版关系数据库和非关系型数据库对数据进行存储,并基于硬件资源分配比例对索引信息进行存储。
[0028]根据本公开的第二方面,提供了一种大数据存储装置。该装置包括:
[0029]数据获取模块,用于通过Flink进行数据引接获得待处理的原始数据,所述待处理的原始数据为多源异构大数据;
[0030]治理模块,用于对所述待处理的原始数据进行全局唯一编码标识处理及治理阶段标识处理,得到已治理的版本数据;
[0031]共享模块,用于对所述已治理的版本数据进行共享阶段标识修改处理,得到等待订阅的版本数据;
[0032]订阅模块,用于对所述等待订阅的版本数据进行订阅阶段标识修改处理,得到等待推送的版本数据;
[0033]存储模块,用于将所述已治理的版本数据、所述等待订阅的版本数据和所述等待推送的版本数据转发至链路消息队列,及存储至检索数据库。
[0034]根据本公开的第三方面,提供了一种电子设备。该电子设备包括:存储器和处理器,所述存储器上存储有计算机程序,所述处理器执行所述程序时实现如以上所述的方法。
[0035]根据本公开的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如根据本公开的第一方面所述的方法。
[0036]本公开的实施例提供的大数据存储方法、装置、设备以及存储介质,通过Flink进行数据引接获得待处理的原始数据,并对待处理的原始数据进行全局唯一编码标识处理及治理阶段、共享阶段和订阅阶段标识进行处理,得到对应的各版本数据,并同步至链路消息队列及存储至检索数据库中,实现对大数据的全生命周期的各个阶段的数据的记录和保存,以便能够快速查阅各阶段版本数据,实现对数据的追溯。
[0037]应当理解,
技术实现思路
部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征,亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。
附图说明
[0038]结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。附图用于更好地理解本方案,不构成对本公开的限定在附图中,相同或相
似的附图标记表示相同或相似的元素,其中:
[0039]图1示出了根据本公开的实施例的大数据存储过程示意图;
[0040]图2示出了根据本公开的实施例的大数据存储方法的流程图;
[0041]图3示出了根据本公开的又一实施例的大数据存储方法的流程图;
[0042]图4示出了根据本公开的又一实施例的大数据存储方法的流程图;
[0043]图5示出了根据本公开的实施例的大数据存储装置的框图;
[0044]图6示出了能够实施本公开的实施例的示例性电子设备的方框图。
具体实施方式
[0045]为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本公开保护的范围。
[0046]另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
[0047]本公开针对高通量实时时空大数据,涉及一种对数据全生命周期各阶段的数据进行标识管理,以便进行数据追溯。如图1所示的大数据存储过程示意图,对于引接的数据进行数据引接服务之后,将本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种大数据存储方法,其特征在于,包括:通过Flink进行数据引接获得待处理的原始数据,所述待处理的原始数据为多源异构大数据;对所述待处理的原始数据进行全局唯一编码标识处理及治理阶段标识处理,得到已治理的版本数据;对所述已治理的版本数据进行共享阶段标识修改处理,得到等待订阅的版本数据;对所述等待订阅的版本数据进行订阅阶段标识修改处理,得到等待推送的版本数据;将所述已治理的版本数据、所述等待订阅的版本数据和所述等待推送的版本数据转发至链路消息队列,及存储至检索数据库。2.根据权利要求1所述的方法,其特征在于,在所述获得待处理的原始数据之后,还包括:响应于所述待处理的原始数据为表数据,将表数据存入资产数据库。3.根据权利要求1所述的方法,其特征在于,在所述得到已治理的版本数据之后,还包括:响应于已治理的数据发生变更,对所述已治理的数据进行变更标识处理,得到已变更的版本数据,并将所述已变更的版本数据转发至所述链路消息队列。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取当前查询请求;所述当前查询请求包括全局唯一编码;基于所述全局唯一编码进行数据检索,得到各阶段的数据;其中,所述各阶段包括数据引接、数据治理、数据共享、数据订阅和数据版本变更;将所述各阶段的数据推送给订阅数据客户端并进行展示。5.根据权利要求4所述的方法,其特征在于,所述基于所述全局唯一编码进行数据检索,得到各阶段的数据,包括:基于所述全局唯一编码从所述检索数据库获取对应的链路消息队列,并获取对应的数据版本信息;根据所述数据版本信息获取对应的数据阶段标识;根据所述数据阶段标识获取对应的数据。6.根据权利要求1所述的方法...

【专利技术属性】
技术研发人员:程揭章朱龙文张海陆高玉坤李海东
申请(专利权)人:中科星图智慧科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1