非结构化数据入湖方法、装置、电子设备及存储介质制造方法及图纸

技术编号:36189613 阅读:59 留言:0更新日期:2022-12-31 21:01
本发明专利技术涉及数据处理技术,揭露一种非结构化数据入湖方法,包括:生成待处理数据的包括数据键值、数据版本及数据有效性的扩展元数据,数据写入时,利用所述数据键值及所述数据版本对已有数据进行数据查重校验,校验通过则将待处理数据存储到预设的数据存储空间、将待处理元数据及扩展元数据存储到预设的元数据存储空间,设置待处理数据的数据有效性为有效,数据变更或删除时,利用所述数据键值及所述数据版本对已有目标对象进行定位,将所述目标对象的数据有效性设置为无效,数据变更操作与数据写入操作相同,数据删除时,则删除所述目标对象。本发明专利技术还提出一种非结构化数据入湖装置、设备以及介质。本发明专利技术可以提升非结构化数据管理效率。数据管理效率。数据管理效率。

【技术实现步骤摘要】
非结构化数据入湖方法、装置、电子设备及存储介质


[0001]本专利技术涉及数据处理
,尤其涉及一种非结构化数据入湖方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]当前非结构化数据存储主要有两种方式:
[0003]第一种方式为将原始非结构化数据文件写入数据湖的分布式存储系统中,这种方式的缺点是缺少文件的元数据信息(文件的基本信息,如文件归属、文件使用范围、文件描述信息等),无法通过元数据查找到文件,容易形成“数据沼泽”。
[0004]第二种方式为将原始非结构化文件及其元数据分别入湖,文件写入分布式文件系统HDFS,元数据写入Hive数据仓库并保存文件存放路径,通过HiveSQL检索元数据信息来找到文件存放地址。这种方式也存在如下缺点:
[0005]1、Hive检索元数据慢;
[0006]2、无法修改元数据信息;
[0007]3、不支持模糊搜索元数据;
[0008]4、非结构化文件及元数据分别写入数据湖的不同存储系统,现有技术缺少数据有效性保证,如写元数据成功而写文件失败,导致数据错误;
[0009]5、缺少结构化数据入湖的标准数据管理难等问题。
[0010]因此,亟待改进非结构化数据入湖方法,提升非结构化数据管理效率。

技术实现思路

[0011]本专利技术提供一种非结构化数据入湖方法、装置、电子设备及计算机可读存储介质,其主要目的在于提升非结构化数据管理效率。
[0012]为实现上述目的,本专利技术提供的一种非结构化数据入湖方法,包括:
[0013]获取数据处理请求,解析所述数据处理请求得到待处理数据、待处理元数据及处理类型;
[0014]生成所述待处理数据的扩展元数据,其中,所述扩展元数据包括数据键值、数据版本及数据有效性;
[0015]当所述处理类型为写入时,利用所述数据键值及所述数据版本对预设的存储系统中的已有数据进行数据查重校验,当所述数据查重校验通过时,将所述待处理数据存储到所述预设的存储系统中的数据存储空间、将对应的所述待处理元数据及所述扩展元数据存储到所述预设的存储系统中的元数据存储空间,设置所述待处理数据的数据有效性为有效;
[0016]当所述处理类型为变更或删除时,利用所述数据键值及所述数据版本对所述预设的存储系统中的已有目标对象进行定位,将所述目标对象对应的数据有效性设置为无效,将处理类型为变更的待处理数据存储到所述预设的存储系统中的数据存储空间及将对应
的所述待处理元数据及所述扩展元数据存储到所述预设的存储系统中的元数据存储空间,设置所述待处理数据的数据有效性为有效,并删除处理类型为删除的所述目标对象。
[0017]可选地,所述生成所述待处理数据的扩展元数据,其中,所述扩展元数据包括数据键值、数据版本及数据有效性,包括:
[0018]计算所述待处理数据的哈希值,将所述哈希值作为所述待处理数据的数据键值;
[0019]判断在预设的存储系统中所述数据键值是否唯一;
[0020]当所述数据键值唯一时,则设置所述待处理数据对应的数据版本为第一个版本;
[0021]当所述数据键值不唯一时,则获取所述数据键值对应的最高数据版本,通过将所述最高数据版本+1,得到所述待处理数据对应的数据版本;
[0022]初始化所述待处理数据对应的数据有效性为无效;
[0023]汇集所述数据键值、所述数据版本及所述数据有效性得到所述待处理数据对应的扩展元数据。
[0024]可选地,所述利用所述数据键值及所述数据版本对预设的存储系统中的已有数据进行数据查重校验,包括:
[0025]在所述预设的存储系统中查询与所述数据键值或与所述数据版本相匹配的数据键值或相互匹配的数据版本;
[0026]在所述预设的存储系统中,当未匹配到与所述数据键值相匹配的数据键值时,返回数据查重校验通过的消息;
[0027]在所述预设的存储系统中,当匹配到与所述数据键值相匹配的数据键值,但未匹配到与所述数据版本相匹配的数据版本时,返回数据查重校验通过的消息;
[0028]在所述预设的存储系统中,当匹配到与所述数据键值相匹配的数据键值,且匹配到与所述数据版本相匹配的数据版本时,返回数据查重校验不通过的消息。
[0029]可选地,所述利用所述数据键值及所述数据版本对所述预设的存储系统中的已有目标对象进行定位,包括:
[0030]将所述待处理数据对应的所述数据键值及所述数据版本作为索引;
[0031]在所述预设的存储系统中,查询与所述索引相匹配的数据键值及数据版本;
[0032]将匹配到的数据键值及数据版本对应的数据、元数据及扩展元数据作为所述目标对象。
[0033]可选地,所述将所述待处理数据存储到所述预设的存储系统中的数据存储空间、将对应的所述待处理元数据及所述扩展元数据存储到所述预设的存储系统中的元数据存储空间之后,所述方法还包括:
[0034]分别获取所述待处理数据在所述数据存储空间中的数据存储地址及对应的所述待处理元数据及所述扩展元数据在所述元数据存储空间的元数据存储地址;
[0035]根据所述待处理数据与所述待处理元数据及所述扩展元数据之间的对应关系,创建所述数据存储地址和所述元数据存储地址之间的映射关系。
[0036]可选地,所述在所述预设的存储系统中,当匹配到与所述数据键值相匹配的数据键值,且匹配到与所述数据版本相匹配的数据版本时,返回数据查重校验不通过的消息之后,所述方法包括:
[0037]拒绝所述数据处理请求。
[0038]为了解决上述问题,本专利技术还提供一种非结构化数据入湖装置,所述装置包括:
[0039]数据处理请求解析模块,用于获取数据处理请求,解析所述数据处理请求得到待处理数据、待处理元数据及处理类型;
[0040]扩展元数据生成模块,用于生成所述待处理数据的扩展元数据,其中,所述扩展元数据包括数据键值、数据版本及数据有效性;
[0041]数据写入模块,用于当所述处理类型为写入时,利用所述数据键值及所述数据版本对预设的存储系统中的已有数据进行数据查重校验,当所述数据查重校验通过时,将所述待处理数据存储到所述预设的存储系统中的数据存储空间、将对应的所述待处理元数据及所述扩展元数据存储到所述预设的存储系统中的元数据存储空间,设置所述待处理数据的数据有效性为有效;
[0042]数据更新及删除模块,用于当所述处理类型为变更或删除时,利用所述数据键值及所述数据版本对所述预设的存储系统中的已有目标对象进行定位,将所述目标对象对应的数据有效性设置为无效,将处理类型为变更的待处理数据存储到所述预设的存储系统中的数据存储空间及将对应的所述待处理元数据及所述扩展元数据存储到所述预设的存储系统中的元数据存储空间,设置所述待处理数据的数据有效性为有效,并删除处理类型为删除的所述目标对象。
[0043]可选地,所述数据更新及删除模块通过下述操作定位本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种非结构化数据入湖方法,其特征在于,所述方法包括:获取数据处理请求,解析所述数据处理请求得到待处理数据、待处理元数据及处理类型;生成所述待处理数据的扩展元数据,其中,所述扩展元数据包括数据键值、数据版本及数据有效性;当所述处理类型为写入时,利用所述数据键值及所述数据版本对预设的存储系统中的已有数据进行数据查重校验,当所述数据查重校验通过时,将所述待处理数据存储到所述预设的存储系统中的数据存储空间、将对应的所述待处理元数据及所述扩展元数据存储到所述预设的存储系统中的元数据存储空间,设置所述待处理数据的数据有效性为有效;当所述处理类型为变更或删除时,利用所述数据键值及所述数据版本对所述预设的存储系统中的已有目标对象进行定位,将所述目标对象对应的数据有效性设置为无效,将处理类型为变更的待处理数据存储到所述预设的存储系统中的数据存储空间及将对应的所述待处理元数据及所述扩展元数据存储到所述预设的存储系统中的元数据存储空间,设置所述待处理数据的数据有效性为有效,并删除处理类型为删除的所述目标对象。2.如权利要求1所述的非结构化数据入湖方法,其特征在于,所述生成所述待处理数据的扩展元数据,其中,所述扩展元数据包括数据键值、数据版本及数据有效性,包括:计算所述待处理数据的哈希值,将所述哈希值作为所述待处理数据的数据键值;判断在预设的存储系统中所述数据键值是否唯一;当所述数据键值唯一时,则设置所述待处理数据对应的数据版本为第一个版本;当所述数据键值不唯一时,则获取所述数据键值对应的最高数据版本,通过将所述最高数据版本+1,得到所述待处理数据对应的数据版本;初始化所述待处理数据对应的数据有效性为无效;汇集所述数据键值、所述数据版本及所述数据有效性得到所述待处理数据对应的扩展元数据。3.如权利要求1所述的非结构化数据入湖方法,其特征在于,所述利用所述数据键值及所述数据版本对预设的存储系统中的已有数据进行数据查重校验,包括:在所述预设的存储系统中查询与所述数据键值或与所述数据版本相匹配的数据键值或相互匹配的数据版本;在所述预设的存储系统中,当未匹配到与所述数据键值相匹配的数据键值时,返回数据查重校验通过的消息;在所述预设的存储系统中,当匹配到与所述数据键值相匹配的数据键值,但未匹配到与所述数据版本相匹配的数据版本时,返回数据查重校验通过的消息;在所述预设的存储系统中,当匹配到与所述数据键值相匹配的数据键值,且匹配到与所述数据版本相匹配的数据版本时,返回数据查重校验不通过的消息。4.如权利要求1所述的非结构化数据入湖方法,其特征在于,所述利用所述数据键值及所述数据版本对所述预设的存储系统中的已有目标对象进行定位,包括:将所述待处理数据对应的所述数据键值及所述数据版本作为索引;在所述预设的存储系统中,查询与所述索引相匹配的数据键值及数据版本;将匹配到的数据键值及数据版本对应的数据、元数据及扩展元数据作为所述目标对
象。5.如权利要求1所述的非结构化数据入湖方法,其特征在于,所述将...

【专利技术属性】
技术研发人员:邓晟徐国统陈阳黄亚兵袁浩
申请(专利权)人:招商局金融科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1