【技术实现步骤摘要】
非结构化数据入湖方法、装置、电子设备及存储介质
[0001]本专利技术涉及数据处理
,尤其涉及一种非结构化数据入湖方法、装置、电子设备及计算机可读存储介质。
技术介绍
[0002]当前非结构化数据存储主要有两种方式:
[0003]第一种方式为将原始非结构化数据文件写入数据湖的分布式存储系统中,这种方式的缺点是缺少文件的元数据信息(文件的基本信息,如文件归属、文件使用范围、文件描述信息等),无法通过元数据查找到文件,容易形成“数据沼泽”。
[0004]第二种方式为将原始非结构化文件及其元数据分别入湖,文件写入分布式文件系统HDFS,元数据写入Hive数据仓库并保存文件存放路径,通过HiveSQL检索元数据信息来找到文件存放地址。这种方式也存在如下缺点:
[0005]1、Hive检索元数据慢;
[0006]2、无法修改元数据信息;
[0007]3、不支持模糊搜索元数据;
[0008]4、非结构化文件及元数据分别写入数据湖的不同存储系统,现有技术缺少数据有效性保证,如写元数据成功而写文件失败,导致数据错误;
[0009]5、缺少结构化数据入湖的标准数据管理难等问题。
[0010]因此,亟待改进非结构化数据入湖方法,提升非结构化数据管理效率。
技术实现思路
[0011]本专利技术提供一种非结构化数据入湖方法、装置、电子设备及计算机可读存储介质,其主要目的在于提升非结构化数据管理效率。
[0012]为实现上述目的,本专利技术提供的一种 ...
【技术保护点】
【技术特征摘要】
1.一种非结构化数据入湖方法,其特征在于,所述方法包括:获取数据处理请求,解析所述数据处理请求得到待处理数据、待处理元数据及处理类型;生成所述待处理数据的扩展元数据,其中,所述扩展元数据包括数据键值、数据版本及数据有效性;当所述处理类型为写入时,利用所述数据键值及所述数据版本对预设的存储系统中的已有数据进行数据查重校验,当所述数据查重校验通过时,将所述待处理数据存储到所述预设的存储系统中的数据存储空间、将对应的所述待处理元数据及所述扩展元数据存储到所述预设的存储系统中的元数据存储空间,设置所述待处理数据的数据有效性为有效;当所述处理类型为变更或删除时,利用所述数据键值及所述数据版本对所述预设的存储系统中的已有目标对象进行定位,将所述目标对象对应的数据有效性设置为无效,将处理类型为变更的待处理数据存储到所述预设的存储系统中的数据存储空间及将对应的所述待处理元数据及所述扩展元数据存储到所述预设的存储系统中的元数据存储空间,设置所述待处理数据的数据有效性为有效,并删除处理类型为删除的所述目标对象。2.如权利要求1所述的非结构化数据入湖方法,其特征在于,所述生成所述待处理数据的扩展元数据,其中,所述扩展元数据包括数据键值、数据版本及数据有效性,包括:计算所述待处理数据的哈希值,将所述哈希值作为所述待处理数据的数据键值;判断在预设的存储系统中所述数据键值是否唯一;当所述数据键值唯一时,则设置所述待处理数据对应的数据版本为第一个版本;当所述数据键值不唯一时,则获取所述数据键值对应的最高数据版本,通过将所述最高数据版本+1,得到所述待处理数据对应的数据版本;初始化所述待处理数据对应的数据有效性为无效;汇集所述数据键值、所述数据版本及所述数据有效性得到所述待处理数据对应的扩展元数据。3.如权利要求1所述的非结构化数据入湖方法,其特征在于,所述利用所述数据键值及所述数据版本对预设的存储系统中的已有数据进行数据查重校验,包括:在所述预设的存储系统中查询与所述数据键值或与所述数据版本相匹配的数据键值或相互匹配的数据版本;在所述预设的存储系统中,当未匹配到与所述数据键值相匹配的数据键值时,返回数据查重校验通过的消息;在所述预设的存储系统中,当匹配到与所述数据键值相匹配的数据键值,但未匹配到与所述数据版本相匹配的数据版本时,返回数据查重校验通过的消息;在所述预设的存储系统中,当匹配到与所述数据键值相匹配的数据键值,且匹配到与所述数据版本相匹配的数据版本时,返回数据查重校验不通过的消息。4.如权利要求1所述的非结构化数据入湖方法,其特征在于,所述利用所述数据键值及所述数据版本对所述预设的存储系统中的已有目标对象进行定位,包括:将所述待处理数据对应的所述数据键值及所述数据版本作为索引;在所述预设的存储系统中,查询与所述索引相匹配的数据键值及数据版本;将匹配到的数据键值及数据版本对应的数据、元数据及扩展元数据作为所述目标对
象。5.如权利要求1所述的非结构化数据入湖方法,其特征在于,所述将...
【专利技术属性】
技术研发人员:邓晟,徐国统,陈阳,黄亚兵,袁浩,
申请(专利权)人:招商局金融科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。