【技术实现步骤摘要】
数据湖中的冗余资产识别方法、数据处理系统及存储介质
[0001]本专利技术涉及数据处理
,尤其涉及一种数据湖中的冗余资产识别方法
、
数据处理系统及存储介质
。
技术介绍
[0002]数据湖是一种高度可扩展的数据存储区域,由于数据湖中数据结构之间的引用关系复杂,数据湖中容易出现冗余的数据表
、
作业
、
字段等冗余资产
。
冗余资产不但会造成数据湖中的存储空间浪费,还会导致数据难以溯源,为了避免其带来的负面影响,需要制定相应的清理策略来定期清除数据湖中的冗余资产
。
[0003]在相关技术方案中,通常是通过业务分析法来识别数据湖中的冗余资产,即从某个数据湖中某个业务功能的角度出发,将该业务功能下相近似的数据表识别为冗余资产进行清理
。
[0004]然而,这种方式仅能够识别出单个业务功能模块下的冗余资产,无法针对多个业务功能模块之间的冗余资产进行识别
。
当数据湖的规模较大,存在较多业务功能分区时,传统的业务分析法能够识别出的冗余资产便较为有限,进而出现冗余资产的清理效果较差的问题
。
[0005]上述内容仅用于辅助理解本专利技术的技术方案,并不代表承认上述内容是现有技术
。
技术实现思路
[0006]本专利技术的主要目的在于提供一种数据湖中的冗余资产识别方法,旨在解决如何对多个业务功能模块之间的冗余资产进行识别的问题
。
[0007]为实 ...
【技术保护点】
【技术特征摘要】
1.
一种数据湖中的冗余资产识别方法,其特征在于,所述数据湖中的冗余资产识别方法包括以下步骤:确定数据湖中的目标数据表引用上游对象的个数;若所述上游对象的个数为单个,确定所述目标数据表的数据来源类型为单数据来源类型,调用单数据来源冗余资产识别策略判断所述目标数据表是否为冗余资产;若所述上游对象的个数为多个,确定所述目标数据表的数据来源类型为多数据来源类型,调用多数据来源冗余资产识别策略判断所述目标数据表是否为冗余资产
。2.
如权利要求1所述的数据湖中的冗余资产识别方法,其特征在于,所述调用单数据来源冗余资产识别策略判断所述数据表是否为冗余资产的步骤包括:获取所述目标数据表对应的作业读写表;确定所述作业读写表是否满足单数据来源冗余判断条件;若满足,确定所述目标数据表对应的各个脚本的目标关键词的词频;根据各个所述词频,确定所述目标数据表是否满足单数据来源冗余判断条件;若满足,确定所述目标数据表为所述冗余资产
。3.
如权利要求2所述的数据湖中的冗余资产识别方法,其特征在于,所述确定所述作业读写表是否满足单数据来源冗余判断条件的步骤包括:确定所述作业读写表中是否包含聚合函数和窗口函数;若不包含,确定所述作业读写表是否为单数据来源作业读写表,其中,所述单数据来源作业读写表为仅包含插入操作符
、
筛选操作符
、
字段转换函数
、
字段拼接函数
、
字段截取函数和字段替换函数的作业读写表;若是,判断所述作业读写表满足所述单数据来源冗余判断条件
。4.
如权利要求3所述的数据湖中的冗余资产识别方法,其特征在于,所述根据各个所述词频,确定所述目标数据表是否满足单数据来源冗余判断条件的步骤包括:确定所述插入操作符对应的词频是否小于或等于两个;若是,确定所述筛选操作符的词频
、
所述字段转换函数的词频
、
所述字段拼接函数的词频
、
所述字段截取函数的词频和所述字段替换函数的词频中的至少一个,是否为多个;若是,确定所述目标数据表满足所述单数据来源冗余判断条件
。5.
如权利要求1所述的数据湖中的冗余资产识别方法,其特征在于,所述调用多数据来源冗余资产识别策略判断所述目标数据表是否为冗余资产的步骤包括:确定所述目标数据表是否存在与上游数据表相同的主键;若存在,获取所述目标数据表对应的作业读写表;确定所述作业读写表是否满足多数据来...
【专利技术属性】
技术研发人员:邱鹏,张杰,钟国伟,杨羽,孙发鹏,张婧昕,林雨阳,
申请(专利权)人:招商银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。