表间冗余关系确定方法、装置、设备及可读存储介质制造方法及图纸

技术编号:37561010 阅读:22 留言:0更新日期:2023-05-15 07:43
本发明专利技术提供一种表间冗余关系确定方法、装置、设备及可读存储介质。该方法包括:基于具有血缘关系的源表主键Id以及父表主键Id,得到血缘关系集合数据;遍历血缘关系集合数据,根据源表主键Id以及父表主键Id查询源表血缘字段主键Id以及父表血缘字段主键Id,并根据查询结果得到冗余明细表结果集合数据;遍历冗余明细表结果集合数据,在循环中确定与当前轮循环中的源表主键Id有相同父表主键Id的参照表主键Id;若当前轮循环中的源表主键Id与参照表主键Id对应的冗余字段占比大于预设比例,则确定两主键Id对应的数据表互为冗余表。通过本发明专利技术,实现了冗余表的自动识别,为数据治理提供了有力协助。力协助。力协助。

【技术实现步骤摘要】
表间冗余关系确定方法、装置、设备及可读存储介质


[0001]本专利技术涉及数据处理领域,尤其涉及一种表间冗余关系确定方法、装置、设备及可读存储介质。

技术介绍

[0002]在如今的大数据时代,数据的抽取、治理、管理等起到至关重要的作用。在数据治理中,会产生大量的数据表,这些大量的表中难免会出现一些数据来源或者结构来源相似的表,找出这些结构来源或者数据来源相似的冗余表,对数据治理将提供重要帮助。因此,亟需一种识别冗余表的方案。

技术实现思路

[0003]为实现上述目的,本专利技术提供一种表间冗余关系确定方法、装置、设备及可读存储介质。
[0004]第一方面,本专利技术提供一种表间冗余关系确定方法,所述表间冗余关系确定方法包括:
[0005]基于具有血缘关系的源表主键Id以及父表主键Id,得到血缘关系集合数据;
[0006]遍历血缘关系集合数据,根据源表主键Id以及父表主键Id查询源表血缘字段主键Id以及父表血缘字段主键Id,并根据查询结果得到冗余明细表结果集合数据;
[0007]遍历冗余明细表结果集合数据,在循环中确定与当前轮循环中的源表主键Id有相同父表主键Id的参照表主键Id;
[0008]计算当前轮循环中的源表主键Id与参照表主键Id对应的冗余字段占比;
[0009]若所述冗余字段占比大于预设比例,则确定当前轮循环中的源表主键Id对应的数据表与参照表主键Id对应的数据表互为冗余表。
[0010]可选的,所述计算当前轮循环中的源表主键Id与参照表主键Id对应的冗余字段占比的步骤包括:
[0011]确定当前轮循环中的源表主键Id以及参照表主键Id的重复字段;
[0012]计算所述重复字段的数量与当前轮循环中的源表主键Id对应的数据表的总字段数量的比值,得到冗余字段占比。
[0013]可选的,所述确定当前轮循环中的源表主键Id以及参照表主键Id的重复字段的步骤包括:
[0014]确定当前轮循环中的源表主键Id对应的第一父表血缘字段主键Id集合;
[0015]确定参照表主键Id对应的第二父表血缘字段主键Id集合;
[0016]以第一父表血缘字段主键Id集合以及第二父表血缘字段主键Id集合的交集对应的父表血缘字段为重复字段。
[0017]可选的,在若所述冗余字段占比大于预设比例,则确定当前轮循环中的源表主键Id对应的数据表与参照表主键Id对应的数据表互为冗余表的步骤之后,还包括:
[0018]关联存储所述冗余字段占比、当前轮循环中的源表主键Id以及参照表主键Id。
[0019]第二方面,本专利技术还提供一种表间冗余关系确定装置,所述表间冗余关系确定装置包括:
[0020]第一构建模块,用于基于具有血缘关系的源表主键Id以及父表主键Id,得到血缘关系集合数据;
[0021]第二构建模块,用于遍历血缘关系集合数据,根据源表主键Id以及父表主键Id查询源表血缘字段主键Id以及父表血缘字段主键Id,并根据查询结果得到冗余明细表结果集合数据;
[0022]确定模块,用于遍历冗余明细表结果集合数据,在循环中确定与当前轮循环中的源表主键Id有相同父表主键Id的参照表主键Id;
[0023]计算模块,用于计算当前轮循环中的源表主键Id与参照表主键Id对应的冗余字段占比;
[0024]分析模块,用于若所述冗余字段占比大于预设比例,则确定当前轮循环中的源表主键Id对应的数据表与参照表主键Id对应的数据表互为冗余表。
[0025]可选的,所述计算模块,用于:
[0026]确定当前轮循环中的源表主键Id以及参照表主键Id的重复字段;
[0027]计算所述重复字段的数量与当前轮循环中的源表主键Id对应的数据表的总字段数量的比值,得到冗余字段占比。
[0028]可选的,所述所述计算模块,用于:
[0029]确定当前轮循环中的源表主键Id对应的第一父表血缘字段主键Id集合;
[0030]确定参照表主键Id对应的第二父表血缘字段主键Id集合;
[0031]以第一父表血缘字段主键Id集合以及第二父表血缘字段主键Id集合的交集对应的父表血缘字段为重复字段。
[0032]可选的,表间冗余关系确定装置还包括存储模块,用于:
[0033]关联存储所述冗余字段占比、当前轮循环中的源表主键Id以及参照表主键Id。
[0034]第三方面,本专利技术还提供一种表间冗余关系确定设备,所述表间冗余关系确定设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的表间冗余关系确定程序,其中所述表间冗余关系确定程序被所述处理器执行时,实现如上所述的表间冗余关系确定方法的步骤。
[0035]第四方面,本专利技术还提供一种可读存储介质,所述可读存储介质上存储有表间冗余关系确定程序,其中所述表间冗余关系确定程序被处理器执行时,实现如上所述的表间冗余关系确定方法的步骤。
[0036]本专利技术中,基于具有血缘关系的源表主键Id以及父表主键Id,得到血缘关系集合数据;遍历血缘关系集合数据,根据源表主键Id以及父表主键Id查询源表血缘字段主键Id以及父表血缘字段主键Id,并根据查询结果得到冗余明细表结果集合数据;遍历冗余明细表结果集合数据,在循环中确定与当前轮循环中的源表主键Id有相同父表主键Id的参照表主键Id;计算当前轮循环中的源表主键Id与参照表主键Id对应的冗余字段占比;若所述冗余字段占比大于预设比例,则确定当前轮循环中的源表主键Id对应的数据表与参照表主键Id对应的数据表互为冗余表。通过本专利技术,实现了自动确定系统中数据来源或表结构来源
高度相似的所有表,为数据治理提供了有力协助。
附图说明
[0037]图1为本专利技术表间冗余关系确定方法一实施例的流程示意图;
[0038]图2为本专利技术表间冗余关系确定装置一实施例的功能模块示意图;
[0039]图3为本专利技术实施例方案中涉及的表间冗余关系确定设备的硬件结构示意图。
[0040]本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
[0041]应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。
[0042]第一方面,本专利技术实施例提供了一种表间冗余关系确定方法。
[0043]一实施例中,参照图1,图1为本专利技术表间冗余关系确定方法一实施例的流程示意图。如图1所示,表间冗余关系确定方法包括:
[0044]步骤S10,基于具有血缘关系的源表主键Id以及父表主键Id,得到血缘关系集合数据;
[0045]本实施例中,在步骤S10之前,通过insertoverwrite..select或createtable..asselect或insertinto..select等语法生成系统中任意两张表之间的血缘关系,并保存有血缘关系的表的源表主键Id(sourceTableId)、父表主键Id本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种表间冗余关系确定方法,其特征在于,所述表间冗余关系确定方法包括:基于具有血缘关系的源表主键Id以及父表主键Id,得到血缘关系集合数据;遍历血缘关系集合数据,根据源表主键Id以及父表主键Id查询源表血缘字段主键Id以及父表血缘字段主键Id,并根据查询结果得到冗余明细表结果集合数据;遍历冗余明细表结果集合数据,在循环中确定与当前轮循环中的源表主键Id有相同父表主键Id的参照表主键Id;计算当前轮循环中的源表主键Id与参照表主键Id对应的冗余字段占比;若所述冗余字段占比大于预设比例,则确定当前轮循环中的源表主键Id对应的数据表与参照表主键Id对应的数据表互为冗余表。2.如权利要求1所述的表间冗余关系确定方法,其特征在于,所述计算当前轮循环中的源表主键Id与参照表主键Id对应的冗余字段占比的步骤包括:确定当前轮循环中的源表主键Id以及参照表主键Id的重复字段;计算所述重复字段的数量与当前轮循环中的源表主键Id对应的数据表的总字段数量的比值,得到冗余字段占比。3.如权利要求2所述的表间冗余关系确定方法,其特征在于,所述确定当前轮循环中的源表主键Id以及参照表主键Id的重复字段的步骤包括:确定当前轮循环中的源表主键Id对应的第一父表血缘字段主键Id集合;确定参照表主键Id对应的第二父表血缘字段主键Id集合;以第一父表血缘字段主键Id集合以及第二父表血缘字段主键Id集合的交集对应的父表血缘字段为重复字段。4.如权利要求1至3中任一项所述的表间冗余关系确定方法,其特征在于,在若所述冗余字段占比大于预设比例,则确定当前轮循环中的源表主键Id对应的数据表与参照表主键Id对应的数据表互为冗余表的步骤之后,还包括:关联存储所述冗余字段占比、当前轮循环中的源表主键Id以及参照表主键Id。5.一种表间冗余关系确定装置,其特征在于,所述表间冗余关系确定装置包括:第一构建模块,用于基于具有血缘关系的源表主键Id以及父表主键Id,得到血缘关系集合数据;第二构建模块,用...

【专利技术属性】
技术研发人员:彭书庆甘相阳邓泽生
申请(专利权)人:中电云数智科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1