一种数据资产管理中表相似度计算方法、系统和可读介质技术方案

技术编号:39402476 阅读:8 留言:0更新日期:2023-11-19 15:54
本发明专利技术属于数据资产管理技术领域,涉及一种数据资产管理中表相似度计算方法、系统、可读介质和计算设备,包括:载入表属性的基本信息;将所述基板信息转换为既定的枚举数值,形成特征矩阵;将所述特征矩阵归一化,通过聚类算法对经过归一化后的特征矩阵进行聚类,获得表的类别;计算各表与各所述类别的代表表之间的距离,用所述距离代表所述类别的归属度,根据所述归属度获得各个表的相似度。其较现有的使用表名和属性名的方法,更能体现信息要素对相似与非判定的重要性,同时避免上述通过名称判定的上述“假阳性”和“假阴性”情况。情况。情况。

【技术实现步骤摘要】
一种数据资产管理中表相似度计算方法、系统和可读介质


[0001]本专利技术涉及一种数据资产管理中表相似度计算方法、系统、可读介质和计算设备,属于数据资产管理


技术介绍

[0002]随着信息化的发展,数据资产管理已成为企业决策和运营的重要基础。在数据资产管理中,以关系型数据库和数据仓库的表为形式存储的数据占绝大多数。而对数据资产管理的前提是对其描述的管理,称为元数据管理,因此对关系型表的元数据管理尤为重要。然而,在相同或不同的业务系统中经常存在相似的表,需要考虑找出它们的相似程度并判断其相似性是否指向同义的业务对象,判定是否可以归并相似表,进而是否采取相同的数据治理规则(包含相同的数据标准规则、相同的数据操作规则、相同的数据质量规则、相同的数据安全规则),以便进行数据集成、数据清洗等操作。判定不同表是否形似,是综合业务和技术的问题。
[0003]传统的表相似度计算方法,主要基于判定表名称之间或列名称之间的相等的单一指标来衡量两个表之间的相似度。然而,这种方法通常无法很好地处理实际情况中的假阳性(False Positives,名称相同但实际表示不同概念)和假阴性(False Negatives,名称不同但实际表示相同概念)问题,比如不同系统中的“人员表”(people)可能表示存在不同属性而表本身也是不同含义,再比如不同系统或相同系统的“职工表”(staff)和“雇员表”(employee)的两表名称不同但其结构和内容相似或相同。这使得仅通过名称衡量表之间的相似度计算结果往往不准确,无法正确归并相似的表,进而影响了数据资产的管理效果。

技术实现思路

[0004]针对上述问题,本专利技术的目的是提供了一种数据资产管理中表相似度计算方法、系统、可读介质和计算设备,其较现有的使用表名和属性名的方法,更能体现信息要素对相似与非判定的重要性,同时避免上述通过名称判定的上述“假阳性”和“假阴性”情况。
[0005]为实现上述目的,本专利技术提出了以下技术方案:一种数据资产管理中表相似度计算方法,包括:载入表属性的基本信息;将所述基板信息转换为既定的枚举数值,形成特征矩阵;将所述特征矩阵归一化,通过聚类算法对经过归一化后的特征矩阵进行聚类,获得表的类别;计算各表与各所述类别的代表表之间的距离,用所述距离代表所述类别的归属度,根据所述归属度获得各个表的相似度。
[0006]进一步,所述表属性的基本信息包括属性名称、属性数据类型、属性长度和属性精度。
[0007]进一步,所述特征矩阵根据所述枚举数值,结合属性长度和属性精度的数值维度,形成特征矩阵。
[0008]进一步,所述经过归一化后的特征矩阵的所以维度的数值范围在0

1之间。
[0009]进一步,所述特征矩阵归一化计算公式为:归一化值=(原值

最小值)/(最大值

最小值)。
[0010]进一步,在所述类别已经确定时,计算待确定表与所述类别的中心点的距离,从而获得所述待确定表与所述类别的归属度,从而获得所述待确定表与各类别的相似度。
[0011]进一步,所述相似度为两个表对此类的归属度的乘积。
[0012]本专利技术还公开了一种数据资产管理中表相似度计算系统,包括:基本信息载入模块,用于载入表属性的基本信息;特征矩阵形成模块,用于将所述基板信息转换为既定的枚举数值,形成特征矩阵;类别获取模块,用于将所述特征矩阵归一化,通过聚类算法对经过归一化后的特征矩阵进行聚类,获得表的类别;相似度计算模块,用于计算各表与各所述类别的代表表之间的距离,用所述距离代表所述类别的归属度,根据所述归属度获得各个表的相似度。
[0013]本专利技术还公开了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行以实现上述任一项所述的数据资产管理中表相似度计算方法。
[0014]本专利技术还公开了一种计算设备,包括:一个或多个处理器、存储器以及一个或多个程序,其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行根据上述任一项所述的数据资产管理中表相似度计算方法。
[0015]本专利技术由于采取以上技术方案,其具有以下优点:
[0016]本专利技术中方案较现有的使用表名和属性名的方法,更能体现信息要素对相似与非判定的重要性,同时避免上述通过名称判定的上述“假阳性”和“假阴性”情况;
[0017]本专利技术中方案把所有表属性列的特征量化,实现多表间相似定性而非表间两两比较,吞吐量更大,且针对少量新增表信息可以采用“增量处理流程”以节约运算成本并尽快将新增表信息分类。
附图说明
[0018]图1是本专利技术一实施例中数据资产管理中表相似度计算方法的流程图;
[0019]图2是本专利技术一实施例中增量处理方法的流程图。
具体实施方式
[0020]为了使本领域技术人员更好的理解本专利技术的技术方向,通过具体实施例对本专利技术进行详细的描绘。然而应当理解,具体实施方式的提供仅为了更好地理解本专利技术,它们不应该理解成对本专利技术的限制。在本专利技术的描述中,需要理解的是,所用到的术语仅仅是用于描述的目的,而不能理解为指示或暗示相对重要性。
[0021]为了解决现有技术中存在的无法很好地处理实际情况中的假阳性(False Positives,名称相同但实际表示不同概念)和假阴性(False Negatives,名称不同但实际表示相同概念)问题,比如不同系统中的“人员表”(people)可能表示存在不同属性而表本身也是不同含义,本专利技术提出了一种数据资产管理中表相似度计算方法、系统、可读介质和计算设备,其通过载入表的属性的基本信息,将特定的属性数据类型转换成既定的枚举数值,结合属性长度、精度等数值型维度,形成特征矩阵。通过聚类算法找出代表类别的表,以
及每个类别中的各表与代表的表间的距离,将这个距离定义为表对于类的归属度。其较现有的使用表名和属性名的方法,更能体现信息要素对相似与非判定的重要性,同时避免上述通过名称判定的上述“假阳性”和“假阴性”情况。下面结合附图,通过实施例对本专利技术方案进行详细阐述。
[0022]实施例一
[0023]本实施例公开了一种数据资产管理中表相似度计算方法,如图1所示,包括:
[0024]S1载入表属性的基本信息。
[0025]表属性的基本信息包括属性名称、属性数据类型、属性长度和属性精度。
[0026]S2将基板信息转换为既定的枚举数值,形成特征矩阵。
[0027]特征矩阵根据枚举数值,比如数据类型中BIGINT转换为1,结合属性长度和属性精度的数值维度,形成特征矩阵。
[0028]S3将特征矩阵归一化,通过聚类算法对经过归一化后的特征矩阵进行聚类,获得表的类别。
[0029]经过归一化后的特征矩阵的所以维度的数值范围在0

1之间。特征矩阵归一化计算公式为:归一化值=(原值<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据资产管理中表相似度计算方法,其特征在于,包括:载入表属性的基本信息;将所述基板信息转换为既定的枚举数值,形成特征矩阵;将所述特征矩阵归一化,通过聚类算法对经过归一化后的特征矩阵进行聚类,获得表的类别;计算各表与各所述类别的代表表之间的距离,用所述距离代表所述类别的归属度,根据所述归属度获得各个表的相似度。2.如权利要求1所述的数据资产管理中表相似度计算方法,其特征在于,所述表属性的基本信息包括属性名称、属性数据类型、属性长度和属性精度。3.如权利要求1所述的数据资产管理中表相似度计算方法,其特征在于,所述特征矩阵根据所述枚举数值,结合属性长度和属性精度的数值维度,形成特征矩阵。4.如权利要求1所述的数据资产管理中表相似度计算方法,其特征在于,所述经过归一化后的特征矩阵的所以维度的数值范围在0

1之间。5.如权利要求4所述的数据资产管理中表相似度计算方法,其特征在于,所述特征矩阵归一化计算公式为:归一化值=(原值

最小值)/(最大值

最小值)。6.如权利要求1所述的数据资产管理中表相似度计算方法,其特征在于,在所述类别已经确定时,计算待确定表与所述类别的中心点的距离,...

【专利技术属性】
技术研发人员:王伟哲付威徐轶
申请(专利权)人:北京东方金信科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1