一种数据资产管理中表相似度计算方法、系统和可读介质技术方案

技术编号：39402476 阅读：8 留言：0更新日期：2023-11-19 15:54

本发明专利技术属于数据资产管理技术领域，涉及一种数据资产管理中表相似度计算方法、系统、可读介质和计算设备，包括：载入表属性的基本信息；将所述基板信息转换为既定的枚举数值，形成特征矩阵；将所述特征矩阵归一化，通过聚类算法对经过归一化后的特征矩阵进行聚类，获得表的类别；计算各表与各所述类别的代表表之间的距离，用所述距离代表所述类别的归属度，根据所述归属度获得各个表的相似度。其较现有的使用表名和属性名的方法，更能体现信息要素对相似与非判定的重要性，同时避免上述通过名称判定的上述“假阳性”和“假阴性”情况。情况。情况。

全部详细技术资料下载

【技术实现步骤摘要】
一种数据资产管理中表相似度计算方法、系统和可读介质

[0001]本专利技术涉及一种数据资产管理中表相似度计算方法、系统、可读介质和计算设备，属于数据资产管理

技术介绍

[0002]随着信息化的发展，数据资产管理已成为企业决策和运营的重要基础。在数据资产管理中，以关系型数据库和数据仓库的表为形式存储的数据占绝大多数。而对数据资产管理的前提是对其描述的管理，称为元数据管理，因此对关系型表的元数据管理尤为重要。然而，在相同或不同的业务系统中经常存在相似的表，需要考虑找出它们的相似程度并判断其相似性是否指向同义的业务对象，判定是否可以归并相似表，进而是否采取相同的数据治理规则(包含相同的数据标准规则、相同的数据操作规则、相同的数据质量规则、相同的数据安全规则)，以便进行数据集成、数据清洗等操作。判定不同表是否形似，是综合业务和技术的问题。
[0003]传统的表相似度计算方法，主要基于判定表名称之间或列名称之间的相等的单一指标来衡量两个表之间的相似度。然而，这种方法通常无法很好地处理实际情况中的假阳性(False Positives，名称相同但实际表示不同概念)和假阴性(False Negatives，名称不同但实际表示相同概念)问题，比如不同系统中的“人员表”(people)可能表示存在不同属性而表本身也是不同含义，再比如不同系统或相同系统的“职工表”(staff)和“雇员表”(employee)的两表名称不同但其结构和内容相似或相同。这使得仅通过名称衡量表之间的相似度计算结果往往不准确，无法正确归并相似的...

【技术保护点】

【技术特征摘要】
1.一种数据资产管理中表相似度计算方法，其特征在于，包括：载入表属性的基本信息；将所述基板信息转换为既定的枚举数值，形成特征矩阵；将所述特征矩阵归一化，通过聚类算法对经过归一化后的特征矩阵进行聚类，获得表的类别；计算各表与各所述类别的代表表之间的距离，用所述距离代表所述类别的归属度，根据所述归属度获得各个表的相似度。2.如权利要求1所述的数据资产管理中表相似度计算方法，其特征在于，所述表属性的基本信息包括属性名称、属性数据类型、属性长度和属性精度。3.如权利要求1所述的数据资产管理中表相似度计算方法，其特征在于，所述特征矩阵根据所述枚举数值，结合属性长度和属性精度的数值维度，形成特征矩阵。4.如权利要求1所述的数据资产管理中表相似度计算方法，其特征在于，所述经过归一化后的特征矩阵的所以维度的数值范围在0
‑
1之间。5.如权利要求4所述的数据资产管理中表相似度计算方法，其特征在于，所述特征矩阵归一化计算公式为：归一化值＝(原值
‑
最小值)/(最大值
‑
最小值)。6.如权利要求1所述的数据资产管理中表相似度计算方法，其特征在于，在所述类别已经确定时，计算待确定表与所述类别的中心点的距离，...

【专利技术属性】
技术研发人员：王伟哲，付威，徐轶，
申请(专利权)人：北京东方金信科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人