基于分词相似度的元数据关系匹配方法及系统技术方案

技术编号：40075443 阅读：10 留言：0更新日期：2024-01-17 01:06

本发明专利技术提供一种基于分词相似度的元数据关系匹配方法及系统，方法包括：选取待分析表和存储元数据表中的数据属性，分别取一个数据属性进行分词，得到分词后的两个数据属性；基于分词后的两个数据属性中每个词的频率进行编码；对编码后两个数据属性对应词的编码进行相似度计算，得到两个数据属性的相似度数值；重复以上步骤，计算待分析表和存储元数据表中所有字段的相似度，根据字段的相似度数值进行排序，基于所述排序的结果确定所述待分析表和存储元数据表中元数据的匹配关系。该方法可以对任意标准名称及待匹配名称两两进行相似度计算，通过数值筛选，使得匹配结果更加的精确。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于数据融合，具体涉及一种基于分词相似度的元数据关系匹配方法及系统。

技术介绍

1、随着大数据时代的带来，数据治理越来越受到关注。数据贯标是数据治理中的重要一环。数据贯标也就是数据安全标准贯标工作。数据已成为关键性生产要素。数据标准管理的目标是通过统一的数据标准制定和发布，结合制度约束、系统控制等手段，实现数据的完整性、有效性、一致性、规范性、开放性和共享性管理，为数据资产管理提供管理依据。

2、在传统工作中，梳理信息系统存储元数据到信息项标准与存储元数据关系非常耗时费力，通常2至3个人梳理三五个工作日也无法完成所有字段的整理，且准确度低、复核麻烦，即使用到vlookup函数去匹配查找，精准度也不是很高。因此，需要一个智能的自动化的高效方法来解决数据贯标问题。

3、数据贯标通常才用人工核对梳理的方式，简便一些的方法是使用excel中的vlookup函数，对信息项标准表与存储元数据表放在一起进行vlookup函数查找，匹配信息项标准表与存储元数据表中名称相同的项，然后根据信息项标准中的标准说明进行贯标核对。

4、目前贯标以人工为主，所以需要的资源投入多，效率偏低；人工操作时出错率更高；信息项标准表和存储元数据表中的名称存在很多同义但不同名的情况，匹配难度高，且匹配准确度低。

技术实现思路

1、本专利技术的目的在于提供一种基于分词相似度的元数据关系匹配方法及系统，该方法可以对任意标准名称及待匹配名称两两进行相似度计算，通过数值筛选，使得匹配结果更加的精确。

2、为实现上述目的，本专利技术采用如下技术方案：

3、本专利技术第一方面是提供一种基于分词相似度的元数据关系匹配方法，包括：

4、选取待分析表和存储元数据表中的数据属性，分别取一个数据属性进行分词，得到分词后的两个数据属性；

5、基于分词后的两个数据属性中每个词的频率进行编码；

6、对编码后两个数据属性对应词的编码进行相似度计算，得到两个数据属性的相似度数值；

7、重复以上步骤，计算待分析表和存储元数据表中所有字段的相似度，根据字段的相似度数值进行排序，基于所述排序的结果确定所述待分析表和存储元数据表中元数据的匹配关系。

8、本专利技术第二方面是提供一种基于分词相似度的元数据关系匹配系统，包括：

9、分词模块，用于选取待分析表和存储元数据表中的数据属性，分别取一个数据属性进行分词，得到分词后的两个数据属性；

10、编码模块，用于基于分词后的两个数据属性中每个词的频率进行编码；

11、相似度计算模块，用于对编码后两个数据属性对应词的编码进行相似度计算，得到两个数据属性的相似度数值；

12、分析模块，用于重复以上步骤，计算待分析表和存储元数据表中所有字段的相似度，根据字段的相似度数值进行排序，基于所述排序的结果确定所述待分析表和存储元数据表中元数据的匹配关系。

13、本专利技术第三方面是提供一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述基于分词相似度的元数据关系匹配方法。

14、本专利技术第四方面是提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述基于分词相似度的元数据关系匹配方法。

15、与现有技术相比，本专利技术具有如下技术效果：

16、本专利技术方法利用nlp中的分词技术，将数据项名称拆分为更小的单词，进一步通过编码技术将名称数字化，进而可以利用数学公式将匹配中文名称的问题转化为计算两个名称编码的余弦相似度问题，将问题简化。利用分词以及编码，将文字匹配变为向量匹配，可以实行全自动匹配，具有更高的效率。可以对任意标准名称及待匹配名称两两进行相似度计算，通过数值筛选，使得匹配结果更加的精确。

本文档来自技高网...

【技术保护点】

1.一种基于分词相似度的元数据关系匹配方法，其特征在于，包括：

2.根据权利要求1所述的一种基于分词相似度的元数据关系匹配方法，其特征在于，所述选取待分析表和存储元数据表中的数据属性，分别取一个数据属性进行分词，包括以下步骤：

3.根据权利要求2所述的一种基于分词相似度的元数据关系匹配方法，其特征在于，所述使用汉字正则，切分出连续的汉字和英文字符，形成切分的短语，是以空格、逗号、句号为分隔，将输入文本切分为一个个短语，形成切分的短语。

4.根据权利要求2所述的一种基于分词相似度的元数据关系匹配方法，其特征在于，所述基于短语的有向无环图构建节点最大路径概率，以及结束位置，包括：

5.根据权利要求2所述的一种基于分词相似度的元数据关系匹配方法，其特征在于，所述取出节点0的结束位置，构成词语，包括：

6.根据权利要求1所述的一种基于分词相似度的元数据关系匹配方法，其特征在于，所述对编码后两个数据属性对应词的编码进行相似度计算，采用的方法包括余弦相似度、欧式距离、汉明距离或切比雪夫距离。

7.根据权利要求1所述的一种

8.一种基于分词相似度的元数据关系匹配系统，其特征在于，包括：

9.一种电子设备，其特征在于：包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现权利要求1-7任一项所述基于分词相似度的元数据关系匹配方法。

10.一种计算机可读存储介质，其特征在于：所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-7任一项所述基于分词相似度的元数据关系匹配方法。

...

【技术特征摘要】

1.一种基于分词相似度的元数据关系匹配方法，其特征在于，包括：

5.根据权利要求2所述的一种基于分词相似度的元数据关系匹配方法，其特征在于，所述取出节点0的结束位置，构成词语，包括：

6.根据权利要求1所述的一...

【专利技术属性】
技术研发人员：林常乐，周文波，
申请(专利权)人：交叉信息核心技术研究院西安有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人