一种基于相似度计算的元数据字段中文名补全方法、存储介质及系统技术方案

技术编号：38359784 阅读：10 留言：0更新日期：2023-08-05 17:29

本发明专利技术提供一种基于相似度计算的元数据字段中文名补全方法、存储介质及系统，该方法包括：将第一元数据字段的英文名分别与各个标准英文名、各个第二元数据字段的英文名进行余弦相似度计算，若最高余弦相似度值大于第一阈值则用对应的中文名描述补全第一元数据字段的中文名，若不大于则对第一元数据字段的英文名进行拆分得到多个英文词项，将其与预设的业务术语进行编辑距离计算，若各个英文词项的最小编辑距离都不大于第二阈值，则将对应的各个业务术语的中文名进行拼接得到拼接中文名来补全第一元数据字段的中文名。在此过程中无需人工梳理需补全中文名的元数据字段的英文名资料，节省人力资源成本和时间，并能避免人工梳理导致的容易出错问题。梳理导致的容易出错问题。梳理导致的容易出错问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于相似度计算的元数据字段中文名补全方法、存储介质及系统

[0001]本专利技术涉及数据处理
，特别涉及一种基于相似度计算的元数据字段中文名补全方法、存储介质及系统。

技术介绍

[0002]数据平台的元数据模块中，存在部分元数据字段具有英文名但缺少中文名的情况，导致这些元数据字段的使用场景及价值难以确定，故需对这些元数据字段进行中文名补全。元数据字段缺少中文名的原因一般是英文名错录入为非英文词汇而无法翻译成中文名。传统的元数据字段中文名补全方法是通过人工方式梳理需补全中文名的元数据字段的英文名资料，先人工将英文名匹配为英文词汇再对应补全中文名，这涉及大量线下的元数据文档资料，需投入大量的人力资源成本和时间，并且人工梳理容易出错导致补全的元数据字段中文名不准确，进而影响元数据字段的使用与分析。

技术实现思路

[0003]本专利技术要解决的技术问题是如何便捷准确地补全元数据字段的中文名。
[0004]为解决上述技术问题，本专利技术提供一种基于相似度计算的元数据字段中文名补全方法，包括如下步骤：
[0005]A.从元数据模块中识别具有英文名但缺少中文名的第一元数据字段，获取所述第一元数据字段的英文名；
[0006]B.从预设的标准数据库中获取具有中文名描述的多个标准英文名，并从所述元数据模块中识别具有英文名和中文名的多个第二元数据字段，获取各个第二元数据字段的英文名和中文名；
[0007]C.将所述第一元数据字段的英文名分别与各个标准英文名、各个第二元数据字段的英文...

【技术保护点】

【技术特征摘要】
1.一种基于相似度计算的元数据字段中文名补全方法，其特征是，包括如下步骤：A.从元数据模块中识别具有英文名但缺少中文名的第一元数据字段，获取所述第一元数据字段的英文名；B.从预设的标准数据库中获取具有中文名描述的多个标准英文名，并从所述元数据模块中识别具有英文名和中文名的多个第二元数据字段，获取各个第二元数据字段的英文名和中文名；C.将所述第一元数据字段的英文名分别与各个标准英文名、各个第二元数据字段的英文名进行余弦相似度计算，得出最高余弦相似度值；D.判断所述最高余弦相似度值是否大于第一阈值，若大于则执行下述步骤E，若不大于则执行下述步骤F、G；E.识别所述最高余弦相似度值对应的是标准英文名还是第二元数据字段的英文名，若是标准英文名则用该标准英文名对应的中文名描述补全所述第一元数据字段的中文名，若是第二元数据字段的英文名则用该第二元数据字段的中文名补全所述第一元数据字段的中文名；F.识别所述第一元数据字段的英文名是否具有划分符，若有则按照所述划分符对所述第一元数据字段的英文名进行拆分得到多个英文词项，若没有则以所述第一元数据字段的英文名作为一个英文词项；G.将各个英文词项与预设的英文业务术语库中的各个业务术语进行编辑距离计算，得到各个英文词项转换为对应业务术语的最小编辑距离，若各个英文词项的最小编辑距离都不大于第二阈值，则执行下述步骤H，若存在至少一个英文词项的最小编辑距离大于第二阈值，则不执行下述步骤H；H.获取与各个英文词项对应的业务术语的中文名，将各个业务术语的中文名进行拼接得到拼接中文名，用所述拼接中文名补全所述第一元数据字段的中文名。2.根据权利要求1所述的基于相似度计算的元数据字段中文名补全方法，其特征是，所述步骤C中，先将第一元数据字段的英文名、标准英文名与第二元数据字段的英文名转换为字符串向量，再通过计算两个字符串向量夹角的余弦值来得到余弦相似度值。3.根据权利要求2所述的基于相似度计算的元数据字段中文名补全方法，其特征是，所述步骤C中，将第一元数据字段的英文名、标准英文名与第二元数据字段的英文名转换为字符串向量，具体先将第一元数据字段的英文名、标准英文名与第二元数据字段的英文名进行分词操作，再列出所有分词，然后计算第一元数据字段的英文名、标准英文名与第二元数据字段的英文名的词频，然后基于各个分词的词频得出对应的字符串向量。4.根据权利要求3所述的基于相似度计算的元数据字段中文名补全方法，其特征是，所述步骤C中，余弦相似度计算的具体公式为：其中，cos(θ)表示两个字符串向量x、y之间的夹角余弦值，等价于两个字符串向量x、...

【专利技术属性】
技术研发人员：邹文景，徐欢，杨秋勇，段琳，张冠豫，
申请(专利权)人：云南电网有限责任公司信息中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人