The invention provides a method, device, storage medium and electronic device for determining the target field, which includes: comparing the first suffix word in the original field in the original data table with the second suffix word in the standard field in the standard data table; determining that the corresponding original field of the first suffix word which is the same as the second suffix word is the first field, and the first suffix word is the first field The standard field corresponding to the second suffix word with the same suffix word is the second field; the first similarity model and the second similarity model are used to calculate the similarity of the first target field and the second target field respectively to obtain the first similarity and the second similarity, wherein the first target field is the field obtained after the first field removes the first suffix word The second target field is the field obtained by removing the second suffix from the second field; the target field in the original data table is determined according to the first similarity and / or the second similarity. The invention solves the problem of low efficiency of the field matching method, thereby achieving the effect of improving the efficiency and accuracy of the field matching.
【技术实现步骤摘要】
目标字段的确定方法、装置、存储介质及电子装置
本专利技术涉及通信领域,具体而言,涉及一种目标字段的确定方法、装置、存储介质及电子装置。
技术介绍
数据标准化对数据资源的整合和共享起到了积极的指导作用。在大数据背景下,需要对数据资源进行整合。例如,公安内外网数据呈现种类繁多、数据量大、结构复杂、建设标准不统一、数据代码冲突等特点,迫切需要数据标准化工作的引领、指导、规范和约束。所有数据以标准数据元为依据,使得数据库数据的格式和数据项的命名一致,实现数据可识读,可共享。数据标准化工作最主要的工作是数据元标准化,也就是将不同数据源的不同表的数据元转换成标准数据元,而目前普遍的做法是通过人工判断的方式,将不同数据源的表字段与标准表中的字段进行匹配,消耗大量的人力和时间,工作量极大,效率极低。针对相关技术中,字段匹配方法效率低的问题,目前尚未存在有效的解决方案。
技术实现思路
本专利技术实施例提供了一种目标字段的确定方法、装置、存储介质及电子装置,以至少解决相关技术中字段匹配方法效率低的问题。 >根据本专利技术的一本文档来自技高网...
【技术保护点】
1.一种目标字段的确定方法,其特征在于,包括:/n将原始数据表中的原始字段中的第一后缀词与标准数据表中的标准字段中的第二后缀词进行比对;/n确定与所述第二后缀词相同的所述第一后缀词所对应的原始字段为第一字段,与所述第一后缀词相同的所述第二后缀词所对应的标准字段为第二字段;/n使用第一相似度模型和第二相似度模型分别对第一目标字段和第二目标字段进行相似度计算,以得到第一相似度和第二相似度,其中,所述第一目标字段是所述第一字段去除所述第一后缀词后得到的字段,所述第二目标字段是所述第二字段去除所述第二后缀词后得到的字段;/n根据所述第一相似度和/或所述第二相似度确定所述原始数据表中的目标字段。/n
【技术特征摘要】
1.一种目标字段的确定方法,其特征在于,包括:
将原始数据表中的原始字段中的第一后缀词与标准数据表中的标准字段中的第二后缀词进行比对;
确定与所述第二后缀词相同的所述第一后缀词所对应的原始字段为第一字段,与所述第一后缀词相同的所述第二后缀词所对应的标准字段为第二字段;
使用第一相似度模型和第二相似度模型分别对第一目标字段和第二目标字段进行相似度计算,以得到第一相似度和第二相似度,其中,所述第一目标字段是所述第一字段去除所述第一后缀词后得到的字段,所述第二目标字段是所述第二字段去除所述第二后缀词后得到的字段;
根据所述第一相似度和/或所述第二相似度确定所述原始数据表中的目标字段。
2.根据权利要求1所述的方法,其特征在于,使用第一相似度模型和第二相似度模型分别对第一目标字段和第二目标字段进行相似度计算,以得到第一相似度和第二相似度,包括:
在所述第一字段中提取出所述第一目标字段,并对所述第一目标字段进行分词处理后,提取出第一目标词向量;以及,
在所述第二字段中提取出所述第二目标字段,并对所述第二目标字段进行分词处理后,提取出第二目标词向量;
通过所述第一相似度模型确定所述第一目标词向量与所述第二目标词向量的所述第一相似度;
通过所述第二相似度模型确定所述第一目标词向量与所述第二目标词向量的所述第二相似度。
3.根据权利要求2所述的方法,其特征在于,通过所述第一相似度模型确定所述第一目标词向量与所述第二目标词向量的所述第一相似度,包括:
通过欧式距离算法确定所述第一目标词向量与所述第二目标词向量之间的欧式距离,并将所述欧式距离作为所述第一相似度。
4.根据权利要求2所述的方法,其特征在于,通过所述第二相似度模型确定所述第一目标词向量与所述第二目标词向量的所述第二相似度,包括:
通过如下公式计算所述第一目标词向量与所述第二目标词向量之间的相似度得分score:
其中,V表示第二目标词向量,Vo表示第一目标词向量,Vi表示第二目标词向量的第i个向量,Vio表示第一目标词向量中第i个向量,M表示第一目标词向量中的向量总数。
5.一种目标字段的确定装置,其特征在于,包括:
比对模块,用于将原始数据表中的原始字段中的第一后缀词与标准...
【专利技术属性】
技术研发人员:宋柯,
申请(专利权)人:北京明略软件系统有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。