数据相似度计算方法、装置、可读介质及电子设备制造方法及图纸

技术编号:31584259 阅读:18 留言:0更新日期:2021-12-25 11:28
本申请属于数据处理技术领域,具体涉及一种数据相似度计算方法、装置、可读介质以及电子设备,本申请通过从标准数据库中召回和待计算参数相关的候选参数,然后分别计算待计算参数和候选参数名称语义相似度作为第一特征相似度和描述语义相似度作为第二特征相似度,利用第一特征相似度和第二特征相似度,得到待计算参数和候选参数的整体相似度,利用以上方法计算相似度,只召回相关的作为候选参数进行对比,提高了相似度对比的效率,而且,本申请在进行相似度时,综合考虑了参数的名称和参数的描述,将两者的综合作为待计算参数和候选参数的整体相似度,相似度计算的结果更准确,有利于数据对相似度高的参数进行加载。数据对相似度高的参数进行加载。数据对相似度高的参数进行加载。

【技术实现步骤摘要】
数据相似度计算方法、装置、可读介质及电子设备


[0001]本申请属于数据处理
,具体涉及一种数据相似度计算方法、数据相似度计算装置、计算机可读介质以及电子设备。

技术介绍

[0002]参数指数据库或者应用程序编程接口中的字段信息,在日常生活中,判断两个参数是否一致,有着的重要的意义,若可以判断出两个参数之间或者一个参数与参数表中参数的相似关系,则可进行数据相应字段的加载,而无须人工进行判断。
[0003]由于两个参数的一致性牵扯到多种特征信息的融合,因此,目前对于参数的相似度计算所利用的简单的规则无法判断出两个参数是否表达一致,需要人工进行判断,耗时耗力。而且现有的参数相似度计算只考虑了参数的名称,导致相似度计算结果不准确的问题。
[0004]需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

[0005]本申请的目的在于提供一种数据相似度计算方法、数据相似度计算装置、计算机可读介质以及电子设备,至少在一定程度上克服相关技术中参数相似度计算耗时耗力,效率低,而且计算结果不准确等技术问题。
[0006]本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
[0007]根据本申请实施例的一个方面,提供一种数据相似度计算方法,所述方法包括:
[0008]从数据库形式的表格数据或应用程序编程接口形式的JS对象简谱数据中获取待计算参数,所述待计算参数包括参数名称和参数描述;
[0009]从标准数据库中召回与所述待计算参数相关的候选参数,获取所述候选参数的参数名称和参数描述;
[0010]计算所述待计算参数和所述候选参数的参数名称语义相似度,作为第一特征相似度,计算所述待计算参数和所述候选参数的参数描述语义相似度,作为第二特征相似度;
[0011]基于所述第一特征相似度和第二特征相似度,得到所述待计算参数和所述候选参数的整体相似度。
[0012]根据本申请实施例的一个方面,提供一种数据相似度计算装置,包括:
[0013]参数提取模块,被配置为从数据库形式的表格数据或应用程序编程接口形式的JS对象简谱数据中获取待计算参数,所述待计算参数包括参数名称和参数描述;
[0014]候选模块,被配置为从标准数据库中召回与所述待计算参数相关的候选参数,获取所述候选参数的参数名称和参数描述;
[0015]特征相似度计算模块,被配置为计算所述待计算参数和所述候选参数的参数名称
语义相似度,作为第一特征相似度,计算所述待计算参数和所述候选参数的参数描述语义相似度,作为第二特征相似度;
[0016]相似度计算模块,被配置为基于所述第一特征相似度和第二特征相似度,得到所述待计算参数和所述候选参数的整体相似度。
[0017]在本申请的一些实施例中,基于以上技术方案,所述候选模块被配置为分别从标准数据库中召回与所述待计算参数类型相同、示例值相同或名称编辑距离小于设定阈值的参数作为候选参数。
[0018]在本申请的一些实施例中,基于以上技术方案,所述特征相似度计算模块包括:
[0019]名称拼接单元,被配置为将所述待计算参数和所述候选参数的参数名称进行拼接,拼接处用分隔符隔开,得到名称拼接特征;
[0020]描述拼接单元,被配置为将所述待计算参数和所述候选参数的参数描述进行拼接,拼接处用分隔符隔开,得到描述拼接特征;
[0021]向量化表示单元,被配置为将所述名称拼接特征输入第一预训练模型进行向量化表示,将所述描述拼接特征输入第二训练模型进行向量化表示。
[0022]在本申请的一些实施例中,基于以上技术方案,所述特征相似度计算模块还包括:
[0023]向量转化单元,被配置为将所述待计算参数和所述候选参数的参数名称输入第一预训练模型进行向量化表示,得到待计算参数名称向量和候选参数名称向量,将所述待计算参数和所述候选参数的参数描述输入第二预训练模型进行向量化表示,得到待计算参数描述向量和候选参数描述向量;
[0024]特征相似度计算单元,被配置为利用余弦相似度算法计算所述待计算参数名称向量和所述候选参数名称向量的相似度,得到第一特征相似度;利用余弦相似度算法计算所述待计算参数描述向量和所述候选参数描述向量的相似度,得到第二特征相似度。
[0025]在本申请的一些实施例中,基于以上技术方案,所述向量转化单元包括:
[0026]嵌入单元,被配置为将所述待计算参数和所述候选参数的参数名称输入第一预训练模型进行嵌入表示,所述嵌入表示用于将所述待计算参数和所述候选参数的参数名称分别转换成待计算名称三维向量和候选名称三维向量;
[0027]切分单元,被配置为对所述待计算名称三维向量和候选名称三维向量进行切分,得到待计算名称一维向量和候选名称一维向量;
[0028]建模单元,被配置为利用长短期记忆模型分别对待计算名称一维向量和候选名称一维向量进行序列化建模,得到待计算参数名称向量和候选参数名称向量。
[0029]在本申请的一些实施例中,基于以上技术方案,所述特征相似度计算模块还包括:
[0030]激活单元,被配置为利用激活函数将所述第一特征相似度和第二特征相似度映射,所述激活函数用于将变量映射到0

1区间。
[0031]在本申请的一些实施例中,基于以上技术方案,所述装置还包括数据更新模块,所述数据更新模块包括:
[0032]映射单元,被配置为将所述相似度大于相似度阈值对应的待计算参数作为待映射参数,将所述待映射参数映射到所述候选参数中;
[0033]添加单元,被配置为将所述相似度小于相似度阈值对应的待计算参数作为添加参数,将所述添加参数添加到所述标准数据库中。
[0034]根据本申请实施例的一个方面,提供一种计算机可读介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如以上技术方案中的数据相似度计算方法。
[0035]根据本申请实施例的一个方面,提供一种电子设备,该电子设备包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器被配置为经由执行所述可执行指令来执行如以上技术方案中的数据相似度计算方法。
[0036]根据本申请实施例的一个方面,提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行如以上技术方案中的数据相似度计算方法。
[0037]在本申请实施例提供的技术方案中,本申请通过从标准数据库中召回和待计算参数相关的候选参数,然后分别计算待计算参数和候选参数名称语义相似度作为第一特征相似度和描述语义相似度作为第二特征相似度,然后利用第一特征相似度和第二特征相似度,得到待本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据相似度计算方法,其特征在于,所述方法包括:从数据库形式的表格数据或应用程序编程接口形式的JS对象简谱数据中获取待计算参数,所述待计算参数包括参数名称和参数描述;从标准数据库中召回与所述待计算参数相关的候选参数,获取所述候选参数的参数名称和参数描述;计算所述待计算参数和所述候选参数的参数名称语义相似度,作为第一特征相似度,计算所述待计算参数和所述候选参数的参数描述语义相似度,作为第二特征相似度;基于所述第一特征相似度和第二特征相似度,得到所述待计算参数和所述候选参数的整体相似度。2.根据权利要求1所述的数据相似度计算方法,其特征在于,从标准数据库中召回与所述待计算参数相关的候选参数,包括:分别从标准数据库中召回与所述待计算参数类型相同、示例值相同或名称编辑距离小于设定阈值的参数作为候选参数。3.根据权利要求1所述的数据相似度计算方法,其特征在于,在从标准数据库中召回与所述待计算参数相关的候选参数之后,所述方法还包括:将所述待计算参数和所述候选参数的参数名称进行拼接,拼接处用分隔符隔开,得到名称拼接特征;将所述待计算参数和所述候选参数的参数描述进行拼接,拼接处用分隔符隔开,得到描述拼接特征;将所述名称拼接特征输入第一预训练模型进行向量化表示,将所述描述拼接特征输入第二训练模型进行向量化表示。4.根据权利要求1所述的数据相似度计算方法,其特征在于,计算所述待计算参数和所述候选参数的参数名称语义相似度,作为第一特征相似度,计算所述待计算参数和所述候选参数的参数描述语义相似度,作为第二特征相似度,包括:将所述待计算参数和所述候选参数的参数名称输入第一预训练模型进行向量化表示,得到待计算参数名称向量和候选参数名称向量,将所述待计算参数和所述候选参数的参数描述输入第二预训练模型进行向量化表示,得到待计算参数描述向量和候选参数描述向量;利用余弦相似度算法计算所述待计算参数名称向量和所述候选参数名称向量的相似度,得到第一特征相似度;利用余弦相似度算法计算所述待计算参数描述向量和所述候选参数描述向量的相似度,得到第二特征相似度。5.根据权利要求4所述的数据相似度计算方法,其特征在于,将所述待计算参数名称和所述候选参数名称输入第一预训练模型进行向量化表示,得到待计算参数名称向量和候选参数名称...

【专利技术属性】
技术研发人员:胡晓辉徐胜平
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1