【技术实现步骤摘要】
名称匹配方法、训练方法、设备及存储介质
[0001]本说明书一个或多个实施例涉及计算机软件
,尤其涉及一种名称匹配方法、训练方法、设备及存储介质。
技术介绍
[0002]名称比配是指比较一对名称是否指代同一实体的过程。这里说的实体可以是人或者事物(比如某一物体、群体、或者公司等等)。比如名称匹配作为基础的身份识别手段在金融合规、行政执法和国土安全领域都有着重要的作用。名称天然存在很多变体,例如缩写、拼写错误、别名、昵称、音译和翻译(多语种)都增加了名称匹配的难度。
[0003]相关技术中的一种名称匹配方法为基于名单的多语种名称匹配,即收集整理同一名称的多种语言的写法和各种拼写变异体形成名单资料库,使用时直接查找判断是否匹配。其局限性在于随着名单的增大,所需的维护成本、存储空间和匹配计算时间会大大增加。
技术实现思路
[0004]有鉴于此,本说明书一个或多个实施例提供一种名称匹配方法、装置训练方法、设备及存储介质。
[0005]为实现上述目的,本说明书一个或多个实施例提供技术方案如下:r/>[0006]根本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种名称匹配方法,包括:获取待匹配名称的名称字符串;根据预先训练好的神经网络将所述待匹配名称的名称字符串转换成表征向量;其中,所述神经网络用于将同一名称的不同变体的字符串均转换成同一表征向量;确定所述待匹配名称的表征向量分别与预存的若干参考名称的表征向量之间的相似度;其中,所述参考名称的表征向量为将所述参考名称的任一变体的字符串输入所述神经网络得到;根据所述相似度确定所述待匹配名称与所述参考名称是否匹配。2.根据权利要求1所述的方法,所述神经网络用于将同一名称中,语音和/或语义相似的不同变体的字符串均转换成同一表征向量。3.根据权利要求1所述的方法,所述根据预先训练好的神经网络将所述待匹配名称的名称字符串转换成表征向量,包括:将所述待匹配名称的名称字符串进行分词处理,得到所述待匹配名称的字符集合;将所述字符集合输入预先训练好的神经网络中,通过所述神经网络将所述字符集合转换成表征向量。4.根据权利要求1或3所述的方法,所述神经网络至少包括嵌入层和编码器;所述嵌入层用于将所述名称字符串在分词后得到的字符集合进行转换处理,获取嵌入向量;所述编码器用于将所述嵌入向量从字符向量空间映射到数值向量空间,获取所述表征向量。5.根据权利要求4所述的方法,所述神经网络还包括全连接层;所述全连接层用于将所述编码器输出的表征向量进行降维处理。6.根据权利要求1所述的方法,在训练过程中,所述神经网络根据具有多个变体的名称样本进行对比学习和表征学习得到;其中,所述具有多个变体的名称样本包括语音相似的不同变体的字符串,和/或,语义相似的不同变体的字符串。7.根据权利要求6所述的方法,在训练过程中,所述神经网络的优化目标包括:最小化属于同一名称样本的不同变体的字符串分别对应的表征向量之间的距离,和/或最大化属于不同名称样本的至少两个字符串分别对应的表征向量之间的距离。8.根据权利要求7所述的方法,还包括:在训练过程中,获取若干三元组样本,所述三元组样本包括两个正样本和一个负样本,所述两个正样本包括同一名称样本的不同变体的字符串,所述负样本包括与所述正样本属于不同名称样本的字符串;将所述三元组样本输入具有三条支路的预设神经网络中,由每条支路处理所述三元组样本中的其中一个样本,获取三个表征向量;其中,所述三条支路的权重共享;根据两个正样本分别对应的表征向量之间的相似程度、和/或其中一个正样本的表征向量与所述负样本的表征向量之间的差异程度,调整所述预设神经网络的参数,获得所述训练好的神经网络;其中,所述训练好的神经网络包括至少一条所述支路。9.根据权利要求7所述的方法,还包括:
在训练过程中,获取若干二元组样本,其中一部分所述二元组样本包括两个正样本,另一部分所述二元组样本包括一个正样本和一个负样本;所述两个正样本包括同一名称样本的不同变体的字符串,所述负样本包括与所述正样本属于不同名称样本的字符串;将所述二元组样本输入具有两条支路的预设神经网络中,由每条支路处理所述二元组样本中的其中...
【专利技术属性】
技术研发人员:陈珺,孙清清,郑行,赖伟达,张天翼,王爱凌,邹泊滔,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。