一种兴趣点名称比对方法、装置、电子设备和存储介质制造方法及图纸

技术编号:29400952 阅读:21 留言:0更新日期:2021-07-23 22:38
本申请公开了一种兴趣点名称比对方法、装置、电子设备和存储介质,涉及人工智能技术领域。具体实现方案为:获取待比对的第一兴趣点名称和第二兴趣点名称;根据与第一兴趣点名称和第二兴趣点名称分别对应的语义表示特征,计算第一兴趣点名称与第二兴趣点名称之间的相似度;其中,所述语义表示特征中包括:兴趣点名称语义相似度特征,以及至少一个兴趣点名称关联语义特征。本申请实施例根据兴趣点名称语义相似度特征和至少一个兴趣点名称关联语义特征,计算两个兴趣点名称的相似度,提升了计算兴趣点名称相似度的准确性。

【技术实现步骤摘要】
一种兴趣点名称比对方法、装置、电子设备和存储介质
本申请实施例涉及互联网
,尤其涉及人工智能
,具体涉及了一种兴趣点名称比对方法、装置、电子设备和存储介质。
技术介绍
在处理海量地图兴趣点情报数据时,需要判断不同的情报数据是否为描述同一个兴趣点。不同兴趣点之间的名称相似度是最重要的判断依据,名称相似度计算的准确性直接影响了后续计算流程的准确性。地图兴趣点名称的相似度计算,目前普遍采用下面两种方案:(1)基于双向LSTM(LongShort-TermMemory,长短期记忆网络)模型的深度语义匹配方法:这种方案使用基于双向LSTM的深度神经网络进行名称相似度计算,得到一个相似度概率(0-1连续值,0代表不相似,1代表相似);(2)基于Attention(注意力)的深度语义匹配方法:这种方案使用了Transformer框架的Attention思想构造深度神经网络进行名称相似度计算,得到一个相似度概率(0-1连续值,0代表不相似,1代表相似)。然而,这两种方案仍存在一定的不足:方案(1)在计算两个地图兴趣点名称相似度的时候,存在正反向问题,即当调换被比较的两个名称的前后顺序的时候,模型计算出的名称相似度差异很大;方案(2)可以解决方案(1)的问题,但是对于兴趣点名称有一定相似性,但是属于不同行业的情况,相似度计算不准确。
技术实现思路
本申请实施例公开一种兴趣点名称比对方法、装置、电子设备和介质,以达到准确计算兴趣点名称相似度的目的。第一方面,本申请实施例公开了一种兴趣点名称比对方法,包括:获取待比对的第一兴趣点名称和第二兴趣点名称;根据与第一兴趣点名称和第二兴趣点名称分别对应的语义表示特征,计算第一兴趣点名称与第二兴趣点名称之间的相似度;其中,所述语义表示特征中包括:兴趣点名称语义相似度特征,以及至少一个兴趣点名称关联语义特征;所述兴趣点名称语义相似度特征为兴趣点名称与其他兴趣点名称间的差异化语义特征,所述兴趣点名称关联语义特征为与兴趣点名称关联的其他属性的语义特征。上述申请中的一个实施例具有如下优点或有益效果:同时根据兴趣点名称语义相似度特征和至少一个兴趣点名称关联语义特征,计算两个兴趣点名称的相似度,相比于只根据兴趣点名称的特征表示计算两个兴趣点名称相似度,提升计算兴趣点名称相似度的准确性。另外,根据本申请上述实施例的兴趣点名称比对方法,还可以具有如下附加的技术特征:可选的,所述兴趣点名称关联语义特征包括:兴趣点名称的行业属性特征,和/或兴趣点名称中各分词的词语属性特征;所述兴趣点名称的行业属性特征为兴趣点名称所属行业的行业属性的语义特征,所述兴趣点名称中各分词的词语属性特征为兴趣点名称中各分词所属的词语属性的语义特征。上述申请中的一个实施例具有如下优点或有益效果:确定两个兴趣点名称相似度时,结合兴趣点名称的行业属性特征,和/或兴趣点名称中各分词的词语属性特征,可进一步提高相似度识别的准确性。可选的,根据与第一兴趣点名称和第二兴趣点名称分别对应的语义表示特征,计算第一兴趣点名称与第二兴趣点名称之间的相似度,包括:将第一兴趣点名称和第二兴趣点名称分别输入至预先训练的多任务学习模型中;获取所述多任务学习模型输出的所述第一兴趣点名称与第二兴趣点名称之间的相似度;所述多任务学习模型包括:并行设置的兴趣点名称相似度识别子模型,以及至少一个兴趣点名称关联特征识别子模型;兴趣点名称相似度识别子模型与各兴趣点名称关联特征识别子模型共用同一语义表示层;所述语义表示层,用于获取与第一兴趣点名称和第二兴趣点名称分别对应的所述语义表示特征;所述兴趣点名称相似度识别子模型,用于输出第一兴趣点名称和第二兴趣点名称之间的相似度。上述申请中的一个实施例具有如下优点或有益效果:通过将多个单任务深度神经网络中的语义表示层进行参数共享,多个单任务神经网络合并成一个多任务神经网络学习模型,由于参数共享的语义表示层可以学习到兴趣点更深层的语义表达,因此可以保证兴趣点相似度识别的准确性。可选的,在获取待比对的第一兴趣点名称和第二兴趣点名称之前,还包括:获取与兴趣点名称相似度识别子模型以及各兴趣点名称关联特征识别子模型分别匹配的训练样本;使用所述训练样本对所述多任务学习模型进行训练,并在满足训练结束条件时,得到训练后的所述多任务学习模型。上述申请中的一个实施例具有如下优点或有益效果:利用不同的训练样本,分别对多任务模型进行训练,使得共享的语义表示层可以学习到兴趣点更深层的语义表达,进而保证训练后的多任务模型的兴趣点相似度识别的准确性。可选的,所述兴趣点名称相似度识别子模型具体包括:所述语义表示层以及交叉注意力比较层;所述语义表示层用于获取与输入的两个兴趣点名称分别对应的语义表示特征,并将各所述语义表示特征输入至所述交叉注意力比较层进行相似度比对;所述交叉注意力比较层,用于输出两个兴趣点名称间的相似度。可选的,所述兴趣点名称关联特征识别子模型包括兴趣点名称行业分类子模型;所述兴趣点名称关联特征识别子模型包括:所述语义表示层以及全连接分类层;所述语义表示层,用于获取与输入的兴趣点名称对应的语义表示特征,并将所述语义表示特征输入至所述全连接分类层进行行业分类;所述全连接分类层,用于输出所述兴趣点名称的行业分类结果。可选的,所述兴趣点名称关联特征识别子模型还包括兴趣点名称分词解析子模型;所述兴趣点名称分词解析子模型包括:所述语义表示层以及条件随机场层;所述语义表示层,用于获取与输入的兴趣点名称对应的语义表示特征,并将所述语义表示特征输入至所述条件随机场层进行词语属性的识别;所述条件随机场层,用于输出所述兴趣点名称中各分词的词语属性。可选的,使用所述训练样本对所述多任务学习模型进行训练,并在满足训练结束条件时,得到训练后的所述多任务学习模型,包括:获取与兴趣点名称相似度识别子模型匹配的第一训练样本集合,以及与各所述兴趣点名称关联特征识别子模型分别对应的第二训练样本集合;分别从所述第一训练样本集合和各所述第二训练样本集合中获取设定数量的训练样本,并顺序加入至新建的多任务训练样本集合中;使用所述多任务训练样本集合对所述多任务学习模型进行训练后,判断所述多任务学习模型是否满足训练结束条件;若否,则返回执行分别从所述第一训练样本集合和各所述第二训练样本集合中获取设定数量的训练样本的操作,直至在满足训练结束条件时,得到训练后的所述多任务学习模型。可选的,判断所述多任务学习模型是否满足训练结束条件包括:使用测试样本集对所述兴趣点名称相似度识别子模型进行识别准确度测试;如果所述兴趣点名称相似度识别子模型的识别准确性超过设定阈值,则确定满足所述训练结束条件。上述申请中的一个实施例具有如下优点或有益效果:通过验证样本进行验证,可以保证训练的多任务模型的相似度识别的准确本文档来自技高网...

【技术保护点】
1.一种兴趣点名称比对方法,其特征在于,包括:/n获取待比对的第一兴趣点名称和第二兴趣点名称;/n根据与第一兴趣点名称和第二兴趣点名称分别对应的语义表示特征,计算第一兴趣点名称与第二兴趣点名称之间的相似度;/n其中,所述语义表示特征中包括:兴趣点名称语义相似度特征,以及至少一个兴趣点名称关联语义特征;/n所述兴趣点名称语义相似度特征为兴趣点名称与其他兴趣点名称间的差异化语义特征,所述兴趣点名称关联语义特征为与兴趣点名称关联的其他属性的语义特征。/n

【技术特征摘要】
1.一种兴趣点名称比对方法,其特征在于,包括:
获取待比对的第一兴趣点名称和第二兴趣点名称;
根据与第一兴趣点名称和第二兴趣点名称分别对应的语义表示特征,计算第一兴趣点名称与第二兴趣点名称之间的相似度;
其中,所述语义表示特征中包括:兴趣点名称语义相似度特征,以及至少一个兴趣点名称关联语义特征;
所述兴趣点名称语义相似度特征为兴趣点名称与其他兴趣点名称间的差异化语义特征,所述兴趣点名称关联语义特征为与兴趣点名称关联的其他属性的语义特征。


2.根据权利要求1所述的方法,其特征在于,所述兴趣点名称关联语义特征包括:兴趣点名称的行业属性特征,和/或兴趣点名称中各分词的词语属性特征;
所述兴趣点名称的行业属性特征为兴趣点名称所属行业的行业属性的语义特征,所述兴趣点名称中各分词的词语属性特征为兴趣点名称中各分词所属的词语属性的语义特征。


3.根据权利要求1所述的方法,其特征在于,根据与第一兴趣点名称和第二兴趣点名称分别对应的语义表示特征,计算第一兴趣点名称与第二兴趣点名称之间的相似度,包括:
将第一兴趣点名称和第二兴趣点名称分别输入至预先训练的多任务学习模型中;
获取所述多任务学习模型输出的所述第一兴趣点名称与第二兴趣点名称之间的相似度;
所述多任务学习模型包括:并行设置的兴趣点名称相似度识别子模型,以及至少一个兴趣点名称关联特征识别子模型;兴趣点名称相似度识别子模型与各兴趣点名称关联特征识别子模型共用同一语义表示层;
所述语义表示层,用于获取与第一兴趣点名称和第二兴趣点名称分别对应的所述语义表示特征;所述兴趣点名称相似度识别子模型,用于输出第一兴趣点名称和第二兴趣点名称之间的相似度。


4.根据权利要求3所述的方法,其特征在于,在获取待比对的第一兴趣点名称和第二兴趣点名称之前,还包括:
获取与兴趣点名称相似度识别子模型以及各兴趣点名称关联特征识别子模型分别匹配的训练样本;
使用所述训练样本对所述多任务学习模型进行训练,并在满足训练结束条件时,得到训练后的所述多任务学习模型。


5.根据权利要求4所述的方法,其特征在于,所述兴趣点名称相似度识别子模型具体包括:所述语义表示层以及交叉注意力比较层;
所述语义表示层用于获取与输入的两个兴趣点名称分别对应的语义表示特征,并将各所述语义表示特征输入至所述交叉注意力比较层进行相似度比对;
所述交叉注意力比较层,用于输出两个兴趣点名称间的相似度。


6.根据权利要求4所述的方法,其特征在于,所述兴趣点名称关联特征识别子模型包括兴趣点名称行业分类子模型;所述兴趣点名称关联特征识别子模型包括:所述语义表示层以及全连接分类层;
所述语义表示层,用于获取与输入的兴趣点名称对应的语义表示特征,并将所述语义表示特征输入至所述全连接分类层进行行业分类;
所述全连接分类层,用于输出所述兴趣点名称的行业分类结果。


7.根据权利要求4所述的方法,其特征在于,所述兴趣点名称关联特征识别子模型还包括兴趣点名称分词解析子模型;所述兴趣点名称分词解析子模型包括:所述语义表示层以及条件随机场层;
所述语义表示层,用于获取与输入的兴趣点名称对应的语义表示特征,并将所述语义表示特征输入至所述条件随机场层进行词语属性的识别;
所述条件随机场层,用于输出所述兴趣点名称中各分词的词语属性。


8.根据权利要求4所述的方法,其特征在于,使用所述训练样本对所述多任务学习模型进行训练,并在满足训练结束条件时,得到训练后的所述多任务学习模型,包括:
获取与兴趣点名称相似度识别子模型匹配的第一训练样本集合,以及与各所述兴趣点名称关联特征识别子模型分别对应的第二训练样本集合;
分别从所述第一训练样本集合和各所述第二训练样本集合中获取设定数量的训练样本,并顺序加入至新建的多任务训练样本集合中;
使用所述多任务训练样本集合对所述多任务学习模型进行训练后,判断所述多任务学习模型是否满足训练结束条件;
若否,则返回执行分别从所述第一训练样本集合和各所述第二训练样本集合中获取设定数量的训练样本的操作,直至在满足训练结束条件时,得到训练后的所述多任务学习模型。


9.根据权利要求8所述的方法,其特征在于,判断所述多任务学习模型是否满足训练结束条件包括:
使用测试样本集对所述兴趣点名称相似度识别子模型进行识别准确度测试;
如果所述兴趣点名称相似度识别子模型的识别准确性超过设定阈值,则确定满足所述训练结束条件。


10.一种兴趣点名称比对装置,其特征在于,包括:
兴趣点名称获取模块,用于获取待比对的第一兴趣点名称和第二兴趣点名称;
相似度计算模块,用于根据与第一兴趣点名称和第二兴趣点名称分别对应的语义表示特征,计算第一兴趣点名称与...

【专利技术属性】
技术研发人员:宋宽
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1