词义相似度确定方法及装置、电子设备及存储介质制造方法及图纸

技术编号:24854814 阅读:55 留言:0更新日期:2020-07-10 19:08
本发明专利技术实施例公开了一种词义相似度确定方法及装置、电子设备及存储介质。所述词义相似度确定方法包括:获取目标词所在上下文的上下文语义;根据所述上下文语义,从所述目标词的候选词义中确定出所述目标词的当前词义;根据所述当前词义,确定所述目标词的第一词义向量;根据所述第一词义向量与第二词义向量,确定所述目标词与待匹配词之间的相似度,其中,所述第二词义向量为所述待匹配词的词义向量。

【技术实现步骤摘要】
词义相似度确定方法及装置、电子设备及存储介质
本专利技术涉及信息
,尤其涉及一种词义相似度确定方法及装置、电子设备及存储介质。
技术介绍
计算机和互联网技术的飞速发展使得网络上的数据资源呈指数级增长,这些信息(例如,用户输入的自然语言)对于计算机来说非常难于理解和应用,人们希望从中迅速有效地获取所需要的信息,所以对信息的智能自动化的处理需求越来越迫切,这些自动处理的核心问题之一是含义相似度计算问题。相关技术提出了利用词向量表征不同词的词义,但是针对多义词当前表达的词义的识别精确度一直达不到期望的精确度。
技术实现思路
本专利技术实施例期望提供一种词义相似度确定方法及装置、电子设备及存储介质。本专利技术的技术方案是这样实现的:一种词义相似度确定方法,其特征在于,包括:获取目标词所在上下文的上下文语义;根据所述上下文语义,从所述目标词的候选词义中确定出所述目标词的当前词义;根据所述当前词义,确定所述目标词的第一词义向量;根据所述第一词义向量与第二词义向量,确定所述目标词与待匹配词之间的相似度,其中,所述第二词义向量为所述待匹配词的词义向量。基于上述方案,所述获取目标词所在上下文的上下文语,包括:获取所述目标词所在上下文的词集合;确定所述词集合中每个词的权重;基于所述词集合中所述词的词义和所述权重,确定所述上下文语义。基于上述方案,所述确定所述词集合中每个词的权重,包括:确定所述词集合中每个词,与所述目标词相隔的词个数;确定所述词集合中词的词义数量;根据所述词个数和/或所述词义数量,确定所述权重。基于上述方案,所述词个数与所述权重负相关;和/或,所述词义数量与所述权重负相关。基于上述方案,所述根据所述当前词义,确定所述目标词的第一词义向量,包括:确定所述当前词义对应的编码标识,其中,同一个词的不同词义对应了不同的编码标识;由词义向量模型基于所述编码标识及所述目标词输出所述第一词义向量。基于上述方案,所述确定所述当前词义对应的编码标识,包括:根据所述当前词义及所述目标词的词性,确定所述编码标识,其中,表示相同词义的不同词性的目标词,对应了不同的编码标识。基于上述方案,所述由词义向量模型基于所述编码标识及所述目标词输出所述第一词义向量,包括:获取所述目标词的原形态;组合所述编码标识和所述目标词的原形态,得到所述词义向量模型的输入;所述词义向量模型基于所述输入,输出所述第一词义向量。基于上述方案,所述方法还包括:根据同一训练词的不同词义生成不同的编码标识;将不同形态的所述训练词转换为原形态;以所述编码标识及所述原形态的所述训练词、及所述编码标识及所述原形态的所述训练词共同对应的词义为训练样本,训练所述词义向量模型。一种词义相似度确定装置,包括:上下文语义模块,用于获取目标词所在上下文的上下文语义;当前词义模块,用于根据所述上下文语义,从所述目标词的候选词义中确定出所述目标词的当前词义;第一词义向量模块,用于根据所述当前词义,确定所述目标词的第一词义向量;相似度模块,用于根据所述第一词义向量与第二词义向量,确定所述目标词与待匹配词之间的相似度,其中,所述第二词义向量为所述待匹配词的词义向量。一种电子设备,包括:存储器,处理器,与存储器连接,用于通过执行存储在所述存储器上的计算机可执行指令,能够实现前述一个或多个技术方案提供的词义相似度确定方法。一种计算机存储介质,所述计算机存储介质存储有计算机可执行指令;所述计算机可执行指令,能够实现前述一个或多个技术方案提供的词义相似度确定方法。本专利技术实施例提供的技术方案,在确定两个词的相似度时,不再是基于包含该词所有词义的词向量,而是基于上下文语义确定出目标词当前想要表达的当前词义所对应的单一词义的第一词义向量,将第一词义向量与待匹配词的第二词义向量进行相似度的计算,如此,相对于不管当前上下文的多个词向量的相似度计算,大大提升了词之间相似度确定的精确性。附图说明图1为本专利技术实施例提供的第一种词义相似度确定方法的流程示意图;图2为本专利技术实施例提供的第二种词义相似度确定方法的流程示意图;图3为本专利技术实施例提供的一种词义相似度确定装置的结构示意图;图4为本专利技术实施例提供的一种词汇网络的词义表达关系示意图;图5为本专利技术实施例提供的词义向量模型的训练流程示意图;图6为本实施例提供的词义消歧的流程示意图;图7为本实施例提供的一种基于词义向量确定相似度的流程示意图。具体实施方式以下结合说明书附图及具体实施例对本专利技术的技术方案做进一步的详细阐述。如图1所示,本实施例提供一种词义相似度确定方法,包括:步骤S110:获取目标词所在上下文的上下文语义;步骤S120:根据所述上下文语义,从所述目标词的候选词义中确定出所述目标词的当前词义;步骤S130:根据所述当前词义,确定所述目标词的第一词义向量;步骤S140:根据所述第一词义向量与第二词义向量,确定所述目标词与待匹配词之间的相似度,其中,所述第二词义向量为所述待匹配词的词义向量。本实施例提供的词义相似度确定方法,可以应用于各种电子设备,例如,应用于搜索服务器的搜索服务器中。在本实施例中,所述目标词可为多词义的词。所述步骤S110可包括:确定所述目标词所在语句;收集所述目标所在的语句的其他词;集合该语句的各个词的词义,得到所述上下文语义。若上下文语义确定了,则此时就可以从目标词的多个候选词义中选择出目标词当前表达的词义,即所述当前词义。根据当前词义,确定目标词的第一词义向量,而非词向量;所述第一词义向量为目标词所对应的单个词义的向量。如此,相当于确定了所述目标词当前表达的唯一词义,如此,相当于包含有多个词义的词向量而言,可以与待匹配词所对第二词义向量进行单个词义之间的精确匹配,从而基于两个匹配的词之间的单个词义的相似计算,可以在不脱离上下文的情况下,通过相似度计算,可以得到与所述目标词的当前词义精确匹配的待匹配词,如此,提升了词义相似度计算的精确度。例如,针对词“Apple”,其词义可能是水果中的“apple”,还可能是电子产品“apple”,还可能是公司或企业法人“apple”。在相关技术中基于词向量进行词义相似度计算,可能就会误认为水果“apple”和电子产品“apple”是相似的。但是在本实施例中,是基于词义向量的匹配,在步骤S110中会结合语句“Iwantanapplephone”中的词“I”、“want”“an”及“phone”,确定出上下文语义,从而获得该目标词“apple”的当前词义,是电子产品“apple”,而非水果“apple”或公司“apple”。如此,本文档来自技高网...

【技术保护点】
1.一种词义相似度确定方法,其特征在于,包括:/n获取目标词所在上下文的上下文语义;/n根据所述上下文语义,从所述目标词的候选词义中确定出所述目标词的当前词义;/n根据所述当前词义,确定所述目标词的第一词义向量;/n根据所述第一词义向量与第二词义向量,确定所述目标词与待匹配词之间的相似度,其中,所述第二词义向量为所述待匹配词的词义向量。/n

【技术特征摘要】
1.一种词义相似度确定方法,其特征在于,包括:
获取目标词所在上下文的上下文语义;
根据所述上下文语义,从所述目标词的候选词义中确定出所述目标词的当前词义;
根据所述当前词义,确定所述目标词的第一词义向量;
根据所述第一词义向量与第二词义向量,确定所述目标词与待匹配词之间的相似度,其中,所述第二词义向量为所述待匹配词的词义向量。


2.根据权利要求1所述的方法,其特征在于,所述获取目标词所在上下文的上下文语义,包括:
获取所述目标词所在上下文的词集合;
确定所述词集合中每个词的权重;
基于所述词集合中所述词的词义和所述权重,确定所述上下文语义。


3.根据权利要求2所述的方法,其特征在于,
所述确定所述词集合中每个词的权重,包括:
确定所述词集合中每个词与所述目标词相隔的词个数;
确定所述词集合中词的词义数量;
根据所述词个数和/或所述词义数量,确定所述权重。


4.根据权利要求3所述的方法,其特征在于,
所述词个数与所述权重负相关;和/或,所述词义数量与所述权重负相关。


5.根据权利要求1至4任一项所述的方法,其特征在于,
所述根据所述当前词义,确定所述目标词的第一词义向量,包括:
确定所述当前词义对应的编码标识,其中,同一个词的不同词义对应了不同的编码标识;
由词义向量模型基于所述编码标识及所述目标词输出所述第一词义向量。


6.根据权利要求5所述的方法,其特征在于,其特征在于,
所述由词义向量模型基于所述编码标识及所述目标词输出所述第一词义向量,包括:
根据所述当前词义、所述目...

【专利技术属性】
技术研发人员:李小涛游树娟
申请(专利权)人:中国移动通信有限公司研究院中国移动通信集团有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1