词语相似度的计算方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:21034761 阅读:33 留言:0更新日期:2019-05-04 05:35
本发明专利技术实施例公开了一种词语相似度的计算方法、装置、计算机设备及存储介质,包括:获取训练文本的训练义原集合;获取所述第一词语的第一义原集和所述第二词语的第二义原集;根据所述训练义原集合、所述第一义原集和所述第二义原集,确定所述第一词语的第一初始词向量和所述第二词语的第二初始词向量;分别将所述第一初始词向量和所述第二初始词向量作为词向量模型的输入,得到第一目标词向量和第二目标词向量;根据所述第一目标词向量和所述第二目标词向量,确定所述第一词语和所述第二词语的词语相似度。通过上述方式,能够提高词语相似度计算的准确性。

【技术实现步骤摘要】
词语相似度的计算方法、装置、计算机设备及存储介质
本专利技术涉及自然语言处理
,尤其涉及一种词语相似度的计算方法、装置、计算机设备及存储介质。
技术介绍
词语之间的词语相似性研究是自然语言处理以及人工智能领域的基础性研究,如搜索、聚类以及歧义消除等,因此,近年来,研究词语与词语之间的相似性热度不断提高。词语相似度表示两个词语语义的可替换程度,要实现词语相似度的计算,首先需要将词语从文字转换成计算机能理解能计算的方式。目前,应用比较广泛的有word2vec模型,word2vec模型是Google发布的一种基于深度学习的工具,利用浅层神经网络,将词语用向量表示,可用于计算词语与词语的相似度。word2vec模型是通过词语的上下文来计算词语的词向量,由于上下文内容有限,简单的通过word2vec模型表示词语,然后再计算相似度可能并不准确。
技术实现思路
基于此,有必要针对上述问题,提出一种准确率高的词语相似度的计算方法、装置、计算机设备及存储介质。一种词语相似度的计算方法,所述方法包括:获取训练文本的训练义原集合,所述训练文本中包括第一词语和第二词语;获取所述第一词语的第一义原集和所述第本文档来自技高网...

【技术保护点】
1.一种词语相似度的计算方法,其特征在于,所述方法包括:获取训练文本的训练义原集合,所述训练文本中包括第一词语和第二词语;获取所述第一词语的第一义原集和所述第二词语的第二义原集;根据所述训练义原集合、所述第一义原集和所述第二义原集,确定所述第一词语的第一初始词向量和所述第二词语的第二初始词向量;将所述第一初始词向量作为词向量模型的输入,得到输出的与所述第一词语对应的第一目标词向量;将所述第二初始词向量作为所述词向量模型的输入,得到输出的与所述第二词语对应的第二目标词向量;根据所述第一目标词向量和所述第二目标词向量,确定所述第一词语和所述第二词语的词语相似度。

【技术特征摘要】
1.一种词语相似度的计算方法,其特征在于,所述方法包括:获取训练文本的训练义原集合,所述训练文本中包括第一词语和第二词语;获取所述第一词语的第一义原集和所述第二词语的第二义原集;根据所述训练义原集合、所述第一义原集和所述第二义原集,确定所述第一词语的第一初始词向量和所述第二词语的第二初始词向量;将所述第一初始词向量作为词向量模型的输入,得到输出的与所述第一词语对应的第一目标词向量;将所述第二初始词向量作为所述词向量模型的输入,得到输出的与所述第二词语对应的第二目标词向量;根据所述第一目标词向量和所述第二目标词向量,确定所述第一词语和所述第二词语的词语相似度。2.如权利要求1所述的方法,其特征在于,所述根据所述训练义原集合、所述第一义原集和所述第二义原集,确定所述第一词语的第一初始词向量和所述第二词语的第二初始词向量,包括:根据所述第一义原集和所述第二义原集中每个义原在所述训练义原集合中的位置,确定所述第一义原集和所述第二义原集中每个义原的义原向量;根据所述第一义原集中每个义原的义原向量确定所述第一词语的第一初始词向量;根据所述第二义原集中每个义原的义原向量确定所述第二词语的第二初始词向量。3.如权利要求2所述的方法,其特征在于,所述根据所述第一义原集中每个义原的义原向量确定所述第一词语的第一初始词向量,包括:获取所述第一义原集中的义原数目;计算所述第一义原集中各个义原向量之和,得到义原和向量;根据所述义原数目和所述义原和向量计算得到所述第一词语的第一初始词向量;所述根据所述第二义原集中每个义原的义原向量确定所述第二词语的第二初始词向量,包括:获取所述第二义原集中的义原数目;计算所述第二义原集中各个义原向量之和,得到义原和向量;根据所述义原数目和所述义原和向量计算得到所述第二词语的第二初始词向量。4.如权利要求1所述的方法,其特征在于,所述词向量模型包括输入层、隐层和输出层,所述第一目标词向量或所述第二目标词向量是通过输出层的哈夫曼树得到的。5.如权利要求1至4任一项所述的方法,其特征在于,所述根据所述第一目标词向量和所述第二...

【专利技术属性】
技术研发人员:黄妍仪覃剑鸿莫可京孙炜姜佰胜熊浩敏陈磊
申请(专利权)人:深圳市中农易讯信息技术有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1