一种语义相关度的确定方法及确定装置制造方法及图纸

技术编号:19177199 阅读:23 留言:0更新日期:2018-10-17 00:20
本发明专利技术公开了一种语义相关度的确定方法及确定装置,该确定方法将word2vec训练模型与同义词词林相结合,通过同义词词林获取一个词的单义词,再基于word2vec的余弦语义相关度计算规则确定两个词语之间的语义相关度,而没有利用同义词词林的语义相关度计算规则,所以该确定方法不仅充分考虑了词语在上下文语境中的语义信息,还有效地解决了同义词、多义词、非邻域词之间的语义相关度计算不准确的问题,大大地提高了各词语之间语义相关度的计算准确性。

A method for determining Semantic Relevancy and determining device

The invention discloses a method for determining the semantic correlation and a device for determining the semantic correlation. The method combines the word 2vec training model with the synonym word forest, obtains a single word from the synonym word forest, and then determines the semantic correlation between two words based on the cosine semantic correlation calculation rule of word 2vec, without any semantic correlation. This method not only takes full account of the semantic information of words in context, but also effectively solves the problem of inaccurate calculation of semantic correlation among synonyms, polysemous words and non-neighboring words, and greatly improves the semantic correlation between words. The accuracy of calculation.

【技术实现步骤摘要】
一种语义相关度的确定方法及确定装置
本专利技术涉及数据业务领域,尤指一种语义相关度的确定方法及确定装置。
技术介绍
计算机和互联网技术的飞速发展,使得网络上的数据信息呈指数级增长,而这些数据信息对于计算机来说是非常难于理解和应用的,为了能够从大量数据信息中迅速有效地获取所需要的数据信息,就需要对数据信息进行智能自动化处理,其中,最核心问题就是语义相关度的计算;语义相关度,是从定量的角度对语义信息之间的相关度进行衡量,是自然语言处理领域的重要研究方向。目前,关于语义相关度的计算方法主要分为三大类:基于词典的方法、基于大规模语料库的方法、以及基于同义词林的方法;其中,基于词典的方法主要是借助于结构化的词典来计算词与词之间的语义相关度,但构建一个结构合理的词典需要丰富的专业知识和大量的标注数据,费时费力,同时,结构化的词典仅描述了词语本身之间的相关性,却忽略了上下文语境的相关信息,使得语义相关度计算结果的准确性较低;基于大规模语料库的方法,虽然考虑了上下文语境的相关信息,但在词向量的训练过程中无法区分同义词和多义词,对于具有同义词、多义词以及对非邻域内的相关词汇的相关度的计算准确率较低;基于同义词林的方法,是以哈工大同义词词林为基础的,虽然该方法对同义词和近义词的语义相似度具有很好的表达,但其忽略了词语的上下文语境的相关信息,使得很多词汇的语义相关度计算结果不符合人们对语义相关的理解和度量。基于此,如何提高词语之间语义相关度的计算准确率,在既能充分考虑上下文语境的相关信息的同时,又能很好地区分同义词和多义词,是本领域技术人员亟待解决的技术问题。
技术实现思路
本专利技术实施例提供了一种语义相关度的确定方法及确定装置,用以解决现有技术中如何提高词语之间语义相关度的计算准确率,在既能充分考虑上下文语境的相关信息的同时,又能很好地区分同义词和多义词的问题。本专利技术实施例提供了一种语义相关度的确定方法,包括:在预先采用词向量word2vec训练模型训练获得的词向量中选取第一词语与第二词语,并分别确定所述第一词语与所述第二词语的向量;确定所述第一词语的向量与所述第二词语的向量之间的第一余弦语义相关度;在确定在所述第一词语与所述第二词语中至少有一个属于预设的同义词词林时,确定所述第一词语或所述第二词语属于所述同义词词林且属于所述词向量的单义词的向量与所述第二词语或所述第一词语的向量之间的第二余弦语义相关度;将所述第二余弦语义相关度与所述第一余弦语义相关度中的最大值作为所述第一词语与所述第二词语之间的语义相关度;在确定所述第一词语与所述第二词语均不属于所述同义词词林时,将确定出的所述第一词语的向量与所述第二词语的向量之间的第一余弦语义相关度作为所述第一词语与所述第二词语之间的语义相关度。在一种可能的实施方式中,在本专利技术实施例提供的上述确定方法中,还包括:获取中文语料库;对获取到的所述中文语料库进行中文分词处理;采用所述word2vec训练模型对中文分词处理后的所述中文语料库进行训练,得到与所述中文语料库对应的词向量。在一种可能的实施方式中,在本专利技术实施例提供的上述确定方法中,所述中文语料库为维基百科中文语料库,在所述对获取到的所述中文语料库进行中文分词处理之前,还包括:对获取到的所述维基百科中文语料库进行格式转换;将格式转换后的所述维基百科中文语料库中的繁体字转换为简体字。在一种可能的实施方式中,在本专利技术实施例提供的上述确定方法中,所述确定所述第一词语或所述第二词语属于所述同义词词林且属于所述词向量的单义词的向量与所述第二词语或所述第一词语的向量之间的第二余弦语义相关度,具体包括:确定所述第一词语或所述第二词语在所述同义词词林中具有特定结尾的编码组成的编码集合;在所述同义词词林中根据预设的词语与编码的对应关系,确定与所述编码集合对应的词语集合;按照预设的单义词确定规则,确定所述词语集合对应的单义词集合,并确定属于所述词向量的所述单义词的向量;确定属于所述词向量的所述单义词的向量与所述第二词语或所述第一词语的向量之间的第二余弦语义相关度。在一种可能的实施方式中,在本专利技术实施例提供的上述确定方法中,所述确定所述第一词语或所述第二词语在所述同义词词林中具有特定结尾的编码组成的编码集合,具体包括:确定所述第一词语或所述第二词语在所述同义词词林中结尾为等号或@的编码组成的编码集合。在一种可能的实施方式中,在本专利技术实施例提供的上述确定方法中,所述按照预设的单义词确定规则,确定所述词语集合对应的单义词集合,具体包括:将所述词语集合中仅与一个编码对应的词语作为单义词,组成所述词语集合对应的单义词集合。本专利技术实施例还提供了一种语义相关度的确定装置,包括:向量确定模块,用于在预先采用词向量word2vec训练模型训练获得的词向量中选取第一词语与第二词语,并分别确定所述第一词语与所述第二词语的向量;第一确定模块,用于确定所述第一词语的向量与所述第二词语的向量之间的第一余弦语义相关度;第二确定模块,用于在确定在所述第一词语与所述第二词语中至少有一个属于预设的同义词词林时,确定所述第一词语或所述第二词语属于所述同义词词林且属于所述词向量的单义词的向量与所述第二词语或所述第一词语的向量之间的第二余弦语义相关度;将所述第二余弦语义相关度与所述第一余弦语义相关度中的最大值作为所述第一词语与所述第二词语之间的语义相关度;第三确定模块,用于在确定所述第一词语与所述第二词语均不属于所述同义词词林时,将确定出的所述第一词语的向量与所述第二词语的向量之间的第一余弦语义相关度作为所述第一词语与所述第二词语之间的语义相关度。在一种可能的实施方式中,在本专利技术实施例提供的上述确定装置中,还包括:获取模块,用于获取中文语料库;分词处理模块,用于对获取到的所述中文语料库进行中文分词处理;训练模块,用于采用所述word2vec训练模型对中文分词处理后的所述中文语料库进行训练,得到与所述中文语料库对应的词向量。在一种可能的实施方式中,在本专利技术实施例提供的上述确定装置中,所述中文语料库为维基百科中文语料库,还包括:格式转换模块,用于对获取到的所述维基百科中文语料库进行格式转换;字体处理模块,用于将格式转换后的所述维基百科中文语料库中的繁体字转换为简体字。在一种可能的实施方式中,在本专利技术实施例提供的上述确定装置中,所述第二确定模块具体用于确定所述第一词语或所述第二词语在所述同义词词林中具有特定结尾的编码组成的编码集合;在所述同义词词林中根据预设的词语与编码的对应关系,确定与所述编码集合对应的词语集合;按照预设的单义词确定规则,确定所述词语集合对应的单义词集合,并确定属于所述词向量的所述单义词的向量;确定属于所述词向量的所述单义词的向量与所述第二词语或所述第一词语的向量之间的第二余弦语义相关度。在一种可能的实施方式中,在本专利技术实施例提供的上述确定装置中,所述第二确定模块具体用于确定所述第一词语或所述第二词语在所述同义词词林中结尾为等号或@的编码组成的编码集合。在一种可能的实施方式中,在本专利技术实施例提供的上述确定装置中,所述第二确定模块具体用于将所述词语集合中仅与一个编码对应的词语作为单义词,组成所述词语集合对应的单义词集合。本专利技术有益效果如下:本专利技术实施例提供的一种语义相关度的确定方本文档来自技高网...

【技术保护点】
1.一种语义相关度的确定方法,其特征在于,包括:在预先采用词向量word2vec训练模型训练获得的词向量中选取第一词语与第二词语,并分别确定所述第一词语与所述第二词语的向量;确定所述第一词语的向量与所述第二词语的向量之间的第一余弦语义相关度;在确定在所述第一词语与所述第二词语中至少有一个属于预设的同义词词林时,确定所述第一词语或所述第二词语属于所述同义词词林且属于所述词向量的单义词的向量与所述第二词语或所述第一词语的向量之间的第二余弦语义相关度;将所述第二余弦语义相关度与所述第一余弦语义相关度中的最大值作为所述第一词语与所述第二词语之间的语义相关度;在确定所述第一词语与所述第二词语均不属于所述同义词词林时,将确定出的所述第一词语的向量与所述第二词语的向量之间的第一余弦语义相关度作为所述第一词语与所述第二词语之间的语义相关度。

【技术特征摘要】
1.一种语义相关度的确定方法,其特征在于,包括:在预先采用词向量word2vec训练模型训练获得的词向量中选取第一词语与第二词语,并分别确定所述第一词语与所述第二词语的向量;确定所述第一词语的向量与所述第二词语的向量之间的第一余弦语义相关度;在确定在所述第一词语与所述第二词语中至少有一个属于预设的同义词词林时,确定所述第一词语或所述第二词语属于所述同义词词林且属于所述词向量的单义词的向量与所述第二词语或所述第一词语的向量之间的第二余弦语义相关度;将所述第二余弦语义相关度与所述第一余弦语义相关度中的最大值作为所述第一词语与所述第二词语之间的语义相关度;在确定所述第一词语与所述第二词语均不属于所述同义词词林时,将确定出的所述第一词语的向量与所述第二词语的向量之间的第一余弦语义相关度作为所述第一词语与所述第二词语之间的语义相关度。2.如权利要求1所述的确定方法,其特征在于,还包括:获取中文语料库;对获取到的所述中文语料库进行中文分词处理;采用所述word2vec训练模型对中文分词处理后的所述中文语料库进行训练,得到与所述中文语料库对应的词向量。3.如权利要求2所述的确定方法,其特征在于,所述中文语料库为维基百科中文语料库,在所述对获取到的所述中文语料库进行中文分词处理之前,还包括:对获取到的所述维基百科中文语料库进行格式转换;将格式转换后的所述维基百科中文语料库中的繁体字转换为简体字。4.如权利要求1所述的确定方法,其特征在于,所述确定所述第一词语或所述第二词语属于所述同义词词林且属于所述词向量的单义词的向量与所述第二词语或所述第一词语的向量之间的第二余弦语义相关度,具体包括:确定所述第一词语或所述第二词语在所述同义词词林中具有特定结尾的编码组成的编码集合;在所述同义词词林中根据预设的词语与编码的对应关系,确定与所述编码集合对应的词语集合;按照预设的单义词确定规则,确定所述词语集合对应的单义词集合,并确定属于所述词向量的所述单义词的向量;确定属于所述词向量的所述单义词的向量与所述第二词语或所述第一词语的向量之间的第二余弦语义相关度。5.如权利要求4所述的确定方法,其特征在于,所述确定所述第一词语或所述第二词语在所述同义词词林中具有特定结尾的编码组成的编码集合,具体包括:确定所述第一词语或所述第二词语在所述同义词词林中结尾为等号或@的编码组成的编码集合。6.如权利要求4所述的确定方法,其特征在于,所述按照预设的单义词确定规则,确定所述词语集合对应的单义词集合,具体包括:将所述词语集合...

【专利技术属性】
技术研发人员:游树娟李小涛牛亚文
申请(专利权)人:中国移动通信有限公司研究院中国移动通信集团公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1