一种获取词语相关度的方法及装置制造方法及图纸

技术编号:19646982 阅读:20 留言:0更新日期:2018-12-05 20:30
本发明专利技术提供一种获取词语相关度的方法及装置,涉及通信领域。该获取词语相关度的方法包括:构建基于同义词词林的词向量集合,其中所述同义词词林中记录了预定词语和所述预定词语的标识编码集;根据所述同义词词林,分别获取第一目标词语的第一标识编码集和第二目标词语的第二标识编码集;根据所述第一标识编码集、所述第二标识编码集和所述词向量集合,获得所述第一目标词语和所述第二目标词语的目标相关度。本发明专利技术的方案,解决了现有的语义相关度计算方法,对于同义词、低频同现词和一词多义的情况下,会出现相关度计算结果不准确的问题。

A Method and Device for Obtaining Word Relevance Degree

The invention provides a method and a device for acquiring word correlation degree, which relates to the field of communication. The method for obtaining word correlation includes: constructing a set of word vectors based on a synonym forest, in which the pre-determined words and the pre-determined words'identification codes are recorded; and according to the synonym forest, the first identification codes of the first target word and the second target word are obtained, respectively. Identification coding set; according to the first identification coding set, the second identification coding set and the set of word vectors, the target correlation degree of the first target word and the second target word is obtained. The scheme of the present invention solves the problem of inaccurate calculation results of the semantic correlation degree when synonyms, low-frequency co-occurrences and polysemy are used.

【技术实现步骤摘要】
一种获取词语相关度的方法及装置
本专利技术涉及通信领域,特别是指一种获取词语相关度的方法及装置。
技术介绍
计算机和互联网技术的飞速发展使得网络上的数据资源呈指数级增长,这些数据信息对于计算机来说非常难于理解和应用,而人们又希望从中迅速有效地获取所需要的信息,所以对信息的智能、自动化的处理需求越来越迫切,这些自动处理的核心问题之一是语义相关度计算问题。语义相关度是表示两个词语相关程度的一个概念,它反映的是词语的关联程度。和语义相关度相对应的是语义相似度,表示各概念间的相似程度,即两个概念本身之间具有某些共同特性。例如,汽车和自行车都继承于车这个概念,即具有车这个概念的共同特性。所以,汽车和自行车两个概念是相似的。而汽车和汽油两个概念并没有共同的父概念,但两个概念却有紧密联系,是相关的。因此语义相关度在范围上包含语义相似度,两个概念之间相似,则一定相关;两个概念相关,却不一定相似。语义相关度计算作为自然语言处理领域的重要研究方向,是语义网、信息检索、数据挖掘、信息集成、知识管理、文本分类、词义消歧、基于实例的机器翻译等多种自然语言处理技术的重要基础,因此语义相关度的研究具有很重要的意义。目前,语义相关性计算方面的研究主要为基于词向量模型的语义相关度计算方法。基于词向量模型的语义相关度计算方法,通过对语料库(如wiki语料库、Google语料库和Sogou语料库等)进行分词,然后结合词语的邻域利用深度学习算法为每个分词后的词语训练一个固定维数的实向量,然后利用向量之间的余弦距离作为词汇之间相关度的衡量标准。其中词向量模型中,最为知名的是word2vec模型。word2vec是Google推出的一款基于DeepLearning的开源的学习工具。word2vec通过在给定语料库上训练一个模型,将单词转换成向量形式的工具。词向量具有良好的语义特性,是表示词语特征的常用方式。词向量每一维的值代表一个具有一定的语义和语法上解释的特征。通过词向量训练,可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上词与词之间的相关度,来表示词语语义上的相关度。word2vec常用的训练模型为连续词袋CBOW。CBOW基于神经网络模型,包含输入层、投影层和输出层,通过上下文来预测当前词。然而,基于word2vec词向量模型的语义相关度计算方法,对于同义词、低频同现词和一词多义的情况下,会出现相关度计算结果不准确的问题,如下表1、表2和表3所示。表1词1词2人为评分(0-10)word2vec(0-1)西红柿番茄9.50.592西红柿黄瓜8.00.850番茄黄瓜7.50.507表1中的“西红柿”和“番茄”为同义词,但是两个词在模型中有不同的词向量。而且SimVec(西红柿,番茄)<SimVec(西红柿,黄瓜),说明黄瓜比番茄和西红柿的相关度更大,这和人主观的相关性判断存在明显分歧。表2词1词2人为评分(0-10)word2vec(0-1)旅行宾馆80.057钱金融7.70.120医生责任8.80.035疾病医院8.30.176由于word2vec在训练过程中,一个词的词向量只受邻域窗口范围内的词的影响,因此窗口外的词对于词向量的影响非常小,因此造成一个词与窗口外的词语相关性相对人为判断较低。另外受语言表达习惯的影响,表达同一意思的不同词语,有些被频繁使用,有些则使用频率较低。因此虽然表达的意思相同,但出现频率高的词和其它词的相关度相对出现频率低的词与其它词的相关度更高。表2中给出了低频同现词的相关度计算实例,和人为评分相比,明显偏小。表3词1词2人为评分(0-10)word2vec(0-1)骄傲自负8.50.490骄傲光荣7.50.400表3中“骄傲”一词拥有正面和负面两个意思,当“骄傲”在语料库中的邻域为正面词汇时,词向量会向这些正面词汇靠近。当“骄傲”在语料库中的邻域为负面词汇时,词向量又往负面词汇靠近。最终“骄傲”的词向量所在的空间位置是多个词义下的一个折中,因此相关度的计算结果相对认为评分存在偏差。
技术实现思路
本专利技术的目的是提供一种获取词语相关度的方法及装置,以解决现有的语义相关度计算方法,对于同义词、低频同现词和一词多义的情况下,会出现相关度计算结果不准确的问题。为达到上述目的,本专利技术的实施例提供一种获取词语相关度的方法,包括:构建基于同义词词林的词向量集合,其中所述同义词词林中记录了预定词语和所述预定词语的标识编码集;根据所述同义词词林,分别获取第一目标词语的第一标识编码集和第二目标词语的第二标识编码集;根据所述第一标识编码集、所述第二标识编码集和所述词向量集合,获得所述第一目标词语和所述第二目标词语的目标相关度。其中,所述构建基于同义词词林的词向量集合的步骤,包括:依次选择语料库中的词语作为待处理词语;在所述待处理词语为所述同义词词林中的预定词语时,获取所述待处理词语的第三标识编码集;根据所述第三标识编码集以及所述待处理词语在所述语料库的位置,确定所述待处理词语的当前语义编码,并记录在所述语料库中;根据所述语料库中所有词语的当前语义编码,进行预定词向量模型训练,得到所述词向量集合。其中,所述根据所述第三标识编码集以及所述待处理词语在所述语料库的位置,确定所述待处理词语的当前语义编码,并记录在所述语料库中的步骤,包括:根据所述待处理词语在所述语料库的位置,获取与所述待处理词语相邻的、预设数量的相邻词语,得到相邻词语集U;其中,U={U1,U2,……,Uw},w为所述预设数量;根据所述第三标识编码集和所述相邻词语集,获取每个相邻词语分别与所述待处理词语的每个同义词语之间的语义相关度,并将对应同一同义词语的语义相关度求和取平均值,确定最大平均值所对应的同义词语的编码为当前语义编码;将所述当前语义编码和所述待处理词语组合后,替换所述语料库中的所述待处理词语。其中,所述根据所述第三标识编码集和所述相邻词语集,获取每个相邻词语分别与所述待处理词语的每个同义词语之间的语义相关度,并将对应同一同义词语的语义相关度求和取平均值,确定最大平均值所对应的同义词语的编码为当前语义编码的步骤,包括:根据公式以及获得所述待处理词语的当前语义编码D;其中,S={D1,D2,……,Dk},S为所述第三标识编码集,k为所述第三标识编码集中标识编码的个数,Di为所述第三标识编码集中第i个标识编码,为所述第三标识编码集中第i个标识编码所对应的第h个词语,nk为所述第三标识编码集中第i个标识编码所对应的词语的个数,Uj为所述相邻词语集中第j个词语,为计算是否为单义词的函数。其中,根据所述第一标识编码集、所述第二标识编码集和所述词向量集合,获得所述第一目标词语和所述第二目标词语的目标相关度的步骤,包括:根据所述第一标识编码集,确定所述第一目标词语的第一同义词词语集;根据所述第二标识编码集,确定所述第二目标词语的第二同义词词语集;根据所述词向量集合,分别计算所述第一目标词语与所述第二同义词词语集中各个词语的语义相关度,所述第二目标词语与所述第一同义词词语集中各个词语的语义相关度,以及所述第一目标词语与所述第二目标词语的语义相关度;选取得到的最大语义相关度作为所述第一目标词语和所述第二目标词语的目标相关度。为达到上述目的,本发本文档来自技高网
...

【技术保护点】
1.一种获取词语相关度的方法,其特征在于,包括:构建基于同义词词林的词向量集合,其中所述同义词词林中记录了预定词语和所述预定词语的标识编码集;根据所述同义词词林,分别获取第一目标词语的第一标识编码集和第二目标词语的第二标识编码集;根据所述第一标识编码集、所述第二标识编码集和所述词向量集合,获得所述第一目标词语和所述第二目标词语的目标相关度。

【技术特征摘要】
1.一种获取词语相关度的方法,其特征在于,包括:构建基于同义词词林的词向量集合,其中所述同义词词林中记录了预定词语和所述预定词语的标识编码集;根据所述同义词词林,分别获取第一目标词语的第一标识编码集和第二目标词语的第二标识编码集;根据所述第一标识编码集、所述第二标识编码集和所述词向量集合,获得所述第一目标词语和所述第二目标词语的目标相关度。2.根据权利要求1所述的获取词语相关度的方法,其特征在于,所述构建基于同义词词林的词向量集合的步骤,包括:依次选择语料库中的词语作为待处理词语;在所述待处理词语为所述同义词词林中的预定词语时,获取所述待处理词语的第三标识编码集;根据所述第三标识编码集以及所述待处理词语在所述语料库的位置,确定所述待处理词语的当前语义编码,并记录在所述语料库中;根据所述语料库中所有词语的当前语义编码,进行预定词向量模型训练,得到所述词向量集合。3.根据权利要求2所述的获取词语相关度的方法,其特征在于,所述根据所述第三标识编码集以及所述待处理词语在所述语料库的位置,确定所述待处理词语的当前语义编码,并记录在所述语料库中的步骤,包括:根据所述待处理词语在所述语料库的位置,获取与所述待处理词语相邻的、预设数量的相邻词语,得到相邻词语集U;其中,U={U1,U2,……,Uw},w为所述预设数量;根据所述第三标识编码集和所述相邻词语集,获取每个相邻词语分别与所述待处理词语的每个同义词语之间的语义相关度,并将对应同一同义词语的语义相关度求和取平均值,确定最大平均值所对应的同义词语的编码为当前语义编码;将所述当前语义编码和所述待处理词语组合后,替换所述语料库中的所述待处理词语。4.根据权利要求3所述的获取词语相关度的方法,其特征在于,所述根据所述第三标识编码集和所述相邻词语集,获取每个相邻词语分别与所述待处理词语的每个同义词语之间的语义相关度,并将对应同一同义词语的语义相关度求和取平均值,确定最大平均值所对应的同义词语的编码为当前语义编码的步骤,包括:根据公式以及获得所述待处理词语的当前语义编码D;其中,S={D1,D2,……,Dk},S为所述第三标识编码集,k为所述第三标识编码集中标识编码的个数,Di为所述第三标识编码集中第i个标识编码,为所述第三标识编码集中第i个标识编码所对应的第h个词语,nk为所述第三标识编码集中第i个标识编码所对应的词语的个数,Uj为所述相邻词语集中第j个词语,为计算是否为单义词的函数。5.根据权利要求1所述的获取词语相关度的方法,其特征在于,根据所述第一标识编码集、所述第二标识编码集和所述词向量集合,获得所述第一目标词语和所述第二目标词语的目标相关度的步骤,包括:根据所述第一标识编码集,确定所述第一目标词语的第一同义词词语集;根据所述第二标识编码集,确定所述第二目标词语的第二同义词词语集;根据所述词向量集合,分别计算所述第一目标词语与所述第二同义词词语集中各个词语的语义相关度,所述第二目标词语与所述第一同义词词语集中各个词语的语义相关度,以及所述第一目标词语...

【专利技术属性】
技术研发人员:李小涛游树娟
申请(专利权)人:中国移动通信有限公司研究院中国移动通信集团公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1