The invention provides a method and a device for acquiring word correlation degree, which relates to the field of communication. The method for obtaining word correlation includes: constructing a set of word vectors based on a synonym forest, in which the pre-determined words and the pre-determined words'identification codes are recorded; and according to the synonym forest, the first identification codes of the first target word and the second target word are obtained, respectively. Identification coding set; according to the first identification coding set, the second identification coding set and the set of word vectors, the target correlation degree of the first target word and the second target word is obtained. The scheme of the present invention solves the problem of inaccurate calculation results of the semantic correlation degree when synonyms, low-frequency co-occurrences and polysemy are used.
【技术实现步骤摘要】
一种获取词语相关度的方法及装置
本专利技术涉及通信领域,特别是指一种获取词语相关度的方法及装置。
技术介绍
计算机和互联网技术的飞速发展使得网络上的数据资源呈指数级增长,这些数据信息对于计算机来说非常难于理解和应用,而人们又希望从中迅速有效地获取所需要的信息,所以对信息的智能、自动化的处理需求越来越迫切,这些自动处理的核心问题之一是语义相关度计算问题。语义相关度是表示两个词语相关程度的一个概念,它反映的是词语的关联程度。和语义相关度相对应的是语义相似度,表示各概念间的相似程度,即两个概念本身之间具有某些共同特性。例如,汽车和自行车都继承于车这个概念,即具有车这个概念的共同特性。所以,汽车和自行车两个概念是相似的。而汽车和汽油两个概念并没有共同的父概念,但两个概念却有紧密联系,是相关的。因此语义相关度在范围上包含语义相似度,两个概念之间相似,则一定相关;两个概念相关,却不一定相似。语义相关度计算作为自然语言处理领域的重要研究方向,是语义网、信息检索、数据挖掘、信息集成、知识管理、文本分类、词义消歧、基于实例的机器翻译等多种自然语言处理技术的重要基础,因此语义相关度的研究具有很重要的意义。目前,语义相关性计算方面的研究主要为基于词向量模型的语义相关度计算方法。基于词向量模型的语义相关度计算方法,通过对语料库(如wiki语料库、Google语料库和Sogou语料库等)进行分词,然后结合词语的邻域利用深度学习算法为每个分词后的词语训练一个固定维数的实向量,然后利用向量之间的余弦距离作为词汇之间相关度的衡量标准。其中词向量模型中,最为知名的是word2vec模型。w ...
【技术保护点】
1.一种获取词语相关度的方法,其特征在于,包括:构建基于同义词词林的词向量集合,其中所述同义词词林中记录了预定词语和所述预定词语的标识编码集;根据所述同义词词林,分别获取第一目标词语的第一标识编码集和第二目标词语的第二标识编码集;根据所述第一标识编码集、所述第二标识编码集和所述词向量集合,获得所述第一目标词语和所述第二目标词语的目标相关度。
【技术特征摘要】
1.一种获取词语相关度的方法,其特征在于,包括:构建基于同义词词林的词向量集合,其中所述同义词词林中记录了预定词语和所述预定词语的标识编码集;根据所述同义词词林,分别获取第一目标词语的第一标识编码集和第二目标词语的第二标识编码集;根据所述第一标识编码集、所述第二标识编码集和所述词向量集合,获得所述第一目标词语和所述第二目标词语的目标相关度。2.根据权利要求1所述的获取词语相关度的方法,其特征在于,所述构建基于同义词词林的词向量集合的步骤,包括:依次选择语料库中的词语作为待处理词语;在所述待处理词语为所述同义词词林中的预定词语时,获取所述待处理词语的第三标识编码集;根据所述第三标识编码集以及所述待处理词语在所述语料库的位置,确定所述待处理词语的当前语义编码,并记录在所述语料库中;根据所述语料库中所有词语的当前语义编码,进行预定词向量模型训练,得到所述词向量集合。3.根据权利要求2所述的获取词语相关度的方法,其特征在于,所述根据所述第三标识编码集以及所述待处理词语在所述语料库的位置,确定所述待处理词语的当前语义编码,并记录在所述语料库中的步骤,包括:根据所述待处理词语在所述语料库的位置,获取与所述待处理词语相邻的、预设数量的相邻词语,得到相邻词语集U;其中,U={U1,U2,……,Uw},w为所述预设数量;根据所述第三标识编码集和所述相邻词语集,获取每个相邻词语分别与所述待处理词语的每个同义词语之间的语义相关度,并将对应同一同义词语的语义相关度求和取平均值,确定最大平均值所对应的同义词语的编码为当前语义编码;将所述当前语义编码和所述待处理词语组合后,替换所述语料库中的所述待处理词语。4.根据权利要求3所述的获取词语相关度的方法,其特征在于,所述根据所述第三标识编码集和所述相邻词语集,获取每个相邻词语分别与所述待处理词语的每个同义词语之间的语义相关度,并将对应同一同义词语的语义相关度求和取平均值,确定最大平均值所对应的同义词语的编码为当前语义编码的步骤,包括:根据公式以及获得所述待处理词语的当前语义编码D;其中,S={D1,D2,……,Dk},S为所述第三标识编码集,k为所述第三标识编码集中标识编码的个数,Di为所述第三标识编码集中第i个标识编码,为所述第三标识编码集中第i个标识编码所对应的第h个词语,nk为所述第三标识编码集中第i个标识编码所对应的词语的个数,Uj为所述相邻词语集中第j个词语,为计算是否为单义词的函数。5.根据权利要求1所述的获取词语相关度的方法,其特征在于,根据所述第一标识编码集、所述第二标识编码集和所述词向量集合,获得所述第一目标词语和所述第二目标词语的目标相关度的步骤,包括:根据所述第一标识编码集,确定所述第一目标词语的第一同义词词语集;根据所述第二标识编码集,确定所述第二目标词语的第二同义词词语集;根据所述词向量集合,分别计算所述第一目标词语与所述第二同义词词语集中各个词语的语义相关度,所述第二目标词语与所述第一同义词词语集中各个词语的语义相关度,以及所述第一目标词语...
【专利技术属性】
技术研发人员:李小涛,游树娟,
申请(专利权)人:中国移动通信有限公司研究院,中国移动通信集团公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。