一种基于Word2Vec模型的WordNet中词语相似度计算方法技术

技术编号:23853129 阅读:60 留言:0更新日期:2020-04-18 09:41
本发明专利技术公开了一种基于Word2Vec模型的WordNet中词语相似度计算方法,该相似度计算方法先从WordNet名词数据集data.noun中提取标号集,然后使用Word2Vec模型训练提取的标号集,然后使用Word2Vec模型从训练过的标号集中提取计算用单词对所对应的标号,然后基于提取的计算用单词对所对应的标号生成标号的词向量,最后基于该词向量计算词语的相似度。该相似度计算方法能够高效准确地计算词语相似度,受人的主观影响比较小,能很好地反映客观事实。

A word similarity calculation method in WordNet based on word2vec model

【技术实现步骤摘要】
一种基于Word2Vec模型的WordNet中词语相似度计算方法
本专利技术属于词语相似度计算
,具体涉及一种基于Word2Vec模型的WordNet中词语相似度计算方法。
技术介绍
随着信息科技的快速发展,自然语言处理技术变得越来越重要。词语相似度作为自然语言处理技术中的一项基本工作发挥着不可或缺的作用,它用来反映一对词语的相似程度。计算词语相似度有着广阔的应用空间,在信息提取、文本聚类、机器翻译和语义消歧等方面都举足轻重。Word2Vec模型是一种具有简单神经网络的深度学习工具。计算机不能识别自然语言,只能把自然语言数学化。Word2Vec模型使文本语料库中的词语经过训练转化到向量空间中,让每个单词都转化为一个K维的稠密词向量,计算机就可以识别数字形式的词向量进行后续的工作。训练完成后,如果生成的词在向量空间中离得近,就意味着这两个词语语义相似、词向量相关,通过词向量就能获取文本单词之间的一些关系形式。Word2Vec模型中用到了两种重要模型,分别是CBOW模型和Skip-gram模型,还利用了两种用来提高训练性能的关键技术:HierarchicalSoftmax和NegativeSampling。WordNet作为一种研究词语相似度常用的语义词典,在自然语言处理中的应用非常广泛,它最显著的特点就是根据英语单词之间的语义信息来组织排列单词。WordNet的基本概念为同义词集,同义词集相当于一个将语义相同的单词放在一组内的单词集合,每个同义词集都有一个唯一的标号,标号则对应着这个同义词集的语义。WordNet作为一种词语相似度计算中常用的语义词典,它最显著的特点就是根据英语单词之间的语义信息来组织排列单词。如果一个词有多重语义,那么它将会被按照语义放置在语义所属的同义词集中,同义词集之间也由多种关系连接,比如上下位关系、同反义关系、整体部分关系等。该词典把词主要分为名词、动词、形容词和副词等几大类,并将相同词性的词放在一起,也正是由于同义词集之间的连接关系,每个词类内部都形成了一个同义词汇语义网,在语义网中,同义词集处于不同的层次中,根据相互之间的关系上下连接。目前,针对WordNet中的词语相似度的计算方法主要有以下三种:1、从WordNet同义词集中提取同义词后,在同义词的基础上运用向量空间方法计算词语相似度;2、考虑WordNet同义词集中词语的上下位关系和距离、深度、密度这三个因素来计算词语相似度;3、考察WordNet词义网密度、节点深度、链接类型等因素计算词语相似度。在上述以WordNet为语义词典的词语相似度的研究中,是根据从WordNet中提取同义词或者根据同义词集中词语的语义关系、距离等因素计算词语相似度的,虽然可以弥补数据稀疏的问题,但这种方法受人的主观影响比较大,不能很好地反映客观事实。
技术实现思路
为解决现有技术存在的上述问题,本专利技术提出了一种基于Word2Vec模型的WordNet中词语相似度计算方法,该相似度计算方法能够高效、准确地计算WordNet中的词语相似度,其计算结果更符合客观事实。本专利技术采取如下技术方案来实现:一种相似度计算方法,该计算方法用于计算WordNet中词语的相似度,其特征在于,所述计算方法包括如下步骤:步骤1:从WordNet名词数据集data.noun中提取标号集;步骤2:使用Word2Vec模型训练上述步骤1中提取的所述标号集;步骤3:选取计算用单词对,使用Word2Vec模型从经上述步骤2训练过的所述标号集中提取该计算用单词对所对应的标号;步骤4:基于上述步骤3中提取的所述计算用单词对所对应的标号,使用Word2Vec模型生成标号的词向量;步骤5:基于上述步骤4中所生成的所述词向量,使用Word2Vec模型计算词语的相似度。进一步地,所述WordNet名词数据集data.noun包含多个原始数据行,每个所述原始数据行对应一同义词集,每个所述原始数据行的具体形式为{a1b1c1d1c2e1c2e2},其中,a1为头标号,b1为第一同义词集,c1为与第一同义词集b1有上位关系的关系符号表示,d1为上位词集标号,c2为与第一同义词集b1有下位关系的关系符号表示,e1、e2均为下位词集标号。进一步地,所述步骤1进一步包括如下步骤:步骤1.1:针对所述多个原始数据行中的一个原始数据行进行提取,依次提取该一个原始数据行的头标号a1、上位词集标号d1、下位词集标号e1及下位词集标号e2;步骤1.2:将上述步骤1.1中提取的各标号汇集在一起,获得中间数据行{a1d1e1e2};步骤1.3:对上述步骤1.2中获得的所述中间数据行{a1d1e1e2}进行如此处理:除头标号a1外,在上位词集标号d1、下位词集标号e1及下位词集标号e2的后面均插入一头标号a1,得到一标号集数据行{a1d1a1e1a1e2a1};步骤1.4:针对所述多个原始数据行中的其余原始数据行重复上述步骤1.1至步骤1.3,分别得到其各自对应的一标号集数据行{a1d1a1e1a1e2a1},最终,共获得多个标号集数据行;步骤1.5:将上述步骤1.4中最终获得的所述多个标号集数据行汇集在一起,获得所述标号集。或者,所述步骤1进一步包括如下步骤:步骤1.1:针对所述多个原始数据行中的一个原始数据行进行提取,依次提取该一个原始数据行的头标号a1、上位词集标号d1、下位词集标号e1及下位词集标号e2;步骤1.2:将上述步骤1.1中提取的各标号汇集在一起,获得中间数据行{a1d1e1e2};步骤1.3:对上述步骤1.2中获得的所述中间数据行{a1d1e1e2}进行如此处理:分别以上位词集标号d1、下位词集标号e1及下位词集标号e2为中心,在上位词集标号d1的前后位置均插入一头标号a1,分别在下位词集标号e1及下位词集标号e2的前面插入一标号串,该标号串为一头标号a1和所有上位词集标号d1组成的标号串{a1d1},且分别在下位词集标号e1及下位词集标号e2的后面插入前述标号串{a1d1}的倒序排列形式的标号串{d1a1},得到一标号集数据行{a1d1a1a1d1e1d1a1a1d1e2d1a1};步骤1.4:针对所述多个原始数据行中的其余原始数据行重复上述步骤1.1至步骤1.3,分别得到其各自对应的一标号集数据行{a1d1a1a1d1e1d1a1a1d1e2d1a1},最终,共获得多个标号集数据行;步骤1.5:将上述步骤1.4中最终获得的所述多个标号集数据行汇集在一起,获得所述标号集。特别地,对于包含m个上位词集标号d1......dm的中间数据行而言,在所述步骤1.3中,需在每个上位词集标号d1......dm的前后位置均插入一头标号a1,并进而在每个下位词集标号的前后位置分别插入标号串{a1d1......dm}以及该标号串{a1d1......dm}的倒序排列形式的标号串{dm......d1a1},其中,m为大于零的整数。进一步地,在所述步骤1.2中,训练时,将Word2Vec模型要训练出来的词向量本文档来自技高网
...

【技术保护点】
1.一种相似度计算方法,该计算方法用于计算WordNet中词语的相似度,其特征在于,所述计算方法包括如下步骤:/n步骤1:从WordNet名词数据集data.noun中提取标号集;/n步骤2:使用Word2Vec模型训练上述步骤1中提取的所述标号集;/n步骤3:选取计算用单词对,使用Word2Vec模型从经上述步骤2训练过的所述标号集中提取该计算用单词对所对应的标号;/n步骤4:基于上述步骤3中提取的所述计算用单词对所对应的标号,使用Word2Vec模型生成标号的词向量;/n步骤5:基于上述步骤4中所生成的所述词向量,使用Word2Vec模型计算词语的相似度。/n

【技术特征摘要】
1.一种相似度计算方法,该计算方法用于计算WordNet中词语的相似度,其特征在于,所述计算方法包括如下步骤:
步骤1:从WordNet名词数据集data.noun中提取标号集;
步骤2:使用Word2Vec模型训练上述步骤1中提取的所述标号集;
步骤3:选取计算用单词对,使用Word2Vec模型从经上述步骤2训练过的所述标号集中提取该计算用单词对所对应的标号;
步骤4:基于上述步骤3中提取的所述计算用单词对所对应的标号,使用Word2Vec模型生成标号的词向量;
步骤5:基于上述步骤4中所生成的所述词向量,使用Word2Vec模型计算词语的相似度。


2.根据权利要求1所述的相似度计算方法,其特征在于,所述WordNet名词数据集data.noun包含多个原始数据行,每个所述原始数据行对应一同义词集,每个所述原始数据行的具体形式为{a1b1c1d1c2e1c2e2},其中,a1为头标号,b1为第一同义词集,c1为与第一同义词集b1有上位关系的关系符号表示,d1为上位词集标号,c2为与第一同义词集b1有下位关系的关系符号表示,e1、e2均为下位词集标号。


3.根据权利要求2所述的相似度计算方法,其特征在于,所述步骤1进一步包括如下步骤:
步骤1.1:针对所述多个原始数据行中的一个原始数据行进行提取,依次提取该一个原始数据行的头标号a1、上位词集标号d1、下位词集标号e1及下位词集标号e2;
步骤1.2:将上述步骤1.1中提取的各标号汇集在一起,获得中间数据行{a1d1e1e2};
步骤1.3:对上述步骤1.2中获得的所述中间数据行{a1d1e1e2}进行如此处理:除头标号a1外,在上位词集标号d1、下位词集标号e1及下位词集标号e2的后面均插入一头标号a1,得到一标号集数据行{a1d1a1e1a1e2a1};
步骤1.4:针对所述多个原始数据行中的其余原始数据行重复上述步骤1.1至步骤1.3,分别得到其各自对应的一标号集数据行{a1d1a1e1a1e2a1},最终,共获得多个标号集数据行;
步骤1.5:将上述步骤1.4中最终获得的所述多个标号集数据行汇集在一起,获得所述标号集。


4.根据权利要求2所述的相似度计算方法,其特征在于,所述步骤1进一步包括如下步骤:
步骤1.1:针对所述多个原始数据行中的一个原始数据行进行提取,依次提取该一个原始数据行的头标号a1、上位词集标号d1、下位词集标号e1及下位词集标号e2;
步骤1.2:将上述步骤1.1中提取的各标号汇集在一起,获得中间数据行{a1d1e1e2};
步骤1.3:对上述步骤1....

【专利技术属性】
技术研发人员:王艳娜周子力张景虎陈丹华王凯莉李天宇赵晓函
申请(专利权)人:曲阜师范大学
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1