一种基于Word2Vec模型的WordNet中词语相似度计算方法技术

技术编号：23853129 阅读：60 留言：0更新日期：2020-04-18 09:41

本发明专利技术公开了一种基于Word2Vec模型的WordNet中词语相似度计算方法，该相似度计算方法先从WordNet名词数据集data.noun中提取标号集，然后使用Word2Vec模型训练提取的标号集，然后使用Word2Vec模型从训练过的标号集中提取计算用单词对所对应的标号，然后基于提取的计算用单词对所对应的标号生成标号的词向量，最后基于该词向量计算词语的相似度。该相似度计算方法能够高效准确地计算词语相似度，受人的主观影响比较小，能很好地反映客观事实。

A word similarity calculation method in WordNet based on word2vec model

全部详细技术资料下载

【技术实现步骤摘要】
一种基于Word2Vec模型的WordNet中词语相似度计算方法
本专利技术属于词语相似度计算
，具体涉及一种基于Word2Vec模型的WordNet中词语相似度计算方法。
技术介绍
随着信息科技的快速发展，自然语言处理技术变得越来越重要。词语相似度作为自然语言处理技术中的一项基本工作发挥着不可或缺的作用，它用来反映一对词语的相似程度。计算词语相似度有着广阔的应用空间，在信息提取、文本聚类、机器翻译和语义消歧等方面都举足轻重。Word2Vec模型是一种具有简单神经网络的深度学习工具。计算机不能识别自然语言，只能把自然语言数学化。Word2Vec模型使文本语料库中的词语经过训练转化到向量空间中，让每个单词都转化为一个K维的稠密词向量，计算机就可以识别数字形式的词向量进行后续的工作。训练完成后，如果生成的词在向量空间中离得近，就意味着这两个词语语义相似、词向量相关，通过词向量就能获取文本单词之间的一些关系形式。Word2Vec模型中用到了两种重要模型，分别是CBOW模型和Skip-gram模型，还利用了两种用来提高训练性能的关键技术：HierarchicalSoftmax和NegativeSampling。WordNet作为一种研究词语相似度常用的语义词典，在自然语言处理中的应用非常广泛，它最显著的特点就是根据英语单词之间的语义信息来组织排列单词。WordNet的基本概念为同义词集，同义词集相当于一个将语义相同的单词放在一组内的单词集合，每个同义词集都有一个唯一的标号，标号则对应着这个同义词集的语义...

【技术保护点】
1.一种相似度计算方法，该计算方法用于计算WordNet中词语的相似度，其特征在于，所述计算方法包括如下步骤：/n步骤1：从WordNet名词数据集data.noun中提取标号集；/n步骤2：使用Word2Vec模型训练上述步骤1中提取的所述标号集；/n步骤3：选取计算用单词对，使用Word2Vec模型从经上述步骤2训练过的所述标号集中提取该计算用单词对所对应的标号；/n步骤4：基于上述步骤3中提取的所述计算用单词对所对应的标号，使用Word2Vec模型生成标号的词向量；/n步骤5：基于上述步骤4中所生成的所述词向量，使用Word2Vec模型计算词语的相似度。/n

【技术特征摘要】
1.一种相似度计算方法，该计算方法用于计算WordNet中词语的相似度，其特征在于，所述计算方法包括如下步骤：
步骤1：从WordNet名词数据集data.noun中提取标号集；
步骤2：使用Word2Vec模型训练上述步骤1中提取的所述标号集；
步骤3：选取计算用单词对，使用Word2Vec模型从经上述步骤2训练过的所述标号集中提取该计算用单词对所对应的标号；
步骤4：基于上述步骤3中提取的所述计算用单词对所对应的标号，使用Word2Vec模型生成标号的词向量；
步骤5：基于上述步骤4中所生成的所述词向量，使用Word2Vec模型计算词语的相似度。

2.根据权利要求1所述的相似度计算方法，其特征在于，所述WordNet名词数据集data.noun包含多个原始数据行，每个所述原始数据行对应一同义词集，每个所述原始数据行的具体形式为{a1b1c1d1c2e1c2e2}，其中，a1为头标号，b1为第一同义词集，c1为与第一同义词集b1有上位关系的关系符号表示，d1为上位词集标号，c2为与第一同义词集b1有下位关系的关系符号表示，e1、e2均为下位词集标号。

3.根据权利要求2所述的相似度计算方法，其特征在于，所述步骤1进一步包括如下步骤：
步骤1.1：针对所述多个原始数据行中的一个原始数据行进行提取，依次提取该一个原始数据行的头标号a1、上位词集标号d1、下位词集标号e1及下位词集标号e2；
步骤1.2：将上述步骤1.1中提取的各标号汇集在一起，获得中间数据行{a1d1e1e2}；
步骤1.3：对上述步骤1.2中获得的所述中间数据行{a1d1e1e2}进行如此处理：除头标号a1外，在上位词集标号d1、下位词集标号e1及下位词集标号e2的后面均插入一头标号a1，得到一标号集数据行{a1d1a1e1a1e2a1}；
步骤1.4：针对所述多个原始数据行中的其余原始数据行重复上述步骤1.1至步骤1.3，分别得到其各自对应的一标号集数据行{a1d1a1e1a1e2a1}，最终，共获得多个标号集数据行；
步骤1.5：将上述步骤1.4中最终获得的所述多个标号集数据行汇集在一起，获得所述标号集。

4.根据权利要求2所述的相似度计算方法，其特征在于，所述步骤1进一步包括如下步骤：
步骤1.1：针对所述多个原始数据行中的一个原始数据行进行提取，依次提取该一个原始数据行的头标号a1、上位词集标号d1、下位词集标号e1及下位词集标号e2；
步骤1.2：将上述步骤1.1中提取的各标号汇集在一起，获得中间数据行{a1d1e1e2}；
步骤1.3：对上述步骤1....

【专利技术属性】
技术研发人员：王艳娜，周子力，张景虎，陈丹华，王凯莉，李天宇，赵晓函，
申请(专利权)人：曲阜师范大学，
类型：发明
国别省市：山东;37

全部详细技术资料下载我是这个专利的主人