一种基于NLP识别词义的方法技术

技术编号：40488559 阅读：5 留言：0更新日期：2024-02-26 19:19

本发明专利技术提供的一种基于NLP识别词义的方法，包括以下步骤：①训练词向量：基于同义词库中的候选词训练同义性能评估函数；②标识同义性概率：使用双线性函数标识查询目标相对于候选词的同义性概率；③计算相似度：计算查询目标的字符串和候选词之间的相似度，并根据相似度计算结果判断查询目标和候选词是否同义词。本发明专利技术的有益效果在于：便于积累依据确定的近义词库，利用已有的库作为挖掘种子，可利用已有当前查询目标所在的上下文内容和当前知识库中实体语义表征进行消歧，能更快判定知识库中候选的实体与当前查询目标中的实体是否是同义词。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种基于nlp识别词义的方法。

技术介绍

1、同义关系的词对经常出现在相似的文本中。基于这个原理，该方法通常利用词对的分布特征来做标记，利用种子数据作为标签训练一个分类器，预测一个给定的词对是否是同义的。针对这种方法也会带来一些噪音，相较于embedding，有一些经常在一起出现的词对的语义可能是不同的，比如“媒体”和“电视”经常一起出现，但它们可能是同义的。现有技术中对于同义词识别的方式，主要由两种：

2、基于模式识别的方法比如中文句式，“土豆，俗称洋芋”。具有同义语义的词对通常会符合某些模式，学习更多的模式就可以发现更多的同义词对。这种方法的可解释性非常强，但召回率会偏低。

3、基于融合的方法(本文)dpe(分布式和模式集成嵌入框架)，包含了统计特征模块(global)和模式模块(local)。两个模块使用词的嵌入，利用种子数据进行监督训练，更新词的嵌入，并预测同义关系，这样两个模块共享信息，会提高学习效率。

4、这两种方式主要是对所有的候选实体对都判断是否存在同义关系，这个词对数量很大，模型速度也会变慢。

技术实现思路

1、为解决上述技术问题，本专利技术提供了一种基于nlp识别词义的方法，该基于nlp识别词义的方法便于利用统计模块来对所有一对进行排序，取topk的高潜词对重排序，再进行关系分类。

2、本专利技术通过以下技术方案得以实现。

3、本专利技术提供的一种基于nlp识别词义的方法，包括以下步骤：</p>

4、①训练词向量：基于同义词库中的候选词训练同义性能评估函数；

5、②标识同义性概率：使用双线性函数标识查询目标相对于候选词的同义性概率；

6、③计算相似度：计算查询目标的字符串和候选词之间的相似度，并根据相似度计算结果判断查询目标和候选词是否同义词。

7、所述步骤③中相似度计算采用levenshtein距离。

8、所述步骤②中双线性函数为，

9、

10、式中，aij为系数，xi、yj分别为查询目标和候选词。

11、所述双线性函数由如下公式简化得到：

12、f(α，k1β1+k2β2)＝k1f(α，β1)+k2f(α，β2)

13、f(k1a1+k2a2，β)＝k1f(a1，β)+k2f(a2，β)

14、式中，v是数域p上一个线性空间，f(α，β)是v上一个二元函数，即由f都唯一对应于p中一个数f(α，β)，k1，k2∈p，若f(α，β)有性质。

15、所述步骤①中，采用word2vector训练同义性能评估函数。

16、所述同义性能评估函数具体为，利用pattners结合第一部分和第二部分词语的得分作为pattners模型的入参，输出基于dpe的词对e、u的近义词得分：

17、

18、式中，s为知识库、λ为精度的迭代过程值，scored(u，v)为第一部分即监督学习中使用对角矩阵利用双线性函数求出词语u和v的近义词得分，scorep(u,v)为第二部分即特征函数中利用逻辑回归分类器结合得分函数求得的词语u和v的综合得分。

19、所述levenshtein距离为，

20、

21、式中，leva，b为levenshtein距离。

22、所述步骤②中，候选词由同义性能评估函数计算结果筛选得到。

23、本专利技术的有益效果在于：便于积累依据确定的近义词库，利用已有的库作为挖掘种子，可利用已有当前查询目标所在的上下文内容和当前知识库中实体语义表征进行消歧，能更快判定知识库中候选的实体与当前查询目标中的实体是否是同义词。

本文档来自技高网...

【技术保护点】

1.一种基于NLP识别词义的方法，其特征在于：包括以下步骤：

2.如权利要求1所述的基于NLP识别词义的方法，其特征在于：所述步骤③中相似度计算采用Levenshtein距离。

3.如权利要求1所述的基于NLP识别词义的方法，其特征在于：所述步骤②中双线性函数为，

4.如权利要求3所述的基于NLP识别词义的方法，其特征在于：所述双线性函数由如下公式简化得到：

5.如权利要求1所述的基于NLP识别词义的方法，其特征在于：所述步骤①中，采用word2vector训练同义性能评估函数。

6.如权利要求5所述的基于NLP识别词义的方法，其特征在于：所述同义性能评估函数具体为，利用pattners结合第一部分和第二部分词语的得分作为pattners模型的入参，输出基于DPE的词对e、u的近义词得分：

7.如权利要求2所述的基于NLP识别词义的方法，其特征在于：所述Levenshtein距离为，

8.如权利要求1所述的基于NLP识别词义的方法，其特征在于：所述步骤②中，候选词由同义性能评估函数计算结果筛选得到。

...

【技术特征摘要】

1.一种基于nlp识别词义的方法，其特征在于：包括以下步骤：

2.如权利要求1所述的基于nlp识别词义的方法，其特征在于：所述步骤③中相似度计算采用levenshtein距离。

3.如权利要求1所述的基于nlp识别词义的方法，其特征在于：所述步骤②中双线性函数为，

4.如权利要求3所述的基于nlp识别词义的方法，其特征在于：所述双线性函数由如下公式简化得到：

5.如权利要求1所述的基于nlp识别词义的方法，其特征在于：所述步骤①中，采用word2...

【专利技术属性】
技术研发人员：朱志庆，魏雪平，刘力源，秦士德，张彬，张琳兰，董瑶，郭修，彭邦钦，
申请(专利权)人：贵州多彩新媒体股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人