System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及一种基于nlp识别词义的方法。
技术介绍
1、同义关系的词对经常出现在相似的文本中。基于这个原理,该方法通常利用词对的分布特征来做标记,利用种子数据作为标签训练一个分类器,预测一个给定的词对是否是同义的。针对这种方法也会带来一些噪音,相较于embedding,有一些经常在一起出现的词对的语义可能是不同的,比如“媒体”和“电视”经常一起出现,但它们可能是同义的。现有技术中对于同义词识别的方式,主要由两种:
2、基于模式识别的方法比如中文句式,“土豆,俗称洋芋”。具有同义语义的词对通常会符合某些模式,学习更多的模式就可以发现更多的同义词对。这种方法的可解释性非常强,但召回率会偏低。
3、基于融合的方法(本文)dpe(分布式和模式集成嵌入框架),包含了统计特征模块(global)和模式模块(local)。两个模块使用词的嵌入,利用种子数据进行监督训练,更新词的嵌入,并预测同义关系,这样两个模块共享信息,会提高学习效率。
4、这两种方式主要是对所有的候选实体对都判断是否存在同义关系,这个词对数量很大,模型速度也会变慢。
技术实现思路
1、为解决上述技术问题,本专利技术提供了一种基于nlp识别词义的方法,该基于nlp识别词义的方法便于利用统计模块来对所有一对进行排序,取topk的高潜词对重排序,再进行关系分类。
2、本专利技术通过以下技术方案得以实现。
3、本专利技术提供的一种基于nlp识别词义的方法,包括以下步骤:<
...【技术保护点】
1.一种基于NLP识别词义的方法,其特征在于:包括以下步骤:
2.如权利要求1所述的基于NLP识别词义的方法,其特征在于:所述步骤③中相似度计算采用Levenshtein距离。
3.如权利要求1所述的基于NLP识别词义的方法,其特征在于:所述步骤②中双线性函数为,
4.如权利要求3所述的基于NLP识别词义的方法,其特征在于:所述双线性函数由如下公式简化得到:
5.如权利要求1所述的基于NLP识别词义的方法,其特征在于:所述步骤①中,采用word2vector训练同义性能评估函数。
6.如权利要求5所述的基于NLP识别词义的方法,其特征在于:所述同义性能评估函数具体为,利用pattners结合第一部分和第二部分词语的得分作为pattners模型的入参,输出基于DPE的词对e、u的近义词得分:
7.如权利要求2所述的基于NLP识别词义的方法,其特征在于:所述Levenshtein距离为,
8.如权利要求1所述的基于NLP识别词义的方法,其特征在于:所述步骤②中,候选词由同义性能评估函数计算结果筛选得到
...【技术特征摘要】
1.一种基于nlp识别词义的方法,其特征在于:包括以下步骤:
2.如权利要求1所述的基于nlp识别词义的方法,其特征在于:所述步骤③中相似度计算采用levenshtein距离。
3.如权利要求1所述的基于nlp识别词义的方法,其特征在于:所述步骤②中双线性函数为,
4.如权利要求3所述的基于nlp识别词义的方法,其特征在于:所述双线性函数由如下公式简化得到:
5.如权利要求1所述的基于nlp识别词义的方法,其特征在于:所述步骤①中,采用word2...
【专利技术属性】
技术研发人员:朱志庆,魏雪平,刘力源,秦士德,张彬,张琳兰,董瑶,郭修,彭邦钦,
申请(专利权)人:贵州多彩新媒体股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。