基于新统计的词汇语义相似度求解算法制造技术

技术编号：15280365 阅读：105 留言：0更新日期：2017-05-05 08:10

基于新统计的词汇语义相似度求解算法，本发明专利技术首先初始化统计方法模块，然后通过对输入初始化统计方法模块中的待比较词的判断，分别运用登录词类的词汇相似度求解算法和未登录词类的词汇相似度求解算法对该比较词进行相似度求解。本发明专利技术较传统的语义分析方法精确度更高；在消除歧义方面有更好的效果；更符合用户需求；对未登录词具有更好的识别和判定效果。

A new algorithm for lexical semantic similarity based on new statistics

Lexical semantic similarity algorithm based on the latest statistics, the first statistical method of initialization module, then the input module initialization in the statistical methods to compare word judgment, using lexical similarity algorithm on lexical category and unlisted words similarity lexical category similarity algorithm to solve the comparative words. Compared with the traditional semantic analysis method, the invention has the advantages of higher precision, better effect in eliminating ambiguity, more accord with the requirement of the user, and better identification and judgment effect on the unknown word.

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语义网络
，具体涉及基于新统计的词汇语义相似度求解算法。
技术介绍
21世纪以来，全球互联网进入了一个高速发展的新时期，各种新技术不断涌现。作为联系计算机与人之间重要的自然语言处理技术也快速发展中。传统的语义相关度计算方法大致分为两类：基于语义词典的语义相关度计算方法以及基于语料库的语义相关度计算方法；语义相关度计算是自然语言处理领域非常重要的一项技术，它的用途很广泛，是自然语言处理领域一项基础性的研究工作。例如要识别“这个苹果很好吃”，通过语料库检索得到相似的翻译有“这个梨子很好吃”、“这个人很好吃”。这里涉及一个歧义问题，前一个“好”的意思是很好，读音为三声，后一个“好”为四声，所以第一个翻译更合适。为了处理未登录词的语义相似度问题，同时鉴于词汇语义相似度计算在自然语言处理中的重要作用，本专利技术提出了一种基于新统计的词汇语义相似度求解算法。
技术实现思路
针对于词语中的相似度问题，本专利技术提出了基于新统计的词汇语义相似度求解算法。为了解决上述问题，本专利技术是通过以下技术方案实现的：步骤1：初始化统计方法模块，这里可以是《词语字典》、《词林》、知网、《百度百科》等等语料库。步骤2：将待比较词(c1，c2)输入初始化统计方法模块中。步骤3：在统计模块中判断其(c1，c2)是否为登录词。步骤4：如果为登录词，运用特定算法g1(c1，c2)实现词汇之间相似度的求解。步骤5：如果为未登录词，运用相关特定算法g2(c1，c2)实现词汇之间相似度的求解。本专利技术的有益效果是：1、比较传统的语义分析方法，此计算得出的精确度更高。2、在消除歧义...
基于新统计的词汇语义相似度求解算法

【技术保护点】
基于新统计的词汇语义相似度求解算法，本专利技术涉及语义网络技术领域，具体涉及基于新统计的词汇语义相似度求解算法，其特征是，包括如下步骤：步骤1：初始化统计方法模块，这里可以是《词语字典》、《词林》、知网、《百度百科》等等语料库步骤2：将待比较词输入初始化统计方法模块中步骤3：在统计模块中判断其是否为登录词步骤4：如果为登录词，运用特定算法实现词汇之间相似度的求解步骤5：如果为未登录词，运用相关特定算法实现词汇之间相似度的求解。

【技术特征摘要】
1.基于新统计的词汇语义相似度求解算法，本发明涉及语义网络技术领域，具体涉及基于新统计的词汇语义相似度求解算法，其特征是，包括如下步骤：步骤1：初始化统计方法模块，这里可以是《词语字典》、《词林》、知网、《百度百科》等等语料库步骤2：将待比较词输入初始化统计方法模块中步骤3：在统计模块中判断其是否为登录词步骤4：如果为登录词，运用特定算法实现词汇之间相似度的求解步骤5：如果为未登录词，运用相关特定算法实现词汇之间相似度的求解。2.根据权利要求1中所述的基于新统计的词汇语义相似度求解算法，其特征是，以上所述步骤3中的具体表述过程如下：步骤3：在统计模块中判断其是否为登录词，其具体判定过程如下：步骤3.1）先计算出在选定的语料库中的权重值这里我们根据其上下文词分别与目标词共现的频数上下文词的根据约束条件查找，例如，在汉语中，具有比较强的上下文约束关系的词性对有：形容词-名词、动词-名词、名词-动词、形容词-动词等等，当满足下列条件即为登录词：为领域专家给定的一个权重阈值，当频数都满足用户给定的条件，即两词语都为登录词，当条件1成立条件2不成立时，则词语为登录词，依此，同理可知其他情况。3.根据权利要求1中所述的基于新统计的词汇语义相似度求解算法，其特征是，以...

【专利技术属性】
技术研发人员：金平艳，胡成华，
申请(专利权)人：四川用联信息技术有限公司，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人