基于新统计的词汇语义相似度求解算法制造技术

技术编号:15280365 阅读:105 留言:0更新日期:2017-05-05 08:10
基于新统计的词汇语义相似度求解算法,本发明专利技术首先初始化统计方法模块,然后通过对输入初始化统计方法模块中的待比较词的判断,分别运用登录词类的词汇相似度求解算法和未登录词类的词汇相似度求解算法对该比较词进行相似度求解。本发明专利技术较传统的语义分析方法精确度更高;在消除歧义方面有更好的效果;更符合用户需求;对未登录词具有更好的识别和判定效果。

A new algorithm for lexical semantic similarity based on new statistics

Lexical semantic similarity algorithm based on the latest statistics, the first statistical method of initialization module, then the input module initialization in the statistical methods to compare word judgment, using lexical similarity algorithm on lexical category and unlisted words similarity lexical category similarity algorithm to solve the comparative words. Compared with the traditional semantic analysis method, the invention has the advantages of higher precision, better effect in eliminating ambiguity, more accord with the requirement of the user, and better identification and judgment effect on the unknown word.

【技术实现步骤摘要】

本专利技术涉及语义网络
,具体涉及基于新统计的词汇语义相似度求解算法
技术介绍
21世纪以来,全球互联网进入了一个高速发展的新时期,各种新技术不断涌现。作为联系计算机与人之间重要的自然语言处理技术也快速发展中。传统的语义相关度计算方法大致分为两类:基于语义词典的语义相关度计算方法以及基于语料库的语义相关度计算方法;语义相关度计算是自然语言处理领域非常重要的一项技术,它的用途很广泛,是自然语言处理领域一项基础性的研究工作。例如要识别“这个苹果很好吃”,通过语料库检索得到相似的翻译有“这个梨子很好吃”、“这个人很好吃”。这里涉及一个歧义问题,前一个“好”的意思是很好,读音为三声,后一个“好”为四声,所以第一个翻译更合适。为了处理未登录词的语义相似度问题,同时鉴于词汇语义相似度计算在自然语言处理中的重要作用,本专利技术提出了一种基于新统计的词汇语义相似度求解算法。
技术实现思路
针对于词语中的相似度问题,本专利技术提出了基于新统计的词汇语义相似度求解算法。为了解决上述问题,本专利技术是通过以下技术方案实现的:步骤1:初始化统计方法模块,这里可以是《词语字典》、《词林》、知网、《百度百科》等等语料库。步骤2:将待比较词(c1,c2)输入初始化统计方法模块中。步骤3:在统计模块中判断其(c1,c2)是否为登录词。步骤4:如果为登录词,运用特定算法g1(c1,c2)实现词汇之间相似度的求解。步骤5:如果为未登录词,运用相关特定算法g2(c1,c2)实现词汇之间相似度的求解。本专利技术的有益效果是:1、比较传统的语义分析方法,此计算得出的精确度更高。2、在消除歧义方面有更好的效果。3、更符合用户需求。4、对未登录词具有更好的识别和判定效果。附图说明图1为基于新统计的词汇语义相似度求解算法的结构流程图。具体实施方式为解决词语(c1,c2)之间语义相似度问题,将结合图1对本专利技术进行了详细说明,其具体实施步骤如下:步骤1:初始化统计方法模块,这里可以是《词语字典》、《词林》、《知网》、《百度百科》等等语料库。步骤2:将待比较词(c1,c2)输入初始化统计方法模块中。步骤3:在统计模块中判断其是否为登录词。其具体判定过程如下:步骤3.1)先计算出(c1,c2)在选定的语料库中的权重值w(c1)、w(c2),这里我们根据其上下文词分别与目标词c1、c2共现的频数nf(c1)、nf(c2),上下文词的根据约束条件查找,例如,在汉语中,具有比较强的上下文约束关系的词性对有:形容词-名词、动词-名词、名词-动词、形容词-动词等等。当满足下列条件即为登录词:(1)nf(c1)>α(2)nf(c2)>αα为领域专家给定的一个权重阈值,当频数nf(c1)、nf(c2)都满足用户给定的条件,即两词语(c1,c2)都为登录词,当条件1成立条件2不成立时,则词语c1为登录词,依此,同理可知其他情况。步骤4:如果(c1,c2)为登录词,运用特定算法g1(c1,c2)实现词汇之间相似度的求解,需先求解(c1,c2)与上下文词的共现向量、上下文词分别与目标词(c1,c2)共现的概率f(c1)、f(c2)以及分别找到(c1,c2)与上下文词的最大共现向量,步骤4的具体求解过程如下:步骤4.1)先计算(c1,c2)与上下文词的共现向量如下:上式(x1,x2,…,xn)分别为与目标词c1共现的上下文词,(y1,y2,…,yn)分别为与目标词c2共现的上下文词,fi(c1)为xi与c1在上下文中共现的概率,同理fi(c2)为yi与c2在上下文中共现的概率。步骤4.2)其上下文词分别与目标词(c1,c2)共现的概率f(c1)、f(c2)。根据上述步骤4.1,可推出如下:f(c1)=max[(f1(c1)),(f2(c1)),…,(fn(c1))]f(c2)=max[(f1(c2)),(f2(c2)),…,(fn(c2))]步骤4.3)最后分别找到目标词(c1,c2)最匹配的上下文词最大向量如下:上式最大向量是分别根据概率f(c1)、f(c2)的值得来的。步骤4.4)两词语g1(c1,c2)相似度计算,根据上述步骤4.3可推出下列表达式:步骤5:如果为未登录词,运用相关特定算法g2(c1,c2)实现词汇之间相似度的求解。这里可以应用上下文词的停用词表来确定两词汇间的相似度,由于停用词的分布与语义无关,根据上下文停用词找到两相似度最大的两个向量。分别查找上下文中与目标词(c1,c2)搭配的停用词,找到共有停用词数最多的两个向量根据这两个向量在语料库中的权重值可分别知道两个向量的值,再根据下式求目标词(c1,c2)的相似度g2(c1,c2):基于新统计的词汇语义相似度求解算法,其伪代码计算过程:输入:待比较词(c1,c2),语料库,领域专家给定阈值α以及停用词表。输出:待比较词(c1,c2)之间的语义相似度。本文档来自技高网...
基于新统计的词汇语义相似度求解算法

【技术保护点】
基于新统计的词汇语义相似度求解算法,本专利技术涉及语义网络技术领域,具体涉及基于新统计的词汇语义相似度求解算法,其特征是,包括如下步骤:步骤1:初始化统计方法模块,这里可以是《词语字典》、《词林》、知网、《百度百科》等等语料库步骤2:将待比较词输入初始化统计方法模块中步骤3:在统计模块中判断其是否为登录词步骤4:如果为登录词,运用特定算法实现词汇之间相似度的求解步骤5:如果为未登录词,运用相关特定算法实现词汇之间相似度的求解。

【技术特征摘要】
1.基于新统计的词汇语义相似度求解算法,本发明涉及语义网络技术领域,具体涉及基于新统计的词汇语义相似度求解算法,其特征是,包括如下步骤:步骤1:初始化统计方法模块,这里可以是《词语字典》、《词林》、知网、《百度百科》等等语料库步骤2:将待比较词输入初始化统计方法模块中步骤3:在统计模块中判断其是否为登录词步骤4:如果为登录词,运用特定算法实现词汇之间相似度的求解步骤5:如果为未登录词,运用相关特定算法实现词汇之间相似度的求解。2.根据权利要求1中所述的基于新统计的词汇语义相似度求解算法,其特征是,以上所述步骤3中的具体表述过程如下:步骤3:在统计模块中判断其是否为登录词,其具体判定过程如下:步骤3.1)先计算出在选定的语料库中的权重值这里我们根据其上下文词分别与目标词共现的频数上下文词的根据约束条件查找,例如,在汉语中,具有比较强的上下文约束关系的词性对有:形容词-名词、动词-名词、名词-动词、形容词-动词等等,当满足下列条件即为登录词:为领域专家给定的一个权重阈值,当频数都满足用户给定的条件,即两词语都为登录词,当条件1成立条件2不成立时,则词语为登录词,依此,同理可知其他情况。3.根据权利要求1中所述的基于新统计的词汇语义相似度求解算法,其特征是,以...

【专利技术属性】
技术研发人员:金平艳胡成华
申请(专利权)人:四川用联信息技术有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1