改进的基于语义词典的词语相似度计算方法和装置制造方法及图纸

技术编号:11596897 阅读:71 留言:0更新日期:2015-06-12 07:23
本发明专利技术公开了一种改进的词语相似度计算方法。当待比较的所述词语A和所述词语B有其中一个不存在于所述语义词典中时,通过预设的同义词词典建立所述词语A的扩展词组a[M]和/或所述词语B的扩展词组b[N];再计算所述词语A与所述扩展词组b[N]中每个词语的相似度值,或所述扩展词组a[M]中每个词语与所述词语B的相似度值,或所述扩展词组a[M]中每个词语与扩展词组b[N]中每个词语的相似度值;取最大相似度值作为所述词语A与所述词语B的相似度值。本发明专利技术实施例通过对待比较的所述词语A和/或所述词语B进行同义词扩展,提高词语之间相似度计算的准确性,进而提高智能交互系统的智能化水平。

【技术实现步骤摘要】

本专利技术涉及计算机科学中自然语言处理
,尤其涉及一种改进的基于语义词典的词语相似度计算方法。
技术介绍
词语相似度计算在自然语音处理、智能检索、文本聚类、文本分类、自动应答、词义排歧和机器翻译等领域都有广泛的应用。目前,国内外词语相似度计算方法之一是基于语义词典的词语相似度计算,常用的语义词典在汉语方面,有知网(Hownet)、同义词词林、中文概念词典等。然而比较词语的相似性,首先要到语义词典对应的词库中查找该词语,若该词语不存在,如:“送到”与“送达”,其中若“送达”不在词库中,则其相似度无法计算,则会默认这两个词语之间的相似度为零。基于此有必要提供一种改进的基于语义词典的词语相似度计算方法,以提高词语之间相似度计算的准确性,进而提高智能交互系统的智能化水平。
技术实现思路
本专利技术的主要目的在于提供一种改进的基于语义词典的词语相似度计算方法,提高词语之间相似度计算的准确性,进而提高智能交互系统的智能化水平。为实现上述目的,本专利技术提供了一种改进的基于语义词典的词语相似度计算方法。所述改进的基于语义词典的词语相似度计算方法包括如下步骤:S10:获取待比较的词语A和词语B;S20:当所述词语A和所述词语B都存在于所述语义词典中时,计算所述词语A与所述词语B的相似度值,否则执行步骤S30;S30:通过预设的同义词词典建立所述词语A的扩展词组a[M]和/或所述词语B的扩展词组b[N];计算所述词语A与所述扩展词组b[N]中每个词语的相似度值,或所述扩展词组a[M]中每个词语与所述词语B的相似度值,或所述扩展词组a[M]中每个词语与扩展词组b[N]中每个词语的相似度值;取最大相似度值作为所述词语A与所述词语B的相似度值。进一步地,所述改进的基于语义词典的词语相似度计算方法还包括如下步骤:S40:当所述词组a[M]中的词语和/或所述词组b[N]中的词语不存在于所述语义词典中时,将所述词语A和/或所述词语B切分为单字词,建立所述词语A的单字词组aa[P]和/或所述词语B的单字词组bb[Q];计算所述词语A与所述单字词组bb[Q]的相似度值,或所述单字词组aa[P]与所述词语B的相似度值,或所述单字词组aa[P]与所述单字词组bb[Q]的相似度值,取所述相似度值作为所述词语A与所述词语B的相似度值。优选地,所述步骤S40具体为:当所述词组a[M]中的词语都不存在于所述语义词典中,且所述词组b[N]中的词语有存在于所述语义词典中时,将所述词语A切分为单字词,建立所述词语A的单字词组aa[P];计算所述单字词组aa[P]与所述词语B的相似度值,取所述相似度值作为所述词语A与所述词语B的相似度值;当所述词组b[N]中的词语都不存在于所述语义词典中,且所述词组a[M]中的词语有存在于所述语义词典中时,将所述词语B切分为单字词,建立所述词语B的单字词组bb[Q];计算所述词语A与所述单字词组bb[Q]的相似度值,取所述相似度值作为所述词语A与所述词语B的相似度值;当所述词组a[M]中的词语和所述词组b[N]中的词语都不存在于所述语义词典中时,将所述词语A和所述词语B分别切分为单字词,建立所述词语A的单字词组aa[P]和所述词语B的单字词组bb[Q];计算所述单字词组aa[P]与所述单字词组bb[Q]的相似度值,取所述相似度值作为所述词语A与所述词语B的相似度值。优选地,所述步骤S30具体为:当所述词语A存在于语义词典中,且所述词语B不存在于语义词典中时,建立所述词语B的扩展词组b[N],依次计算所述词语A与扩展词组b[N]中每个词语的相似度值,并取最大相似度值作为所述词语A与所述词语B的相似度值;当所述词语A不存在于语义词典中,且所述词语B存在于语义词典中时,建立所述词语A的扩展词组a[M],依次计算所述扩展词组a[M]中所有词语与所述词语B的相似度值,并取最大相似度值作为所述词语A与所述词语B的相似度值;当所述词语A和所述词语B都不存在于语义词典中,建立所述词语A的扩展词组a[M]和所述词语B的扩展词组b[N],依次计算所述扩展词组a[M]中所有词语和所述扩展词组b[N]中所有词语的相似度值,并取最大相似度值作为所述词语A与所述词语B的相似度值。为实现上述目的,本专利技术提供了一种改进的基于语义词典的词语相似度计算装置。所述改进的基于语义词典的词语相似度计算装置包括:词语获取模块,用于获取待比较的词语A和词语B;第一词语相似度计算模块,用于当所述词语A和所述词语B都存在于所述语义词典中时,计算所述词语A与所述词语B的相似度值;第二词语相似度计算模块,用于当所述词语A和所述词语B至少一个不存在于所述语义词典中时,通过预设的同义词词典建立所述词语A的扩展词组a[M]和/或所述词语B的扩展词组b[N],计算所述词语A与所述扩展词组b[N]中每个词语的相似度值,或所述扩展词组a[M]中每个词语与所述词语B的相似度值,或所述扩展词组a[M]中每个词语与扩展词组b[N]中每个词语的相似度值,取最大相似度值作为所述词语A与所述词语B的相似度值。进一步地,所述改进的基于语义词典的词语相似度计算装置还包括:第三词语相似度计算模块,用于当所述词组a[M]中的词语和/或所述词组b[N]中的词语不存在于所述语义词典中时,将所述词语A和/或所述词语B切分为单字词,建立所述词语A的单字词组aa[P]和/或所述词语B的单字词组bb[Q];计算所述词语A与所述单字词组bb[Q]的相似度值,或所述单字词组aa[P]与所述词语B的相似度值,或所述单字词组aa[P]与所述单字词组bb[Q]的相似度值,取所述相似度值作为所述词语A与所述词语B的相似度值。优选地,所述第三词语相似度计算模块具体用于:当所述词组a[M]中的词语都不存在于所述语义词典中,且所述词组b[N]中的词语有存在于所述语义词典中时,将所述词语A切分为单字词,建立所述词语A的单字词组aa[P];计算所述单字词组aa[P]与所述词语B的相似度值,取所述相似度值作为所述词语A与所述词语B的相似度值;当所述词组b[N]中的词语都不存在于所述语义词典中,且所述词组a[M]中的词语有存在于所述语义词典中时,将所述词语B切分为单字词,建立所述词语B的单字词组bb[Q];计算所述词语A与所述单字词组bb[Q]的相似度值,取所述相似度值作为所述词语A与所述词语B的相似度值;本文档来自技高网...

【技术保护点】
一种改进的基于语义词典的词语相似度计算方法,其特征在于,所述改进的基于语义词典的词语相似度计算方法包括如下步骤:S10:获取待比较的词语A和词语B;S20:当所述词语A和所述词语B都存在于所述语义词典中时,计算所述词语A与所述词语B的相似度值,否则执行步骤S30;S30:通过预设的同义词词典建立所述词语A的扩展词组a[M]和/或所述词语B的扩展词组b[N];计算所述词语A与所述扩展词组b[N]中每个词语的相似度值,或所述扩展词组a[M]中每个词语与所述词语B的相似度值,或所述扩展词组a[M]中每个词语与扩展词组b[N]中每个词语的相似度值;取最大相似度值作为所述词语A与所述词语B的相似度值。

【技术特征摘要】
1.一种改进的基于语义词典的词语相似度计算方法,其特征在于,所述
改进的基于语义词典的词语相似度计算方法包括如下步骤:
S10:获取待比较的词语A和词语B;
S20:当所述词语A和所述词语B都存在于所述语义词典中时,计算所
述词语A与所述词语B的相似度值,否则执行步骤S30;
S30:通过预设的同义词词典建立所述词语A的扩展词组a[M]和/或所述
词语B的扩展词组b[N];计算所述词语A与所述扩展词组b[N]中每个词语
的相似度值,或所述扩展词组a[M]中每个词语与所述词语B的相似度值,或
所述扩展词组a[M]中每个词语与扩展词组b[N]中每个词语的相似度值;取最
大相似度值作为所述词语A与所述词语B的相似度值。
2.如权利要求1所述的改进的基于语义词典的词语相似度计算方法,其
特征在于,所述改进的基于语义词典的词语相似度计算方法还包括如下步骤:
S40:当所述词组a[M]中的词语和/或所述词组b[N]中的词语不存在于所
述语义词典中时,将所述词语A和/或所述词语B切分为单字词,建立所述
词语A的单字词组aa[P]和/或所述词语B的单字词组bb[Q];计算所述词语
A与所述单字词组bb[Q]的相似度值,或所述单字词组aa[P]与所述词语B的
相似度值,或所述单字词组aa[P]与所述单字词组bb[Q]的相似度值,取所述
相似度值作为所述词语A与所述词语B的相似度值。
3.如权利要求2所述的改进的基于语义词典的词语相似度计算方法,其
特征在于,所述步骤S40具体为:
当所述词组a[M]中的词语都不存在于所述语义词典中,且所述词组b[N]
中的词语有存在于所述语义词典中时,将所述词语A切分为单字词,建立所
述词语A的单字词组aa[P];计算所述单字词组aa[P]与所述词语B的相似度
值,取所述相似度值作为所述词语A与所述词语B的相似度值;
当所述词组b[N]中的词语都不存在于所述语义词典中,且所述词组a[M]
中的词语有存在于所述语义词典中时,将所述词语B切分为单字词,建立所

\t述词语B的单字词组bb[Q];计算所述词语A与所述单字词组bb[Q]的相似
度值,取所述相似度值作为所述词语A与所述词语B的相似度值;
当所述词组a[M]中的词语和所述词组b[N]中的词语都不存在于所述语
义词典中时,将所述词语A和所述词语B分别切分为单字词,建立所述词语
A的单字词组aa[P]和所述词语B的单字词组bb[Q];计算所述单字词组aa[P]
与所述单字词组bb[Q]的相似度值,取所述相似度值作为所述词语A与所述
词语B的相似度值。
4.如权利要求1~3任一项所述的改进的基于语义词典的词语相似度计
算方法,其特征在于,所述步骤S30具体为:
当所述词语A存在于语义词典中,且所述词语B不存在于语义词典中时,
建立所述词语B的扩展词组b[N],依次计算所述词语A与扩展词组b[N]中
每个词语的相似度值,并取最大相似度值作为所述词语A与所述词语B的相
似度值;
当所述词语A不存在于语义词典中,且所述词语B存在于语义词典中时,
建立所述词语A的扩展词组a[M],依次计算所述扩展词组a[M]中所有词语
与所述词语B的相似度值,并取最大相似度值作为所述词语A与所述词语B
的相似度值;
当所述词语A和所述词语B都不存在于语义词典中,建立所述词语A
的扩展词组a[M]和所述词语B的扩展词组b[N],依次计算所述扩展词组a[M]
中所有词语和所述扩展词组b[N]中所有词语的相似度值,并取最大相似度值
作为所述词语A与所述词语B的相似度值。
5.一种改进的基于语义词典的词语相似度计算装置,其特征在于,所述

【专利技术属性】
技术研发人员:张贯京陈兴明葛新科克里斯基捏·普拉纽克艾琳娜·古列莎王海荣张少鹏方静芳高伟明程金兢梁艳妮周荣李慧玲波达别特·伊万徐之艳周亮梁昊原肖应芬郑慧华唐小浪李潇云
申请(专利权)人:深圳市前海安测信息技术有限公司深圳市易特科信息技术有限公司深圳市贝沃德克生物技术研究院有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1