基于语义的短文本相似度计算方法技术

技术编号:14526668 阅读:294 留言:0更新日期:2017-02-02 06:20
本发明专利技术公开了一种基于语义的短文本相似度计算方法。其包括语料库数据预处理并建立词语Embedding,构建词语语义树,计算短文本中词语之间的语义相似度,计算短文本之间的语义相似度。本发明专利技术以深度学习的词语Embedding为基础,结合分层聚类方法创建词语语义树,计算短文本中词语之间的相似度,并且在此基础上结合短文本的多种特征,计算短文本之间的语义相似度,有效解决了现有技术中词语语义树不能刻画新鲜词语与已知词语语义关系的缺点。

【技术实现步骤摘要】

本专利技术属于短文本相似度计算
,尤其涉及一种基于语义的短文本相似度计算方法。
技术介绍
短文本间的语义相似度计算在人工智能、自然语言处理、认知学、语义学、心理学、生物信息学等领域里都具有理论的研究价值和应用背景。利用短文本相似度能很好地克服语料库中的信息冗余。目前,许多研究都表明短文本相似度计算能促进许多自然语言处理任务,如事件检测,信息检索,文本正规化,自动文本摘要,文本分类和聚类等。短文本相似度计算的应用领域非常广泛,一个好的语义相似度计算方法能在很大程度上改进现有很多系统的性能。目前,短文本相似度的计算方法有很多,主要可以分为如下几类:基于语义词典的方法、基于语料库的方法、基于特征的方法、借助互联网资源的方法。基于语义词典的方法是指通过语义词典,如WordNet[],PPDB,FrameNet等,计算词与词之间的语义相似度,最后将词语语义相似度综合起来得到文本语义相似度的方法。基于语料库的方法是指对大规模文本集进行统计分析,典型的方法有LSA(LatentSemanticAnalysis)[]和HAL(HyperspaceAnaloguestoLanguage)[]。基于特征的方法[]试图用一些事先定义好的特征来表示短文本,然后通过分类器来获取短文本的语义相似度。借助互联网资源的方法[]大多数都利用搜索引擎的返回结果来丰富短文本的上下文信息或者计算词或实体的相似度从而计算短文本的语义相似度。基于语义词典的方法非常依赖于所查询的语义词典的完备性,因为短文本中可能会包含词典中不存在的词,从而造成无法计算该短文本与其他短文本的语义相似度。其次,词典中词的一词多义也会影响语义相似度计算的准确性。基于特征的方法的难点在于如何定义有效的特征并自动获取这些特征的值。另外,特征的定义对于具体的概念比较容易,对于抽象概念比较困难。借助互联网资源的方法对于搜索引擎的返回结果非常敏感,不能得到稳定的语义相似度。此外,搜索引擎返回结果中的共现信息只能在一定程度上反应两个词的关系,并且自动从摘要中提取语法模板的精度很难保证。HAL的缺点在于其构造的词-词矩阵不能很好地捕获整个文本的意义。LSA可能不能处理短文本中出现的新词,其次LSA的短文本向量表示非常稀疏,会影响相似度计算的精度,并且也不能表示短文本中的一些语法信息。随着神经网络和深度学习的兴起,传统的词语向量空间可以转变到词语Embedding层向量空间,弥补了短文本在词向量空间中稀疏、噪音大等特点,并且能够将无监督学习与监督学习过程无缝结合,为短文本语义相似度的计算开辟了新的方向,成为未来的发展趋势。短文本与常见的新闻、杂志等长文本不同,它长度较短导致个别噪音词语对解析整个短文本语义的干扰非常严重。因此使用常规处理正规文本的模型以及方法对于短文本语义相似度计算未必行之有效。
技术实现思路
本专利技术的专利技术目的是:为了解决现有技术无法有效解决短文本长度较短导致个别噪音词语对解析整个短文本语义的干扰非常严重的问题,本专利技术提出了一种基于语义的短文本相似度计算方法。本专利技术的技术方案是:一种基于语义的短文本相似度计算方法,包括以下步骤:A、对语料库数据进行预处理,根据word2vec超参数建立词语Embedding;B、采用分层聚类方法构建语料库的词语语义树;C、根据步骤B的词语语义树中每个连接的不一致率计算短文本中词语之间的语义相似度;D、根据步骤C短文本中词语之间的语义相似度计算短文本之间的语义相似度。进一步地,所述步骤A中对语料库数据进行预处理,具体为:将语料库中的所有词语都转换为小写,并进行分词;同时选择语料库中出现次数大于N的词语建立语料库对应的词汇表,其中N为预设出现次数阈值。进一步地,所述步骤A中根据word2vec超参数建立词语Embedding,具体为:采用不同超参数训练word2vec的CBoW和SG模型,利用余弦距离作为词语Embedding的语义相似度,筛选前三个相似度最高的词语作为同义词,采用WordNet作为同义词知识库,通过准确率、召回率和F1分数确定模拟该语料库词语语义的word2vec超参数,从而建立词语Embedding;其中,准确率P表示词语Embedding正确预测的同义词对数量与总预测数量的比例,召回率R表示词语Embedding正确预测的同义词对数量与WordNet中出现的同义词对数量的比例,F1分数表示为进一步地,所述步骤B采用分层聚类方法构建语料库的词语语义树,具体为:利用SimLex-999数据集确定距离度量和连接度量,采用分层聚类方法根据确定的距离度量和连接度量构建语料库的词语语义树。进一步地,所述步骤C计算短文本中词语之间的语义相似度的计算公式具体为:syn(w1,w2)=1-inconsistent(link(w1.w2))inconsistent(Tree)threshold]]>其中,w1和w2均表示词语,link表示两个词语的最小公共祖先节点,inconsistent(Tree)threshold表示该分层聚类树中连接的不一致率阈值,inconsistent表示连接的不一致率。进一步地,所述步骤D根据短文本中词语之间的语义相似度计算短文本之间的语义相似度包括以下分步骤:D1、对短文本T1和T2进行预处理,去掉短文本中的标点符号及特殊符号,并将短文本中每个词语都转换为小写;D2、分别计算短文本T1中词语wi和短文本T2中词语wj的语义相似度sij;D3、计算短文本T1和T2的语义相似度,计算公式具体为:sim(T1,T2)=12(sum(rows)||Srow≠0||+sum(columns)||Scolumn≠0||)]]>其中,Sum(rows)表示短文本T1和T2的语义相似矩阵S中的每行元素不全为零的行的最大值求和,Sum(columns)表示短文本T1和T2的语义相似矩阵S中的每列元素不全为零的列的最大值求和,||Srow≠0||表示短文本T1和T2的语义相似矩阵S中非零行的总数,||Scolumn≠0||表示短文本T1和T2的语义相似矩阵S中非零列的总数。本专利技术局以下有益效果:1、本专利技术的词语语义树是对基于深度神经网络的词语Embedding进行合理地分层聚类得来的,相比现有的词语语义树更易于扩展;并且针对不同的语料库,可以快速构建对应的词语语义树,包含的词汇量更多,解决了WordNet、同义词词林等的词语语义树不能刻画新鲜词语与已知词语语义关系的缺点;2、本专利技术提出的词语语义相似度计算方法采用人工标注的同义词数据集来确定分层聚类词语语义树的连接不一致率阈值,从而减小了连接不一致率极值造成语义相似度的判别比例失调,提高了词语语义相似度计算的精度;3、本专利技术提出的基于词语语义相似度计算短文本语义相似度的方法,简单有效,通过调整训练语料库能够处理任何短文本数据集,并且能够识别相似词的不同词性,从而不用考虑词语的词性匹配问题,更加简洁的对句式变化多样的相似短文本进行识别。附图说明图1是本专利技术的基于语义的短文本相似度计算方法流程示意图。图2是本专利技术实施例中分层聚类词汇语义树结构示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,本文档来自技高网
...

【技术保护点】
一种基于语义的短文本相似度计算方法,其特征在于,包括以下步骤:A、对语料库数据进行预处理,根据word2vec超参数建立词语Embedding;B、采用分层聚类方法构建语料库的词语语义树;C、根据步骤B的词语语义树中每个连接的不一致率计算短文本中词语之间的语义相似度;D、根据步骤C短文本中词语之间的语义相似度计算短文本之间的语义相似度。

【技术特征摘要】
1.一种基于语义的短文本相似度计算方法,其特征在于,包括以下步骤:A、对语料库数据进行预处理,根据word2vec超参数建立词语Embedding;B、采用分层聚类方法构建语料库的词语语义树;C、根据步骤B的词语语义树中每个连接的不一致率计算短文本中词语之间的语义相似度;D、根据步骤C短文本中词语之间的语义相似度计算短文本之间的语义相似度。2.如权利要求1所述的基于语义的短文本相似度计算方法,其特征在于,所述步骤A中对语料库数据进行预处理,具体为:将语料库中的所有词语都转换为小写,并进行分词;同时选择语料库中出现次数大于N的词语建立语料库对应的词汇表,其中N为预设出现次数阈值。3.如权利要求2所述的基于语义的短文本相似度计算方法,其特征在于,所述步骤A中根据word2vec超参数建立词语Embedding,具体为:采用不同超参数训练word2vec的CBoW和SG模型,利用余弦距离作为词语Embedding的语义相似度,筛选前三个相似度最高的词语作为同义词,采用WordNet作为同义词知识库,通过准确率、召回率和F1分数确定模拟该语料库词语语义的word2vec超参数,从而建立词语Embedding;其中,准确率P表示词语Embedding正确预测的同义词对数量与总预测数量的比例,召回率R表示词语Embedding正确预测的同义词对数量与WordNet中出现的同义词对数量的比例,F1分数表示为4.如权利要求3所述的基于语义的短文本相似度计算方法,其特征在于,所述步骤B采用分层聚类方法构建语料库的词语语义树,具体为:利用SimLex-999数据集确定距离度量和连接度量,采用分层聚类方法根...

【专利技术属性】
技术研发人员:费高雷胡馨月胡光岷
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1