一种基于词向量的短文本语义相似度计算方法技术

技术编号:20075337 阅读:16 留言:0更新日期:2019-01-15 00:42
本发明专利技术公开了一种基于词向量的短文本语义相似度计算方法,涉及短文本相似度技术领域,包括对获取的语料库进行分词,并对分词进行词向量模型处理,构建词向量库;对样本集中的两个短文本进行分词,并提取文本特征集合;计算样本集中的两个短文本的文本特征集合中各文本特征的相似度,选择最优相似度集合,并计算最优相似度集合中的各相似度的权重;以最优相似度集合中各相似度为计算项,对待测的两个短文本的各文本特征的相似度加权求和。本发明专利技术的基于词向量的短文本语义相似度计算方法,提取待测文本的词性特征、语意特征和文本结构特征,从中选择最优相似度集合进行匹配计算短文本语义相似度,提高短文本语义相似度计算的精度。

A Semantic Similarity Computation Method for Short Text Based on Word Vector

The invention discloses a method for calculating semantic similarity of short text based on word vector, which relates to the technical field of short text similarity, including word segmentation for the acquired corpus, word vector model processing for word segmentation, word segmentation for two short texts in the sample set, and extraction of text feature set; calculation of two short texts in the sample set. The similarity of each text feature in feature set is selected as the best similarity set, and the weight of each similarity in the best similarity set is calculated. The similarity of each text feature in the best similarity set is taken as the calculation item, and the weighted sum of the similarity of each text feature in the two short texts is treated. The method of calculating short text semantic similarity based on word vector extracts the lexical, semantic and text structure features of the text to be tested, and chooses the best set of similarity to match and calculate short text semantic similarity, so as to improve the accuracy of short text semantic similarity calculation.

【技术实现步骤摘要】
一种基于词向量的短文本语义相似度计算方法
本专利技术涉及短文本相似度
,具体涉及一种基于词向量的短文本语义相似度计算方法。
技术介绍
随着计算机科学技术和互联网的迅猛发展,各类信息资料的数量以惊人的速度增长,越来越多的数据以短文本的形式出现在互联网上。许多研究都表明短文本相似度计算能促进许多自然语言处理任务,克服语料库中的信息冗余,如事件检测,信息检索,文本正规化,自动文本摘要,文本分类和聚类等。目前,短文本相似度的计算方法大多是直接利用原始短文本集合丰富的词对信息进行特征提取,这样可能会放大噪音特征产生的不利影响,因此具有很大的局限性,不能准确地表达短文本的语义含义。
技术实现思路
针对现有技术中存在的缺陷,本专利技术的目的在于提供一种基于词向量的短文本语义相似度计算方法,提高短文本语义相似度计算的精度。为达到以上目的,本专利技术采取的技术方案是:一种基于词向量的短文本语义相似度计算方法,包括以下步骤:获取语料库,对语料库进行分词,并对分词进行词向量模型处理,生成每个词的词向量,然后构建词向量库;对样本集中的两个短文本进行分词,并提取文本特征集合,文本特征集合包括词性特征、语意特征和文本结构特征;从词向量库中找到词性特征对应的词向量、语意特征对应的词长向量以及文本结构特征对应的词向量,并找出文本结构特征对应的最长公共子串;根据词性特征对应的词向量、语意特征对应的词长向量、文本结构特征对应的词向量和最长公共子串,计算样本集中的两个短文本的文本特征集合中各文本特征的相似度,从各文本特征的相似度中选择超过阈值的相似度形成最优相似度集合,并计算最优相似度集合中的各相似度的权重;以最优相似度集合中各相似度为计算项,计算待测的两个短文本的各文本特征的相似度,然后对各文本特征的相似度加权求和得出短文本语义相似度。在上述技术方案的基础上,对语料库进行分词后还需进行数据清理,得到语料库中的中文分词。在上述技术方案的基础上,词向量模型为word2vec模型。在上述技术方案的基础上,构建词向量库的具体方法为:将word2vec模型生成的词向量写入Mysql数据库中,并对分词建立相应的索引。在上述技术方案的基础上,选择最优相似度集合的具体方法为:样本集包括训练样本和测试样本,利用训练样本的两个短文本的各文本特征相似度分布建立混合高斯模型,每个高斯模型对应一个文本特征相似度,利用期望最大化算法估算各文本特征相似度分布的混合高斯模型参数,然后将测试样本输入混合高斯模型,计算实际相似度和理论相似度的欧式距离,去掉欧式距离大于预设阈值的文本特征的相似度,余下的为最优相似度集合。在上述技术方案的基础上,词性特征的相似度包括:名词相似度、时间词相似度、动词相似度、数词相似度、介词相似度和量词相似度。在上述技术方案的基础上,语意特征对应的词长向量是将短文本的主干词串联,结合相应的词向量,构成的词长向量。在上述技术方案的基础上,语意特征的相似度包括:语意最小相似度、语意最大相似度、语意中值相似度和语意均值相似度。在上述技术方案的基础上,文本结构相似度包括:第一词义最大相似度均值、第二词义最大相似度均值、最长公共子串最小耗费、第一最长公共子串特征、第二最长公共子串特征和字符长度比。在上述技术方案的基础上,相似度计算的结果a的取值范围是[-1,1],当a=1时表示语义完全相似,当a=-1时表示语义完全不同。与现有技术相比,本专利技术的优点在于:本专利技术的基于词向量的短文本语义相似度计算方法,提取待测文本的词性特征、语意特征和文本结构特征,结合词性相似度、语意相似度和文本结构相似度,从中选择最优相似度集合进行匹配计算短文本语义相似度,提高短文本语义相似度计算的精度。附图说明图1为本专利技术实施例中基于词向量的语义相似度计算的系统流程图。具体实施方式以下结合附图及实施例对本专利技术作进一步详细说明。参见图1所示,本专利技术实施例提供一种基于词向量的短文本语义相似度计算方法,包括以下步骤:S1、获取语料库,对语料库进行分词,并对分词进行词向量模型处理,生成每个词的词向量,然后构建词向量库;S2、对样本集中的两个短文本进行分词,并提取文本特征集合,文本特征集合包括词性特征、语意特征和文本结构特征;S3、从词向量库中找到词性特征对应的词向量、语意特征对应的词长向量以及文本结构特征对应的词向量,并采用最长公共子串算法找出文本结构特征对应的最长公共子串;S4、根据词性特征对应的词向量、语意特征对应的词长向量、文本结构特征对应的词向量和最长公共子串,计算样本集中的两个短文本的文本特征集合中各文本特征的相似度,从各文本特征的相似度中选择超过阈值的相似度形成最优相似度集合,并计算最优相似度集合中的各相似度的权重;S5、以最优相似度集合中各相似度为计算项,计算待测的两个短文本的各文本特征的相似度,然后对各文本特征的相似度加权求和得出短文本语义相似度。具体地说,可以根据需要任意选择互联网语料库,本实施例选用搜狗实验室的2008版互联网语料库,由于语料库较大,选择使用的为sougouT2.0的第二份语料库。较佳地,在对语料库进行分词后还需进行数据清理,以剔除语料库中的分词的词性标注、中文特殊字符、网页链接、无效数字等冗余信息,最终得到语料库中的中文分词。词向量模型为word2vec模型。Word2vec是为一群用来产生词向量的相关模型,这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系,该向量为神经网络之隐藏层。使用word2vec对清洗过的分词构建词向量,词向量维度选为100维。由于word2vec生成的词向量过多,直接在保存词向量的txt文本中对某个词进行索引的话,耗时过长,因此将词向量写入Mysql数据库中,并对分词建立相应的索引,大大提升了词向量的查询速度。本实施例中,词性特征即词性相似的特征,使用分词工具后,待测文本被切分为一系列单词,同时给出了该词的词性。以此为依据,取一段文本中的名词、时间词、动词、数词、介词和量词,进行归类存储。通过词向量查询,将这些被提取出来的词进行数字化,以便于比较待匹配的两段文本中,同类词性词的相似性。例如“今天我在商店买了一本书”这个语句可以拆分为:今天(时间词),我(名词),在(介词),商店(名词),买(动词),一(数词),本(量词),书(名词),识别出词性的词为主干词,其中“了”为非主干词。词性特征的相似度包括:名词相似度、时间词相似度、动词相似度、数词相似度、介词相似度和量词相似度。其中,两文本的所有名词的词向量相互内积,取内积的均值即为名词相似度;两文本的所有时间词词向量相互内积,取内积的均值即为时间词相似度;两文本的所有动词词向量相互内积,取内积的均值即为动词相似度;两文本的所有数词词向量相互内积,取内积的均值即为数词相似度;两文本的所有介词词向量相互内积,取内积的均值即为介词相似度;两文本的所有量词词向量相互内积,取内积的均值即为量词相似度。假设文本A有x个名词,文本B有y个名词,A中的名词与B中的名词逐个两两作内积,总共有x×y个内本文档来自技高网...

【技术保护点】
1.一种基于词向量的短文本语义相似度计算方法,其特征在于,包括以下步骤:获取语料库,对语料库进行分词,并对分词进行词向量模型处理,生成每个词的词向量,然后构建词向量库;对样本集中的两个短文本进行分词,并提取文本特征集合,所述文本特征集合包括词性特征、语意特征和文本结构特征;从词向量库中找到词性特征对应的词向量、语意特征对应的词长向量以及文本结构特征对应的词向量,并找出文本结构特征对应的最长公共子串;根据词性特征对应的词向量、语意特征对应的词长向量、文本结构特征对应的词向量和最长公共子串,计算样本集中的两个短文本的文本特征集合中各文本特征的相似度,从各文本特征的相似度中选择超过阈值的相似度形成最优相似度集合,并计算最优相似度集合中的各相似度的权重;以所述最优相似度集合中各相似度为计算项,计算待测的两个短文本的各文本特征的相似度,然后对各文本特征的相似度加权求和得出短文本语义相似度。

【技术特征摘要】
1.一种基于词向量的短文本语义相似度计算方法,其特征在于,包括以下步骤:获取语料库,对语料库进行分词,并对分词进行词向量模型处理,生成每个词的词向量,然后构建词向量库;对样本集中的两个短文本进行分词,并提取文本特征集合,所述文本特征集合包括词性特征、语意特征和文本结构特征;从词向量库中找到词性特征对应的词向量、语意特征对应的词长向量以及文本结构特征对应的词向量,并找出文本结构特征对应的最长公共子串;根据词性特征对应的词向量、语意特征对应的词长向量、文本结构特征对应的词向量和最长公共子串,计算样本集中的两个短文本的文本特征集合中各文本特征的相似度,从各文本特征的相似度中选择超过阈值的相似度形成最优相似度集合,并计算最优相似度集合中的各相似度的权重;以所述最优相似度集合中各相似度为计算项,计算待测的两个短文本的各文本特征的相似度,然后对各文本特征的相似度加权求和得出短文本语义相似度。2.如权利要求1所述的基于词向量的短文本语义相似度计算方法,其特征在于:所述对语料库进行分词后还需进行数据清理,得到语料库中的中文分词。3.如权利要求1所述的基于词向量的短文本语义相似度计算方法,其特征在于:所述词向量模型为word2vec模型。4.如权利要求3所述的基于词向量的短文本语义相似度计算方法,其特征在于,所述构建词向量库的具体方法为:将word2vec模型生成的词向量写入Mysql数据库中,并对分词建立相应的索引。5.如权利要求1所述的基于词向量的短文本语义相似度计算方...

【专利技术属性】
技术研发人员:胡琮亮吴培罗南杭万华庆方明杰
申请(专利权)人:中国船舶重工集团公司第七一九研究所
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1