The invention discloses a method for calculating semantic similarity of short text based on word vector, which relates to the technical field of short text similarity, including word segmentation for the acquired corpus, word vector model processing for word segmentation, word segmentation for two short texts in the sample set, and extraction of text feature set; calculation of two short texts in the sample set. The similarity of each text feature in feature set is selected as the best similarity set, and the weight of each similarity in the best similarity set is calculated. The similarity of each text feature in the best similarity set is taken as the calculation item, and the weighted sum of the similarity of each text feature in the two short texts is treated. The method of calculating short text semantic similarity based on word vector extracts the lexical, semantic and text structure features of the text to be tested, and chooses the best set of similarity to match and calculate short text semantic similarity, so as to improve the accuracy of short text semantic similarity calculation.
【技术实现步骤摘要】
一种基于词向量的短文本语义相似度计算方法
本专利技术涉及短文本相似度
,具体涉及一种基于词向量的短文本语义相似度计算方法。
技术介绍
随着计算机科学技术和互联网的迅猛发展,各类信息资料的数量以惊人的速度增长,越来越多的数据以短文本的形式出现在互联网上。许多研究都表明短文本相似度计算能促进许多自然语言处理任务,克服语料库中的信息冗余,如事件检测,信息检索,文本正规化,自动文本摘要,文本分类和聚类等。目前,短文本相似度的计算方法大多是直接利用原始短文本集合丰富的词对信息进行特征提取,这样可能会放大噪音特征产生的不利影响,因此具有很大的局限性,不能准确地表达短文本的语义含义。
技术实现思路
针对现有技术中存在的缺陷,本专利技术的目的在于提供一种基于词向量的短文本语义相似度计算方法,提高短文本语义相似度计算的精度。为达到以上目的,本专利技术采取的技术方案是:一种基于词向量的短文本语义相似度计算方法,包括以下步骤:获取语料库,对语料库进行分词,并对分词进行词向量模型处理,生成每个词的词向量,然后构建词向量库;对样本集中的两个短文本进行分词,并提取文本特征集合,文本特征集合包括词性特征、语意特征和文本结构特征;从词向量库中找到词性特征对应的词向量、语意特征对应的词长向量以及文本结构特征对应的词向量,并找出文本结构特征对应的最长公共子串;根据词性特征对应的词向量、语意特征对应的词长向量、文本结构特征对应的词向量和最长公共子串,计算样本集中的两个短文本的文本特征集合中各文本特征的相似度,从各文本特征的相似度中选择超过阈值的相似度形成最优相似度集合,并计算最优相似度集合中 ...
【技术保护点】
1.一种基于词向量的短文本语义相似度计算方法,其特征在于,包括以下步骤:获取语料库,对语料库进行分词,并对分词进行词向量模型处理,生成每个词的词向量,然后构建词向量库;对样本集中的两个短文本进行分词,并提取文本特征集合,所述文本特征集合包括词性特征、语意特征和文本结构特征;从词向量库中找到词性特征对应的词向量、语意特征对应的词长向量以及文本结构特征对应的词向量,并找出文本结构特征对应的最长公共子串;根据词性特征对应的词向量、语意特征对应的词长向量、文本结构特征对应的词向量和最长公共子串,计算样本集中的两个短文本的文本特征集合中各文本特征的相似度,从各文本特征的相似度中选择超过阈值的相似度形成最优相似度集合,并计算最优相似度集合中的各相似度的权重;以所述最优相似度集合中各相似度为计算项,计算待测的两个短文本的各文本特征的相似度,然后对各文本特征的相似度加权求和得出短文本语义相似度。
【技术特征摘要】
1.一种基于词向量的短文本语义相似度计算方法,其特征在于,包括以下步骤:获取语料库,对语料库进行分词,并对分词进行词向量模型处理,生成每个词的词向量,然后构建词向量库;对样本集中的两个短文本进行分词,并提取文本特征集合,所述文本特征集合包括词性特征、语意特征和文本结构特征;从词向量库中找到词性特征对应的词向量、语意特征对应的词长向量以及文本结构特征对应的词向量,并找出文本结构特征对应的最长公共子串;根据词性特征对应的词向量、语意特征对应的词长向量、文本结构特征对应的词向量和最长公共子串,计算样本集中的两个短文本的文本特征集合中各文本特征的相似度,从各文本特征的相似度中选择超过阈值的相似度形成最优相似度集合,并计算最优相似度集合中的各相似度的权重;以所述最优相似度集合中各相似度为计算项,计算待测的两个短文本的各文本特征的相似度,然后对各文本特征的相似度加权求和得出短文本语义相似度。2.如权利要求1所述的基于词向量的短文本语义相似度计算方法,其特征在于:所述对语料库进行分词后还需进行数据清理,得到语料库中的中文分词。3.如权利要求1所述的基于词向量的短文本语义相似度计算方法,其特征在于:所述词向量模型为word2vec模型。4.如权利要求3所述的基于词向量的短文本语义相似度计算方法,其特征在于,所述构建词向量库的具体方法为:将word2vec模型生成的词向量写入Mysql数据库中,并对分词建立相应的索引。5.如权利要求1所述的基于词向量的短文本语义相似度计算方...
【专利技术属性】
技术研发人员:胡琮亮,吴培,罗南杭,万华庆,方明杰,
申请(专利权)人:中国船舶重工集团公司第七一九研究所,
类型:发明
国别省市:湖北,42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。