A method for calculating text similarity is applied in the field of computer application technology, which includes: two texts are segmented separately to obtain two first vocabulary sets, and the first similarity of two texts is calculated based on two first vocabulary sets; two texts are input into the preset N gram language model to get two second vocabulary sets. The second similarity of the two texts is calculated based on the two sets of second vocabulary, and the similarity of the two texts is calculated based on the first similarity and the second similarity according to the preset adjustment parameters of the first similarity and the second similarity. The present disclosure also provides a device for calculating text similarity and a storage medium. In the process of calculating text similarity, we consider not only the degree of similarity between the semantics of the text, but also the degree of similarity between the words used in the text, which makes the calculation of text similarity more accurate.
【技术实现步骤摘要】
一种文本相似度的计算方法、装置及存储介质
本公开涉及计算机应用
,尤其涉及一种文本相似度的计算方法、装置及存储介质。
技术介绍
文本相似度是一种量化文本之间的相似程度的表示方式,近年来被广泛的应用于信息检索、文档复制检测、机器翻译、舆情监控等领域。现有的计算文本相似度的技术中,利用空间向量模型方法将文本映射成为语义空间中的词向量,计算词向量之间的空间距离是现在计算文本相似度的通用做法。现有的通过计算词向量间的距离表示文本相似度的方法是从语义的角度文本的相似性,一般没有考虑到文本所使用的词语的相似性,因此评价文本相似度的效果不太好。
技术实现思路
本公开的一个方面提供了一种文本相似度的计算方法,包括:对待处理的两条文本分别进行分词处理,得到两个第一词汇集合,并基于所述两个第一词汇集合,计算所述两条文本的第一相似度;将所述两条文本分别输入至预置的N-gram语言模型,得到两个第二词汇集合,并基于所述两个第二词汇集合,计算所述两条文本的第二相似度;按照预置的所述第一相似度的调节参数和所述第二相似度的调节参数,基于所述第一相似度和所述第二相似度,计算所述两条文本的相似度 ...
【技术保护点】
1.一种文本相似度的计算方法,其特征在于,包括:对待处理的两条文本分别进行分词处理,得到两个第一词汇集合,并基于所述两个第一词汇集合,计算所述两条文本的第一相似度;将所述两条文本分别输入至预置的N‑gram语言模型,得到两个第二词汇集合,并基于所述两个第二词汇集合,计算所述两条文本的第二相似度;按照预置的所述第一相似度的调节参数和所述第二相似度的调节参数,基于所述第一相似度和所述第二相似度,计算所述两条文本的相似度。
【技术特征摘要】
1.一种文本相似度的计算方法,其特征在于,包括:对待处理的两条文本分别进行分词处理,得到两个第一词汇集合,并基于所述两个第一词汇集合,计算所述两条文本的第一相似度;将所述两条文本分别输入至预置的N-gram语言模型,得到两个第二词汇集合,并基于所述两个第二词汇集合,计算所述两条文本的第二相似度;按照预置的所述第一相似度的调节参数和所述第二相似度的调节参数,基于所述第一相似度和所述第二相似度,计算所述两条文本的相似度。2.根据权利要求1所述的方法,其特征在于,所述计算所述两个第一词汇集合之间的第一相似度包括:令所述两个第一词汇集合分别为A1和B1,所述两个第一词汇集合进行向量化处理得到的向量分别为和所述两条文本的第一相似度为score(A,B)semantic,则:3.根据权利要求1所述的方法,其特征在于,所述将所述两条文本分别输入至预置的N-gram语言模型,得到两个第二词汇集合包括:将两条文本分别输入预置的N-gram语言模型,输出所述两个第二词汇集合,令所述两个第二词汇集合分别为A2和B2;比较所述两个第二词汇集合,获得A2中词语的总个数len(A2n_text),B2中词语的总个数len(B2n_text),所述两个第二词汇集合中相同的词语个数Nn_text,所述两个第二词汇集合中不重复的所有词语的个数len(A2∪B2)n_text。4.根据权利要求3所述的方法,其特征在于,所述基于所述两个第二词汇集合,计算所述两条文本的第二相似度还包括:令所述两条文本的第二相似度为score(A,B)text,则:5.根据权利要求1所述的方法,其特征在于,所述预置的第一相似度的调节参数和所述第二相似度的调节参数之和为1,即:α+β=1,其中,0≤α≤1,0≤β≤1。...
【专利技术属性】
技术研发人员:徐乐乐,
申请(专利权)人:武汉瓯越网视有限公司,
类型:发明
国别省市:湖北,42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。