短文本之间的文本匹配度计算方法技术

技术编号：15878911 阅读：67 留言：0更新日期：2017-07-25 16:54

本发明专利技术涉及一种短文本之间的文本匹配度计算方法，包括如下步骤：对第一文本、第二文本进行分词，以分别获得第一、第二文本的分词序列；分别确定第一文本、第二文本的匹配序列；确定第一文本的匹配序列中的第i+1个字符与第i个字符在第二文本中的位置间隔；基于各位置间隔、利用短语相似度计算方法来计算第一、第二文本之间的相同字符匹配度；计算第一文本的匹配序列与第二文本的匹配序列之间的编辑距离；以及，基于第一、第二文本之间的相同字符匹配度、编辑距离、以及第一、第二文本各自的字符串长度，计算第一、第二文本之间的文本匹配度。应用这种方法，不仅对文本的匹配准确率更高，而且鲁棒性良好，也具有更高的敏感性和特异性。

Method for calculating text matching between short texts

The present invention relates to a text between short text matching calculation method, which comprises the following steps: segmentation of the first text, text second, to obtain the first second text segmentation sequence, respectively; respectively determine the matching sequence the first text, second text; determine the location interval matching sequence in the text of the i+1 the character and the I character in the second text; each position interval, using the phrase similarity calculation method to calculate the same character between the first and second text matching based on edit distance between the matching calculation sequence; the first text matching second sequences and text; and, the same character between the first and second text based on matching degree, edit distance, and the first and second respective text string length, matching degree calculation between the first and the second text text . This method is not only more accurate for text matching, but also robust and has higher sensitivity and specificity.

全部详细技术资料下载

【技术实现步骤摘要】
短文本之间的文本匹配度计算方法
本专利技术涉及文本匹配
，更具体地说，涉及一种短文本之间的文本匹配度计算方法。
技术介绍
目前主流的文本相似度计算方法包括以下几种，但都与存在不同程度的缺点。一、普通Jaro-Winkler计算方法适合短字符，字符前缀相同有加分，但是没有考虑相似字符之间间隔，因此反例拒绝匹配(待匹配短文本相似度计算高，但实际不是相似的短文本)效果较差。二、最长公共字串计算方法对字符保证相对有序，反例拒绝匹配效果较好，但对长度和间隔敏感，正例匹配(待匹配短文本间字符相似度高，并且实际上的确是相似的短文本)效果较差。三、基于编辑距离的相似度计算方法对字符长度和位序敏感，差异大的反例子拒绝匹配效果较好，但对有差异的正例和相似的反例的拒绝匹配效果较差。四、余弦相似度方法对长度和间隔敏感，对某些反例拒绝匹配效果较好，但是没有考虑位序，位序有差异的反例拒绝匹配效果较差。五、短语相似度方法考虑了相同字符的间隔，某些反例匹配效果较好，但没有考虑位序，位序有差异的反例拒绝匹配效果较差。
技术实现思路
本专利技术的一个目的在于提供一种具有能够一定程度上克服上述缺陷的、短文本之间的文本匹配度计算方法。为实现上述目的，本专利技术提供一种技术方案如下：一种短文本之间的文本匹配度计算方法，包括如下步骤：a)、对第一文本、第二文本进行分词，以分别获得第一、第二文本的分词序列；b)、基于第一、第二文本的分词序列分别确定第一文本、第二文本的匹配序列；其中，第一文本的匹配序列表示在第一文本中的、与第二文本中的某一字符相同的字符所组成的、并按字符在第一文本中的先后顺序而排列的...
短文本之间的文本匹配度计算方法

【技术保护点】
一种短文本之间的文本匹配度计算方法，包括如下步骤：a)、对第一文本、第二文本进行分词，以分别获得所述第一、第二文本的分词序列；b)、基于所述第一、第二文本的分词序列分别确定所述第一文本、第二文本的匹配序列；其中，所述第一文本的匹配序列表示在所述第一文本中的、与所述第二文本中的某一字符相同的字符所组成的、并按所述字符在所述第一文本中的先后顺序而排列的序列，所述第二文本的匹配序列表示在所述第二文本中的、与所述第一文本中的某一字符相同的字符所组成的、并按所述字符在所述第二文本中的先后顺序而排列的序列；c)、浏览所述第一文本的匹配序列，确定所述第一文本的匹配序列中的第i+1个字符与第i个字符在所述第二文本中的位置间隔；d)、基于各所述位置间隔、利用短语相似度计算方法来计算所述第一、第二文本之间的相同字符匹配度；e)、计算所述第一文本的匹配序列与所述第二文本的匹配序列之间的编辑距离；以及f)、基于所述第一、第二文本之间的相同字符匹配度、所述编辑距离、以及所述第一、第二文本各自的字符串长度，计算所述第一、第二文本之间的文本匹配度。

【技术特征摘要】
1.一种短文本之间的文本匹配度计算方法，包括如下步骤：a)、对第一文本、第二文本进行分词，以分别获得所述第一、第二文本的分词序列；b)、基于所述第一、第二文本的分词序列分别确定所述第一文本、第二文本的匹配序列；其中，所述第一文本的匹配序列表示在所述第一文本中的、与所述第二文本中的某一字符相同的字符所组成的、并按所述字符在所述第一文本中的先后顺序而排列的序列，所述第二文本的匹配序列表示在所述第二文本中的、与所述第一文本中的某一字符相同的字符所组成的、并按所述字符在所述第二文本中的先后顺序而排列的序列；c)、浏览所述第一文本的匹配序列，确定所述第一文本的匹配序列中的第i+1个字符与第i个字符在所述第二文本中的位置间隔；d)、基于各所述位置间隔、利用短语相似度计算方法来计算所述第一、第二文本之间的相同字符匹配度；e)、计算所述第一文本的匹配序列与所述第二文本的匹配序列之间的编辑距离；以及f)、基于所述第一、第二文本之间的相同字符匹配度、所述编辑距离、以及所述第一、第二文本各自的字符串长度，计算所述第一、第二文本之间的文本匹配度。2.根据权利要求1所述的方法，其特征在于，其还包括文本匹配度修正步骤：定义文本相似度阈值；确定在所述第一文本的匹配序列中、与所述第二文本的匹配序列相同的起始部分的字符长度；以及基于所述文本相似度阈值、所述相同的起始部分的字符长度对所述文本匹配度进行修正。3.根据权利要求1所述的方法，其特征在于，在所述...

【专利技术属性】
技术研发人员：王宇，华锦芝，郑建宾，张琦，冯亮，
申请(专利权)人：中国银联股份有限公司，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人