短文本之间的文本匹配度计算方法技术

技术编号:15878911 阅读:65 留言:0更新日期:2017-07-25 16:54
本发明专利技术涉及一种短文本之间的文本匹配度计算方法,包括如下步骤:对第一文本、第二文本进行分词,以分别获得第一、第二文本的分词序列;分别确定第一文本、第二文本的匹配序列;确定第一文本的匹配序列中的第i+1个字符与第i个字符在第二文本中的位置间隔;基于各位置间隔、利用短语相似度计算方法来计算第一、第二文本之间的相同字符匹配度;计算第一文本的匹配序列与第二文本的匹配序列之间的编辑距离;以及,基于第一、第二文本之间的相同字符匹配度、编辑距离、以及第一、第二文本各自的字符串长度,计算第一、第二文本之间的文本匹配度。应用这种方法,不仅对文本的匹配准确率更高,而且鲁棒性良好,也具有更高的敏感性和特异性。

Method for calculating text matching between short texts

The present invention relates to a text between short text matching calculation method, which comprises the following steps: segmentation of the first text, text second, to obtain the first second text segmentation sequence, respectively; respectively determine the matching sequence the first text, second text; determine the location interval matching sequence in the text of the i+1 the character and the I character in the second text; each position interval, using the phrase similarity calculation method to calculate the same character between the first and second text matching based on edit distance between the matching calculation sequence; the first text matching second sequences and text; and, the same character between the first and second text based on matching degree, edit distance, and the first and second respective text string length, matching degree calculation between the first and the second text text . This method is not only more accurate for text matching, but also robust and has higher sensitivity and specificity.

【技术实现步骤摘要】
短文本之间的文本匹配度计算方法
本专利技术涉及文本匹配
,更具体地说,涉及一种短文本之间的文本匹配度计算方法。
技术介绍
目前主流的文本相似度计算方法包括以下几种,但都与存在不同程度的缺点。一、普通Jaro-Winkler计算方法适合短字符,字符前缀相同有加分,但是没有考虑相似字符之间间隔,因此反例拒绝匹配(待匹配短文本相似度计算高,但实际不是相似的短文本)效果较差。二、最长公共字串计算方法对字符保证相对有序,反例拒绝匹配效果较好,但对长度和间隔敏感,正例匹配(待匹配短文本间字符相似度高,并且实际上的确是相似的短文本)效果较差。三、基于编辑距离的相似度计算方法对字符长度和位序敏感,差异大的反例子拒绝匹配效果较好,但对有差异的正例和相似的反例的拒绝匹配效果较差。四、余弦相似度方法对长度和间隔敏感,对某些反例拒绝匹配效果较好,但是没有考虑位序,位序有差异的反例拒绝匹配效果较差。五、短语相似度方法考虑了相同字符的间隔,某些反例匹配效果较好,但没有考虑位序,位序有差异的反例拒绝匹配效果较差。
技术实现思路
本专利技术的一个目的在于提供一种具有能够一定程度上克服上述缺陷的、短文本之间的文本匹配度计算方法。为实现上述目的,本专利技术提供一种技术方案如下:一种短文本之间的文本匹配度计算方法,包括如下步骤:a)、对第一文本、第二文本进行分词,以分别获得第一、第二文本的分词序列;b)、基于第一、第二文本的分词序列分别确定第一文本、第二文本的匹配序列;其中,第一文本的匹配序列表示在第一文本中的、与第二文本中的某一字符相同的字符所组成的、并按字符在第一文本中的先后顺序而排列的序列,第二文本的匹配序列表示在第二文本中的、与第一文本中的某一字符相同的字符所组成的、并按字符在第二文本中的先后顺序而排列的序列;c)、浏览第一文本的匹配序列,确定第一文本的匹配序列中的第i+1个字符与第i个字符在第二文本中的位置间隔;d)、基于各位置间隔、利用短语相似度计算方法来计算第一、第二文本之间的相同字符匹配度;e)、计算第一文本的匹配序列与第二文本的匹配序列之间的编辑距离;以及f)、基于第一、第二文本之间的相同字符匹配度、编辑距离、以及第一、第二文本各自的字符串长度,计算第一、第二文本之间的文本匹配度。优选地,该方法还包括文本匹配度修正步骤:定义文本相似度阈值;确定在第一文本的匹配序列中、与第二文本的匹配序列相同的起始部分的字符长度;以及基于文本相似度阈值、相同的起始部分的字符长度对文本匹配度进行修正。优选地,在步骤b)中:针对第一文本中的每一字符,分别仅与第二文本中未完成匹配的字符进行匹配,并以第二文本中完成匹配的、顺序最先的字符记录于第二文本的匹配序列中。本专利技术的另一目的在于提供一种匹配准确率更高的短文本匹配方法。为实现上述目的,本专利技术提供另一技术方案如下:一种短文本匹配方法,用于从一短文本集合中找出与待匹配文本相匹配的一个或多个短文本,匹配方法包括:利用上述方法来分别计算待匹配文本与短文本集合中的各短文本之间的文本匹配度;将短文本集合中的、与待匹配文本之间的文本匹配度最高的短文本确定为相匹配的短文本。本专利技术所提供的短文本之间的文本匹配度计算方法,能够更准确地计算短文本之间的匹配度,应用这种方法不仅对文本的匹配准确率更高,而且鲁棒性良好,也具有更高的敏感性和特异性。本专利技术所提供的短文本匹配方法,正例匹配以及反例拒绝匹配都具有良好效果,从而相比于现有技术具有更高的匹配准确率。附图说明图1示出本专利技术第一实施例提供的短文本之间的文本匹配度计算方法的流程图。图2示出根据本专利技术的文本相似度计算方法与现有技术中的文本相似度计算方法的技术指标对比。具体实施方式如图1所示,本专利技术第一实施例提供一种短文本之间的文本匹配度计算方法,其包括如下各步骤。步骤S10、对第一文本、第二文本进行分词,以分别获得第一、第二文本的分词序列。作为一个示例,对于要匹配的两个文本A(第一文本)和B(第二文本)分别进行分词,由于是针对短文本,可以使用全切分和基于词的频度统计的分词方法。分词后获得分词序列A="a0a1...am-1",B="b0b1...bn-1",其中m≤n,A代表较短的字符串文本,B代表较长的字符串文本。步骤S11、基于第一、第二文本的分词序列分别确定第一文本、第二文本的匹配序列。其中,第一文本的匹配序列表示在第一文本中的、与第二文本中的某一字符相同的字符所组成的、并按字符在第一文本中的先后顺序而排列的序列,第二文本的匹配序列表示在第二文本中的、与第一文本中的某一字符相同的字符所组成的、并按字符在第二文本中的先后顺序而排列的序列。继续上述示例,如果文本A中第i个字符ai在文本B中有相同字符bk与之匹配,则计算该字符在文本B中的位置:C(A,i,B)={k|bk=ai,k=0,1,...,n-1},其中i=0,1,…,m-1。优选情况下,针对所述第一文本中的每一字符,分别仅与第二文本中未完成匹配的字符进行匹配,并以第二文本中完成匹配的、顺序最先的字符记录于第二文本的匹配序列中,进而形成第二文本的整个匹配序列。步骤S12、浏览第一文本的匹配序列,确定第一文本的匹配序列中的第i+1个字符与第i个字符在第二文本中的位置间隔。步骤S13、基于各位置间隔、利用短语相似度计算方法来计算第一、第二文本之间的相同字符匹配度。继续上述示例,如果文本A中存在第i个字符和第i+1个字符分别与文本B中对应字符相匹配,则计算匹配成功的第i个字符和第i+1个字符在文本B中对应字符之间的位置间隔:Δ(A,i+1,i,B)=C(A,i+1,B)-C(A,i,B)进而,第一、第二文本之间的相同字符匹配度可采用如下计算公式:其中,N表示文本A和文本B之间匹配成功的字符总个数,Δ(A,i+1,i,B)表示第一文本的匹配序列中的第i+1个字符与第i个字符在第二文本中对应字符之间的位置间隔。本领域技术人员理解,计及字符之间的位置间隔,可以提高反例拒绝匹配的效果。步骤S14、计算第一文本的匹配序列与第二文本的匹配序列之间的编辑距离。具体地,针对文本A和文本B中所有匹配成功的字符集合,按照每个字符在A中的先后顺序,构成字符串ms1;同时,按照每个字符在B中的先后顺序,构成字符串ms2。进而,字符串ms1和字符串ms2之间的编辑距离(Levenshtein距离)可以表示为:t=d(ms1,ms2),其中,d表示求取字符串之间的编辑距离。本领域技术人员可以理解,将编辑距离作为文本匹配度的计算因子,可以确保字符长度和位序敏感性,使得某些差异大的反例拒绝匹配效果较好。步骤S15、基于第一、第二文本之间的相同字符匹配度、编辑距离、以及第一、第二文本各自的字符串长度,计算第一、第二文本之间的文本匹配度。作为示例,第一、第二文本之间的文本匹配度的计算公式为:其中,m为第一、第二文本之间的相同字符匹配度,t为第一文本的匹配序列与第二文本的匹配序列之间的编辑距离,|SA|、|SB|分别为第一、第二文本的字符串长度。根据该第一实施例的改进实施方式,该方法还包括一文本匹配度修正步骤:定义文本相似度阈值;确定在第一文本的匹配序列中、与第二文本的匹配序列相同的起始部分的字符长度;以及基于文本相似度阈值、相同的起始部分的字符长度对本文档来自技高网...
短文本之间的文本匹配度计算方法

【技术保护点】
一种短文本之间的文本匹配度计算方法,包括如下步骤:a)、对第一文本、第二文本进行分词,以分别获得所述第一、第二文本的分词序列;b)、基于所述第一、第二文本的分词序列分别确定所述第一文本、第二文本的匹配序列;其中,所述第一文本的匹配序列表示在所述第一文本中的、与所述第二文本中的某一字符相同的字符所组成的、并按所述字符在所述第一文本中的先后顺序而排列的序列,所述第二文本的匹配序列表示在所述第二文本中的、与所述第一文本中的某一字符相同的字符所组成的、并按所述字符在所述第二文本中的先后顺序而排列的序列;c)、浏览所述第一文本的匹配序列,确定所述第一文本的匹配序列中的第i+1个字符与第i个字符在所述第二文本中的位置间隔;d)、基于各所述位置间隔、利用短语相似度计算方法来计算所述第一、第二文本之间的相同字符匹配度;e)、计算所述第一文本的匹配序列与所述第二文本的匹配序列之间的编辑距离;以及f)、基于所述第一、第二文本之间的相同字符匹配度、所述编辑距离、以及所述第一、第二文本各自的字符串长度,计算所述第一、第二文本之间的文本匹配度。

【技术特征摘要】
1.一种短文本之间的文本匹配度计算方法,包括如下步骤:a)、对第一文本、第二文本进行分词,以分别获得所述第一、第二文本的分词序列;b)、基于所述第一、第二文本的分词序列分别确定所述第一文本、第二文本的匹配序列;其中,所述第一文本的匹配序列表示在所述第一文本中的、与所述第二文本中的某一字符相同的字符所组成的、并按所述字符在所述第一文本中的先后顺序而排列的序列,所述第二文本的匹配序列表示在所述第二文本中的、与所述第一文本中的某一字符相同的字符所组成的、并按所述字符在所述第二文本中的先后顺序而排列的序列;c)、浏览所述第一文本的匹配序列,确定所述第一文本的匹配序列中的第i+1个字符与第i个字符在所述第二文本中的位置间隔;d)、基于各所述位置间隔、利用短语相似度计算方法来计算所述第一、第二文本之间的相同字符匹配度;e)、计算所述第一文本的匹配序列与所述第二文本的匹配序列之间的编辑距离;以及f)、基于所述第一、第二文本之间的相同字符匹配度、所述编辑距离、以及所述第一、第二文本各自的字符串长度,计算所述第一、第二文本之间的文本匹配度。2.根据权利要求1所述的方法,其特征在于,其还包括文本匹配度修正步骤:定义文本相似度阈值;确定在所述第一文本的匹配序列中、与所述第二文本的匹配序列相同的起始部分的字符长度;以及基于所述文本相似度阈值、所述相同的起始部分的字符长度对所述文本匹配度进行修正。3.根据权利要求1所述的方法,其特征在于,在所述...

【专利技术属性】
技术研发人员:王宇华锦芝郑建宾张琦冯亮
申请(专利权)人:中国银联股份有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1