文本比较方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:21914011 阅读:18 留言:0更新日期:2019-08-21 12:26
本申请涉及大数据领域,本申请公开了一种文本比较方法、装置、计算机设备和存储介质,所述方法包括:获取第一文本及第二文本,将所述第一文本及所述第二文本分别转换成单行文字,并将转换后的所述第一文本及所述第二文本分别映射到X轴和Y轴;对在X轴上的所述第一文本及在Y轴上的所述第二文本进行遍历查询,获取所述第一文本与所述第二文本中相同文字的匹配点信息;根据所述第一文本与所述第二文本中相同文字的匹配点信息进行统计,获取文本比较结果。本申请通过将待比较文本映射到二维平面,并根据最短相同字符间的最短距离找出文本之间的相同字符,提高了文本比较的效率,降低了文本比较的复杂度。

Text comparison methods, devices, computer equipment and storage media

【技术实现步骤摘要】
文本比较方法、装置、计算机设备和存储介质
本申请涉及大数据领域,特别涉及一种文本比较方法、装置、计算机设备和存储介质。
技术介绍
在日常应用中,文本比较是一个比较常见的问题,应用场景也比较广泛,如论文比对等。文本比较的核心就是比较两个给定的文本(可以是字节流等)之间的差异。目前,主流的比较文本之间的差异主要有两大类。一类是基于编辑距离(EditDistance)的,例如LD算法。一类是基于最长公共子串的(LongestCommonSubsequence),例如Needleman/Wunsch算法等。但是以上算法都比较复杂,且耗费资源严重,效率低下。
技术实现思路
本申请的目的在于针对现有技术的不足,提供一种文本比较方法、装置、计算机设备和存储介质,通过将待比较文本映射到二维平面,并根据最短相同字符间的最短距离找出文本之间的相同字符,提高了文本比较的效率,降低了文本比较的复杂度。为达到上述目的,本申请的技术方案提供一种文本比较方法、装置、计算机设备和存储介质。本申请公开了一种文本比较方法,包括以下步骤:获取第一文本及第二文本,将所述第一文本及所述第二文本分别转换成单行文字,并将转换后的所述第一文本及所述第二文本分别映射到X轴和Y轴;对在X轴上的所述第一文本及在Y轴上的所述第二文本进行遍历查询,获取所述第一文本与所述第二文本中相同文字的匹配点信息;根据所述第一文本与所述第二文本中相同文字的匹配点信息进行统计,获取文本比较结果。较佳地,所述将转换后的所述第一文本及所述第二文本分别映射到X轴和Y轴,包括:将转换后的所述第一文本映射到X轴的任一象限,将转换后的所述第二文本映射到Y轴的与所述第一文本相同的象限;将转换后的所述第一文本的第一个文字对应X轴所属象限上的任一个坐标点,将转换后的所述第二文本的第一个文字对应Y轴所属象限上的任一个坐标点。较佳地,所述对在X轴上的所述第一文本及在Y轴上的所述第二文本进行遍历查询,获取所述第一文本与所述第二文本中相同文字的匹配点信息,包括:对在X轴上的所述第一文本及在Y轴上的所述第二文本进行遍历查询,获取第一匹配点信息;根据所述第一匹配点信息获取遍历区域,并在所述遍历区域上对所述第一文本及所述第二文本进行遍历查询,获取其余匹配点信息。较佳地,所述对在X轴上的所述第一文本及在Y轴上的所述第二文本进行遍历查询,获取第一匹配点信息,包括:对在X轴上的所述第一文本及在Y轴上的所述第二文本进行遍历查询,获取所述第一文本与所述第二文本中相同文字对应的坐标点;在所述相同文字对应的坐标点中查询与原点距离最近的坐标点,将所述与原点距离最近的坐标点标记为第一匹配点。较佳地,所述根据所述第一匹配点信息获取遍历区域,并在所述遍历区域上对所述第一文本及所述第二文本进行遍历查询,获取其余匹配点信息,包括:获取所述第一文本及所述第二文本中最后一个文字对应的坐标点,将所述坐标点与所述第一匹配点对应的坐标点之间的矩形区域作为遍历区域,在所述遍历区域上对所述第一文本及所述第二文本进行遍历查询;当获取到新的匹配点时,更新所述遍历区域,并在所述新的遍历区域上继续进行遍历查询,直至没有下一个匹配点出现为止。较佳地,所述当获取到新的匹配点时,更新所述遍历区域,并在所述新的遍历区域上继续进行遍历查询,直至没有下一个匹配点出现为止,包括:当获取到新的匹配点时,将所述第一文本及所述第二文本中最后一个文字对应的坐标点与所述新的匹配点对应的坐标点之间的矩形区域作为新的遍历区域;在所述新的遍历区域上对除所述新的匹配点之外的区域进行遍历查询,直至没有下一个匹配点出现为止。较佳地,所述根据所述第一文本与所述第二文本中相同文字的匹配点信息进行统计,获取文本比较结果,包括:根据所述第一文本与所述第二文本中相同文字的匹配点信息统计匹配点的数目;获取所述第一文本及所述第二文本的文字长度,并根据所述文字长度中的较小文字长度与所述匹配点的数目获得文本比较结果。本申请还公开了一种文本比较装置,所述装置包括:文本映射模块:设置为获取第一文本及第二文本,将所述第一文本及所述第二文本分别转换成单行文字,并将转换后的所述第一文本及所述第二文本分别映射到X轴和Y轴;匹配点查询模块:设置为对在X轴上的所述第一文本及在Y轴上的所述第二文本进行遍历查询,获取所述第一文本与所述第二文本中相同文字的匹配点信息;文本比较模块:设置为根据所述第一文本与所述第二文本中相同文字的匹配点信息进行统计,获取文本比较结果。本申请还公开了一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被一个或多个所述处理器执行时,使得一个或多个所述处理器执行上述所述文本比较方法的步骤。本申请还公开了一种存储介质,所述存储介质可被处理器读写,所述存储介质存储有计算机指令,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述所述文本比较方法的步骤。本申请的有益效果是:本申请通过将待比较文本映射到二维平面,并根据最短相同字符间的最短距离找出文本之间的相同字符,提高了文本比较的效率,降低了文本比较的复杂度。附图说明图1为本申请实施例的一种文本比较方法的流程示意图;图2为本申请实施例的一种文本比较方法的流程示意图;图3为本申请实施例的一种文本比较方法的流程示意图;图4为本申请实施例的一种文本比较方法的流程示意图;图5为本申请实施例的一种文本比较方法的流程示意图;图6为本申请实施例的一种文本比较方法的流程示意图;图7为本申请实施例的一种文本比较方法的流程示意图图8为本申请实施例的一种文本比较装置结构示意图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。本
技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。本申请实施例的一种文本比较方法流程如图1所示,本实施例包括以下步骤:步骤s101,获取第一文本及第二文本,将所述第一文本及所述第二文本分别转换成单行文字,并将转换后的所述第一文本及所述第二文本分别映射到X轴和Y轴;具体的,通常获取的初始文本都是包含多行文字的文本,且由于设置的页边距不同,每行文字的数量都有可能不同,因此当获取到需要比较的两个文本之后,可以将所述需要比较的两个文本都转换成单行文字,即将多行文字都转换成一行,并在将所述文本进行转换后将所述文字分别映射到X轴和Y轴上,例如将第一个文本的文字映射到X轴,第二个文本的文字映射到Y轴上;其中,为了计算方便,每个文字对应的坐标可以是整数数值,并占用一个数字,例如第一个文本第一个文字的坐标可以是(1,0),那么第二个文字的坐标是(2,0),依次类推,同理第二个文本的第一个文字的坐标可以是(0,1),那么第二个文字的坐标是(0,2)。步骤s102,对在X轴上的所述第一文本及在Y轴上的所述第二文本进行遍历查本文档来自技高网
...

【技术保护点】
1.一种文本比较方法,其特征在于,包括以下步骤:获取第一文本及第二文本,将所述第一文本及所述第二文本分别转换成单行文字,并将转换后的所述第一文本及所述第二文本分别映射到X轴和Y轴;对在X轴上的所述第一文本及在Y轴上的所述第二文本进行遍历查询,获取所述第一文本与所述第二文本中相同文字的匹配点信息;根据所述第一文本与所述第二文本中相同文字的匹配点信息进行统计,获取文本比较结果。

【技术特征摘要】
1.一种文本比较方法,其特征在于,包括以下步骤:获取第一文本及第二文本,将所述第一文本及所述第二文本分别转换成单行文字,并将转换后的所述第一文本及所述第二文本分别映射到X轴和Y轴;对在X轴上的所述第一文本及在Y轴上的所述第二文本进行遍历查询,获取所述第一文本与所述第二文本中相同文字的匹配点信息;根据所述第一文本与所述第二文本中相同文字的匹配点信息进行统计,获取文本比较结果。2.如权利要求1所述的文本比较方法,其特征在于,所述将转换后的所述第一文本及所述第二文本分别映射到X轴和Y轴,包括:将转换后的所述第一文本映射到X轴的任一象限,将转换后的所述第二文本映射到Y轴的与所述第一文本相同的象限;将转换后的所述第一文本的第一个文字对应X轴所属象限上的任一个坐标点,将转换后的所述第二文本的第一个文字对应Y轴所属象限上的任一个坐标点。3.如权利要求2所述的文本比较方法,其特征在于,所述对在X轴上的所述第一文本及在Y轴上的所述第二文本进行遍历查询,获取所述第一文本与所述第二文本中相同文字的匹配点信息,包括:对在X轴上的所述第一文本及在Y轴上的所述第二文本进行遍历查询,获取第一匹配点信息;根据所述第一匹配点信息获取遍历区域,并在所述遍历区域上对所述第一文本及所述第二文本进行遍历查询,获取其余匹配点信息。4.如权利要求3所述的文本比较方法,其特征在于,所述对在X轴上的所述第一文本及在Y轴上的所述第二文本进行遍历查询,获取第一匹配点信息,包括:对在X轴上的所述第一文本及在Y轴上的所述第二文本进行遍历查询,获取所述第一文本与所述第二文本中相同文字对应的坐标点;在所述相同文字对应的坐标点中查询与原点距离最近的坐标点,将所述与原点距离最近的坐标点标记为第一匹配点。5.如权利要求3所述的文本比较方法,其特征在于,所述根据所述第一匹配点信息获取遍历区域,并在所述遍历区域上对所述第一文本及所述第二文本进行遍历查询,获取其余匹配点信息,包括:获取所述第一文本及所述第二文本中最后一个文字对应的坐标点,将所述坐标点与所述第一匹配点对应的坐标点之间的矩形区域作为遍历...

【专利技术属性】
技术研发人员:余宁
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1