文档对比方法、装置、电子设备和计算机可读存储介质制造方法及图纸

技术编号:26891358 阅读:15 留言:0更新日期:2020-12-29 16:09
本申请提供了一种文档对比方法、装置、电子设备和计算机可读存储介质,其中,该方法包括:将第一文档与第二文档进行对比,以筛选出第一文档与第二文档的最长公共字符串集合;基于最长公共字符串集合在第一文档中确定出第一组不同字符串集合;基于最长公共字符串集合在第二文档中确定出第二组不同字符串集合;将第一组不同字符串集合与第二组不同字符串集合进行对比,以确定出第二组不同字符串集合在第二文档中对应的更新操作类型。根据本申请实施例中的方法,能够有效地识别出文档中的更改操作。

【技术实现步骤摘要】
文档对比方法、装置、电子设备和计算机可读存储介质
本申请涉及文档处理
,具体而言,涉及一种文档对比方法、装置、电子设备和计算机可读存储介质。
技术介绍
电子文档是计算机记录信息的一种模式,关于一份文档在两个阶段的两个版本可能存在一些更改操作,如果更改操作没有被区别标记,则需要在较大量的文字中核查被更改的内容,这是一项相对复杂的工作。目前针对文档的更新识别一般通过计算文档的特征值,通过特征值的对比,以确定文档是否被更新。
技术实现思路
本申请的目的在于提供一种文档对比方法、装置、电子设备和计算机可读存储介质,能够有效地识别出文档中的更新操作。第一方面,本申请实施例提供一种文档对比方法,包括:将第一文档与第二文档进行对比,以筛选出所述第一文档与所述第二文档的最长公共字符串集合;基于所述最长公共字符串集合在所述第一文档中确定出第一组不同字符串集合;基于所述最长公共字符串集合在所述第二文档中确定出第二组不同字符串集合;将所述第一组不同字符串集合与所述第二组不同字符串集合进行对比,以确定出所述第二组不同字符串集合在所述第二文档中对应的更新操作类型。在可选的实施方式中,所述将所述第一组不同字符串集合与所述第二组不同字符串集合进行对比,以确定出所述第二组不同字符串集合在所述第二文档中对应的更新操作类型,包括:针对所述第一组不同字符串集合中的第一不同字符串,将所述第一不同字符串与所述第二组不同字符串集合中对应的位置的字符串进行对比,以确定出所述对应的位置的字符串在所述第二文档中对应的更新操作类型;所述第一不同字符串为所述第一组不同字符串集合中的任一不同字符串。在本申请实施例中的方法中,通过将对应位置的不同字符串进行对比,从而可以能够更准确地识别出各个位置的更新,从而使更新的识别能够更加地准确。在可选的实施方式中,所述基于所述最长公共字符串集合在所述第一文档中确定出第一组不同字符串集合,包括:将所述第一文档中任意相邻两串最长公共字符串之间的内容作为不同字符串,其中,若任意相邻两串最长公共字符串之间的内容为空,则对应的不同字符串为空字符串;所述基于所述最长公共字符串集合在所述第二文档中确定出第二组不同字符串集合,包括:将所述第二文档中任意相邻两串最长公共字符串之间的内容作为不同字符串,其中,若任意相邻两串最长公共字符串之间的内容为空,则对应的不同字符串为空字符串,所述第一组不同字符串集合中的不同字符串与所述第二组不同字符串集合中的不同字符串一一对应。在可选的实施方式中,所述将所述第一组不同字符串集合与所述第二组不同字符串集合进行对比,以确定出所述第二组不同字符串集合在所述第二文档中对应的更新操作类型,包括:将所述第一组不同字符串集合中的不同字符串与所述第二组不同字符串集合中的不同字符串一对一比对,以确定出所述第二组不同字符串集合在所述第二文档中对应的更新操作类型。在本申请实施例中的方法中,通过构建出第一组不同字符串集合和第二组不同字符串集合,且其中的字符串是一一对应的,从而可以一对一的匹配,更准确地识别出各个位置的字符串的更新操作。在可选的实施方式中,所述将所述第一组不同字符串集合中的不同字符串与所述第二组不同字符串集合中的不同字符串一对一比对,以确定出所述第二组不同字符串集合在所述第二文档中对应的更新操作类型,包括:将所述第一组不同字符串集合中的第二不同字符串与所述第二组不同字符串集合中与所述第二不同字符串的位置相同第三不同字符串进行对比,其中,第二不同字符串为第一组不同字符串集合中的任意一串不同字符串,第三不同字符串为第二组不同字符串集合中的任意一串对应位置的不同字符串;当所述第二不同字符串为空字符串,且所述第三不同字符串不为空字符串时,则表示所述第二文档中的所述第三不同字符串对应的操作为增加操作;当所述第二不同字符串不为空字符串,且所述第三不同字符串为空字符串时,则表示所述第二文档中的所述第三不同字符串对应的操作为删除操作;当所述第二不同字符串不为空字符串,且所述第三不同字符串不为空字符串时,则表示所述第二文档中的所述第三不同字符串对应的操作为更改操作。在本申请实施例中的方法中,基于空字符串来判断第二文档中对应的更新操作类型,判断方式较为简单,从而可以较快速地确定出第二文档中的各字符串的更新操作类型。在可选的实施方式中,所述将第一文档与第二文档进行对比,以筛选出所述第一文档与所述第二文档的最长公共字符串集合,包括:在所述第一文档中的第一当前待查文本中匹配与所述第二文档对应的第二当前待查文本中重复字符串最长的字符串作为第I串公共字符串,直到不能匹配出最长公共字符串为止;其中,当首次匹配公共字符串时,第一当前待查文本为所述第一文档,第二当前待查文本为所述第二文档;当第I+1次匹配公共字符串时,第一当前待查文本为所述第一文档的第I串公共字符串的第一侧未被匹配的部分文本,或所述第一文档中未被匹配的其它部分文本;第二当前待查文本为所述第二文档的第I串公共字符串的第一侧未被匹配的部分文本,或所述第二文档中未被匹配的其它部分文本;其中,I为正整数。在本申请实施例中的方法中,通过上述的方式确定出最长公共字符串集合,从而可以减少最长公共字符串的遗漏。在可选的实施方式中,所述方法还包括:根据所述更新操作类型在所述第二文档中进行标记。在本申请实施例中的方法中,通过在第二文档中进行标记,从而可以方便用户获知更新的内容。第二方面,本申请实施例提供一种文档对比装置,包括:筛选模块,用于将第一文档与第二文档进行对比,以筛选出所述第一文档与所述第二文档的最长公共字符串集合;第一确定模块,用于基于所述最长公共字符串集合在所述第一文档中确定出第一组不同字符串集合;第二确定模块,用于基于所述最长公共字符串集合在所述第二文档中确定出第二组不同字符串集合;对比模块,用于将所述第一组不同字符串集合与所述第二组不同字符串集合进行对比,以确定出所述第二组不同字符串集合在所述第二文档中对应的更新操作类型。第三方面,本申请实施例提供一种电子设备,包括:处理器、存储器,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述机器可读指令被所述处理器执行时执行如前述实施方式任一所述的方法的步骤。第四方面,本申请实施例提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如前述实施方式任一所述的方法的步骤。本申请实施例的有益效果是:先通过文档对比的方式筛选出最长公共字符串集合,再基于最长公共字符串集合能够确定出第一文档与第二文档中的不同的字符串,由于已经先确定出不同字符串,从而可以更方便、准确、快速地定位出第二文档相对于第二文档的更新操作。附图说明为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理本文档来自技高网...

【技术保护点】
1.一种文档对比方法,其特征在于,包括:/n将第一文档与第二文档进行对比,以筛选出所述第一文档与所述第二文档的最长公共字符串集合;/n基于所述最长公共字符串集合在所述第一文档中确定出第一组不同字符串集合;/n基于所述最长公共字符串集合在所述第二文档中确定出第二组不同字符串集合;/n将所述第一组不同字符串集合与所述第二组不同字符串集合进行对比,以确定出所述第二组不同字符串集合在所述第二文档中对应的更新操作类型。/n

【技术特征摘要】
1.一种文档对比方法,其特征在于,包括:
将第一文档与第二文档进行对比,以筛选出所述第一文档与所述第二文档的最长公共字符串集合;
基于所述最长公共字符串集合在所述第一文档中确定出第一组不同字符串集合;
基于所述最长公共字符串集合在所述第二文档中确定出第二组不同字符串集合;
将所述第一组不同字符串集合与所述第二组不同字符串集合进行对比,以确定出所述第二组不同字符串集合在所述第二文档中对应的更新操作类型。


2.根据权利要求1所述的方法,其特征在于,所述将所述第一组不同字符串集合与所述第二组不同字符串集合进行对比,以确定出所述第二组不同字符串集合在所述第二文档中对应的更新操作类型,包括:
针对所述第一组不同字符串集合中的第一不同字符串,将所述第一不同字符串与所述第二组不同字符串集合中对应的位置的字符串进行对比,以确定出所述对应的位置的字符串在所述第二文档中对应的更新操作类型;所述第一不同字符串为所述第一组不同字符串集合中的任一不同字符串。


3.根据权利要求1所述的方法,其特征在于,所述基于所述最长公共字符串集合在所述第一文档中确定出第一组不同字符串集合,包括:将所述第一文档中任意相邻两串最长公共字符串之间的内容作为不同字符串,其中,若任意相邻两串最长公共字符串之间的内容为空,则对应的不同字符串为空字符串;
所述基于所述最长公共字符串集合在所述第二文档中确定出第二组不同字符串集合,包括:将所述第二文档中任意相邻两串最长公共字符串之间的内容作为不同字符串,其中,若任意相邻两串最长公共字符串之间的内容为空,则对应的不同字符串为空字符串,所述第一组不同字符串集合中的不同字符串与所述第二组不同字符串集合中的不同字符串一一对应。


4.根据权利要求3所述的方法,其特征在于,所述将所述第一组不同字符串集合与所述第二组不同字符串集合进行对比,以确定出所述第二组不同字符串集合在所述第二文档中对应的更新操作类型,包括:
将所述第一组不同字符串集合中的不同字符串与所述第二组不同字符串集合中的不同字符串一对一比对,以确定出所述第二组不同字符串集合在所述第二文档中对应的更新操作类型。


5.根据权利要求4所述的方法,其特征在于,所述将所述第一组不同字符串集合中的不同字符串与所述第二组不同字符串集合中的不同字符串一对一比对,以确定出所述第二组不同字符串集合在所述第二文档中对应的更新操作类型,包括:
将所述第一组不同字符串集合中的第二不同字符串与所述第二组不同字符串集合中与所述第二不同字符串的位置相同第三不同字符串进行对比,其中,第二不同字符串为第一组不同...

【专利技术属性】
技术研发人员:张发恩王一川王建华
申请(专利权)人:创新奇智青岛科技有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1