基于最长公共子序列的文本段落识别对比方法及系统技术方案

技术编号:19321180 阅读:16 留言:0更新日期:2018-11-03 11:17
本申请公开了一种基于最长公共子序列的文本段落识别对比方法及系统。该文本段落识别对比方法包括:获取第一文本字符串和第二文本字符串;对所述第一文本字符串和所述第二文本字符串进行段落识别;对所述第一文本字符串和所述第二文本字符串进行段落顺序调整;将段落顺序调整后的所述第一文本字符串和所述第二文本字符串进行对比,获得差异项。该文本段落识别对比系统包括:前端、转换模块、段落识别模块、以及对比模块。本申请解决了解决了现有的文档对比工具无法对不能获取段落信息的文档进行对比、以及无法对段落对调情况进行很好的处理的问题。

Text paragraph recognition contrast method and system based on longest common subsequence

The invention discloses a text paragraph recognition and contrast method and a system based on the longest common subsequence. The text paragraph recognition and comparison methods include: acquiring the first text string and the second text string; recognizing the first text string and the second text string; adjusting the paragraph sequence of the first text string and the second text string; and adjusting the paragraph sequence after adjusting the paragraph sequence. The first text string is compared with the second text string to get the difference terms. This text paragraph recognition and comparison system includes: front-end, conversion module, paragraph recognition module, and comparison module. This application solves the problem that the existing document comparison tools can not compare documents that can not obtain paragraph information, and can not deal with paragraph reconciliation well.

【技术实现步骤摘要】
基于最长公共子序列的文本段落识别对比方法及系统
本申请涉及文本处理领域,具体而言,涉及一种基于最长公共子序列的文本段落识别对比方法及系统。
技术介绍
在当代社会,许多公司企业内部都有大量的文档,如合同,说明书,标书等等,这类文档之间相似度较高,只有少部分差异,常常会有对文档进行比对的需求产生。例如,对两份合同进行比对,找出二者差异,可以很快的找到合同的重点和风险等,可以说,文档比对对众多企业有着很大的实用价值。以往常常通过人工比对的方式,效率低下,且容易出错,由此产生了文档对比工具。目前的文档对比工具,例如Word自带的比较功能,是以整个文档为对象,按照顺序,对整个文档进行比对,但是若两份文档,只是两个段落对调,这种比对工具会将其视为不一致,整段进行提示。例如,文档A的段落顺序为段落1、段落2、段落3,文档B的段落顺序为段落1、段落3、段落2,比对结果一般为文本A比文本B多了文档A中间的段落2,少了文档B后面的段落2,是将这两段落笼统的标记为差异,无法对比两个文档中的段落2的差异。另一方面,现在企业中大量的文档是以PDF格式存储的,但是由于PDF格式的文档无法获得段落后面的换行信息,因此无法确定这种格式文档的段落信息,而现有的文档对比工具无法对不能获取段落信息的文档进行对比。针对上述在文档对比中出现的问题,专利技术人提出了一种解决方案。
技术实现思路
本申请的主要目的在于提供一种文本段落识别对比方法,以解决现有的文档对比工具无法对不能获取段落信息的文档进行对比的问题。为了实现上述目的,根据本申请的一个方面,提供了一种基于最长公共子序列的文本段落识别对比方法。根据本申请的基于最长公共子序列的文本段落识别对比方法包括:获取第一文本字符串和第二文本字符串;对所述第一文本字符串和所述第二文本字符串进行段落识别,确定出所述第一文本字符串和所述第二文本字符串的差异段落;根据所述差异段落对所述第一文本字符串和所述第二文本字符串进行段落顺序调整;将段落顺序调整后的所述第一文本字符串和段落顺序调整后所述第二文本字符串进行对比,获得差异项。进一步的,所述对所述第一文本字符串和所述第二文本字符串进行段落识别,确定出所述第一文本字符串和所述第二文本字符串的差异段落,包括:计算出所述第一文本字符串和所述第二文本字符串的最长公共子序列;获取所述最长公共子序列在所述第一文本字符串中的第一下标列表以及所述最长公共子序列在所述第二文本字符串中的第二下标列表;根据所述第一下标列表对所述第一文本字符串进行分割,获得所述第一文本字符串的第一差异段落序列,以及根据所述第二下标列表对所述第二文本字符串进行分割,获得所述第二文本字符串的第二差异段落序列。进一步的,所述根据所述第一下标列表对所述第一文本字符串进行分割,获得所述第一文本字符串的第一差异段落序列,以及根据所述第二下标列表对所述第二文本字符串进行分割,获得所述第二文本字符串的第二差异段落序列,包括:对所述第一下标列表进行平滑处理,获得第一平滑下标列表,以及对所述第二下标列表进行平滑处理,获得第二平滑下标列表;根据所述第一平滑下标列表对所述第一文本字符串进行分割,获得所述第一文本字符串的第一差异段落序列,以及根据所述第二平滑下标列表对所述第二文本字符串进行分割,获得所述第二文本字符串的第二差异段落序列。进一步的,所述根据所述差异段落对所述第一文本字符串和所述第二文本字符串进行段落顺序调整,包括:获取所述第一文本字符串的第一差异段落序列以及所述第二文本字符串的第二差异段落序列;通过段落相似度匹配调整所述第一差异段落序列和所述第二差异段落序列的段落顺序;根据调整段落顺序后的所述第一差异段落序列对所述第一文本字符串进行段落顺序调整,以及根据调整段落顺序后的所述第二差异段落序列对所述第二文本字符串进行段落顺序调整。进一步的,所述基于最长公共子序列的文本段落识别对比方法包括:获取第一文档和第二文档;对所述第一文档和所述第二文档进行字串符提取,获取所述第一文档的第一文本字符串以及所述第二文档的第二文本字符串。进一步的,所述基于最长公共子序列的文本段落识别对比方法包括:将所述差异项标识在所述第一文档和/或所述第二文档中。为了实现上述目的,根据本申请的另一方面,提供了一种基于最长公共子序列的文本段落对比系统。根据本申请的基于最长公共子序列的文本段落对比系统包括:前端,用于接收第一文档和第二文档以及显示所述第一文档和所述第二文档的对比结果;转换模块,用于对所述第一文档和所述第二文档进行字串符提取,获取所述第一文档的第一文本字符串以及所述第二文档的第二文本字符串;段落识别模块,用于识别所述第一文本字符串和所述第二文本字符串的差异段落,并根据所述差异段落调整所述第一文本字符串和所述第二文本字符串的段落顺序;对比模块,用于将调整段落顺序后的所述第一文本字符串和第二文本字符串进行对比,获得差异项,并将所述差异项发送到所述前端。进一步的,所述段落识别模块包括:计算模块,用于计算出所述第一文本字符串和所述第二文本字符串的最长公共子序列,并获取所述最长公共子序列在所述第一文本字符串中的第一下标列表以及所述最长公共子序列在所述第二文本字符串中的第二下标列表;数据处理模块,用于对所述第一下标列表进行平滑处理,获得第一平滑下标列表,以及对所述第二下标列表进行平滑处理,获得第二平滑下标列表;文本分割模块,用于根据所述第一平滑下标列表对所述第一文本字符串进行分割,获得所述第一文本字符串的第一差异段落序列,以及根据所述第二平滑下标列表对所述第二文本字符串进行分割,获得所述第二文本字符串的第二差异段落序列;段落匹配模块,用于通过段落相似度匹配调整所述第一差异段落序列和所述第二差异段落序列的段落顺序;文本调整模块,用于根据调整段落顺序后的所述第一差异段落序列对所述第一文本字符串进行段落顺序调整,以及根据调整段落顺序后的所述第二差异段落序列对所述第二文本字符串进行段落顺序调整。根据本申请的另一方面,提供了一种计算机程序产品,当所述计算机程序产品被计算机设备执行时实现所述基于最长公共子序列的文本段落识别对比方法。根据本申请的另一方面,提供了一种计算机设备,包括存储器、处理器及储存在储存器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现所述基于最长公共子序列的文本段落识别对比方法。在本申请实施例中,采用对无法获取段落信息的文档的文本字符串进行段落识别,识别出文档的差异段落,进而通过差异段落对文本进行调序对比,得到文本差异项,达到了对无法获取段落信息的文档进行对比的目的,进而解决了现有的文档对比工具无法对不能获取段落信息的文档进行对比的问题。附图说明构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1是第一实施例文本段落识别对比方法流程示意图;图2是第二实施例文本段落识别对比方法流程示意图;图3是第三实施例文本段落识别对比方法流程示意图;图4是第四实施例文本段落识别对比方法流程示意图;图5是第一实施例文本段落识别对比系统结构示意图;以及图6是第二实施例文本段落识别对比系统结构示意本文档来自技高网...

【技术保护点】
1.一种基于最长公共子序列的文本段落识别对比方法,其特征在于,包括:获取第一文本字符串和第二文本字符串;对所述第一文本字符串和所述第二文本字符串进行段落识别,确定出所述第一文本字符串和所述第二文本字符串的差异段落;根据所述差异段落对所述第一文本字符串和所述第二文本字符串进行段落顺序调整;将段落顺序调整后的所述第一文本字符串和段落顺序调整后所述第二文本字符串进行对比,获得差异项。

【技术特征摘要】
1.一种基于最长公共子序列的文本段落识别对比方法,其特征在于,包括:获取第一文本字符串和第二文本字符串;对所述第一文本字符串和所述第二文本字符串进行段落识别,确定出所述第一文本字符串和所述第二文本字符串的差异段落;根据所述差异段落对所述第一文本字符串和所述第二文本字符串进行段落顺序调整;将段落顺序调整后的所述第一文本字符串和段落顺序调整后所述第二文本字符串进行对比,获得差异项。2.根据权利要求1所述的基于最长公共子序列的文本段落识别对比方法,其特征在于,所述对所述第一文本字符串和所述第二文本字符串进行段落识别,确定出所述第一文本字符串和所述第二文本字符串的差异段落,包括:计算出所述第一文本字符串和所述第二文本字符串的最长公共子序列;获取所述最长公共子序列在所述第一文本字符串中的第一下标列表以及所述最长公共子序列在所述第二文本字符串中的第二下标列表;根据所述第一下标列表对所述第一文本字符串进行分割,获得所述第一文本字符串的第一差异段落序列,以及根据所述第二下标列表对所述第二文本字符串进行分割,获得所述第二文本字符串的第二差异段落序列。3.根据权利要求2所述的基于最长公共子序列的文本段落识别对比方法,其特征在于,所述根据所述第一下标列表对所述第一文本字符串进行分割,获得所述第一文本字符串的第一差异段落序列,以及根据所述第二下标列表对所述第二文本字符串进行分割,获得所述第二文本字符串的第二差异段落序列,包括:对所述第一下标列表进行平滑处理,获得第一平滑下标列表,以及对所述第二下标列表进行平滑处理,获得第二平滑下标列表;根据所述第一平滑下标列表对所述第一文本字符串进行分割,获得所述第一文本字符串的第一差异段落序列,以及根据所述第二平滑下标列表对所述第二文本字符串进行分割,获得所述第二文本字符串的第二差异段落序列。4.根据权利要求1所述的基于最长公共子序列的文本段落识别对比方法,其特征在于,所述根据所述差异段落对所述第一文本字符串和所述第二文本字符串进行段落顺序调整,包括:获取所述第一文本字符串的第一差异段落序列以及所述第二文本字符串的第二差异段落序列;通过段落相似度匹配调整所述第一差异段落序列和所述第二差异段落序列的段落顺序;根据调整段落顺序后的所述第一差异段落序列对所述第一文本字符串进行段落顺序调整,以及根据调整段落顺序后的所述第二差异段落序列对所述第二文本字符串进行段落顺序调整。5.根据权利要求1所述的基于最长公共子序列的文本段落识别对比方法,...

【专利技术属性】
技术研发人员:李瀚清高翔纪达麒陈运文
申请(专利权)人:达而观信息科技上海有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1