The invention discloses a text paragraph recognition and contrast method and a system based on the longest common subsequence. The text paragraph recognition and comparison methods include: acquiring the first text string and the second text string; recognizing the first text string and the second text string; adjusting the paragraph sequence of the first text string and the second text string; and adjusting the paragraph sequence after adjusting the paragraph sequence. The first text string is compared with the second text string to get the difference terms. This text paragraph recognition and comparison system includes: front-end, conversion module, paragraph recognition module, and comparison module. This application solves the problem that the existing document comparison tools can not compare documents that can not obtain paragraph information, and can not deal with paragraph reconciliation well.
【技术实现步骤摘要】
基于最长公共子序列的文本段落识别对比方法及系统
本申请涉及文本处理领域,具体而言,涉及一种基于最长公共子序列的文本段落识别对比方法及系统。
技术介绍
在当代社会,许多公司企业内部都有大量的文档,如合同,说明书,标书等等,这类文档之间相似度较高,只有少部分差异,常常会有对文档进行比对的需求产生。例如,对两份合同进行比对,找出二者差异,可以很快的找到合同的重点和风险等,可以说,文档比对对众多企业有着很大的实用价值。以往常常通过人工比对的方式,效率低下,且容易出错,由此产生了文档对比工具。目前的文档对比工具,例如Word自带的比较功能,是以整个文档为对象,按照顺序,对整个文档进行比对,但是若两份文档,只是两个段落对调,这种比对工具会将其视为不一致,整段进行提示。例如,文档A的段落顺序为段落1、段落2、段落3,文档B的段落顺序为段落1、段落3、段落2,比对结果一般为文本A比文本B多了文档A中间的段落2,少了文档B后面的段落2,是将这两段落笼统的标记为差异,无法对比两个文档中的段落2的差异。另一方面,现在企业中大量的文档是以PDF格式存储的,但是由于PDF格式的文档无法获得段落后面的换行信息,因此无法确定这种格式文档的段落信息,而现有的文档对比工具无法对不能获取段落信息的文档进行对比。针对上述在文档对比中出现的问题,专利技术人提出了一种解决方案。
技术实现思路
本申请的主要目的在于提供一种文本段落识别对比方法,以解决现有的文档对比工具无法对不能获取段落信息的文档进行对比的问题。为了实现上述目的,根据本申请的一个方面,提供了一种基于最长公共子序列的文本段落识别对比方法。根 ...
【技术保护点】
1.一种基于最长公共子序列的文本段落识别对比方法,其特征在于,包括:获取第一文本字符串和第二文本字符串;对所述第一文本字符串和所述第二文本字符串进行段落识别,确定出所述第一文本字符串和所述第二文本字符串的差异段落;根据所述差异段落对所述第一文本字符串和所述第二文本字符串进行段落顺序调整;将段落顺序调整后的所述第一文本字符串和段落顺序调整后所述第二文本字符串进行对比,获得差异项。
【技术特征摘要】
1.一种基于最长公共子序列的文本段落识别对比方法,其特征在于,包括:获取第一文本字符串和第二文本字符串;对所述第一文本字符串和所述第二文本字符串进行段落识别,确定出所述第一文本字符串和所述第二文本字符串的差异段落;根据所述差异段落对所述第一文本字符串和所述第二文本字符串进行段落顺序调整;将段落顺序调整后的所述第一文本字符串和段落顺序调整后所述第二文本字符串进行对比,获得差异项。2.根据权利要求1所述的基于最长公共子序列的文本段落识别对比方法,其特征在于,所述对所述第一文本字符串和所述第二文本字符串进行段落识别,确定出所述第一文本字符串和所述第二文本字符串的差异段落,包括:计算出所述第一文本字符串和所述第二文本字符串的最长公共子序列;获取所述最长公共子序列在所述第一文本字符串中的第一下标列表以及所述最长公共子序列在所述第二文本字符串中的第二下标列表;根据所述第一下标列表对所述第一文本字符串进行分割,获得所述第一文本字符串的第一差异段落序列,以及根据所述第二下标列表对所述第二文本字符串进行分割,获得所述第二文本字符串的第二差异段落序列。3.根据权利要求2所述的基于最长公共子序列的文本段落识别对比方法,其特征在于,所述根据所述第一下标列表对所述第一文本字符串进行分割,获得所述第一文本字符串的第一差异段落序列,以及根据所述第二下标列表对所述第二文本字符串进行分割,获得所述第二文本字符串的第二差异段落序列,包括:对所述第一下标列表进行平滑处理,获得第一平滑下标列表,以及对所述第二下标列表进行平滑处理,获得第二平滑下标列表;根据所述第一平滑下标列表对所述第一文本字符串进行分割,获得所述第一文本字符串的第一差异段落序列,以及根据所述第二平滑下标列表对所述第二文本字符串进行分割,获得所述第二文本字符串的第二差异段落序列。4.根据权利要求1所述的基于最长公共子序列的文本段落识别对比方法,其特征在于,所述根据所述差异段落对所述第一文本字符串和所述第二文本字符串进行段落顺序调整,包括:获取所述第一文本字符串的第一差异段落序列以及所述第二文本字符串的第二差异段落序列;通过段落相似度匹配调整所述第一差异段落序列和所述第二差异段落序列的段落顺序;根据调整段落顺序后的所述第一差异段落序列对所述第一文本字符串进行段落顺序调整,以及根据调整段落顺序后的所述第二差异段落序列对所述第二文本字符串进行段落顺序调整。5.根据权利要求1所述的基于最长公共子序列的文本段落识别对比方法,...
【专利技术属性】
技术研发人员:李瀚清,高翔,纪达麒,陈运文,
申请(专利权)人:达而观信息科技上海有限公司,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。