【技术实现步骤摘要】
基于ICR字符矩阵的合同文档差异性检测方法和装置
[0001]本申请涉及自然语言处理
,具体而言,涉及一种基于ICR字符矩阵的合同文档差异性检测方法和装置。
技术介绍
[0002]商业往来中经常需要进行合同审查,即比较两份合同的文本差异。人工核查费时费力且容易出现疏漏,在电子化办公的时代,业务人员可利用文档工具软件完成此工作。这些文档工具可以识别并忽略合同可能包含的页眉和页脚,分别处理表格和正文。然而,它们通常不能处理合同的扫描件等图片型PDF文档;它们的比对方法通常为逐行比对,无法忽略合同中对语义无影响的差异,例如表格内一行文本被分成多行,或增加或删除文本导致当前行末尾缺少文本或增加了下一行的部分文本,造成反馈结果中的差异点数量多于真实值。
技术实现思路
[0003]本申请的目的是提供一种基于ICR字符矩阵的合同文档差异性检测方法和装置,用以提供更符合人预期的合同差异检测结果。
[0004]为了实现上述目的,第一方面,本专利技术提供了一种基于ICR字符矩阵的合同文档差异性检测方法,包括以下步骤:
[0005]S1,将原合同和比较合同的PDF文件转换为图片,利用ICR技术从图片中取得合同的文本数据,文本数据提供的信息包括合同文本、合同文本的字符的位置信息、合同文本所属单元格的位置信息;
[0006]S2,利用基于规则的版式识别方法,将文本数据拆分成页眉、正文、页脚和表格文本四部分,分别按序拼接为长字符串,表格文本的一个单元格拼接为一行,其余部分一个文本框为一行;
...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种基于ICR字符矩阵的合同文档差异性检测方法,其特征在于,包括以下步骤:S1,将原合同和比较合同的PDF文件转换为图片,利用ICR技术从图片中取得合同的文本数据,文本数据提供的信息包括合同文本、合同文本的字符的位置信息、合同文本所属单元格的位置信息;S2,利用基于规则的版式识别方法,将文本数据拆分成页眉、正文、页脚和表格文本四部分,分别按序拼接为长字符串,表格文本的一个单元格拼接为一行,其余部分一个文本框为一行;S3,检测原文档与比较文档之间的差异,利用二步式差异点查询算法依次从正文和表格文本中查询差异点,生成文本比对结果。2.根据权利要求1所述的合同文档差异性检测方法,其特征在于,所述步骤S2中,基于规则的版式识别方法包括:S21,根据是否存在所属单元格将文本数据划分成表格文本数据和非表格文本数据;S22,利用基于规则的纵坐标标准化方法,取得非表格文本每一个文本框的标准纵坐标,并根据文本框的横坐标和标准纵坐标自左而右、自上而下排序;S23,利用基于规则的页眉识别算法,识别非表格文本数据中的页眉;S24,利用基于规则的页脚识别算法,识别非表格文本数据中的页脚;S25,根据页眉和页脚的识别结果,将非表格文本数据进一步划分成页眉、正文和页脚三部分。3.根据权利要求2所述的合同文档差异性检测方法,其特征在于,所述步骤S22中,基于规则的纵坐标标准化方法包括以下步骤:S221,初始化行索引字典,默认一个文本框为一行,因此字典元素数量为当前页的文本数,键名i代表第i个文本框,键值为包含元素i的列表;S222,顺序遍历当前页的每一个文本框,对文本框i,顺序遍历其后的文本框,若文本框j和i在y轴上的重叠度大于阈值,则在索引字典中将i的键值合并至j移除i后跳出循环;若文本框j和i在y轴上的重叠度小于等于阈值时不做操作,继续考察文本框i和文本框j+1,如果j已是最后一个文本框,再考察文本框i和i+1;S223,遍历行索引字典,对字典中每一个元素i,若键值列表中的文本框索引数量大于1,则计算这些文本框的初始y值的平均值并标记为标准y值,否则该文本框的标准y值为初始y值。4.根据权利要求2所述的合同文档差异性检测方法,其特征在于,所述步骤S23中,基于规则的页眉识别算法包括以下步骤:S231,初始化页眉索引字典,该字典用于记录每页待考察行的首个文本框的索引,初始值为0;S232,根据页眉索引字典和文本框的标准纵坐标,每页取得一行文本框,若某页已完成对文本框的遍历,则执行步骤S235,否则提取并拼接文本框内文本并将页码替换为X;S233,利用基于规则的判断方法,判断待考察行是否包含页眉,若是,则执行S232,否则执行S234;S234,利用基于规则的考察文本补齐方法,修正待考察行,利用基于规则的判断方法判断待考察行是否包含页眉,若是,则执行S232,否则执行S235;
S235,输出页眉索引字典,字典记录了每页首个属于正文的文本框的索引。5.根据权利要求4所述的合同文档差异性检测方法,其特征在于,所述步骤S24中,基于规则的页脚识别算法包括以下步骤:S241,初始化页脚索引字典,该字典用于记录每页待考察行的首个文本框的倒序索引,初始值为
‑
1;S242,根据页脚索引字典和文本框的标准纵坐标,每页取得一行文本框,若某页已完成对文本框的遍历,则执行步骤S244,否则提取并拼接文本框内文本并将页码替换为X;S243,利用基于规则的判断方法,判断待考察行是否包含页脚,若是,则执行S242,否则执行S244;S244,输出页脚索引字典,字典记录了每页最后一个属于正文的文本框的倒序索引。6.根据权利要求5所述的合同文档差异性检测方法,其特征在于,所述步骤S234中,基于规则的考察文本补齐方法包括:统计各页待考察文本长度,记第i页待考察文本的非空格字符数为n
i
技术研发人员:张邵良,潘洪岩,
申请(专利权)人:金科览智科技北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。