文件内容核对方法及系统、计算设备、存储介质技术方案

技术编号:36734056 阅读:13 留言:0更新日期:2023-03-04 10:03
本申请提供了一种文件内容核对方法及系统、计算设备、存储介质,在本申请提供的方法中,先获取待核对文件的Word格式的文件原件和与Word格式不同的第二格式的文件扫描件;再提取文件原件中的第一核对内容和所述文件扫描件中的第二核对内容;然后核对文件原件中的第一核对内容和文件扫描件中的第二核对内容,将核对后的结果进行拼接整合得到核对结果,并对核对结果进行可视化展示。基于本申请提供的一种文件内容核对方法及系统,可通过程序自动化处理,无需人工排版,即可对扫描件和Word版原件进行内容核对,同时纯文本段落和表格段落是分别进行核对,因此两部分的识别结果互相之间不会产生影响。不会产生影响。不会产生影响。

【技术实现步骤摘要】
文件内容核对方法及系统、计算设备、存储介质


[0001]本申请涉及数据处理
,特别是涉及一种文件内容核对方法及系统、计算设备、存储介质。

技术介绍

[0002]文档核对,主要是针对不同文档中的文字内容进行比较,尤其是公文文档,例如:行政公文、商务公文(合同)等。目前,公文文档大多是以Word版的形式走完审批流程,然后打印盖章,公司会将其扫描成PDF版进行留档。但在正式打印前,可能会受到人为因素有意或无意的影响,而盖章后的公文文档具有法律效力,因此需要对扫描件与Word版原件进行核对,规避文档差异带来损失。
[0003]传统的文档核对技术:半自动化核对和纯文本文档自动化核对。半自动化核对是利用软件自带的工具,将扫描件转为Word版后进行核对,但是,半自动化核对中识别出的文本为矢量化格式,还需要人工调整,在自动化办公的场景下,需要耗费大量人力成本和时间成本。纯文本文档自动化核对,是先对扫描件进行文字识别,再将识别出的纯文本与Word版原件中的纯文本内容进行核对,但是采用上述方案不适用于含有表格的文档,否则其识别出的文字内容和段落格式混乱,会导致文档比对失效。

技术实现思路

[0004]本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。
[0005]根据本申请的一个方面,提供了一种文件内容核对方法,包括:
[0006]获取待核对文件的Word格式的文件原件和与所述Word格式不同的第二格式的文件扫描件;
[0007]提取所述文件原件中的第一核对内容和所述文件扫描件中的第二核对内容;
[0008]核对所述文件原件中的第一核对内容和所述文件扫描件中的第二核对内容,将核对后的结果进行拼接整合得到核对结果;
[0009]对所述核对结果进行可视化展示。
[0010]可选地,所述获取待核对文件的Word格式的文件原件和与所述Word格式不同的第二格式的文件扫描件,包括:
[0011]获取待核对文件的Word格式的文件原件;
[0012]扫描所述待核对文件对应的纸质原件,生成与所述待核对文件的第二格式的文件扫描件;所述第二格式为PDF格式。
[0013]可选地,所述提取所述文件原件中的第一核对内容和所述文件扫描件中的第二核对内容,包括:
[0014]读取所述待核对文件的Word格式的文件原件,提取所述文件原件中的第一文本段落和/或第一表格段落,作为所述第一核对内容;
[0015]对所述文件扫描件进行图像分割得到所述文件扫描件中分割图像,基于所述分割
图像得到所述文件扫描件中的第二文本段落和/或第二表格段落,作为所述第二核对内容。
[0016]可选地,所述对所述文件扫描件进行图像分割得到所述文件扫描件中分割图像,基于所述分割图像得到所述文件扫描件中的第二文本段落和/或第二表格段落,包括:
[0017]对所述文件扫描件进行图像分割,得到所述文件扫描件中纯文本图像和/ 或表格图像;
[0018]对所述纯文本图像进行OCR文字识别处理,将所述纯文本图像转化为第二文本段落;和/或
[0019]对所述表格图像进行OCR文字识别处理,将所述表格图像转化为第二表格段落。
[0020]可选地,所述核对所述文件原件中的第一核对内容和所述文件扫描件中的第二核对内容,将核对后的结果进行拼接整合得到核对结果,包括:
[0021]对所述第一文本段落和所述第二文本段落进行文字内容核对,识别所述第一文本段落和所述第二本文段落中的第一差异内容,并标记所述第一核对内容在所述待核对文件中的记录位置;和/或
[0022]对所述第一表格段落和所述第二表格段落进行文字内容核对,识别所述第一表格段落和所述第二表格段落中的第二差异内容,并标记所述第二核对内容在所述待核对文件中的记录位置;
[0023]按照所述待核对文件的内容记录顺序对所述第一差异内容和/或所述第二差异内容进行拼接整合,得到核对结果。
[0024]根据本申请的另一个方面,提供了一种文件内容核对系统,包括:
[0025]待核对文件获取模块,其配置成获取待核对文件的Word格式的文件原件和与所述Word格式不同的第二格式的文件扫描件;
[0026]核对内容提取模块,其配置成提取所述文件原件中的第一核对内容和所述文件扫描件中的第二核对内容;
[0027]核对结果整合模块,其配置成核对所述文件原件中的第一核对内容和所述文件扫描件中的第二核对内容,将核对后的结果进行拼接整合得到核对结果;
[0028]核对结果展示模块,其配置成对所述核对结果进行可视化展示。
[0029]可选地,所述待核对文件获取模块,其还配置成:
[0030]获取待核对文件的Word格式的文件原件;
[0031]扫描所述待核对文件对应的纸质原件,生成与所述待核对文件的第二格式的文件扫描件;所述第二格式为PDF格式。
[0032]可选地,所述核对内容提取模块,其还配置成:
[0033]读取所述待核对文件的Word格式的文件原件,提取所述文件原件中的第一文本段落和/或第一表格段落,作为所述第一核对内容;
[0034]对所述文件扫描件进行图像分割得到所述文件扫描件中分割图像,基于所述分割图像得到所述文件扫描件中的第二文本段落和/或第二表格段落,作为所述第二核对内容。
[0035]可选地,所述核对内容提取模块,其还配置成:
[0036]对所述文件扫描件进行图像分割,得到所述文件扫描件中纯文本图像和/ 或表格图像;
[0037]对所述纯文本图像进行OCR文字识别处理,将所述纯文本图像转化为第二文本段
落;和/或
[0038]对所述表格图像进行OCR文字识别处理,将所述表格图像转化为第二表格段落。
[0039]可选地,所述核对结果整合模块,其还配置成:
[0040]对所述第一文本段落和所述第二文本段落进行文字内容核对,识别所述第一文本段落和所述第二本文段落中的第一差异内容,并标记所述第一核对内容在所述待核对文件中的记录位置;和/或
[0041]对所述第一表格段落和所述第二表格段落进行文字内容核对,识别所述第一表格段落和所述第二表格段落中的第二差异内容,并标记所述第二核对内容在所述待核对文件中的记录位置;
[0042]按照所述待核对文件的内容记录顺序对所述第一差异内容和/或所述第二差异内容进行拼接整合,得到核对结果。
[0043]根据本专利技术的另一方面,还提供了一种计算设备,包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如上述任一项所述的文件内容核对方法。
[0044]根据本专利技术的另一方面,还提供了一种计算机可读存储介质,优选为非易失性可读存储介质,其内存储有计算机程序,所述计算机程序在由处理器执行时实现如上述任一项所述的文件内容核对方法。
[0045]本申请提本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文件内容核对方法,包括:获取待核对文件的Word格式的文件原件和与所述Word格式不同的第二格式的文件扫描件;提取所述文件原件中的第一核对内容和所述文件扫描件中的第二核对内容;核对所述文件原件中的第一核对内容和所述文件扫描件中的第二核对内容,将核对后的结果进行拼接整合得到核对结果;对所述核对结果进行可视化展示。2.根据权利要求1所述的方法,其特征在于,所述获取待核对文件的Word格式的文件原件和与所述Word格式不同的第二格式的文件扫描件,包括:获取待核对文件的Word格式的文件原件;扫描所述待核对文件对应的纸质原件,生成与所述待核对文件的第二格式的文件扫描件;所述第二格式为PDF格式。3.根据权利要求1所述的方法,其特征在于,所述提取所述文件原件中的第一核对内容和所述文件扫描件中的第二核对内容,包括:读取所述待核对文件的Word格式的文件原件,提取所述文件原件中的第一文本段落和/或第一表格段落,作为所述第一核对内容;对所述文件扫描件进行图像分割得到所述文件扫描件中分割图像,基于所述分割图像得到所述文件扫描件中的第二文本段落和/或第二表格段落,作为所述第二核对内容。4.根据权利要求3所述的方法,其特征在于,所述对所述文件扫描件进行图像分割得到所述文件扫描件中分割图像,基于所述分割图像得到所述文件扫描件中的第二文本段落和/或第二表格段落,包括:对所述文件扫描件进行图像分割,得到所述文件扫描件中纯文本图像和/或表格图像;对所述纯文本图像进行OCR文字识别处理,将所述纯文本图像转化为第二文本段落;和/或对所述表格图像进行OCR文字识别处理,将所述表格图像转化为第二表格段落。5.根据权利要求3所述的方法,其特征在于,所述核对所述文件原件中的第一核对内容和所述文件扫描件中的第二核对内容,将核对后的结果进行拼接整合得到核对结果,包括:对所述第一文本段落和所述第二文本段落进行文字内容核对,识别所述第一文本段落和所述第二本文段落中的第一差异内容,并标记所述第一核对内容在所述待核对文件中的记录位置;和/或对所述第一表格段落和所述第二表格段落进行文字内容核对,识别所述第一表格段落和所述第二表格段落中的第二差异内容,并标记所...

【专利技术属性】
技术研发人员:贾敬伍周健
申请(专利权)人:北京有限元科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1