一种面向文档扫描PDF文件的并行识别处理方法技术

技术编号:34945113 阅读:13 留言:0更新日期:2022-09-17 12:20
本发明专利技术属于图像处理领域,公开了一种面向文档扫描PDF文件的并行识别处理方法。步骤1:通过扫描仪连续扫描纸质文档图像,保存图像采集结果为PDF文件;步骤2:将步骤1的PDF文件分页处理为页面图像集合,为每一幅页面图像添加页码标签;步骤3:将步骤2的页面图像集合划分为多个图像的分组数据;步骤4:基于步骤3的图像分组数据通过消息队列进行发送;步骤5:多块GPU从队列中接收步骤4的图像分组数据,进行OCR识别;步骤6:基于步骤5的识别结果根据标签进行重组,将识别内容保存为可编辑文件。本发明专利技术用以解决现有关于PDF文件的研究主要集中在对PDF的解析,对于包含较多页数PDF文件的处理效率问题。效率问题。效率问题。

【技术实现步骤摘要】
一种面向文档扫描PDF文件的并行识别处理方法


[0001]本专利技术属于图像处理领域,具体涉及一种面向文档扫描PDF文件的并行识别处理方法。

技术介绍

[0002]纸质文档的信息检索与查询处理效率不高,通过图像识别技术可以有效提高纸质文档的处理效率。实现过程一般是先通过扫描仪对纸质文档进行连续扫描采集,保存为图像后再进行识别处理,将识别结果挂载到数据库后可以方便地检索查询。通常,纸质文档采集结果以PDF文件的形式存储。而通过扫描方式生成的PDF文件,其内容均为图像类对象,即页面内容不可直接编辑,因此需要通过OCR技术对图像对象进一步识别处理,而PDF文件往往包含大量页码,处理需要大量等待时间,提高对此类文件的处理效率尤为重要。

技术实现思路

[0003]本专利技术提供一种面向文档扫描PDF文件的并行识别处理方法,用以解决现有关于PDF文件的研究主要集中在对PDF的解析,对于包含较多页数PDF文件的处理效率问题。
[0004]本专利技术提供一种电子设备。
[0005]本专利技术提供一种计算机可读存储介质。
[0006]本专利技术通过以下技术方案实现:
[0007]一种面向文档扫描PDF文件的并行识别处理方法,所述并行识别处理方法具体包括以下步骤:
[0008]步骤1:通过扫描仪连续扫描纸质文档图像,保存图像采集结果为PDF文件;
[0009]步骤2:将步骤1的PDF文件分页处理为页面图像集合,为每一幅页面图像添加页码标签;
[0010]步骤3:将步骤2的页面图像集合划分为多个图像的分组数据;
[0011]步骤4:基于步骤3的图像分组数据通过消息队列进行发送;
[0012]步骤5:多块GPU从队列中接收步骤4的图像分组数据,进行OCR识别;
[0013]步骤6:基于步骤5的识别结果根据标签进行重组,将识别内容保存为可编辑文件。
[0014]一种面向文档扫描PDF文件的并行识别处理方法,所述步骤2的PDF文件分页处理为页面图像集合具体为,通过java语言编程中的ApachePDFBox开源工具或通过python语言编程中的PyMuPDF库实现;
[0015]所述步骤2的页码标签是其在原始PDF文件中的页码。
[0016]一种面向文档扫描PDF文件的并行识别处理方法,所述步骤3的多个图像的分组数据具体为,按照标签顺序对页面图像集合进行分组,每组有32幅。
[0017]一种面向文档扫描PDF文件的并行识别处理方法,所述步骤4发送数据具体为,图像组的数据分发过程基于消息队列协议,即发送图像组数据到队列中,被GPU捕获与处理;多个GPU通过抢占的方式接收队列中的图像组;
[0018]如果处理过程中出现异常情况:将处理数据放回队列,供其他GPU处理,并记录重试次数,重试次数超过限定次数时,将数据组存储到存档异常数据的数据库中。
[0019]一种面向文档扫描PDF文件的并行识别处理方法,所述步骤5首先对图像进行预处理,再进行OCR识别;所述进行OCR识别具体包括以下步骤:
[0020]步骤5.1:对页面构成元素进行检测分类;
[0021]步骤5.2:通过页面构成元素进行OCR识别;
[0022]所述对页面构成元素进行检测分类具体为,通过目标检测神经网络模型实现,如YOLO模型,通过预训练完成的目标检测模型检测图像,分类定位出图像中的文本区域、图像区域和表格区域。
[0023]一种面向文档扫描PDF文件的并行识别处理方法,所述步骤5.2具体为,对文本区域的识别方式是通过OCR工具识别文字内容;
[0024]对表格区域的识别:通过OCR工具识别表格单元格内的文字以及对应的位置信息,通过单元格文字的位置信息归类属于同一行、同一列的单元格,以还原表格的结构信息;
[0025]对于图像区域不做识别处理,保留切片区域图像。
[0026]一种面向文档扫描PDF文件的并行识别处理方法,所述步骤6根据识别结果进行标签重组具体为,根据对应的标签,按顺序重组页面图像识别结果,根据页面图像的标签,按顺序组合每个页面图像的识别结果为可编辑文件,将识别结果保存为可编辑文件。
[0027]一种面向文档扫描PDF文件的并行识别处理方法,所述将识别内容保存为可编辑文件具体为,通过Java语言编程的ApachePOI开源工具或Python语言编程的Docx库将识别结果保存为可编辑的Word文件。
[0028]一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
[0029]存储器,用于存放计算机程序;
[0030]处理器,用于执行存储器上所存放的程序时,实现上述任一所述的方法步骤。
[0031]一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一所述的方法步骤。
[0032]本专利技术的有益效果是:
[0033]本专利技术将页面图像划分图像组后送入队列,再由多个GPU进行抢占式处理。相比于常规的单GPU直接接收图像数据,处理完一组数据后再处理下一批的方式,本专利技术方法能够充分利用多GPU的计算能力,提高对多页文档扫描PDF文件的识别处理效率。
[0034]本专利技术对文档扫描PDF文件识别处理保存为可编辑文件,便于文件及内容的检索,能够有效提高文件处理效率。
附图说明
[0035]图1是本专利技术的结构示意图。
[0036]图2是本专利技术的发布/订阅模式示意图。
具体实施方式
[0037]下面将结合本专利技术实施例中的附图对本专利技术实施例中的技术方案进行清楚、完整
地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0038]一种面向文档扫描PDF文件的并行识别处理方法,所述并行识别处理方法具体包括以下步骤:
[0039]步骤1:通过扫描仪连续扫描纸质文档图像,保存图像采集结果为PDF文件;
[0040]步骤2:将步骤1的PDF文件分页处理为页面图像集合,为每一幅页面图像添加页码标签;
[0041]步骤3:将步骤2的页面图像集合划分为多个图像的分组数据;
[0042]步骤4:基于步骤3的图像分组数据通过消息队列进行发送;
[0043]步骤5:多块GPU从队列中接收步骤4的图像分组数据,进行OCR识别;
[0044]步骤6:基于步骤5的识别结果根据标签进行重组,将识别内容保存为可编辑文件。
[0045]一种面向文档扫描PDF文件的并行识别处理方法,所述步骤2的PDF文件分页处理为页面图像集合具体为,通过java语言编程中的ApachePDFBox开源工具或通过python语言编程中的PyMuPDF库实现;
[0046]所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向文档扫描PDF文件的并行识别处理方法,其特征在于,所述并行识别处理方法具体包括以下步骤:步骤1:通过扫描仪连续扫描纸质文档图像,保存图像采集结果为PDF文件;步骤2:将步骤1的PDF文件分页处理为页面图像集合,为每一幅页面图像添加页码标签;步骤3:将步骤2的页面图像集合划分为多个图像的分组数据;步骤4:基于步骤3的图像分组数据通过消息队列进行发送;步骤5:多块GPU从队列中接收步骤4的图像分组数据,进行OCR识别;步骤6:基于步骤5的识别结果根据标签进行重组,将识别内容保存为可编辑文件。2.根据权利要求1所述一种面向文档扫描PDF文件的并行识别处理方法,其特征在于,所述步骤2的PDF文件分页处理为页面图像集合具体为,通过java语言编程中的ApachePDFBox开源工具或通过python语言编程中的PyMuPDF库实现;所述步骤2的页码标签是其在原始PDF文件中的页码。3.根据权利要求1所述一种面向文档扫描PDF文件的并行识别处理方法,其特征在于,所述步骤3的多个图像的分组数据具体为,按照标签顺序对页面图像集合进行分组,每组有32幅。4.根据权利要求1所述一种面向文档扫描PDF文件的并行识别处理方法,其特征在于,所述步骤4发送数据具体为,图像组的数据分发过程基于消息队列协议,即发送图像组数据到队列中,被GPU捕获与处理;多个GPU通过抢占的方式接收队列中的图像组;如果处理过程中出现异常情况:将处理数据放回队列,供其他GPU处理,并记录重试次数,重试次数超过限定次数时,将数据组存储到存档异常数据的数据库中。5.根据权利要求1所述一种面向文档扫描PDF文件的并行识别处理方法,其特征在于,所述步骤5首先对图像进行预处理,再进行OCR识别;所述进行OCR识别具体包括以下步骤:步骤5.1:对页面构成元素进行检...

【专利技术属性】
技术研发人员:赵阳张巍元张俊鹏裴昀林禹全
申请(专利权)人:吉林省吉林祥云信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1