一种面向文档扫描PDF文件的并行识别处理方法技术

技术编号：34945113 阅读：13 留言：0更新日期：2022-09-17 12:20

本发明专利技术属于图像处理领域，公开了一种面向文档扫描PDF文件的并行识别处理方法。步骤1：通过扫描仪连续扫描纸质文档图像，保存图像采集结果为PDF文件；步骤2：将步骤1的PDF文件分页处理为页面图像集合，为每一幅页面图像添加页码标签；步骤3：将步骤2的页面图像集合划分为多个图像的分组数据；步骤4：基于步骤3的图像分组数据通过消息队列进行发送；步骤5：多块GPU从队列中接收步骤4的图像分组数据，进行OCR识别；步骤6：基于步骤5的识别结果根据标签进行重组，将识别内容保存为可编辑文件。本发明专利技术用以解决现有关于PDF文件的研究主要集中在对PDF的解析，对于包含较多页数PDF文件的处理效率问题。效率问题。效率问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种面向文档扫描PDF文件的并行识别处理方法

[0001]本专利技术属于图像处理领域，具体涉及一种面向文档扫描PDF文件的并行识别处理方法。

技术介绍

[0002]纸质文档的信息检索与查询处理效率不高，通过图像识别技术可以有效提高纸质文档的处理效率。实现过程一般是先通过扫描仪对纸质文档进行连续扫描采集，保存为图像后再进行识别处理，将识别结果挂载到数据库后可以方便地检索查询。通常,纸质文档采集结果以PDF文件的形式存储。而通过扫描方式生成的PDF文件，其内容均为图像类对象，即页面内容不可直接编辑，因此需要通过OCR技术对图像对象进一步识别处理，而PDF文件往往包含大量页码，处理需要大量等待时间，提高对此类文件的处理效率尤为重要。

技术实现思路

[0003]本专利技术提供一种面向文档扫描PDF文件的并行识别处理方法，用以解决现有关于PDF文件的研究主要集中在对PDF的解析，对于包含较多页数PDF文件的处理效率问题。
[0004]本专利技术提供一种电子设备。
[0005]本专利技术提供一种计算机可读存储介质。
[0006]本专利技术通过以下技术方案实现：
[0007]一种面向文档扫描PDF文件的并行识别处理方法，所述并行识别处理方法具体包括以下步骤：
[0008]步骤1：通过扫描仪连续扫描纸质文档图像，保存图像采集结果为PDF文件；
[0009]步骤2：将步骤1的PDF文件分页处理为页面图像集合，为每一幅页面图像添加页码标签；
[0010]步骤3：将步...

【技术保护点】

【技术特征摘要】
1.一种面向文档扫描PDF文件的并行识别处理方法，其特征在于，所述并行识别处理方法具体包括以下步骤：步骤1：通过扫描仪连续扫描纸质文档图像，保存图像采集结果为PDF文件；步骤2：将步骤1的PDF文件分页处理为页面图像集合，为每一幅页面图像添加页码标签；步骤3：将步骤2的页面图像集合划分为多个图像的分组数据；步骤4：基于步骤3的图像分组数据通过消息队列进行发送；步骤5：多块GPU从队列中接收步骤4的图像分组数据，进行OCR识别；步骤6：基于步骤5的识别结果根据标签进行重组，将识别内容保存为可编辑文件。2.根据权利要求1所述一种面向文档扫描PDF文件的并行识别处理方法，其特征在于，所述步骤2的PDF文件分页处理为页面图像集合具体为，通过java语言编程中的ApachePDFBox开源工具或通过python语言编程中的PyMuPDF库实现；所述步骤2的页码标签是其在原始PDF文件中的页码。3.根据权利要求1所述一种面向文档扫描PDF文件的并行识别处理方法，其特征在于，所述步骤3的多个图像的分组数据具体为，按照标签顺序对页面图像集合进行分组，每组有32幅。4.根据权利要求1所述一种面向文档扫描PDF文件的并行识别处理方法，其特征在于，所述步骤4发送数据具体为，图像组的数据分发过程基于消息队列协议，即发送图像组数据到队列中，被GPU捕获与处理；多个GPU通过抢占的方式接收队列中的图像组；如果处理过程中出现异常情况：将处理数据放回队列，供其他GPU处理，并记录重试次数，重试次数超过限定次数时，将数据组存储到存档异常数据的数据库中。5.根据权利要求1所述一种面向文档扫描PDF文件的并行识别处理方法，其特征在于，所述步骤5首先对图像进行预处理，再进行OCR识别；所述进行OCR识别具体包括以下步骤：步骤5.1：对页面构成元素进行检...

【专利技术属性】
技术研发人员：赵阳，张巍元，张俊鹏，裴昀，林禹全，
申请(专利权)人：吉林省吉林祥云信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人