基于OCR识别的PDF识别方法技术

技术编号：34775218 阅读：24 留言：0更新日期：2022-08-31 19:45

本发明专利技术的实施例公开基于OCR识别的PDF识别方法，涉及文字识别技术领域。所述方法，包括：调用多种OCR识别技术对目标PDF文档的每个字节进行识别，得到各种OCR识别技术对目标PDF文档中每个字节识别出的字符串；根据预设选择策略，从多种OCR识别技术对所述目标PDF文档的第i个字节识别出的字符串中确定出所述目标PDF文档的第i个字节对应的最优字节字符串；将所述目标PDF文档的所有字节各自对应的最优字节字符串按照所述目标PDF文档的字节顺序输出，得到目标PDF文档的识别结果。本发明专利技术能有效地提高PDF文件中文字识别的准确度。地提高PDF文件中文字识别的准确度。地提高PDF文件中文字识别的准确度。

全部详细技术资料下载

【技术实现步骤摘要】
基于OCR识别的PDF识别方法

[0001]本专利技术属于文字识别
，尤其涉及基于OCR识别的PDF识别方法。

技术介绍

[0002]便携式文档格式(PDF：Portable Document Format)，可以将文字、字型、格式、颜色及独立于设备和分辨率的图形图像等封装在一个文件中，具有扩平台性、支持多种文件格式互转、压缩比较高、不可编辑等优点，逐渐成为出版业中的新宠。对一些PDF读者而言，有时需要对PDF文件进行编辑，但是PDF文件是不支持直接编辑的。目前对PDF文件的编辑方案是采用PDF文件转换方法，首先利用WPS或微软自带软件，将PDF文件转换成可以编辑的文档(如word文档)，从而实现对PDF文件的修改。但是使用WPS或微软自带软件进行PDF文件转换，转换过程较为繁琐且存在文件乱码风险，识别准确率不高。

技术实现思路

[0003]有鉴于此，本专利技术实施例提供基于OCR识别的PDF识别方法，用于解决现有PDF文件转换方法，转换过程较为繁琐且识别准确率低的问题。本专利技术使用多种OCR识别技术...

【技术保护点】

【技术特征摘要】
1.基于OCR识别的PDF识别方法，其特征在于，包括：调用多种OCR识别技术对目标PDF文档的每个字节进行识别，得到各种OCR识别技术对目标PDF文档中每个字节识别出的字符串；根据预设选择策略，从多种OCR识别技术对所述目标PDF文档的第i个字节识别出的字符串中确定出所述目标PDF文档的第i个字节对应的最优字节字符串；其中，i＝1,2,
…
,R；R为目标PDF文档的字节总数；将所述目标PDF文档的所有字节各自对应的最优字节字符串按照所述目标PDF文档的字节顺序输出，得到目标PDF文档的识别结果。2.如权利要求1所述的基于OCR识别的PDF识别方法，其特征在于，所述根据预设选择策略，从多种OCR识别技术对所述目标PDF文档的第i个字节识别出的字符串中确定出所述目标PDF文档的第i个字节对应的最优字节字符串，包括：判断所述多种OCR识别技术对所述目标PDF文档的第i个字节识别出的字符串是否全部相同；若所述多种OCR识别技术对所述目标PDF文档的第i个字节识别出的字符串全部相同，则将该相同的字符串确定为所述目标PDF文档的第i个字节对应的最优字节字符串。3.如权利要求2所述的基于OCR识别的PDF识别方法，其特征在于，在判断所述多种OCR识别技术对所述目标PDF文档的第i个字节识别出的字符串是否全部相同之后，还包括：若所述多种OCR识别技术对所述目标PDF文档的第i个字节识别出的字符串不全部相同，则筛选出所述多种OCR识别技术对所述目标PDF文档的第i个字节识别出的字符串中重复次数最多的字符串；将筛选出的重复次数最多的字符串组成所述目标PDF文档的第i个字节对应的最优字节字符串数组；判断所述目标PDF文档的第i个字节对应的最优字节字符串数组中的元素总数是否等于1；若所述目标PDF文档的第i个字节对应的最优字节字符串数组中的元素总数等于1，则将所述目标PDF文档的第i个字节对应的最优字节字符串数组中的唯一元素确定为所述目标PDF文档的第i个字节对应的最优字节字符串。4.如权利要求3所述的基于OCR识别的PDF识别方法，其特征在于，在判断所述目标PDF文档的第i个字节对应的最优字节字符串数组中的元素总数是否等于1之后，还包括：若所述目标PDF文档的第i个字节对应的最优字节字符串数组中的元素总数不等于1，则获取所述目标PDF文档的第i个字节对应的最优字节字符串数组中的每个元素对应的OCR识别技术的权重值；根据所述目标PDF文档的第i个字节对应的最优字节字符串数组中的每个元素对应的OCR识别技术的权重值，确定所述目标PDF文档的第i个字节对应的最优字节字符串。5.如权利要求4所述的基于OCR识别的PDF识别方法，其特征在于，在所述调用多种OCR识别技术对目标PDF文档的每个字节进行识别之前，还包括：预先设置每种OCR识别技术的权重值；所述获取所述目标PDF文档的第i个字节对应的最优字节字符串数组中的每个元素对应的OCR识别技术的权重值，包括：
获取预先设置的所述目标PDF文档的第i个字节对应的最优字节字符串数组中的每个元素对应的OCR识别技术的权重值。6.如权利要求4所述的基于OCR识别的PDF识别方法，其特征在于，在所述将所述目标PDF文档的所有字节各自对应的最优字节字符串按照所述目标PDF文档的字节顺序输出，得到目标PDF文档的识别结果之后，还包括：根据所述目标PDF文档的所有字节各自对应的最优字节字...

【专利技术属性】
技术研发人员：余丹，兰雨晴，王尧甘，刘玮，彭建强，
申请(专利权)人：慧之安信息技术股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人