基于OCR识别的PDF识别方法技术

技术编号:34775218 阅读:24 留言:0更新日期:2022-08-31 19:45
本发明专利技术的实施例公开基于OCR识别的PDF识别方法,涉及文字识别技术领域。所述方法,包括:调用多种OCR识别技术对目标PDF文档的每个字节进行识别,得到各种OCR识别技术对目标PDF文档中每个字节识别出的字符串;根据预设选择策略,从多种OCR识别技术对所述目标PDF文档的第i个字节识别出的字符串中确定出所述目标PDF文档的第i个字节对应的最优字节字符串;将所述目标PDF文档的所有字节各自对应的最优字节字符串按照所述目标PDF文档的字节顺序输出,得到目标PDF文档的识别结果。本发明专利技术能有效地提高PDF文件中文字识别的准确度。地提高PDF文件中文字识别的准确度。地提高PDF文件中文字识别的准确度。

【技术实现步骤摘要】
基于OCR识别的PDF识别方法


[0001]本专利技术属于文字识别
,尤其涉及基于OCR识别的PDF识别方法。

技术介绍

[0002]便携式文档格式(PDF:Portable Document Format),可以将文字、字型、格式、颜色及独立于设备和分辨率的图形图像等封装在一个文件中,具有扩平台性、支持多种文件格式互转、压缩比较高、不可编辑等优点,逐渐成为出版业中的新宠。对一些PDF读者而言,有时需要对PDF文件进行编辑,但是PDF文件是不支持直接编辑的。目前对PDF文件的编辑方案是采用PDF文件转换方法,首先利用WPS或微软自带软件,将PDF文件转换成可以编辑的文档(如word文档),从而实现对PDF文件的修改。但是使用WPS或微软自带软件进行PDF文件转换,转换过程较为繁琐且存在文件乱码风险,识别准确率不高。

技术实现思路

[0003]有鉴于此,本专利技术实施例提供基于OCR识别的PDF识别方法,用于解决现有PDF文件转换方法,转换过程较为繁琐且识别准确率低的问题。本专利技术使用多种OCR识别技术对PDF文档的每个字本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于OCR识别的PDF识别方法,其特征在于,包括:调用多种OCR识别技术对目标PDF文档的每个字节进行识别,得到各种OCR识别技术对目标PDF文档中每个字节识别出的字符串;根据预设选择策略,从多种OCR识别技术对所述目标PDF文档的第i个字节识别出的字符串中确定出所述目标PDF文档的第i个字节对应的最优字节字符串;其中,i=1,2,

,R;R为目标PDF文档的字节总数;将所述目标PDF文档的所有字节各自对应的最优字节字符串按照所述目标PDF文档的字节顺序输出,得到目标PDF文档的识别结果。2.如权利要求1所述的基于OCR识别的PDF识别方法,其特征在于,所述根据预设选择策略,从多种OCR识别技术对所述目标PDF文档的第i个字节识别出的字符串中确定出所述目标PDF文档的第i个字节对应的最优字节字符串,包括:判断所述多种OCR识别技术对所述目标PDF文档的第i个字节识别出的字符串是否全部相同;若所述多种OCR识别技术对所述目标PDF文档的第i个字节识别出的字符串全部相同,则将该相同的字符串确定为所述目标PDF文档的第i个字节对应的最优字节字符串。3.如权利要求2所述的基于OCR识别的PDF识别方法,其特征在于,在判断所述多种OCR识别技术对所述目标PDF文档的第i个字节识别出的字符串是否全部相同之后,还包括:若所述多种OCR识别技术对所述目标PDF文档的第i个字节识别出的字符串不全部相同,则筛选出所述多种OCR识别技术对所述目标PDF文档的第i个字节识别出的字符串中重复次数最多的字符串;将筛选出的重复次数最多的字符串组成所述目标PDF文档的第i个字节对应的最优字节字符串数组;判断所述目标PDF文档的第i个字节对应的最优字节字符串数组中的元素总数是否等于1;若所述目标PDF文档的第i个字节对应的最优字节字符串数组中的元素总数等于1,则将所述目标PDF文档的第i个字节对应的最优字节字符串数组中的唯一元素确定为所述目标PDF文档的第i个字节对应的最优字节字符串。4.如权利要求3所述的基于OCR识别的PDF识别方法,其特征在于,在判断所述目标PDF文档的第i个字节对应的最优字节字符串数组中的元素总数是否等于1之后,还包括:若所述目标PDF文档的第i个字节对应的最优字节字符串数组中的元素总数不等于1,则获取所述目标PDF文档的第i个字节对应的最优字节字符串数组中的每个元素对应的OCR识别技术的权重值;根据所述目标PDF文档的第i个字节对应的最优字节字符串数组中的每个元素对应的OCR识别技术的权重值,确定所述目标PDF文档的第i个字节对应的最优字节字符串。5.如权利要求4所述的基于OCR识别的PDF识别方法,其特征在于,在所述调用多种OCR识别技术对目标PDF文档的每个字节进行识别之前,还包括:预先设置每种OCR识别技术的权重值;所述获取所述目标PDF文档的第i个字节对应的最优字节字符串数组中的每个元素对应的OCR识别技术的权重值,包括:
获取预先设置的所述目标PDF文档的第i个字节对应的最优字节字符串数组中的每个元素对应的OCR识别技术的权重值。6.如权利要求4所述的基于OCR识别的PDF识别方法,其特征在于,在所述将所述目标PDF文档的所有字节各自对应的最优字节字符串按照所述目标PDF文档的字节顺序输出,得到目标PDF文档的识别结果之后,还包括:根据所述目标PDF文档的所有字节各自对应的最优字节字...

【专利技术属性】
技术研发人员:余丹兰雨晴王尧甘刘玮彭建强
申请(专利权)人:慧之安信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1