【技术实现步骤摘要】
基于OCR识别的PDF识别方法
[0001]本专利技术属于文字识别
,尤其涉及基于OCR识别的PDF识别方法。
技术介绍
[0002]便携式文档格式(PDF:Portable Document Format),可以将文字、字型、格式、颜色及独立于设备和分辨率的图形图像等封装在一个文件中,具有扩平台性、支持多种文件格式互转、压缩比较高、不可编辑等优点,逐渐成为出版业中的新宠。对一些PDF读者而言,有时需要对PDF文件进行编辑,但是PDF文件是不支持直接编辑的。目前对PDF文件的编辑方案是采用PDF文件转换方法,首先利用WPS或微软自带软件,将PDF文件转换成可以编辑的文档(如word文档),从而实现对PDF文件的修改。但是使用WPS或微软自带软件进行PDF文件转换,转换过程较为繁琐且存在文件乱码风险,识别准确率不高。
技术实现思路
[0003]有鉴于此,本专利技术实施例提供基于OCR识别的PDF识别方法,用于解决现有PDF文件转换方法,转换过程较为繁琐且识别准确率低的问题。本专利技术使用多种OCR识别技术 ...
【技术保护点】
【技术特征摘要】
1.基于OCR识别的PDF识别方法,其特征在于,包括:调用多种OCR识别技术对目标PDF文档的每个字节进行识别,得到各种OCR识别技术对目标PDF文档中每个字节识别出的字符串;根据预设选择策略,从多种OCR识别技术对所述目标PDF文档的第i个字节识别出的字符串中确定出所述目标PDF文档的第i个字节对应的最优字节字符串;其中,i=1,2,
…
,R;R为目标PDF文档的字节总数;将所述目标PDF文档的所有字节各自对应的最优字节字符串按照所述目标PDF文档的字节顺序输出,得到目标PDF文档的识别结果。2.如权利要求1所述的基于OCR识别的PDF识别方法,其特征在于,所述根据预设选择策略,从多种OCR识别技术对所述目标PDF文档的第i个字节识别出的字符串中确定出所述目标PDF文档的第i个字节对应的最优字节字符串,包括:判断所述多种OCR识别技术对所述目标PDF文档的第i个字节识别出的字符串是否全部相同;若所述多种OCR识别技术对所述目标PDF文档的第i个字节识别出的字符串全部相同,则将该相同的字符串确定为所述目标PDF文档的第i个字节对应的最优字节字符串。3.如权利要求2所述的基于OCR识别的PDF识别方法,其特征在于,在判断所述多种OCR识别技术对所述目标PDF文档的第i个字节识别出的字符串是否全部相同之后,还包括:若所述多种OCR识别技术对所述目标PDF文档的第i个字节识别出的字符串不全部相同,则筛选出所述多种OCR识别技术对所述目标PDF文档的第i个字节识别出的字符串中重复次数最多的字符串;将筛选出的重复次数最多的字符串组成所述目标PDF文档的第i个字节对应的最优字节字符串数组;判断所述目标PDF文档的第i个字节对应的最优字节字符串数组中的元素总数是否等于1;若所述目标PDF文档的第i个字节对应的最优字节字符串数组中的元素总数等于1,则将所述目标PDF文档的第i个字节对应的最优字节字符串数组中的唯一元素确定为所述目标PDF文档的第i个字节对应的最优字节字符串。4.如权利要求3所述的基于OCR识别的PDF识别方法,其特征在于,在判断所述目标PDF文档的第i个字节对应的最优字节字符串数组中的元素总数是否等于1之后,还包括:若所述目标PDF文档的第i个字节对应的最优字节字符串数组中的元素总数不等于1,则获取所述目标PDF文档的第i个字节对应的最优字节字符串数组中的每个元素对应的OCR识别技术的权重值;根据所述目标PDF文档的第i个字节对应的最优字节字符串数组中的每个元素对应的OCR识别技术的权重值,确定所述目标PDF文档的第i个字节对应的最优字节字符串。5.如权利要求4所述的基于OCR识别的PDF识别方法,其特征在于,在所述调用多种OCR识别技术对目标PDF文档的每个字节进行识别之前,还包括:预先设置每种OCR识别技术的权重值;所述获取所述目标PDF文档的第i个字节对应的最优字节字符串数组中的每个元素对应的OCR识别技术的权重值,包括:
获取预先设置的所述目标PDF文档的第i个字节对应的最优字节字符串数组中的每个元素对应的OCR识别技术的权重值。6.如权利要求4所述的基于OCR识别的PDF识别方法,其特征在于,在所述将所述目标PDF文档的所有字节各自对应的最优字节字符串按照所述目标PDF文档的字节顺序输出,得到目标PDF文档的识别结果之后,还包括:根据所述目标PDF文档的所有字节各自对应的最优字节字...
【专利技术属性】
技术研发人员:余丹,兰雨晴,王尧甘,刘玮,彭建强,
申请(专利权)人:慧之安信息技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。