OCR识别文件的处理方法及其电子设备技术

技术编号:21715180 阅读:23 留言:0更新日期:2019-07-27 19:25
本发明专利技术涉及图像处理领域,尤其是图像检测中的OCR识别的细分领域,公开一种OCR识别文件的处理方法,通过获取待识别文件的图片,并将所述图片进行缓存;根据有效性条件对所述图片进行有效性检查;当所述图片不符合所述有效性条件时,重新获取相应的图片;根据所述缓存的图片和重新获取的图片生成OCR识别文件。本发明专利技术还相应提供一种电子设备和计算机存储介质。本发明专利技术提供的技术方案,能够判断待识别文件中是否存在针对OCR识别的不符合有效性条件的识别缺陷,并且通过将全部图片缓存在本地或服务器中,不需要在发生识别缺陷时舍弃全部图片,提升影响生成后续供OCR识别文件的生成效率,避免浪费系统资源。

Processing Method of OCR Recognition File and Its Electronic Equipment

【技术实现步骤摘要】
OCR识别文件的处理方法及其电子设备
本专利技术涉及图像识别领域,更具体地,涉及一种OCR识别文件的处理方法及其电子设备。
技术介绍
OCR(OpticalCharacterRecognition,光学字符识别)主要通过对载体上显示的光学字符进行识别,生成文本输出。以纸质文件的OCR识别为例,通过采集纸质文件上的印刷体得到的光学字符,对其进行识别,即可得到文本信息等数据。当OCR识别的待识别文件中出现识别缺陷时,例如是OCR识别文件中出现漏页、某些图像模糊或者程序错误等情况。现有技术的技术方案只能是舍弃前期已经处理的图片,重新采集待识别文稿的图片作为OCR识别文件。例如在扫描或拍摄多页合同文件时,很有可能出现影响OCR识别文件等情况,此时只能舍弃已经得到的OCR识别文件的全部图片,重新进行图片采集。现有技术中的技术方案生成待识别文件的效率较低,耗时长,重复操作次数多,不能满足现在的OCR识别要求。
技术实现思路
鉴于上述问题,本专利技术提出了一种OCR识别文件的处理方法,避免上述技术缺陷,能提升OCR待识别文件的生成效率。第一方面,本专利技术实施例中提供了一种OCR识别文件的处理方法,包括:获取待识别文件的图片,并将所述图片进行缓存;根据有效性条件对所述图片进行有效性检查;当所述图片不符合所述有效性条件时,重新获取相应的图片;根据所述缓存的图片和重新获取的图片生成OCR识别文件。结合第一方面,所述获取待识别文件的图片的步骤包括:依次获取待识别文件的多张图片;所述根据有效性条件对所述图片进行有效性检查的步骤,包括:在生成OCR识别文件前,根据完整性条件对多张缓存的图片进行完整性检查;所述当所述图片不符合所述有效性条件时,重新获取相应的图片的步骤,包括:当所述图片不符合所述完整性条件时,获取待识别文件的相应缺失部分的图片。结合第一方面,所述根据完整性条件对多张缓存的图片进行完整性检查的步骤,包括:对所述缓存的图片的页码进行OCR识别,判定所述页码的连续性,当页码不连续时,判断所述图片漏页。结合第一方面,所述根据完整性条件对多张缓存的图片进行完整性检查的步骤,包括对所述缓存的图片的文本内容进行OCR识别,并获取所述文本内容中的关键词;根据所述关键词对图片进行验证,若图片中识别的关键词与其他图片的关键词不一致,判定所述图片漏页。结合第一方面,所述根据完整性条件对多张缓存的图片进行完整性检查的步骤,包括分别对上一张图片的末行文本和下一张图片的首行文本进行OCR识别,得到第一文本内容和第二文本内容;对所述第一文本内容和第二文本内容进行自然语义分析,若第一文本内容和第二文本内容不符合连续性,判定所述图片漏页。结合第一方面,所述重新获取相应的图片的步骤,包括:根据所述漏页的位置,重新获取所述漏页的图片;所述根据所述缓存的图片和重新获取的图片生成OCR识别文件的步骤,包括:根据待识别文件的顺序将所述漏页的图片插入到所述缓存的图片相应的缺失位置,将所有图片转换为OCR识别文件。结合第一方面,所述根据有效性条件对所述图片进行有效性检查的步骤,包括:在生成OCR识别文件前,根据识别性条件对所述图片进行可识别性检查;所述当所述图片不符合所述有效性条件时,重新获取相应的图片的步骤,包括:当所述图片不具备可识别性时,重新获取相应的图片;所述根据所述缓存的图片和重新获取的图片生成OCR识别文件的步骤,包括:将所述重新获取的图片替换所述不具备可识别性的图片,根据所述缓存的图片和替换的图片生成OCR识别文件。结合第一方面,所述根据有效性条件对所述图片进行有效性检查的步骤,包括:在生成OCR识别文件前,判断所述图片是否存在虚化、存在非可识别区域或变形;所述当所述图片不符合所述有效性条件时,重新获取相应的图片的步骤,包括:根据所述存在虚化或存在非可识别区域或变形的图片的位置,重新获取相应位置的图片。第二方面,本专利技术提供一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为执行上述任意一项所述的OCR识别文件的处理方法。第三方面,本专利技术提供一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行如上述,任一项所述的OCR识别文件的处理方法。相对于现有技术,本专利技术提供的方案,通过获取待识别文件的图片,并将所述图片进行缓存;根据有效性条件对所述图片进行有效性检查;当所述图片不符合所述有效性条件时,重新获取相应的图片;根据所述缓存的图片和重新获取的图片生成OCR识别文件。本专利技术还相应提供一种电子设备和计算机存储介质。本专利技术提供的技术方案,能够判断待识别文件中是否存在针对OCR识别的不符合有效性条件的识别缺陷,并且通过将全部图片缓存在本地或服务器中,不需要在发生识别缺陷时舍弃全部图片,提升影响生成后续供OCR识别文件的生成效率,避免浪费系统资源。本专利技术的这些方面或其他方面在以下实施例的描述中会更加简明易懂。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1示出本专利技术的OCR识别文件的处理方法的方法流程图;图2是本专利技术的OCR识别文件的处理方法的场景示意图;图3示出本专利技术的待识别文件的图片次序和缺页示意图;图4示出本专利技术的多张图片进行完整性检查的方法流程图;图5示出本专利技术中待识别文件中其中一张图片结构的示意图;图6示出本专利技术利用关键词判断待识别文件是否漏页的方法流程图;图7示出本专利技术通过首行文本和末行文本判断是否漏页的方法流程图;图8示出本专利技术中待识别文件中另一张图片结构的示意图;图9示出本专利技术重新获取图片并插入缺失位置的方法流程图;图10示出本专利技术对图片进行可识别性检查并替换的方法流程图;图11示出本专利技术具体判断可识别性并替换的方法流程图;图12示出的是与本专利技术实施例提供的终端相关的手机的部分结构的框图。具体实施方式为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述。在本专利技术的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本申请涉及OCR识别,OCR是光学字符识别。请参考图1,为了提高获取OCR识别文件的效率,避免OCR识别文件在识别阶段存在的缺陷导致本文档来自技高网
...

【技术保护点】
1.一种OCR识别文件的处理方法,其特征在于,包括:获取待识别文件的图片,并将所述图片进行缓存;根据有效性条件对所述图片进行有效性检查;当所述图片不符合所述有效性条件时,重新获取相应的图片;根据所述缓存的图片和重新获取的图片生成OCR识别文件。

【技术特征摘要】
1.一种OCR识别文件的处理方法,其特征在于,包括:获取待识别文件的图片,并将所述图片进行缓存;根据有效性条件对所述图片进行有效性检查;当所述图片不符合所述有效性条件时,重新获取相应的图片;根据所述缓存的图片和重新获取的图片生成OCR识别文件。2.根据权利要求1所述的OCR识别文件的处理方法,其特征在于,所述获取待识别文件的图片的步骤包括:依次获取待识别文件的多张图片;所述根据有效性条件对所述图片进行有效性检查的步骤,包括:在生成OCR识别文件前,根据完整性条件对多张缓存的图片进行完整性检查;所述当所述图片不符合所述有效性条件时,重新获取相应的图片的步骤,包括:当所述图片不符合所述完整性条件时,获取待识别文件的相应缺失部分的图片。3.根据权利要求2所述的OCR识别文件的处理方法,其特征在于,所述根据完整性条件对多张缓存的图片进行完整性检查的步骤,包括:对所述缓存的图片的页码进行OCR识别,判定所述页码的连续性,当页码不连续时,判断所述图片漏页。4.根据权利要求2所述的OCR识别文件的处理方法,其特征在于,所述根据完整性条件对多张缓存的图片进行完整性检查的步骤,包括对所述缓存的图片的文本内容进行OCR识别,并获取所述文本内容中的关键词;根据所述关键词对图片进行验证,若图片中识别的关键词与其他图片的关键词不一致,判定所述图片漏页。5.根据权利要求2所述的OCR识别文件的处理方法,其特征在于,所述根据完整性条件对多张缓存的图片进行完整性检查的步骤,包括分别对上一张图片的末行文本和下一张图片的首行文本进行OCR识别,得到第一文本内容和第二文本内容;对所述第一文本内容和第二文本内容进行自然语义分析,若第一文本内容和第二文本内容不符合连续性,判定所述图片漏页。6....

【专利技术属性】
技术研发人员:刘丽珍吕小立
申请(专利权)人:深圳壹账通智能科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1