OCR识别文件的处理方法及其电子设备技术

技术编号：21715180 阅读：23 留言：0更新日期：2019-07-27 19:25

本发明专利技术涉及图像处理领域，尤其是图像检测中的OCR识别的细分领域，公开一种OCR识别文件的处理方法，通过获取待识别文件的图片，并将所述图片进行缓存；根据有效性条件对所述图片进行有效性检查；当所述图片不符合所述有效性条件时，重新获取相应的图片；根据所述缓存的图片和重新获取的图片生成OCR识别文件。本发明专利技术还相应提供一种电子设备和计算机存储介质。本发明专利技术提供的技术方案，能够判断待识别文件中是否存在针对OCR识别的不符合有效性条件的识别缺陷，并且通过将全部图片缓存在本地或服务器中，不需要在发生识别缺陷时舍弃全部图片，提升影响生成后续供OCR识别文件的生成效率，避免浪费系统资源。

Processing Method of OCR Recognition File and Its Electronic Equipment

全部详细技术资料下载

【技术实现步骤摘要】
OCR识别文件的处理方法及其电子设备
本专利技术涉及图像识别领域，更具体地，涉及一种OCR识别文件的处理方法及其电子设备。
技术介绍
OCR(OpticalCharacterRecognition，光学字符识别)主要通过对载体上显示的光学字符进行识别，生成文本输出。以纸质文件的OCR识别为例，通过采集纸质文件上的印刷体得到的光学字符，对其进行识别，即可得到文本信息等数据。当OCR识别的待识别文件中出现识别缺陷时，例如是OCR识别文件中出现漏页、某些图像模糊或者程序错误等情况。现有技术的技术方案只能是舍弃前期已经处理的图片，重新采集待识别文稿的图片作为OCR识别文件。例如在扫描或拍摄多页合同文件时，很有可能出现影响OCR识别文件等情况，此时只能舍弃已经得到的OCR识别文件的全部图片，重新进行图片采集。现有技术中的技术方案生成待识别文件的效率较低，耗时长，重复操作次数多，不能满足现在的OCR识别要求。
技术实现思路
鉴于上述问题，本专利技术提出了一种OCR识别文件的处理方法，避免上述技术缺陷，能提升OCR待识别文件的生成效率。第一方面，本专利技术实施例中提供了一种OCR识别文件的处理方法，包括：获取待识别文件的图片，并将所述图片进行缓存；根据有效性条件对所述图片进行有效性检查；当所述图片不符合所述有效性条件时，重新获取相应的图片；根据所述缓存的图片和重新获取的图片生成OCR识别文件。结合第一方面，所述获取待识别文件的图片的步骤包括：依次获取待识别文件的多张图片；所述根据有效性条件对所述图片进行有效性检查的步骤，包括：在生成OCR识别文件前，根据完整性条件对多张缓存...

【技术保护点】
1.一种OCR识别文件的处理方法，其特征在于，包括：获取待识别文件的图片，并将所述图片进行缓存；根据有效性条件对所述图片进行有效性检查；当所述图片不符合所述有效性条件时，重新获取相应的图片；根据所述缓存的图片和重新获取的图片生成OCR识别文件。

【技术特征摘要】
1.一种OCR识别文件的处理方法，其特征在于，包括：获取待识别文件的图片，并将所述图片进行缓存；根据有效性条件对所述图片进行有效性检查；当所述图片不符合所述有效性条件时，重新获取相应的图片；根据所述缓存的图片和重新获取的图片生成OCR识别文件。2.根据权利要求1所述的OCR识别文件的处理方法，其特征在于，所述获取待识别文件的图片的步骤包括：依次获取待识别文件的多张图片；所述根据有效性条件对所述图片进行有效性检查的步骤，包括：在生成OCR识别文件前，根据完整性条件对多张缓存的图片进行完整性检查；所述当所述图片不符合所述有效性条件时，重新获取相应的图片的步骤，包括：当所述图片不符合所述完整性条件时，获取待识别文件的相应缺失部分的图片。3.根据权利要求2所述的OCR识别文件的处理方法，其特征在于，所述根据完整性条件对多张缓存的图片进行完整性检查的步骤，包括：对所述缓存的图片的页码进行OCR识别，判定所述页码的连续性，当页码不连续时，判断所述图片漏页。4.根据权利要求2所述的OCR识别文件的处理方法，其特征在于，所述根据完整性条件对多张缓存的图片进行完整性检查的步骤，包括对所述缓存的图片的文本内容进行OCR识别，并获取所述文本内容中的关键词；根据所述关键词对图片进行验证，若图片中识别的关键词与其他图片的关键词不一致，判定所述图片漏页。5.根据权利要求2所述的OCR识别文件的处理方法，其特征在于，所述根据完整性条件对多张缓存的图片进行完整性检查的步骤，包括分别对上一张图片的末行文本和下一张图片的首行文本进行OCR识别，得到第一文本内容和第二文本内容；对所述第一文本内容和第二文本内容进行自然语义分析，若第一文本内容和第二文本内容不符合连续性，判定所述图片漏页。6....

【专利技术属性】
技术研发人员：刘丽珍，吕小立，
申请(专利权)人：深圳壹账通智能科技有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人