一种基于OCR的漏识文字自动检测的方法技术

技术编号：14517231 阅读：90 留言：0更新日期：2017-02-01 19:37

本发明专利技术公开了一种基于OCR的漏识文字自动检测的方法，所述方法包括以下步骤：A对识别结果文件进行特征分析；B对没有问题的识别结果文件进行图像二值化处理；C检查图像非识别区域范围内是否有未识别内容，如果发现字符，存在漏识内容；否则，执行步骤D；D检查图像识别区域范围是否存在未识别内容，如果发现字符，存在漏识内容；否则，结束漏识文字检测。本发明专利技术可以通过依次检查图像的识别区域和非识别区域，自动全面检查图像识别结果是否有漏识，达到了自动化处理要求，这样解放了人力，提高了工作效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于OCR技术和图像处理
，尤其涉及一种基于OCR的漏识文字自动检测的方法。
技术介绍
纸质论文扫描后要进行识别，而扫描后的论文的图像质量千差万别，排版形式多种多样，因此各种识别软件识别后的结果也可能存在遗漏或者误识别的情况，目前，只能通过人工来检查来判别结果是否完整可用。因为图像质量各有好坏，所以图像经过识别软件识别以后，识别结果也存在差别，由于图像质量以及识别软件本身的问题，都可能存在漏识别和误识别(主要是指将文字区域错识别为非文字内容，如图表、表格)的情况。因为在出版行业必须保证内容的精确性，所以必须人工检查所有识别结果，这样做费时费力。因此急需一种自动检测方法把人们从这种繁琐的工作中解放出来。
技术实现思路
为解决上述技术问题，本专利技术的目的是提供一种基于OCR的漏识文字自动检测的方法，该方法是自动检测识别后的图像是否存在未识别内容以及误识别内容。主要解决：(1)扫描的图像质量各不相同，有底纹的图像识别效果会有所下降，且更容易出现误识别(比如将文字区域识别为图表等情况)；(2)扫描的图像不清晰或者字体较大(比如横幅标题)时，容易出现漏识别的情况。本专利技术的目的通过以下的技术方案来实现：一种基于OCR的漏识文字自动检测的方法，包括：A对识别结果文件进行特征分析；B对没有问题的识别结果文件进行图像二值化处理；C检查图像非识别区域范围内是否有未识别内容，如果发现字符，存在漏识内容；否则，执行步骤D；D检查图像识别区域范围是否存在未识别内容，如果发现字符，存在漏识内容；否则，结束漏识文字检测。与现有技术相比，本专利技术的一个或多个实施例可...

【技术保护点】
一种基于OCR的漏识文字自动检测的方法，其特征在于，所述方法包括以下步骤：A对识别结果文件进行特征分析；B对没有问题的识别结果文件进行图像二值化处理；C检查图像非识别区域范围内是否有未识别内容，如果发现字符，存在漏识内容；否则，执行步骤D；D检查图像识别区域范围是否存在未识别内容，如果发现字符，存在漏识内容；否则，结束漏识文字检测。

【技术特征摘要】
1.一种基于OCR的漏识文字自动检测的方法，其特征在于，所述方法包括以下步骤：A对识别结果文件进行特征分析；B对没有问题的识别结果文件进行图像二值化处理；C检查图像非识别区域范围内是否有未识别内容，如果发现字符，存在漏识内容；否则，执行步骤D；D检查图像识别区域范围是否存在未识别内容，如果发现字符，存在漏识内容；否则，结束漏识文字检测。2.如权利要求1所述的基于OCR的漏识文字自动检测的方法，其特征在于，所述步骤A中识别结果文件特征分析包括：识别结果版面信息分析、识别结果中的字符串行信息分析及每个字符的标红信息分析，并计算总标红率和最大连续标红数。3.如权利要求1或2所述的基于OCR的漏识文字自动检测的方法，其特征在于，当字符标红率过高或版面...

【专利技术属性】
技术研发人员：王长征，王龙，刘文晓，张保花，
申请(专利权)人：山西同方知网数字出版技术有限公司，
类型：发明
国别省市：山西;14

全部详细技术资料下载我是这个专利的主人