一种文字识别方法及装置制造方法及图纸

技术编号：10939046 阅读：206 留言：0更新日期：2015-01-21 19:16

本发明专利技术涉及一种文字识别方法，包括以下步骤：定位步骤：获取图像，定位该图像的文字区域，该文字区域中文字以外的部分为局部背景；背景判断步骤：判断该局部背景是否属于复杂背景；确定步骤：若该局部背景属于复杂背景，则确定该文字的颜色；构建步骤：结合该文字的颜色与该文字区域构建选区为该文字的掩模；及第一识别步骤：使用该掩模从文字区域中提取文字进行识别，并输出识别结果。本发明专利技术还提供一种文字识别装置。利用本发明专利技术可以提高复杂背景中文字识别的准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术具体实施例涉及信息处理
，特别涉及一种文字识别方法及装置。
技术介绍
随着数码相机、摄像头、超高速扫描仪等图像获取设备的广泛应用，图像中信息越来越引起人们的关注。其中嵌入在图像中的文字是图像语义内容的一种重要表达方式，能够提供一些人们所需要的重要信息。例如图像中的文字可以是该图像的内容概述，如果能够自动提取和识别图像中的文字，就可以让计算机自动理解图像内容。让计算机像人类一样识别图像中的文字，对于图像和视频的存储、分类、理解及检索等来说具有极其重要的意义，有着广泛的应用前景和商业价值。然而，当前商业或开源的OCR（Optical Character Recognition，光学字符识别）系统，例如Tesseract、OpenRTK、TypeReader、清华紫光OCR等，多用于简单背景中的文字识别，对复杂背景中的文字识别效果并不好。
技术实现思路
有鉴于此，有必要提供一种文字识别方法及装置，可以提高复杂背景中文字识别的准确率。一种文字识别方法，包括以下步骤：定位步骤：获取图像，定位该图像的文字区域，该文字区域中文字以外的部分为局部背景；背景判断步骤：判断该局部背景是否属于复杂背景；确定步骤：若该局部背景属于复杂背景，则确定该文字的颜色；构建步骤：结合该文字的颜色与该文字区域构建选区为该文字的掩模；及第一识别步骤：使用该掩模从文字区域中提取文字进行识别，并输出识别结果。<...

【技术保护点】
一种文字识别方法，其特征在于，该方法包括以下步骤：定位步骤：获取图像，定位该图像的文字区域，该文字区域中文字以外的部分为局部背景；背景判断步骤：判断该局部背景是否属于复杂背景；确定步骤：若该局部背景属于复杂背景，则确定该文字的颜色；构建步骤：结合该文字的颜色与该文字区域构建选区为该文字的掩模；及第一识别步骤：使用该掩模从文字区域中提取文字进行识别，并输出识别结果。

【技术特征摘要】
1.一种文字识别方法，其特征在于，该方法包括以下步骤：
定位步骤：获取图像，定位该图像的文字区域，该文字区域中文字以
外的部分为局部背景；
背景判断步骤：判断该局部背景是否属于复杂背景；
确定步骤：若该局部背景属于复杂背景，则确定该文字的颜色；
构建步骤：结合该文字的颜色与该文字区域构建选区为该文字的掩模；
及
第一识别步骤：使用该掩模从文字区域中提取文字进行识别，并输出
识别结果。
2.如权利要求1所述的文字识别方法，其特征在于，所述定位步骤还
包括：
获取该文字区域的位置坐标及该文字的笔画信息。
3.如权利要求2所述的文字识别方法，其特征在于，所述背景判断步
骤还包括：
根据该文字区域的位置坐标及该文字的笔画信息生成二值图，该二值
图包括灰度值为第一预设值的第一像素组，以及灰度值为第二预设值的第
二像素组，该第一像素组反映图像中的该文字，第二像素组反映该图像中
文字以外的部分，即整体背景。
4.如权利要求3所述的文字识别方法，其特征在于，所述背景判断步
骤还包括：
对所生成的该二值图进行膨胀处理。
5.如权利要求4所述的文字识别方法，其特征在于，所述背景判断步
骤还包括：
根据该二值图确定该文字区域中所述局部背景对应的像素；
对该局部背景对应的像素进行各颜色通道的颜色直方图统计，从而确

\t定该局部背景的主颜色；
统计该局部背景的主颜色对应的像素总数，并计算该局部背景的主颜
色对应的像素总数占该局部背景的像素总数的比例，得到第一比例值；
判断该第一比例值是否小于第一阈值，若是，则判定该局部背景属于
复杂背景。
6.如权利要求5所述的文字识别方法，其特征在于，所述背景判断步
骤还包括：
若该第一比例值不小于该第一阈值，则判断该第一比例值是否大于第
二阈值；
若该第一比例值不大于该第二阈值，则根据该二值图确定该图像的所
述整体背景对应的像素；
对该整体背景对应的像素进行各颜色通道的颜色直方图统计，从而确
定该整体背景的主颜色；
统计该整体背景的主颜色对应的像素总数，并计算该整体背景的主颜
色对应的像素总数占该整体背景的像素总数的比例，得到第二比例值；
判断该第二比例值是否小于第三阈值，若是，则判定该局部背景属于
复杂背景。
7.如权利要求3所述的文字识别方法，其特征在于，所述确定步骤包
括：
根据该二值图确定该文字对应的像素；
统计该文字对应的各像素的颜色，对所统计的各像素的颜色进行聚类，
得到该文字的颜色。
8.如权利要求7所述的文字识别方法，其特征在于，所述构建步骤包
括：
分别计算该文字区域的各像素的颜色与该文字的颜色的距离，以该距

\t离作为对应像素的颜色值，生成颜色距离图；
对该颜色距离图进行二值化处理，得到所述掩模。
9.如权利要求8所述的文字识别方法，其特征在于，所述对该颜色距
离图进行二值化处理的步骤包括：
对该颜色距离图进行局部自适应二值化处理。
10.如权利要求8所述的文字识别方法，其特征在于，所述构建步骤
还包括：
对该掩模进行去除点噪声处理。
11.如权利要求1所述的文字识别方法，其特征在于，所述定位步骤
还包括：
检测该文字的倾斜角度。
12.如权利要求11所述的文字识别方法，其特征在于，所述构建步骤
之后还包括：
根据该倾斜角度对该文字区域及该掩模进行倾斜校正。
13.如权利要求1所述的文字识别方法，其特征在于，所述第一识别
步骤还包括：
对该掩模进行版面分析及单字切分操作，从而使用该掩模从文字区域
中将每一个文字提取出来进行识别。
14.如权利要求1所述的文字识别方法，其特征在于，所述第一识别
步骤还包括：
对该掩模进行膨胀处理。
15.如权利要求1所述的文字识别方法，其特征在于，所述第一识别
步骤还包括：
对所提取文字进行归一化处理后再进行识别。
16.如权利要求11所述的文字识别方法，其特征在于，还包括：
处理步骤：若该局部背景不属于复杂背景，则对该文字区域进行二值
化处理；
第二识别步骤：对二值化处理后的该文字区域进行版面分析及单字切
分操作，将文字区域中每个文字提取出来进行识别，并输出识别结果。
17.如权利要求16所述的文字识别方法，其特征在于，所述对该文字
区域进行二值化处理的步骤后还包括：
根据该倾斜角度对该文字区域进行倾斜校正。
18.一种文字识别...

【专利技术属性】
技术研发人员：梅树起，陈泳君，刘伯兴，
申请(专利权)人：深圳市腾讯计算机系统有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人