一种文字识别方法及装置制造方法及图纸

技术编号:10939046 阅读:206 留言:0更新日期:2015-01-21 19:16
本发明专利技术涉及一种文字识别方法,包括以下步骤:定位步骤:获取图像,定位该图像的文字区域,该文字区域中文字以外的部分为局部背景;背景判断步骤:判断该局部背景是否属于复杂背景;确定步骤:若该局部背景属于复杂背景,则确定该文字的颜色;构建步骤:结合该文字的颜色与该文字区域构建选区为该文字的掩模;及第一识别步骤:使用该掩模从文字区域中提取文字进行识别,并输出识别结果。本发明专利技术还提供一种文字识别装置。利用本发明专利技术可以提高复杂背景中文字识别的准确率。

【技术实现步骤摘要】

本专利技术具体实施例涉及信息处理
,特别涉及一种文字识别方法及装置
技术介绍
随着数码相机、摄像头、超高速扫描仪等图像获取设备的广泛应用,图像中信息越来越引起人们的关注。其中嵌入在图像中的文字是图像语义内容的一种重要表达方式,能够提供一些人们所需要的重要信息。例如图像中的文字可以是该图像的内容概述,如果能够自动提取和识别图像中的文字,就可以让计算机自动理解图像内容。让计算机像人类一样识别图像中的文字,对于图像和视频的存储、分类、理解及检索等来说具有极其重要的意义,有着广泛的应用前景和商业价值。然而,当前商业或开源的OCR(Optical Character Recognition,光学字符识别)系统,例如Tesseract、OpenRTK、TypeReader、清华紫光OCR等,多用于简单背景中的文字识别,对复杂背景中的文字识别效果并不好。
技术实现思路
有鉴于此,有必要提供一种文字识别方法及装置,可以提高复杂背景中文字识别的准确率。一种文字识别方法,包括以下步骤:定位步骤:获取图像,定位该图像的文字区域,该文字区域中文字以外的部分为局部背景;背景判断步骤:判断该局部背景是否属于复杂背景;确定步骤:若该局部背景属于复杂背景,则确定该文字的颜色;构建步骤:结合该文字的颜色与该文字区域构建选区为该文字的掩模;及第一识别步骤:使用该掩模从文字区域中提取文字进行识别,并输出识别结果。<br>一种文字识别装置,包括:定位模块,用于获取图像,定位该图像的文字区域,该文字区域中文字以外的部分为局部背景;背景判断模块,用于判断该局部背景是否属于复杂背景;确定模块,用于若该局部背景属于复杂背景,则确定该文字的颜色;构建模块,用于结合该文字的颜色与该文字区域构建选区为该文字的掩模;及第一识别模块,用于使用该掩模从文字区域中提取文字进行识别,并输出识别结果。相较于现有技术,本专利技术文字识别方法及装置,在图像中定位出文字区域后,若判断该文字区域中文字的背景为复杂背景,则根据文字的颜色和该文字区域构建选区为该文字的掩模,通过该掩模来提取该文字进行识别,可以提高复杂背景中文字识别的准确率。为让本专利技术的上述和其他目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附图式,作详细说明如下。附图说明图1为本专利技术第一实施例提供的文字识别方法的流程图。图2至图5为图像的示例图。图6为图3对应的二值图的示例图。图7为判断局部背景是否属于复杂背景的部分流程图。图8为对图6所示的二值图进行膨胀处理后的示意图。图9为各颜色通道的颜色直方图。图10为判断局部背景是否属于复杂背景的部分流程图。图11为图1中步骤S3的详细流程图。图12为图1中步骤S4的详细流程图。图13为对应于图2中文字区域的掩模。图14为对掩模进行版面分析的结果示例图。图15为对图14进行单字切分操作的结果示例图。图16为本专利技术第二实施例提供的文字识别方法的流程图。图17为本专利技术第三实施例提供的文字识别装置的框图。图18为本专利技术第四实施例提供的文字识别装置的框图。具体实施方式为更进一步阐述本专利技术为实现预定专利技术目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本专利技术的具体实施方式、结构、特征及其功效,详细说明如后。第一实施例参阅图1所示,本专利技术第一实施例提供一种文字识别方法,该文字识别方法包括以下步骤:步骤S1,获取图像,定位该图像的文字区域,该文字区域中文字以外的部分为局部背景;步骤S2,判断该局部背景是否属于复杂背景;步骤S3,若该局部背景属于复杂背景,则确定该文字的颜色;步骤S4,结合该文字的颜色与该文字区域构建选区为该文字的掩模;及步骤S5,使用该掩模从文字区域中提取文字进行识别,并输出识别结果。按照上述的文字识别方法,在图像中定位出文字区域后,若判断该文字区域中文字的背景为复杂背景,则根据文字的颜色和该文字区域构建选区为该文字的掩模,通过该掩模来提取该文字进行识别,可以提高复杂背景中文字识别的准确率。在一些实例中,上述方法的各步骤的实现细节如下:步骤S1所述的图像例如图2、图3、图4或图5所示。该图像中包括文字。该图像可以通过数码相机、摄像头、扫描仪等图像获取设备采集得到。其中,该图像中文字以外的部分被称为整体背景,即该图像由该文字及整体背景组成。在本实施例中,可以采用例如基于边缘分析、基于纹理分析、基于区域分析或基于学习等检测与定位方法,根据文字的颜色聚合性及笔画连通性来检测图像中的文字,定位该图像中的文字区域,并获取该文字区域在图像中的位置坐标、文字区域中文字的笔画信息和倾斜角度等信息。该文字区域中文字以外的部分被称为局部背景。值得注意的是,通常为了快速检测图像中存在的文字,通过上述的检测与定位方法获得的文字的笔画信息并不完全准确,有可能会将该局部背景中与该文字相连的某些部分也误判为文字的笔画,例如图5中将人物的头发与“发”字相连的一部分也误判为“发”字的笔画。步骤S2中,先根据所述文字区域的位置坐标及该文字的笔画信息生成二值图,该二值图的各像素与该图像的各像素的位置一一对应。该二值图包括灰度值为第一预设值,例如255的第一像素组,以及灰度值为第二预设值,例如0的第二像素组。该第一像素组用于反映图像中的该文字,该第二像素组用于反映该图像的整体背景。如图6所示,为根据在图3中定位文字区域并获取的文字的笔画信息生成的二值图,该二值图的第一像素组呈白色,第二像素组呈黑色,使该二值图呈现明显的黑白效果。白色部分根据该文字的笔画信息形成,用于反映该图像中的文字。该二值图白色以外的部分为黑色,用于反映该图像的整体背景。由于所获取的文字的笔画信息并不完全准确,因此该二值图的第一像素组所反映的文字与该图像中的文字并不完全一致,该第一像素组只能大致反映该图像中的文字,第二像素组也只能大致反映该图像的整体背景。在一个实例中,参阅图7所示,判断该局部背景是否属于复杂背景的方法可以包括以下步骤:步骤S2.1,根据该二值图确定该文字区域中所述局部背景对应的像素。具体而言,可以根据该文字区域的位置坐标在该二值图中找到与该文字区域对应的特定区域,然后根据该特定区域与该文字区域中像素位置一一对应的关系,在该文字区域中找出与该特定区域中灰度值为第二预设值的像本文档来自技高网...

【技术保护点】
一种文字识别方法,其特征在于,该方法包括以下步骤:定位步骤:获取图像,定位该图像的文字区域,该文字区域中文字以外的部分为局部背景;背景判断步骤:判断该局部背景是否属于复杂背景;确定步骤:若该局部背景属于复杂背景,则确定该文字的颜色;构建步骤:结合该文字的颜色与该文字区域构建选区为该文字的掩模;及第一识别步骤:使用该掩模从文字区域中提取文字进行识别,并输出识别结果。

【技术特征摘要】
1.一种文字识别方法,其特征在于,该方法包括以下步骤:
定位步骤:获取图像,定位该图像的文字区域,该文字区域中文字以
外的部分为局部背景;
背景判断步骤:判断该局部背景是否属于复杂背景;
确定步骤:若该局部背景属于复杂背景,则确定该文字的颜色;
构建步骤:结合该文字的颜色与该文字区域构建选区为该文字的掩模;

第一识别步骤:使用该掩模从文字区域中提取文字进行识别,并输出
识别结果。
2.如权利要求1所述的文字识别方法,其特征在于,所述定位步骤还
包括:
获取该文字区域的位置坐标及该文字的笔画信息。
3.如权利要求2所述的文字识别方法,其特征在于,所述背景判断步
骤还包括:
根据该文字区域的位置坐标及该文字的笔画信息生成二值图,该二值
图包括灰度值为第一预设值的第一像素组,以及灰度值为第二预设值的第
二像素组,该第一像素组反映图像中的该文字,第二像素组反映该图像中
文字以外的部分,即整体背景。
4.如权利要求3所述的文字识别方法,其特征在于,所述背景判断步
骤还包括:
对所生成的该二值图进行膨胀处理。
5.如权利要求4所述的文字识别方法,其特征在于,所述背景判断步
骤还包括:
根据该二值图确定该文字区域中所述局部背景对应的像素;
对该局部背景对应的像素进行各颜色通道的颜色直方图统计,从而确

\t定该局部背景的主颜色;
统计该局部背景的主颜色对应的像素总数,并计算该局部背景的主颜
色对应的像素总数占该局部背景的像素总数的比例,得到第一比例值;
判断该第一比例值是否小于第一阈值,若是,则判定该局部背景属于
复杂背景。
6.如权利要求5所述的文字识别方法,其特征在于,所述背景判断步
骤还包括:
若该第一比例值不小于该第一阈值,则判断该第一比例值是否大于第
二阈值;
若该第一比例值不大于该第二阈值,则根据该二值图确定该图像的所
述整体背景对应的像素;
对该整体背景对应的像素进行各颜色通道的颜色直方图统计,从而确
定该整体背景的主颜色;
统计该整体背景的主颜色对应的像素总数,并计算该整体背景的主颜
色对应的像素总数占该整体背景的像素总数的比例,得到第二比例值;
判断该第二比例值是否小于第三阈值,若是,则判定该局部背景属于
复杂背景。
7.如权利要求3所述的文字识别方法,其特征在于,所述确定步骤包
括:
根据该二值图确定该文字对应的像素;
统计该文字对应的各像素的颜色,对所统计的各像素的颜色进行聚类,
得到该文字的颜色。
8.如权利要求7所述的文字识别方法,其特征在于,所述构建步骤包
括:
分别计算该文字区域的各像素的颜色与该文字的颜色的距离,以该距

\t离作为对应像素的颜色值,生成颜色距离图;
对该颜色距离图进行二值化处理,得到所述掩模。
9.如权利要求8所述的文字识别方法,其特征在于,所述对该颜色距
离图进行二值化处理的步骤包括:
对该颜色距离图进行局部自适应二值化处理。
10.如权利要求8所述的文字识别方法,其特征在于,所述构建步骤
还包括:
对该掩模进行去除点噪声处理。
11.如权利要求1所述的文字识别方法,其特征在于,所述定位步骤
还包括:
检测该文字的倾斜角度。
12.如权利要求11所述的文字识别方法,其特征在于,所述构建步骤
之后还包括:
根据该倾斜角度对该文字区域及该掩模进行倾斜校正。
13.如权利要求1所述的文字识别方法,其特征在于,所述第一识别
步骤还包括:
对该掩模进行版面分析及单字切分操作,从而使用该掩模从文字区域
中将每一个文字提取出来进行识别。
14.如权利要求1所述的文字识别方法,其特征在于,所述第一识别
步骤还包括:
对该掩模进行膨胀处理。
15.如权利要求1所述的文字识别方法,其特征在于,所述第一识别
步骤还包括:
对所提取文字进行归一化处理后再进行识别。
16.如权利要求11所述的文字识别方法,其特征在于,还包括:
处理步骤:若该局部背景不属于复杂背景,则对该文字区域进行二值
化处理;
第二识别步骤:对二值化处理后的该文字区域进行版面分析及单字切
分操作,将文字区域中每个文字提取出来进行识别,并输出识别结果。
17.如权利要求16所述的文字识别方法,其特征在于,所述对该文字
区域进行二值化处理的步骤后还包括:
根据该倾斜角度对该文字区域进行倾斜校正。
18.一种文字识别...

【专利技术属性】
技术研发人员:梅树起陈泳君刘伯兴
申请(专利权)人:深圳市腾讯计算机系统有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1