【技术实现步骤摘要】
本专利技术具体实施例涉及信息处理
,特别涉及一种文字识别方法及装置。
技术介绍
随着数码相机、摄像头、超高速扫描仪等图像获取设备的广泛应用,图像中信息越来越引起人们的关注。其中嵌入在图像中的文字是图像语义内容的一种重要表达方式,能够提供一些人们所需要的重要信息。例如图像中的文字可以是该图像的内容概述,如果能够自动提取和识别图像中的文字,就可以让计算机自动理解图像内容。让计算机像人类一样识别图像中的文字,对于图像和视频的存储、分类、理解及检索等来说具有极其重要的意义,有着广泛的应用前景和商业价值。然而,当前商业或开源的OCR(Optical Character Recognition,光学字符识别)系统,例如Tesseract、OpenRTK、TypeReader、清华紫光OCR等,多用于简单背景中的文字识别,对复杂背景中的文字识别效果并不好。
技术实现思路
有鉴于此,有必要提供一种文字识别方法及装置,可以提高复杂背景中文字识别的准确率。一种文字识别方法,包括以下步骤:定位步骤:获取图像,定位该图像的文字区域,该文字区域中文字以外的部分为局部背景;背景判断步骤:判断该局部背景是否属于复杂背景;确定步骤:若该局部背景属于复杂背景,则确定该文字的颜色;构建步骤:结合该文字的颜色与该文字区域构建选区为该文字的掩模;及第一识别步骤:使用该掩模从文字区域中提取文字进行识别,并输出识别结果。< ...
【技术保护点】
一种文字识别方法,其特征在于,该方法包括以下步骤:定位步骤:获取图像,定位该图像的文字区域,该文字区域中文字以外的部分为局部背景;背景判断步骤:判断该局部背景是否属于复杂背景;确定步骤:若该局部背景属于复杂背景,则确定该文字的颜色;构建步骤:结合该文字的颜色与该文字区域构建选区为该文字的掩模;及第一识别步骤:使用该掩模从文字区域中提取文字进行识别,并输出识别结果。
【技术特征摘要】
1.一种文字识别方法,其特征在于,该方法包括以下步骤:
定位步骤:获取图像,定位该图像的文字区域,该文字区域中文字以
外的部分为局部背景;
背景判断步骤:判断该局部背景是否属于复杂背景;
确定步骤:若该局部背景属于复杂背景,则确定该文字的颜色;
构建步骤:结合该文字的颜色与该文字区域构建选区为该文字的掩模;
及
第一识别步骤:使用该掩模从文字区域中提取文字进行识别,并输出
识别结果。
2.如权利要求1所述的文字识别方法,其特征在于,所述定位步骤还
包括:
获取该文字区域的位置坐标及该文字的笔画信息。
3.如权利要求2所述的文字识别方法,其特征在于,所述背景判断步
骤还包括:
根据该文字区域的位置坐标及该文字的笔画信息生成二值图,该二值
图包括灰度值为第一预设值的第一像素组,以及灰度值为第二预设值的第
二像素组,该第一像素组反映图像中的该文字,第二像素组反映该图像中
文字以外的部分,即整体背景。
4.如权利要求3所述的文字识别方法,其特征在于,所述背景判断步
骤还包括:
对所生成的该二值图进行膨胀处理。
5.如权利要求4所述的文字识别方法,其特征在于,所述背景判断步
骤还包括:
根据该二值图确定该文字区域中所述局部背景对应的像素;
对该局部背景对应的像素进行各颜色通道的颜色直方图统计,从而确
\t定该局部背景的主颜色;
统计该局部背景的主颜色对应的像素总数,并计算该局部背景的主颜
色对应的像素总数占该局部背景的像素总数的比例,得到第一比例值;
判断该第一比例值是否小于第一阈值,若是,则判定该局部背景属于
复杂背景。
6.如权利要求5所述的文字识别方法,其特征在于,所述背景判断步
骤还包括:
若该第一比例值不小于该第一阈值,则判断该第一比例值是否大于第
二阈值;
若该第一比例值不大于该第二阈值,则根据该二值图确定该图像的所
述整体背景对应的像素;
对该整体背景对应的像素进行各颜色通道的颜色直方图统计,从而确
定该整体背景的主颜色;
统计该整体背景的主颜色对应的像素总数,并计算该整体背景的主颜
色对应的像素总数占该整体背景的像素总数的比例,得到第二比例值;
判断该第二比例值是否小于第三阈值,若是,则判定该局部背景属于
复杂背景。
7.如权利要求3所述的文字识别方法,其特征在于,所述确定步骤包
括:
根据该二值图确定该文字对应的像素;
统计该文字对应的各像素的颜色,对所统计的各像素的颜色进行聚类,
得到该文字的颜色。
8.如权利要求7所述的文字识别方法,其特征在于,所述构建步骤包
括:
分别计算该文字区域的各像素的颜色与该文字的颜色的距离,以该距
\t离作为对应像素的颜色值,生成颜色距离图;
对该颜色距离图进行二值化处理,得到所述掩模。
9.如权利要求8所述的文字识别方法,其特征在于,所述对该颜色距
离图进行二值化处理的步骤包括:
对该颜色距离图进行局部自适应二值化处理。
10.如权利要求8所述的文字识别方法,其特征在于,所述构建步骤
还包括:
对该掩模进行去除点噪声处理。
11.如权利要求1所述的文字识别方法,其特征在于,所述定位步骤
还包括:
检测该文字的倾斜角度。
12.如权利要求11所述的文字识别方法,其特征在于,所述构建步骤
之后还包括:
根据该倾斜角度对该文字区域及该掩模进行倾斜校正。
13.如权利要求1所述的文字识别方法,其特征在于,所述第一识别
步骤还包括:
对该掩模进行版面分析及单字切分操作,从而使用该掩模从文字区域
中将每一个文字提取出来进行识别。
14.如权利要求1所述的文字识别方法,其特征在于,所述第一识别
步骤还包括:
对该掩模进行膨胀处理。
15.如权利要求1所述的文字识别方法,其特征在于,所述第一识别
步骤还包括:
对所提取文字进行归一化处理后再进行识别。
16.如权利要求11所述的文字识别方法,其特征在于,还包括:
处理步骤:若该局部背景不属于复杂背景,则对该文字区域进行二值
化处理;
第二识别步骤:对二值化处理后的该文字区域进行版面分析及单字切
分操作,将文字区域中每个文字提取出来进行识别,并输出识别结果。
17.如权利要求16所述的文字识别方法,其特征在于,所述对该文字
区域进行二值化处理的步骤后还包括:
根据该倾斜角度对该文字区域进行倾斜校正。
18.一种文字识别...
【专利技术属性】
技术研发人员:梅树起,陈泳君,刘伯兴,
申请(专利权)人:深圳市腾讯计算机系统有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。