基于特征压缩与特征选择的歪斜场景文字识别方法技术

技术编号:11410709 阅读:103 留言:0更新日期:2015-05-06 10:05
本发明专利技术涉及一种基于特征压缩与特征选择的歪斜场景文字识别方法,其步骤包括:在文字区域的每个像素点上提取CHOG特征;根据CHOG特征的差异程度确定字符级的聚类数量;对CHOG特征进行聚类得到压缩后的字符级特征;将压缩过的特征合并,再次进行聚类,生成初始的视觉特征词典;建立视觉特征直方图描述符;训练线性支持向量机,对直方图描述符中特征的重要性进行排序,选出若干最重要的特征作为最终的词典;再次计算样本的直方图描述符,训练多类径向基函数支持向量机,作为最终的文字分类器以对歪斜场景文字进行识别,得到识别结果。本发明专利技术能够在克服特征点检测法失效的同时,保证很高的识别准确率和召回率。

【技术实现步骤摘要】
基于特征压缩与特征选择的歪斜场景文字识别方法
本专利技术属于计算机视觉、文字提取与识别
,具体涉及一种基于特征压缩与特征选择的歪斜场景文字识别方法。
技术介绍
近年来,随着内置相机的移动设备的增加,各类在自然场景中拍摄的照片数量成爆炸性增长。很多非常有价值的应用,例如:基于文字信息的图片查询、智能驾驶辅助、视力障碍人员的阅读辅助和场景的理解等,都依赖于从图片中获取文字信息的方法。因此,自然场景中的文字提取与识别作为处理这种新数据来源的核心问题,成为近年来计算机视觉研究的热点话题。在文字检测算法将场景图片中文字区域提取出来之后,需要一套针对场景文字识别的算法。场景文字由于模糊、光照不均、低分辨率等原因不容易被识别。而且,由于这些场景照片多为手持设备拍摄,所以其中文字常常是倾斜的。由于这些原因,传统的倾斜校正方法在场景图片文字上并不能奏效。因此,虽然传统的光学文字识别系统(OCR)已经非常成熟,但是为了识别场景文字依然有必要开发有针对性的识别系统。在文字检测算法检测出含有文字的区域后,可以通过一些矫正方法来获得高质量的文字形状信息。这些方法通过分析文字形状以及假设文字存在于水平文本行中来对检测到的文字区域进行矫正,然后再识别。然而,场景图片中的文字由于受到前面提到的干扰,其形状往往不能被有效的提取。研究表明传统的二值化方法,边缘检测方法以及最稳定机制区域法均无法分离出可供传统OCR系统识别的二值化掩模(Mishra,A.,Alahari,K.,Jawahar,C.:Top-downandbottom-upcuesforscenetextrecognition.In:CVPR.(2012))。另外,由于目前针对场景文字检测开发的算法主要解决的都是无歪斜的识别问题,对有歪斜的场景文字的识别还有待研究。现有的歪斜文字识别算法是通过密集特征提取实现的。由于场景图片中的文字区域较小,而且图片质量不高,所以特征点检测方法常常失效。因此,有必要在图片上密集地提取特征。现有的歪斜文字识别方法采用128维的ScaleInvariantFeatureTransform(SIFT)作为单个字符区域的特征描述符,在规范化后的图像上每隔两个像素提取一个SIFT特征。将所有训练样本上提取出的所有特征汇集成一个特征集,然后通过聚类的方法降维,最终生成一个视觉特征词典。然后找出所有与训练样本中的特征最相近的词汇,并生成最终的Bag-of-Words(BoG)直方图描述符。在新样本上测试时,使用相同的方法提取特征并矢量化。由于使用密集的特征提取来表示单个字符,随着词典中词汇量的增大,计算复杂度将成倍增加。
技术实现思路
本专利技术的目的在于设计并实现一种基于特征压缩与特征选择的歪斜场景文字识别方法。同样使用具有类似于SIFT特征的旋转不变特征作为描述字符图片的底层特征,然后使用字符级聚类和视觉特征词典聚类两次聚类对原始的密集特征进行压缩,以达到借助于密集特征提取获取更强的字符间区分能力,以及克服特征点检测法失效的同时,保持高速、高效。最后,通过对压缩过的特征进行评级,将对字符间区分作用不大的特征过滤掉。最后训练出的分类器不但速度快,而且可以保证很高的识别准确率和召回率。为实现上述目的,本专利技术采用如下技术方案:一种基于特征压缩与特征选择的歪斜场景文字识别方法,其步骤包括:1)在文字区域的每个像素点上提取CHOG(Circular-FourierHistogramofOrientedGradient)特征;2)根据提取出的不同像素上的CHOG特征的差异程度确定字符级的聚类数量;3)在确定聚类数量后,对CHOG特征进行聚类以得到压缩后的字符级特征;4)将所有训练样本中的压缩过的特征合并,并再次进行聚类,生成一个初始的视觉特征词典;5)使用所述初始的视觉特征词典建立视觉特征直方图描述符;6)训练线性支持向量机,通过线性支持向量机对字符的直方图描述符中特征的重要性进行排序,选出若干最重要的特征作为最终的词典;7)使用所述最终的词典再次计算样本的直方图描述符,然后训练一个多类径向基函数支持向量机,将其作为最终的文字分类器;8)使用所述最终的文字分类器对歪斜场景文字进行识别,并得到识别结果。进一步地,步骤2)使用Elbow方法确定聚类数量。进一步地,步骤3)和步骤4)使用K-Means方法进行聚类。与现有技术相比,本专利技术的有益效果如下:1)不同于SIFT特征,本专利技术采用的CHOG特征的提取不存在离散的插值,而且可以随着图片信息自动对齐并自动旋转特征向量以达到旋转不变性的目的,准确率更高;2)本专利技术使用多尺度的CHOG特征对文字区域做精细程度不同的描述,这样做可以获取多尺度的信息,而且缩短特征描述符的平均长度,提高处理速度;3)本专利技术通过字符级的特征压缩,在构建直方图的时候计算复杂度降低为直接使用原始密集特征的1%~5%左右,大大提高处理效率;4)本专利技术使用特征选择方法对词典进行删选,进一步缩小在测试时的计算复杂度,并提高识别的准确率;最终得到的模型以及在新样本上测试的复杂度不足现有模式的10%,极大的提高了识别的速度。附图说明图1是本专利技术方法的总体流程图。图2是本专利技术方法的CHOG特征提取与学习的流程图。图3是本专利技术方法使用不同大小的词典的识别准确率图。具体实施方式为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面通过具体实施例和附图,对本专利技术做进一步说明。本专利技术使用在字符区域的每个像素上提取Circular-FourierHistogramofOrientedGradient(CHOG)特征(Skibbe,H.,Reisert,M.:Circularfourier-hogfeaturesforrotationinvariantobjectdetectioninbiomedicalimages.In:ISBI.(2012))。CHOG具有密集特征提取速度快,而且具有旋转不变性的优点。为了解决歪斜文字的识别问题,本专利技术采用CHOG作为底层特征来对单个文字进行描述。图1是本专利技术方法的总体流程图。具体步骤如下:1)首先,在文字区域的每个像素点上都提取CHOG特征。2)然后,使用Elbow方法(一种现有方法)来根据提取出的不同像素上的CHOG特征的差异程度来决定字符级的聚类数量。3)在使用Elbow方法确定聚类数量后,使用K-Means进行聚类以得到压缩后的字符级特征。4)将所有训练样本中的压缩过的特征汇集以后,再次使用K-Means聚类生成一个压缩后特征的视觉特征词典。5)然后,通过寻找压缩过的特征在该字典中的最近邻的方法计算出一个BoG直方图作为单个字符区域最终的描述符。6)之后,训练一系列的线性支持向量机来对这些特征的重要性进行评级。由于最终的特征描述符是一个直方图,因此线性支持向量机对特征赋予的权重可以直接反映特征的重要性。得到初期训练出的这些线性支持向量机之后,综合这些线性支持向量机对词典中特征重要性的评价,选出K个最重要的特征作为最终的词典。在新的样本上测试的时候,使用精简过的词典可以进一步提高识别的效果和速度。本专利技术进行CHOG特征提取与学习的流程如图2所示。在提取出每个像素上的CHOG特征后,通过使用傅立叶基来表示CHOG,并根据图本文档来自技高网
...
基于特征压缩与特征选择的歪斜场景文字识别方法

【技术保护点】
一种基于特征压缩与特征选择的歪斜场景文字识别方法,其步骤包括:1)在文字区域的每个像素点上提取CHOG特征;2)根据提取出的不同像素上的CHOG特征的差异程度确定字符级的聚类数量;3)在确定聚类数量后,对CHOG特征进行聚类以得到压缩后的字符级特征;4)将所有训练样本中的压缩过的特征合并,并再次进行聚类,生成一个初始的视觉特征词典;5)使用所述初始的视觉特征词典,建立视觉特征直方图描述符;6)训练线性支持向量机,通过线性支持向量机对字符的直方图描述符中特征的重要性进行排序,选出K个最重要的特征作为最终的词典;7)使用所述最终的词典再次计算样本的直方图描述符,然后训练一个多类径向基函数支持向量机,将其作为最终的文字分类器;8)使用所述最终的文字分类器对歪斜场景文字进行识别,并得到识别结果。

【技术特征摘要】
1.一种基于特征压缩与特征选择的歪斜场景文字识别方法,其步骤包括:1)在文字区域的每个像素点上提取CHOG特征,即Circular-FourierHistogramofOrientedGradient特征;2)根据提取出的不同像素上的CHOG特征的差异程度确定字符级的聚类数量;3)在确定聚类数量后,对CHOG特征进行聚类以得到压缩后的字符级特征;4)将所有训练样本中的压缩过的特征合并,并再次进行聚类,生成一个初始的视觉特征词典;5)使用所述初始的视觉特征词典,建立视觉特征直方图描述符;6)训练线性支持向量机,通过线性支持向量机对字符的直方图描述符中特征的重要性进行排序,选出K个最重要的特征作为最终的词典;7)使用所述最终的词典再次计算样本的直方图描述符,然后训练一个多类径向基函数支持向量机,将其作为最终的文字分类器;8)使用所述最终的...

【专利技术属性】
技术研发人员:张永铮周宇王一鹏
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1