基于特征压缩与特征选择的歪斜场景文字识别方法技术

技术编号：11410709 阅读：103 留言：0更新日期：2015-05-06 10:05

本发明专利技术涉及一种基于特征压缩与特征选择的歪斜场景文字识别方法，其步骤包括：在文字区域的每个像素点上提取CHOG特征；根据CHOG特征的差异程度确定字符级的聚类数量；对CHOG特征进行聚类得到压缩后的字符级特征；将压缩过的特征合并，再次进行聚类，生成初始的视觉特征词典；建立视觉特征直方图描述符；训练线性支持向量机，对直方图描述符中特征的重要性进行排序，选出若干最重要的特征作为最终的词典；再次计算样本的直方图描述符，训练多类径向基函数支持向量机，作为最终的文字分类器以对歪斜场景文字进行识别，得到识别结果。本发明专利技术能够在克服特征点检测法失效的同时，保证很高的识别准确率和召回率。

全部详细技术资料下载

【技术实现步骤摘要】
基于特征压缩与特征选择的歪斜场景文字识别方法
本专利技术属于计算机视觉、文字提取与识别
，具体涉及一种基于特征压缩与特征选择的歪斜场景文字识别方法。
技术介绍
近年来，随着内置相机的移动设备的增加，各类在自然场景中拍摄的照片数量成爆炸性增长。很多非常有价值的应用，例如：基于文字信息的图片查询、智能驾驶辅助、视力障碍人员的阅读辅助和场景的理解等，都依赖于从图片中获取文字信息的方法。因此，自然场景中的文字提取与识别作为处理这种新数据来源的核心问题，成为近年来计算机视觉研究的热点话题。在文字检测算法将场景图片中文字区域提取出来之后，需要一套针对场景文字识别的算法。场景文字由于模糊、光照不均、低分辨率等原因不容易被识别。而且，由于这些场景照片多为手持设备拍摄，所以其中文字常常是倾斜的。由于这些原因，传统的倾斜校正方法在场景图片文字上并不能奏效。因此，虽然传统的光学文字识别系统(OCR)已经非常成熟，但是为了识别场景文字依然有必要开发有针对性的识别系统。在文字检测算法检测出含有文字的区域后，可以通过一些矫正方法来获得高质量的文字形状信息。这些方法通过分析文字形状以及假设文字存在于水平文本行中来对检测到的文字区域进行矫正，然后再识别。然而，场景图片中的文字由于受到前面提到的干扰，其形状往往不能被有效的提取。研究表明传统的二值化方法，边缘检测方法以及最稳定机制区域法均无法分离出可供传统OCR系统识别的二值化掩模(Mishra,A.,Alahari,K.,Jawahar,C.:Top-downandbottom-upcuesforscenetextrecogniti...
基于特征压缩与特征选择的歪斜场景文字识别方法

【技术保护点】
一种基于特征压缩与特征选择的歪斜场景文字识别方法，其步骤包括：1)在文字区域的每个像素点上提取CHOG特征；2)根据提取出的不同像素上的CHOG特征的差异程度确定字符级的聚类数量；3)在确定聚类数量后，对CHOG特征进行聚类以得到压缩后的字符级特征；4)将所有训练样本中的压缩过的特征合并，并再次进行聚类，生成一个初始的视觉特征词典；5)使用所述初始的视觉特征词典，建立视觉特征直方图描述符；6)训练线性支持向量机，通过线性支持向量机对字符的直方图描述符中特征的重要性进行排序，选出K个最重要的特征作为最终的词典；7)使用所述最终的词典再次计算样本的直方图描述符，然后训练一个多类径向基函数支持向量机，将其作为最终的文字分类器；8)使用所述最终的文字分类器对歪斜场景文字进行识别，并得到识别结果。

【技术特征摘要】
1.一种基于特征压缩与特征选择的歪斜场景文字识别方法，其步骤包括：1)在文字区域的每个像素点上提取CHOG特征，即Circular-FourierHistogramofOrientedGradient特征；2)根据提取出的不同像素上的CHOG特征的差异程度确定字符级的聚类数量；3)在确定聚类数量后，对CHOG特征进行聚类以得到压缩后的字符级特征；4)将所有训练样本中的压缩过的特征合并，并再次进行聚类，生成一个初始的视觉特征词典；5)使用所述初始的视觉特征词典，建立视觉特征直方图描述符；6)训练线性支持向量机，通过线性支持向量机对字符的直方图描述符中特征的重要性进行排序，选出K个最重要的特征作为最终的词典；7)使用所述最终的词典再次计算样本的直方图描述符，然后训练一个多类径向基函数支持向量机，将其作为最终的文字分类器；8)使用所述最终的...

【专利技术属性】
技术研发人员：张永铮，周宇，王一鹏，
申请(专利权)人：中国科学院信息工程研究所，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人