当前位置: 首页 > 专利查询>厦门大学专利>正文

一种基于稀疏编码特征的场景文本识别方法技术

技术编号:10259859 阅读:192 留言:0更新日期:2014-07-25 18:14
一种基于稀疏编码特征的场景文本识别方法,涉及计算机视觉和模式识别。输入待识别的自然场景文本图像;采用多尺度滑动窗口的方法,用字符分类器对图像中的窗口区域进行检测和识别,对每一个字符类别,将分类器输出较大的区域判定为候选字符区域,输出较小的区域认为是背景区域,这样找出图像中包含的候选字符区域,再采用非极大值抑制方法,对重叠率较大的区域只保留分类器输出值最大的区域和相应的字符类别,除去重复冗余的候选字符区域,得到字符检测结果;将检测到的字符合并成一个词或文本行;输出场景文本识别结果。能够更加有效地表示和提取字符的结构特征,从而提高场景文本的识别率。

【技术实现步骤摘要】
【专利摘要】,涉及计算机视觉和模式识别。输入待识别的自然场景文本图像;采用多尺度滑动窗口的方法,用字符分类器对图像中的窗口区域进行检测和识别,对每一个字符类别,将分类器输出较大的区域判定为候选字符区域,输出较小的区域认为是背景区域,这样找出图像中包含的候选字符区域,再采用非极大值抑制方法,对重叠率较大的区域只保留分类器输出值最大的区域和相应的字符类别,除去重复冗余的候选字符区域,得到字符检测结果;将检测到的字符合并成一个词或文本行;输出场景文本识别结果。能够更加有效地表示和提取字符的结构特征,从而提高场景文本的识别率。【专利说明】
本专利技术涉及计算机视觉和模式识别,尤其是涉及。
技术介绍
随着智能手机和数码相机等产品越来越流行,获取图片和视频已经变得轻而易举,图像和视频的分析和理解成为具有广阔应用前景的研究方向之一。在图像和视频中,文本信息包含了重要的语义信息,对图像和视频的理解有重要价值,比如书本的封页、道路旁的广告牌、路标信息、视频中的字幕等都包含了大量信息,这些信息更加便于人类和计算机理解和存储。所以在计算机视觉领域,场景图像文本识别吸引了越来越多的关注。由于场景图像背景复杂,场景文字的 大小、字体、颜色各异,且易受光照变化和图像退化的影响,这使场景文本的识别具有较大的挑战性。传统的OCR(光学字符识别)技术能很好的识别背景比较简单的扫描文本文档,但是用来识别场景文本上时,识别率非常低。场景文本与扫描的文本文档不同,在场景文本中,由于背景比较复杂,在识别文本时必须要先检测到文本区域后才能进行识别。而在文本文档中,进行简单的二值化处理就能得到清晰的文本区域,采用OCR进行识别就能得到比较好的效果。所以场景文本的识别不仅仅要识别文本,还包含了对文本的检测。当前对场景文本的识别主要采用计算机视觉中的目标检测的思想,同时进行文本检测和识别。其基本思想是,把每一类字符当作一个视觉目标,然后再从场景文本图像中检测字符区域,同时也给出了候选字符区域的识别类别和识别分数。在字符检测和识别的基础上,再将候选字符区域和相应的字符类别连接起来,得到场景文本的识别结果。这种同时进行检测和识别的方法在国际顶级会议ICCV2011提出来,表现出了优于传统OCR的识别性能。之后的几年有很多研究也进行了这方面的研究,提高了场景文本识别的性能。但是,在这些基于目标检测的场景文本识别方法中,字符分类器(由于字符检测和识别用的是同一个分类器,下面统一用字符分类器)采用的是目标检测中常用的梯度方向直方图特征(即HOG,Histogram of Gradients)。HOG特征能较好的表达目标的局部表观特征和形状特征,且对光照不敏感,所以HOG特征广泛应用于人脸检测、行人检测等计算机视觉任务中。在当前提出的场景文本识别算法中,HOG特征提取方法也被用来作为字符分类器的特征提取算法。虽然HOG特征能表示局部特征(比如边缘等),但是HOG特征不能有效表达结构信息。尤其是对字符识别,字符的结构信息是非常重要的信息,能够有效区分字符之间的结构差异,从而提高字符识别率。基于稀疏编码特征的场景文本识别方法,还没有相关专利或文献的报道。
技术实现思路
本专利技术的目的在于针对当前场景文本识别中字符分类器的特征提取不能有效表达字符结构信息等问题,提供。本专利技术包括如下步骤:步骤S1:输入待识别的自然场景文本图像;步骤S2:采用多尺度滑动窗口的方法,用字符分类器对图像中的窗口区域进行检测和识别,对每一个字符类别,将分类器输出较大的区域判定为候选字符区域,输出较小的区域认为是背景区域,这样找出图像中包含的候选字符区域,再采用非极大值抑制方法,对重叠率较大的区域只保留分类器输出值最大的区域和相应的字符类别,除去重复冗余的候选字符区域,得到字符检测结果;在步骤S2中,所述字符分类器的特征提取可采用基于稀疏编码的特征,分类器训练采用训练较为简单且识别速度较快的Random Fern分类器或SVM分类器,所述稀疏编码的特征提取过程包括如下步骤:步骤S201:用大量的自然场景图片数据,用K-SVD算法学习得到一个具有普遍适用性的稀疏编码字典;在步骤S201中,所述K-SVD算法在学习字典(用D表示)时,字典D的每个元素设计为9X9的图片,代表了学习得到的共有的结构特征,字典D共包含100个元素(即字典的大小为100),这使字典具有较高的表示能力,同时使计算量控制在可接受的范围。步骤S202:将学习得到的稀疏编码字典保存,其中,字典中每个元素描述的是一些重要的结构信息;步骤S203:利用步骤S202中所保存的字典,提取图像的稀疏编码特征;在步骤S203中,所述提取图像的稀疏编码特征的具体方法可为:对图像的每一个像素,通过Orthogonal Matching Pursuit (OMP)算法进行解码得到像素的稀疏编码,再将得到的稀疏编码进行统计得到稀疏编码的直方图(即Histogram of Sparse Codes7HSC),从而得到图像的稀疏编码特征,即HSC特征;所述将得到的稀疏编码进行统计得到稀疏编码的直方图,从而得到图像的稀疏编码特征的方法可为:将稀疏编码进行统计得到稀疏编码的直方图时,采用了类似于梯度直方图特征(即HOG特征,Histogram of Oriented Gradients)的方法,具体步骤包括:首先,将输入的图片分成8X8的小单元块,统计每一个小单元块的稀疏编码;然后,使用双线性插值法利用每个小单元块的相邻块计算每个小单元块的稀疏编码特征,也即在每个小单元块上的特征是在一个16X16的邻域上求插值得到的;最后,将所有的小单元块的特征向量连起来得到整个图像的稀疏编码特征,即HSC特征。步骤S3:将检测到的字符合并成一个词或文本行;在步骤S3中,所述将检测到的字符合并成一个词或文本行,由于对每一个字符类别都保留了大量的候选字符区域,将字符合并成词时有大量的组合方式,因此可采用动态规划算法搜索得到识别分数最大的字符组合方式,得到最终的文本识别结果;所述采用动态规划算法搜索得到识别分数最大的字符组合方式,需要一个目标函数来评价每一种组合的得分;所述目标函数的设计可采用以下方法:用w = (C1, C2,…,cn)表示一个候选词,其中Ci (i = I, 2,…,η)表示候选词中包含的字符类别,η为字 符个数(即文本长度),Xi表示Ci的候选字符区域,目标函数设计为:ηη-1O = Sici,.y, ) + α^g(X1, χ, ,Λ) + βη, ζ-1f-1其中S(Ci,X1)是字符分类器将候选字符Xi识别为Ci的得分,g(Xi, xi+1)为几何模型的输出,描述了候选字符Xi和\+1在几何关系上的兼容性,α和β是两个调节参数。所述目标函数中,几何模型g(Xi,xi+1)描述的是两个相邻字符之间的几何特征是否是字符间特征,是一个两类分类问题,用一个SVM分类器对几何特征进行建模,建模时提取的几何特征包括尺度相似性、相邻字符的重叠率、上下边界的距离等。所述目标函数中,考虑了文本长度的影响,因此能够克服字符长度对识别结果的影响(其他方法没有考虑字符的个数,字符个数越大,目标函数会越大,导致识别其他方法的识别结果倾向于字符数更多的文本),本文档来自技高网
...

【技术保护点】
一种基于稀疏编码特征的场景文本识别方法,其特征在于包括如下步骤:步骤S1:输入待识别的自然场景文本图像;步骤S2:采用多尺度滑动窗口的方法,用字符分类器对图像中的窗口区域进行检测和识别,对每一个字符类别,将分类器输出较大的区域判定为候选字符区域,输出较小的区域认为是背景区域,这样找出图像中包含的候选字符区域,再采用非极大值抑制方法,对重叠率较大的区域只保留分类器输出值最大的区域和相应的字符类别,除去重复冗余的候选字符区域,得到字符检测结果;步骤S3:将检测到的字符合并成一个词或文本行;步骤S4:输出场景文本识别结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:王菡子王大寒章冬
申请(专利权)人:厦门大学
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1