一种基于稀疏编码特征的场景文本识别方法技术

技术编号：10259859 阅读：192 留言：0更新日期：2014-07-25 18:14

一种基于稀疏编码特征的场景文本识别方法，涉及计算机视觉和模式识别。输入待识别的自然场景文本图像；采用多尺度滑动窗口的方法，用字符分类器对图像中的窗口区域进行检测和识别，对每一个字符类别，将分类器输出较大的区域判定为候选字符区域，输出较小的区域认为是背景区域，这样找出图像中包含的候选字符区域，再采用非极大值抑制方法，对重叠率较大的区域只保留分类器输出值最大的区域和相应的字符类别，除去重复冗余的候选字符区域，得到字符检测结果；将检测到的字符合并成一个词或文本行；输出场景文本识别结果。能够更加有效地表示和提取字符的结构特征，从而提高场景文本的识别率。

全部详细技术资料下载

【技术实现步骤摘要】
【专利摘要】，涉及计算机视觉和模式识别。输入待识别的自然场景文本图像；采用多尺度滑动窗口的方法，用字符分类器对图像中的窗口区域进行检测和识别，对每一个字符类别，将分类器输出较大的区域判定为候选字符区域，输出较小的区域认为是背景区域，这样找出图像中包含的候选字符区域，再采用非极大值抑制方法，对重叠率较大的区域只保留分类器输出值最大的区域和相应的字符类别，除去重复冗余的候选字符区域，得到字符检测结果；将检测到的字符合并成一个词或文本行；输出场景文本识别结果。能够更加有效地表示和提取字符的结构特征，从而提高场景文本的识别率。【专利说明】
本专利技术涉及计算机视觉和模式识别，尤其是涉及。
技术介绍
随着智能手机和数码相机等产品越来越流行，获取图片和视频已经变得轻而易举，图像和视频的分析和理解成为具有广阔应用前景的研究方向之一。在图像和视频中，文本信息包含了重要的语义信息，对图像和视频的理解有重要价值，比如书本的封页、道路旁的广告牌、路标信息、视频中的字幕等都包含了大量信息，这些信息更加便于人类和计算机理解和存储。所以在计算机视觉领域，场景图像文本识别吸引了越来越多的关注。由于场景图像背景复杂，场景文字的大小、字体、颜色各异，且易受光照变化和图像退化的影响，这使场景文本的识别具有较大的挑战性。传统的OCR(光学字符识别)技术能很好的识别背景比较简单的扫描文本文档，但是用来识别场景文本上时，识别率非常低。场景文本与扫描的文本文档不同，在场景文本中，由于背景比较复杂，在识别文本时必须要先检测到文本区域后才能进行识别。而在文本文档中，进行简单的二值化处理就能得到...

【技术保护点】
一种基于稀疏编码特征的场景文本识别方法，其特征在于包括如下步骤：步骤S1：输入待识别的自然场景文本图像；步骤S2：采用多尺度滑动窗口的方法，用字符分类器对图像中的窗口区域进行检测和识别，对每一个字符类别，将分类器输出较大的区域判定为候选字符区域，输出较小的区域认为是背景区域，这样找出图像中包含的候选字符区域，再采用非极大值抑制方法，对重叠率较大的区域只保留分类器输出值最大的区域和相应的字符类别，除去重复冗余的候选字符区域，得到字符检测结果；步骤S3：将检测到的字符合并成一个词或文本行；步骤S4：输出场景文本识别结果。

【技术特征摘要】

【专利技术属性】
技术研发人员：王菡子，王大寒，章冬，
申请(专利权)人：厦门大学，
类型：发明
国别省市：福建;35

全部详细技术资料下载我是这个专利的主人