当前位置: 首页 > 专利查询>厦门大学专利>正文

一种基于贝叶斯概率框架的场景文本识别方法技术

技术编号:10320064 阅读:183 留言:0更新日期:2014-08-13 20:18
一种基于贝叶斯概率框架的场景文本识别方法,涉及计算机视觉和模式识别。步骤S1:输入场景图像文本;步骤S2:字符检测和识别;步骤S3:构建检测-识别候选网格,具体方法如下:将候选字符区域和对应的字符类别和识别分数保存在一个检测与识别候选网格里,这样候选网格里每一条检测-识别路径对应一个文本检测和识别结果;设计路径评价函数,对候选网格里的每一条候选检测-识别路径进行评价;步骤S4:根据路径评价函数,从候选网格中用动态规划算法搜索得到最优检测-识别路径,即得到识别结果;步骤S5:输出文本识别结果。解决了集成检测与识别的场景文本识别的概率建模和参数学习问题。

【技术实现步骤摘要】

本专利技术涉及计算机视觉和模式识别,具体的,是。
技术介绍
自然场景图像中的文本包含丰富的高层语义信息,对图像的场景理解、分析与处理具有重要的作用。场景文本识别技术可广泛应用于图像和视频的理解、存储和检索、车辆牌照识别、银行票据处理、路标识别和移动导盲等领域,因此成为计算机视觉和模式识别领域的研究热点。由于场景图像背景复杂,场景文字的大小、字体、颜色各异,且易受光照变化和图像退化的影响,这使场景文本的识别具有较大的挑战性。传统的光学字符识别(OCR)技术能很好的识别背景比较简单的扫描文本文档,但是用来识别场景文本时,识别率非常低,还有很大的提升空间,要应用到实际系统中还有很多工作需要做。当前,对场景文本的识别主要采用计算机视觉中的目标识别的思想,其基本思想是,把每一类字符当作一个视觉目标,然后从场景文本图像中同时检测和识别字符区域,这实际上是一种集成的检测与识别的场景文本识别方法。这种集成的检测和识别的方法在国际顶级会议ICCV2011上提出来,表现出了优于传统OCR的识别性能。之后的几年有很多研究也进行了这方面的研究,提高了场景文本识别的性能。虽然最近几年在这方面有很多研究工作且取得得了较大进展,但是至今未见有对集成的检测与识别的场景文本识别方法进行概率建模的有关报道,并在此基础上进行参数学习。
技术实现思路
本专利技术的目的在于针对当前场景文本识别方法没有一个统一的概率模型等问题,提供。本专利技术包括以下步骤:步骤S1:输入场景图像文本;步骤S2:字符检测和识别;在步骤S2中,所述字符检测和识别的具体方法可为:采用多尺度滑动窗口的方法,用字符分类器对图像中的窗口区域进行检测和识另|J,对每一个字符类别,将分类器输出较大的区域判定为候选字符区域,输出较小的区域认为是背景区域,找出图像中包含的候选字符区域;再采用非极大值抑制方法,对重叠率较大的区域只保留分类器输出值最大的区域和相应的字符类别,除去大量重复冗余的候选字符区域,得到字符检测结果。步骤S3:构建检测-识别候选网格,具体方法如下:将候选字符区域和对应的字符类别和识别分数保存在一个检测与识别候选网格里,这样候选网格里每一条检测-识别路径对应一个文本检测和识别结果;设计路径评价函数,对候选网格里的每一条候选检测-识别路径进行评价;步骤S4:根据路径评价函数,从候选网格中用动态规划算法搜索得到最优检测-识别路径,即得到识别结果;步骤S5:输出文本识别结果。在步骤S3中,在构建检测-识别候选网格时,保存候选字符的字符类别和识别分数,并保存四种几何上下文模型,包括一元类别有关和类别无关几何模型、二元类别有关和类别无关几何模型;在检测-识别候选网格中,每一条检测-识别路径表示一种识别结果,将场景文本识别问题转化为路径搜索问题,用一个路径评价函数来评价每一条候选检测-识别路径,基于该路径评价函数,用动态规划算法搜索最优路径得到识别结果。所述路径评价函数为:本文档来自技高网...
一种<a href="http://www.xjishu.com/zhuanli/55/201410238427.html" title="一种基于贝叶斯概率框架的场景文本识别方法原文来自X技术">基于贝叶斯概率框架的场景文本识别方法</a>

【技术保护点】
一种基于贝叶斯概率框架的场景文本识别方法,其特征在于包括以下步骤:步骤S1:输入场景图像文本;步骤S2:字符检测和识别;步骤S3:构建检测‑识别候选网格,具体方法如下:将候选字符区域和对应的字符类别和识别分数保存在一个检测与识别候选网格里,这样候选网格里每一条检测‑识别路径对应一个文本检测和识别结果;设计路径评价函数,对候选网格里的每一条候选检测‑识别路径进行评价;步骤S4:根据路径评价函数,从候选网格中用动态规划算法搜索得到最优检测‑识别路径,即得到识别结果;步骤S5:输出文本识别结果。

【技术特征摘要】
1.一种基于贝叶斯概率框架的场景文本识别方法,其特征在于包括以下步骤: 步骤S1:输入场景图像文本; 步骤S2:字符检测和识别; 步骤S3:构建检测-识别候选网格,具体方法如下: 将候选字符区域和对应的字符类别和识别分数保存在一个检测与识别候选网格里,这样候选网格里每一条检测-识别路径对应一个文本检测和识别结果;设计路径评价函数,对候选网格里的每一条候选检测-识别路径进行评价; 步骤S4:根据路径评价函数,从候选网格中用动态规划算法搜索得到最优检测-识别路径,即得到识别结果; 步骤S5:输出文本识别结果。2.如权利要求1所述一种基于贝叶斯概率框架的场景文本识别方法,其特征在于在步骤S2中,所述字符检测和识别的具体方法为: 采用多尺度滑动窗口的方法,用字符分类器对图像中的窗口区域进行检测和识别,对每一个字符类别,将分类器输出较大的区域判定为候选字符区域,输出较小的区域认为是背景区域,找出图像中包含的候选字符区域;再采用非极大值抑制方法,对重叠率较大的区域只保留分类器输出值最大的区域和相应的字符类别,除去大量重复冗余的候选字符区域,得到字符检测结果。3.如权利要求1所述一种基于贝叶斯概率框架的场景文本识别方法,其特征在于在步骤S3中,在构建检测-识别候选网格时,保存候选字符的字符类别和识别分数,并保存四种几何上下文模型,包括一元类别有关和类别无关几何模型、二元类别有关和类别无关几何模型。4.如权利要求1所述一种基于贝叶斯概率框架的场景文本识别方法,其特征在于在步骤S3中,在检测-识别候选网格中,每一条检测-识别路径表示一种识别结果,将场景文本识别问题转化为路径搜索问题,用一个路径评价函数来评价每...

【专利技术属性】
技术研发人员:王菡子王大寒
申请(专利权)人:厦门大学
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1