一种识别场景文字的方法及装置制造方法及图纸

技术编号:11675958 阅读:100 留言:0更新日期:2015-07-06 02:15
本发明专利技术适用于文字识别技术领域,提供了一种识别场景文字的方法及装置,包括:获取文本图像中的候选文本成分,对获取到的候选文本成分进行预处理,提取成分区域关联特征;获取该文本图像中的全局特征;将该成分区域关联特征以及该全局特征输入至预先建立的深信度网络模型;根据预先建立的深信度网络模型中的字符识别器,识别出该成分区域关联特征所属的字符;对识别出的字符进行配对,组成文本行或者词条。本发明专利技术避免了逐行扫描大量滑动窗口所带来的巨大运算量的情况,并避免了滑动窗口扫描仅局限于水平方向上的文本检测的情况,从而减少了运算量,在多个方向上进行检测,并且利用深信度网络有效地降低误检测率,提高了文字识别的效率和准确率。

【技术实现步骤摘要】

本专利技术属于文字识别
,尤其涉及一种识别场景文字的方法及装置
技术介绍
场景文字为存在于日常生活的各种场景图像中的文字。通常,在文字和其他物体 并存的场景图像中,用户往往首先更关注场景图像中的文本,因此将场景图像中出现的文 字抽取出来,对场景图像的文字进行识别,会对用户提供很有意义的帮助。 通常,将场景图像中出现的文字抽取出来,对场景图像的文字进行识别的文本检 测系统,可以分成两大类。 第一类是基于滑动窗口模型的文本检测系统,这种模型的基本原理是利用不同大 小和形状的滑动窗口来遍历扫描场景图片的不同区域。 其存在两个主要问题: 第一,运算量大。系统需要扫描大量不同大小的子窗口来确定文本行的位置; 第二,扫描方向单一,滑动子窗口都是水平移动,逐行扫描的,因此它很难检测出 倾斜的文本行。然而自然场景文本经常存在随意的方向,以及不同程度的倾斜。 第二类是基于成分(component)的底层(low-level)的文本检测系统。 这种系统的基本原理是通过设计一个低层过滤器(filter)快速地过滤掉大量的 背景信息,保留下候选文本成分(candidatecomponents)。该操作是像素层面的运算。例 如,笔画宽度转换器(StrokeWidthTransform,SWT)是近年常用的一种底层文本检测器。 其存在以下不足: (1)这种逐像素操作的底层检测器对于噪声,图像失真和扭曲的影响非常敏感,因 此生成很多不正确的候选成分(ComponentCandidates); (2)这种基于笔画(stroke)宽度的成分检测和过滤的方法无法区分真实候选文 本成分和类似文本物体(text-likeobjects)之间的差别,比如窗户,叶子和砖头等,因此 生成很多类似文本的误检测成分。因此,现有的文本检测系统存在运算量大、扫描方向单一、容易生成很多不正确的 候选成分以及生成很多类似文本的误检测成分的问题。
技术实现思路
本专利技术实施例的目的在于提供一种识别场景文字的方法,旨在解决现有的文本检 测系统存在运算量大、扫描方向单一、容易生成很多不正确的候选成分以及生成很多类似 文本的误检测成分的问题。 本专利技术实施例是这样实现的,一种识别场景文字的方法,包括: 获取文本图像中的候选文本成分,对获取到的候选文本成分进行预处理,提取成 分区域关联特征; 获取所述文本图像中的全局特征; 将所述成分区域关联特征以及所述全局特征输入至预先建立的深信度网络模 型; 根据预先建立的深信度网络模型中的字符识别器,识别出所述成分区域关联特征 所属的字符; 对识别出的字符进行配对,组成文本行或者词条。 本专利技术实施例的另一目的在于提供一种识别场景文字的装置,包括: 第一获取单元,用于获取文本图像中的候选文本成分,对获取到的候选文本成分 进行预处理,提取成分区域关联特征; 第二获取单元,用于获取所述文本图像中的全局特征; 输入单元,用于将所述成分区域关联特征以及所述全局特征输入至预先建立的深 信度网络模型; 识别单元,用于根据预先建立的深信度网络模型中的字符识别器,识别出所述成 分区域关联特征所属的字符; 组成单元,用于对识别出的字符进行配对,组成文本行或者词条。 在本专利技术实施例中,通过根据预先建立的深信度网络模型中的字符识别器,识别 出所述成分区域关联特征所属的字符,对识别出的字符进行配对,组成文本行或者词条避 免了逐行扫描大量滑动窗口所带来的巨大运算量的情况,并避免了滑动窗口扫描仅局限于 水平方向上的文本检测的情况,从而减少了运算量,在多个方向上进行检测,提高了文字识 别的效率和准确率。【附图说明】 图1是本专利技术实施例提供的识别场景文字的方法的实现流程图。 图2是本专利技术实施例提供的笔画宽度图较佳的样例图。 图3是本专利技术实施例提供的笔画宽度图较佳的样例图。图4是本专利技术实施例提供的深信度网络模型较佳的样例图。 图5是本专利技术实施例提供的深信度网络模型在际应用中较佳的实施流程图。 图6是本专利技术实施例提供的识别场景文字的装置的结构框图。【具体实施方式】 为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对 本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并 不用于限定本专利技术。 图1是本专利技术实施例提供的一种识别场景文字的方法的实现流程图,详述如下: 在步骤S101中,获取文本图像中的候选文本成分,对获取到的候选文本成分进行 预处理,提取成分区域关联特征; 在本实施例中,获取文本图像中的候选文本成分,对获取到的候选文本成分进行 预处理,包括: 用笔画宽度转换器方法SWT逐点检测出文本笔画像素, 提取文本笔画像素,并生成笔画宽度图(strokewidthmap)。 参考图2,图2是本专利技术实施例提供的笔画宽度图较佳的样例图。 利用区域增长组合,把相似笔画宽度的像素组合,以获取候选文本成分。 利用区域增长组合法(RegionGrowingGrouping)把笔画宽度类似的文本笔画像 素群组在一起,生成候选文本成分(ComponentCandidates)。 参考图3,图3是本专利技术实施例提供的笔画宽度图较佳的样例图。 在本实施例中,提取成分区域关联特征的步骤如下: 1、每一个文本笔画像素用8种特征表示,分别为像素灰度值(grayscale),彩色 RGB三个值,笔画宽度值,像素点在成分区域的相对坐标值(水平和垂直两个方向),和是否 是边缘像素(1或者0)。 2、计算一个8X8的共轨矩阵来表示成分区域关联特征,【主权项】1. 一种识别场景文字的方法,其特征在于,包括: 获取文本图像中的候选文本成分,对获取到的候选文本成分进行预处理,提取成分区 域关联特征; 获取所述文本图像中的全局特征; 将所述成分区域关联特征以及所述全局特征输入至预先建立的深信度网络模型; 根据预先建立的深信度网络模型中的字符识别器,识别出所述成分区域关联特征所属 的字符; 对识别出的字符进行配对,组成文本行或者词条。2. 根据权利要求1所述的方法,其特征在于,所述获取文本图像中的候选文本成分,包 括: 采用笔画宽度转换器提取文本笔画像素; 利用区域增长组合,把相似笔画宽度的像素组合,以获取候选文本成分。3. 根据权利要求1所述的方法,其特征在于,所述获取所述文本图像中的全局特征,包 括: 获取所述候选文本成分外框的长度和宽度的比率,作为第一个全局特征。 获取所述文本图像中笔画宽度和所述候选文本成分外框的长度和宽度的比率,作为第 二个全局特征。 获取所述候选文本成分中笔画像素的面积和所述候选文本成分外框的面积的比率,作 为第三个全局特征。4. 根据权利要求1所述的方法,其特征在于,在将所述成分区域关联特征以及所述全 局特征输入至预先建立的深信度网络模型之前,包括: 建立深信度网络模型; 其中,深信度网络模型包括多个限制玻尔兹曼机RBM、多个字符识别器,所述多个限制 玻尔兹曼机RBM之间的调用接口逐层相连。5. 根据权利要求4所述的方法,其特征在于,还包括: 多个RBM之间逐层学习,每个RBM学习到自身的RBM参数; 当每个RBM学习到自身的RBM参数后,利用逻辑回归算法监督每两层的所述RBM,利用 向本文档来自技高网
...

【技术保护点】
一种识别场景文字的方法,其特征在于,包括:获取文本图像中的候选文本成分,对获取到的候选文本成分进行预处理,提取成分区域关联特征;获取所述文本图像中的全局特征;将所述成分区域关联特征以及所述全局特征输入至预先建立的深信度网络模型;根据预先建立的深信度网络模型中的字符识别器,识别出所述成分区域关联特征所属的字符;对识别出的字符进行配对,组成文本行或者词条。

【技术特征摘要】

【专利技术属性】
技术研发人员:黄韡林乔宇
申请(专利权)人:中国科学院深圳先进技术研究院
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1