图像文本识别方法、装置、设备及计算机存储介质制造方法及图纸

技术编号:24355407 阅读:48 留言:0更新日期:2020-06-03 02:27
本发明专利技术公开了一种图像文本识别方法、装置、设备及计算机存储介质。其中,图像文本识别方法包括:利用卷积神经网络提取目标图像的空间特征;利用长短期记忆网络根据空间特征提取目标图像的时序特征;根据空间特征和时序特征,确定目标图像中的至少一个文本区域;识别文本区域中的文本信息。根据本发明专利技术实施例,能够快速、准确地识别目标图像中的不规则的图像文本,提高图像文本识别的性能。

Image text recognition method, device, equipment and computer storage medium

【技术实现步骤摘要】
图像文本识别方法、装置、设备及计算机存储介质
本专利技术属于图像处理
,尤其涉及一种图像文本识别方法、装置、设备及计算机存储介质。
技术介绍
随着图像文本识别技术的应用越来越广泛,人们对图像中文本识别的性能需求不断提升,现有的图像文本的识别方法已经不能满足人们对图像文本识别性能的需求。目前的图像文本的识别方法包括:模板匹配法、几何特征抽取法和利用卷积神经网络(CNN)提取图片特征的方法,目前的图像文本的识别方法包括:模板匹配法是通过将输入的文字与给定的各类别标准文字(模板)进行相关匹配,计算输入文字与各模板之间的相似性程度,取相似度最大的类别作为识别结果来进行图像文本的识别。由于这种识别方法利用整个文字进行相似度计算,因此,对文字的缺损、边缘噪声等具有较强的适应能力。但是,在使用这种识别方法时,当被识别文字的类别增加时,模板的数量也随之增加,不但会增加文本识别设备的存储容量,还会降低文本识别的正确率。因此,这种识别方法仅适用于识别固定字型的印刷体文字。几何特征抽取法是通过抽取文字的一些几何特征,如文字的端点、分叉点、凹凸部分以及水平、垂直、倾斜等各方向的线段、闭合环路等,根据这些几何特征的位置和相互关系进行逻辑组合判断来进行图像文本的识别。这种识别方法由于利用文字的几何特征对应的结构信息进行图像文本的识别,也可以适用于手写体文字等变型较大的文字。利用CNN提取图片特征的方法,首先采用CNN先对文字库进行训练,设定CNN各参数,然后输入待测试图片,将图片分割成一个个微型区域进行特征识别,并与训练过的文字库进行比对识别字符。该识别方法一般需要较长时间的训练过程且网络层数较深,在按照单个字符逐个进行识别时,其特异性和敏感性依赖于训练情况。虽然上述的识别方法一般能够识别出标准字符,但会出现准确率不高的问题,例如,如果字符有一定角度倾斜或者字符排列不规整,上述的识别方法往往难以准确识别,可能会出现多识别、漏识别等问题。因此,目前的图像文本的识别方法的应用场景受到很大局限。
技术实现思路
本专利技术实施例提供一种在图像文本识别方法、装置、设备及计算机存储介质,首先结合卷积神经网络和LSTM模块识别目标图像中的至少一个文字区域,然后再针对文字区域进行识别,能够快速、准确地识别目标图像中的不规则的图像文本,提高图像文本识别的性能。一方面,本专利技术实施例提供一种图像文本识别方法,包括:利用卷积神经网络提取目标图像的空间特征;利用长短期记忆网络根据空间特征提取目标图像的时序特征;根据空间特征和时序特征,确定目标图像中的至少一个文本区域;识别文本区域中的文本信息。进一步地,利用卷积神经网络提取目标图像的空间特征包括:将目标图像分别输入多个具有不同卷积核的三层卷积层,并分别输出与多个三层卷积层对应的多个特征图;根据多个特征图,确定目标图像的空间特征。进一步地,根据多个特征图,确定目标图像的空间特征包括:融合多个特征图,获得具有第一维度顺序的融合特征图;利用预定尺寸的滑动窗口对融合特征图进行提取,获得空间特征。进一步地,长短期记忆网络为嵌套长短期记忆网络,利用长短期记忆网络根据空间特征提取目标图像的时序特征包括:将空间特征输入至嵌套长短期记忆网络,获取嵌套长短期记忆网络中各层长短期记忆网络对应的多个输出数据;根据多个输出数据,确定目标图像的时序特征。进一步地,根据多个输出数据,确定目标图像的时序特征包括:融合多个输出数据,获得具有第二维度顺序的特征数据;将特征数据转置,获得具有第三维度顺序的时序特征。进一步地,根据空间特征和时序特征,确定目标图像中的至少一个文本区域包括:将空间特征和时序特征输入循环神经网络,并输出多个建议窗口;根据多个建议窗口,确定至少一个文本区域。进一步地,根据多个建议窗口,确定至少一个文本区域包括:筛选多个建议窗口,获得多个建议窗口中的至少一个目标窗口;合并至少一个目标窗口,获得至少一个文本区域。另一方面,本专利技术实施例提供了一种图像文本识别装置,装置包括:第一处理单元,其配置为利用卷积神经网络提取目标图像的空间特征;第二处理单元,其配置为利用长短期记忆网络根据空间特征提取目标图像的时序特征;第三处理单元,其配置为根据空间特征和时序特征,确定目标图像中的至少一个文本区域;文本识别单元,其配置为识别文本区域中的文本信息。再一方面,本专利技术实施例提供了一种图像文本识别设备,设备包括:处理器以及存储有计算机程序指令的存储器;处理器执行计算机程序指令时实现上述的图像文本识别方法。再一方面,本专利技术实施例提供了一种计算机存储介质,计算机存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现上述的图像文本识别方法。本专利技术实施例的图像文本识别方法、装置、设备及计算机存储介质,能够首先利用卷积神经网络提取出目标图像的空间特征,然后基于长文本系列的时间特性,将空间特征输入到长短期记忆网路中,得到目标图像的时序特征,最后基于目标图像的空间特征和时序特征得到目标图像中至少一个包含有文本的文本区域,并对文本区域中的文本进行识别,从而获得文本信息。因此,本专利技术实施例具备结合上下文推理文字的能力,能够准确识别较长序列文本,减少对目标图像中的文本的多识别、漏识别等问题,并且支持一定角度的字符倾斜,提高了识别的准确率。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术一个实施例提供的图像文本识别方法的流程示意图;图2是图1中步骤S110的具体方法的流程示意图;图3是本专利技术实施例的嵌套长短期记忆网络的一个示例的结构示意图;图4是对图3所示的示例增加深度后的深度嵌套长短期记忆网络的结构示意图;图5是图1中步骤S120的具体方法的流程示意图;图6是图1中步骤S130的具体方法的流程示意图;图7是本专利技术实施例的图像文本识别方法的一个示例的流程示意图;图8是图7中的嵌套LSTM的具体流程示意图;图9是利用图7所示的图像文本识别方法识别常规自然场景的文本区域的结果示意图;图10是利用图7所示的图像文本识别方法识别倾斜自然场景的文本区域的结果示意图;图11是本专利技术另一个实施例提供的图像文本识别装置的流程示意图;图12是本专利技术又一个实施例提供的图像文本识别设备的结构示意图。具体实施方式下面将详细描述本专利技术的各个方面的特征和示例性实施例,为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本专利技术进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本专利技术,并不被配置为本文档来自技高网
...

【技术保护点】
1.一种图像文本识别方法,其特征在于,包括:/n利用卷积神经网络提取目标图像的空间特征;/n利用长短期记忆网络根据所述空间特征提取所述目标图像的时序特征;/n根据所述空间特征和所述时序特征,确定所述目标图像中的至少一个文本区域;/n识别所述文本区域中的文本信息。/n

【技术特征摘要】
1.一种图像文本识别方法,其特征在于,包括:
利用卷积神经网络提取目标图像的空间特征;
利用长短期记忆网络根据所述空间特征提取所述目标图像的时序特征;
根据所述空间特征和所述时序特征,确定所述目标图像中的至少一个文本区域;
识别所述文本区域中的文本信息。


2.根据权利要求1所述的图像文本识别方法,其特征在于,利用卷积神经网络提取目标图像的空间特征包括:
将所述目标图像分别输入多个具有不同卷积核的三层卷积层,并分别输出与多个所述三层卷积层对应的多个特征图;
根据所述多个特征图,确定所述目标图像的空间特征。


3.根据权利要求2所述的图像文本识别方法,其特征在于,根据所述多个特征图,确定所述目标图像的空间特征包括:
融合所述多个特征图,获得具有第一维度顺序的融合特征图;
利用预定尺寸的滑动窗口对所述融合特征图进行提取,获得所述空间特征。


4.根据权利要求1所述的图像文本识别方法,其特征在于,所述长短期记忆网络为嵌套长短期记忆网络,利用长短期记忆网络根据所述空间特征提取所述目标图像的时序特征包括:
将所述空间特征输入至所述嵌套长短期记忆网络,获取所述嵌套长短期记忆网络中各层长短期记忆网络对应的多个输出数据;
根据所述多个输出数据,确定所述目标图像的时序特征。


5.根据权利要求4所述的图像文本识别方法,其特征在于,根据所述多个输出数据,确定所述目标图像的时序特征包括:
融合所述多个输出数据,获得具有第二维度顺序的特征数据;
...

【专利技术属性】
技术研发人员:王伟豪
申请(专利权)人:中国移动通信集团辽宁有限公司中国移动通信集团有限公司
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1