一种文字区域识别方法及装置制造方法及图纸

技术编号:22295957 阅读:73 留言:0更新日期:2019-10-15 05:02
本发明专利技术公开了一种文字区域识别方法及装置,涉及图像识别技术领域,能够对自然场景图像中的文字区域自动进行识别和标注。本发明专利技术主要的技术方案为:利用卷积神经网络对目标图像进行检测,得到目标图像的文字特征图像;通过在所述文字特征图像的像素点上设置至少一个文字候选框,得到所述文字候选框框定的第一特征区域;对文字候选框框定的第一特征区域进行第一次分类和第一次回归,得到框定了物体的文字候选框,所述物体至少包括文字。本发明专利技术用于识别图像中的文字区域。

A Method and Device for Character Region Recognition

【技术实现步骤摘要】
一种文字区域识别方法及装置
本专利技术涉及图像识别
,尤其涉及一种文字区域识别方法及装置。
技术介绍
文字作为自然场景图像中的组成部分,往往蕴含着与该场景相关的重要信息。因此,对自然场景图像中的文字进行定位并识别,具有重要的实用价值。相对于识别传统扫描文档(如pdf)中的文字,识别自然场景图像中文字的难度更大,因为自然场景图像中除文字外还有各类背景,背景的复杂性越高,将背景与文字进行分离就越困难。如图1所示,图中的两幅图左侧的为扫描文档图像,而右侧的为自然场景图像,对比可以看出,自然场景图像中的文字在大小、排列、字体、出现方式等都没有统一的标准,并且,随着拍摄角度的不同,文字也会出现不同程度的倾斜、旋转、凸变等变形,同时,由于光照或曝光等因素的影响也会干扰对图像中文字区域的识别。目前,主要通过人工对自然场景图像中的文字区域进行识别和标注,这种方式效率较低,不适合对大批量自然场景图像进行处理。
技术实现思路
鉴于上述问题,本专利技术提出了一种文字区域识别方法及装置,主要目的在于对自然场景图像中的文字区域自动进行识别和标注。为达到上述目的,本专利技术主要提供如下技术方案:一方面,本专利技术提供一种文字区域识别方法,具体包括:利用卷积神经网络对目标图像进行检测,得到目标图像的文字特征图像;通过在所述文字特征图像的像素点上设置至少一个文字候选框,得到所述文字候选框框定的第一特征区域;对文字候选框框定的第一特征区域进行第一次分类和第一次回归,得到框定了物体的文字候选框,所述物体至少包括文字。另一方面,本专利技术提供一种文字区域识别装置,具体包括:文字特征图像检测单元,用于利用卷积神经网络对目标图像进行检测,得到目标图像的文字特征图像;文字候选框设置单元,用于通过在所述文字特征图像检测单元检测得到的文字特征图像的像素点上设置至少一个文字候选框,得到所述文字候选框框定的第一特征区域;第一文字候选框筛选单元,用于对所述文字候选框设置单元设置的文字候选框所框定的第一特征区域进行第一次分类和第一次回归,得到框定了物体的文字候选框,所述物体至少包括文字。另一方面,本专利技术提供一种存储介质,所述存储介质用于存储计算机程序,其中,所述计算机程序运行时控制所述存储介质所在设备执行上述的文字区域识别方法。另一方面,本专利技术提供一种处理器,所述处理器用于运行计算机程序,其中,所述计算机程序运行时执行上述的文字区域识别方法。借由上述技术方案,本专利技术提供的一种文字区域识别方法及装置,主要是利用经过训练的卷积神经网络对自然场景图像进行检测,得到文字特征图像,并在该文字特征图像的像素点上设置至少一个文字候选框,以使设置在文字特征图像上的所有文字候选框能够框定该文字特征图像的所有图像区域,再利用第一次分类与第一次回归操作检测这些文字候选框所框定的第一特征区域,得到框定有物体的文字候选框。进一步,由于利用卷积神经网络对目标图像进行检测,得到的是目标图像的文字特征图像,所以,所述物体至少包括的文字。由此可见,采用本专利技术对自然场景图像进行检测,可自动识地别出图像中文字所在的区域,提高了图像中的文字区域识别的处理效率。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了扫描文档图像与自然场景图像中含有的文字对比图;图2示出了本专利技术实施例提出的一种文字区域识别方法的流程图;图3示出了经过卷积神经网络检测后得到文字特征图像的示意图;图4示出了文字特征图像中的一种设置文字候选框的示意图;图5示出了本专利技术实施例提出的基于卷积神经网络的模型检测图像中的文字区域的检测流程图;图6示出了本专利技术实施例提出的另一种文字区域识别方法的流程图;图7示出了文字特征图像中另一种设置文字候选框的示意图;图8示出了文字特征图像中第三种设置文字候选框的示意图;图9示出了在自然场景图像中标注文字候选框的效果示意图;图10示出了本专利技术实施例提出的一种文字区域识别装置的组成框图;图11示出了本专利技术实施例提出的另一种文字区域识别装置的组成框图。具体实施方式下面将参照附图更详细地描述本专利技术的示例性实施例。虽然附图中显示了本专利技术的示例性实施例,然而应当理解,可以以各种形式实现本专利技术而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本专利技术,并且能够将本专利技术的范围完整的传达给本领域的技术人员。本专利技术实施例提供了一种文字区域识别方法,该方法能够自动识别出自然场景图像中的文字区域。具体步骤如图2所示,该方法包括:101、利用卷积神经网络对目标图像进行检测,得到目标图像的文字特征图像。卷积神经网络(ConstitutionalNeuralNetworks,CNN)是在多层神经网络的基础上发展起来的针对图像分类和识别而特别设计的一种深度学习方法。卷积神经网络最重要的作用在于提取训练类别的特征,在文字检测中所提取的就是文字的特征。也就是说,使用经过训练的卷积神经网络对目标图像进行处理后,能够提取该目标图像中的文字特征,生成目标图像的文字特征图像。如图3所示,图中左侧的图像为目标图像,而右侧的图像是经过卷积神经网络检测后,输出的文字特征图像。在该文字特征图像中,黑色区域表示该区域是背景区域不存在文字,而白色区域则表示该区域中存在文字,即,文字特征图像使用灰度图表示时,可以通过灰度值表示图像中相关区域是否含有文字的概率,比如,越暗就表示该区域中含有文字的概率越低,相反,越亮则表示该区域中含有文字的概率越高。本专利技术中的卷积神经网络是预先训练过的,考虑到卷积神经网络的参数,如卷积网络的层数,卷积核等,需要根据具体的训练图像样本以及检测的目标图像的相关参数、检测结果的精度等参数进行设置,所以,本专利技术中对训练卷积神经网络的具体方式不做限定。102、通过在所述文字特征图像的像素点上设置至少一个文字候选框,得到所述文字候选框框定的第一特征区域。其中,在所述文字特征图像的像素点上设置至少一个文字候选框,包括如下几种实施方式:第一种,在所述文字特征图像的每个像素点上设置一个文字候选框;第二种,在所述文字特征图像的每个像素点上设置两个及以上的文字候选框;第三种,从所述文字特征图像中所有像素点中选择部分像素点,在选择出的每一个像素点上设置一个文字候选框;第四种,从所述文字特征图像中所有像素点中选择部分像素点,在选择出的每一个像素点上设置两个及以上文字候选框;其中,选择部分像素点的依据是选择出的像素点设置文字候选框后能够覆盖文字特征图像的所有图像区域。进一步,在像素点上具体设置文字候选框也可以有多种实现方式,包括:以所选定的像素点为文字候选框的左上顶点来设置文字候选框,当然亦可以所选定的像素点为文字候选框的右上顶点或者左下顶点等来设置文字候选框。需要说明的,如果图像中的文字大小差别不大时,则优先选用第一种或者第三种方式在图像上设置文字候选框;如果图像中本文档来自技高网...

【技术保护点】
1.一种文字区域识别方法,其特征在于,所述方法包括:利用卷积神经网络对目标图像进行检测,得到目标图像的文字特征图像;通过在所述文字特征图像的像素点上设置至少一个文字候选框,得到所述文字候选框框定的第一特征区域;对文字候选框框定的第一特征区域进行第一次分类和第一次回归,得到框定了物体的文字候选框,所述物体至少包括文字。

【技术特征摘要】
1.一种文字区域识别方法,其特征在于,所述方法包括:利用卷积神经网络对目标图像进行检测,得到目标图像的文字特征图像;通过在所述文字特征图像的像素点上设置至少一个文字候选框,得到所述文字候选框框定的第一特征区域;对文字候选框框定的第一特征区域进行第一次分类和第一次回归,得到框定了物体的文字候选框,所述物体至少包括文字。2.根据权利要求1所述的方法,其特征在于,所述方法包括:获取所述框定了物体的文字候选框在所述文字特征图像上框定的第二特征区域;对所述第二特征区域进行第二次分类和第二次回归,得到框定了文字的文字候选框。3.根据权利要求1或2所述的方法,其特征在于,对文字候选框框定的第一特征区域进行第一次分类和第一次回归,得到框定了物体的文字候选框具体包括:通过预先训练的深度学习神经网络的第一全连接层,对文字候选框框定的第一特征区域进行第一次分类,得到框定了物体的文字候选框;通过所述第一全连接层对框定了物体的文字候选框进行回归,以将每个框定了物体的文字候选框的尺寸调整至能够框定一个物体。4.根据权利要求3所述的方法,其特征在于,对所述框定了物体的文字候选框框定的第二特征区域进行第二次分类和第二次回归,得到框定了文字的文字候选框包括:通过预先训练的深度学习神经网络的第二全连接层,对所述框定了物体的文字候选框框定的第二特征区域进行第二次分类,得到框定了文字的文字候选框;通过所述第二全连接层对框定了文字的文字候选框进行回归,以将每个文字候选框的尺寸调整至能够框定一个完整文字。5.根据权利要求4所述的方法,其特征在于,若所述目标图像中同一个文字上有两个以上的框定了文字的文字候选框,则所述方法进一步包括:对框定所述文字的文字候选框,利用非极大值抑制算法进行滤除,得到一个框定所述文字的文字候选框。6.一种文字区域识别装置,其特征在于,所述装置包括:文字特征图像检测单元,用于利用卷积神经网络对目标图像进行检测,得到目标图像的文字特征图像;文字候选框设置单元,用于通过在所述文字特征图像检测单元检测得到的文字特征图像的像素点上设置至少一个文字候选框,得到所述文字候选框框定的第一...

【专利技术属性】
技术研发人员:赵锟郝志会
申请(专利权)人:高德软件有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1