对图片进行文本检测的方法及装置制造方法及图纸

技术编号:14869575 阅读:179 留言:0更新日期:2017-03-21 01:35
本发明专利技术适用于计算机技术领域,提供了对图片进行文本检测的方法及装置,包括:获取进行文本检测的图片;将所述图片输入全卷积网络的第一层,在所述第一层中基于文本区域的序列特征,检测出所述图片中的文本区域;将所述文本区域输入到所述全卷积网络的第二层,在所述第二层中基于文本中间线的监督分类器,将所述文本区域分解为独立的文本行区域输出,所述文本中间线的区域由高斯分布的函数定义。本发明专利技术基于两层级联式的全卷积网络,对图片中的文本行进行提取,不仅充分节省了重叠区域之间的计算资源,而且利用了文本更高层的序列特征作为监督信息,提高了文本检测算法的鲁棒性。

【技术实现步骤摘要】

本专利技术属于计算机
,尤其涉及对图片进行文本检测的方法及装置
技术介绍
目前,对图片进行文本检测的算法主要分为两类:基于滑动窗口的方法和基于连通区域的方法。基于滑动窗口的方法是通过一个大小可变的滑动子窗口扫描一张图片所有可能的位置,来检测文本信息,其利用一个训练好的分类器来判别窗口内是否有文本信息;基于连通区域的方法首先通过一个底层的滤波器快速分割文本和非文本像素,然后把具有相似属性的文本像素连通起来构成文本成分,笔画宽度转化(SWT)算法和最稳定极值区域(MSREs)算法是此类方法的代表。然而,上述方法的分类网络采用全连接层,丢失了文本区域的位置信息。
技术实现思路
有鉴于此,本专利技术实施例提供了对图片进行文本检测的方法及装置,以解决现有技术会丢失文本区域的位置信息的问题。第一方面,提供了一种对图片进行文本检测的方法,包括:获取进行文本检测的图片;将所述图片输入全卷积网络的第一层,在所述第一层中基于文本区域的序列特征,检测出所述图片中的文本区域;将所述文本区域输入到所述全卷积网络的第二层,在所述第二层中基于文本中间线的监督分类器,将所述文本区域分解为独立的文本行区域输出,所述文本中间线的区域由高斯分布的函数定义。另一方面,提供了一种对图片进行文本检测的装置,包括:获取单元,用于获取进行文本检测的图片;第一处理单元,用于将所述图片输入全卷积网络的第一层,在所述第一层中基于文本区域的序列特征,检测出所述图片中的文本区域;第二处理单元,用于将所述文本区域输入到所述全卷积网络的第二层,在所述第二层中基于文本中间线的监督分类器,将所述文本区域分解为独立的文本行区域输出,所述文本中间线的区域由高斯分布的函数定义。本专利技术实施例基于两层级联式的全卷积网络,对图片中的文本行进行提取,不仅充分节省了重叠区域之间的计算资源,而且利用了文本更高层的序列特征作为监督信息,提高了文本检测算法的鲁棒性。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例提供的对图片进行文本检测的网络结构图;图2是本专利技术实施例提供的对图片进行文本检测的方法的实现流程图;图3是本专利技术实施例提供的文本中间线的检测示意图;图4是本专利技术实施例提供的对图片进行文本检测的检测效果示意图;图5是本专利技术实施例提供的对图片进行文本检测装置的结构框图。具体实施方式以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透切理解本专利技术实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本专利技术。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本专利技术的描述。本专利技术实施例基于两层级联式的全卷积网络,对图片中的文本行进行提取,不仅充分节省了重叠区域之间的计算资源,而且利用了文本更高层的序列特征作为监督信息,提高了文本检测算法的鲁棒性。图1示出了本专利技术实施例提供的对图片进行文本检测的网络结构,如图1所示,输入图像首先经过VGG-16网络的特征提取层,到达池化层-4,然后将池化层-4的特征图填充不同大小的边界,同时用三种不同大小的卷积核进行卷积,将郑积得到的三种特征图像进行融合并通过全卷积网络,将得到的特征上采样并与池化层-4得到的特征进行融合。参照该网络结构,接下来通过图2对本专利技术实施例提供的对图片进行文本检测的方法的实现流程进行详细阐述。在本专利技术实施例中,采用的卷积网络是以被广泛使用的VGG-16Net图像分类模型为基本框架,结合场景文本的具体特征所改进得到的:在S201中,获取进行文本检测的图片。在S202中,将所述图片输入全卷积网络的第一层,在所述第一层中基于文本区域的序列特征,检测出所述图片中的文本区域。在本实施例中,用1*1的卷积代替全连接层,使得输入的图片可以为任意大小,且能够保留粗糙的空间位置信息。在该级网络的检测中,主要利用了文本区域的监督信息,强调了文本行矩形的序列结构,为了更好地突出这个序列特征,在本专利技术实施例中,将文本区域和非文本区域的二分类函数softmax作为误差函数,这样将直接输出一个和原图同样大小的热点图,简单地设置一个阈值就可以将粗糙的文本区域从图片中分割开来。在网络设计上,本专利技术实施例设计了一种针对文本特征的卷积和,并进行了特征整合:由于文本在自然场景中的表现形式一般为矩形序列,因此,设计了3*7、7*3以及3*3的卷积核,以分别针对不同方向的文本区域的序列特征,解决了在文本检测中多语言多方向的问题,减少了人为的干预以及启发式参数的设定,省去了复杂的后处理过程。同时,为了使不同的卷积和能够以同样大小进行融合,在本专利技术实施例中,如图1所示,对特征图像进行了不同方式的填补(padding),使得输出的特征图大小相同。此外,为了更加精细地定位文本区域,提高特征图像的分辨率,在本专利技术实施例中,进行了pool-4和pool-5的特征融合,将pool-5特征上采样到的和pool-4同样大小的特征进行逐元素求和,这样不仅保留了pool-4更为细节的特征,同时也保留了pool-5的高层语义信息。在S203中,将所述文本区域输入到所述全卷积网络的第二层,在所述第二层中基于文本中间线的监督分类器,将所述文本区域分解为独立的文本行区域输出,所述文本中间线的区域由高斯分布的函数定义。在S102中,第一层网络的输出无法精确地分开文本行,得到的文本区域是由很多文本行连接在一起的,而文本检测的最终目的是输出独立的文本行区域,因此,为了实现这一目的,在本专利技术实施例中,在第二层网络设计了一种基于文本中间线的监督分类器,如图3所示,文本中间线的区域是由一个高斯分布的函数定义的,由区域的中间逐渐向两边递减,函数最大值为1,最小值为0,高斯分布的半径为0.25*H,所述H为文本区域最小面积文本框的高度。在第二级网络中,采用的误差函数为sigmoid交叉熵。由第二层网络的设计可知,这样的设计不仅能够让文本区域有重叠的文本行分离,并且可以根据文本行的高度推算出整个文本框的高度,高效地利用了重叠区域的计算资源,利用全卷积网络保留了文本文档来自技高网...

【技术保护点】
一种对图片进行文本检测的方法,其特征在于,包括:获取进行文本检测的图片;将所述图片输入全卷积网络的第一层,在所述第一层中基于文本区域的序列特征,检测出所述图片中的文本区域;将所述文本区域输入到所述全卷积网络的第二层,在所述第二层中基于文本中间线的监督分类器,将所述文本区域分解为独立的文本行区域输出,所述文本中间线的区域由高斯分布的函数定义。

【技术特征摘要】
1.一种对图片进行文本检测的方法,其特征在于,包括:
获取进行文本检测的图片;
将所述图片输入全卷积网络的第一层,在所述第一层中基于文本区域的序
列特征,检测出所述图片中的文本区域;
将所述文本区域输入到所述全卷积网络的第二层,在所述第二层中基于文
本中间线的监督分类器,将所述文本区域分解为独立的文本行区域输出,所述
文本中间线的区域由高斯分布的函数定义。
2.如权利要求1所述的方法,其特征在于,所述在所述第一层中基于文本
区域的序列特征,将文本区域和非文本区域的二分类函数作为误差函数,检测
出所述图片中的文本区域包括:
采用3*7、7*3以及3*3的卷积核分别对应不同方向的所述序列特征。
3.如权利要求2所述的方法,其特征在于,所述在所述第一层中基于文本
区域的序列特征,将文本区域和非文本区域的二分类函数作为误差函数,检测
出所述图片中的文本区域还包括:
对特征图像进行多种填补。
4.如权利要求1所述的方法,其特征在于,所述在所述第一层中基于文本
区域的序列特征,将文本区域和非文本区域的二分类函数作为误差函数,检测
出所述图片中的文本区域包括:
将pool-5特征上采样到的和pool-4同样大小的特征进行...

【专利技术属性】
技术研发人员:乔宇黄韡林贺通
申请(专利权)人:中国科学院深圳先进技术研究院
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1