一种基于长短期记忆网络的场景文本检测方法技术

技术编号:20364291 阅读:36 留言:0更新日期:2019-02-16 17:09
本发明专利技术公开了一种基于长短期记忆网络的场景文本检测方法。本发明专利技术通过使用LSTM对特征建模,得到该位置与其上下左右位置特征的空间上下文联系,再对该特征进行文本检测。本发明专利技术所提出的基于长短期记忆网络的场景文本检测方法,相比于传统只使用局部特征的方法能大大减少错误检测,同时还能够检测到很多局部特征不明显的文本信息,减少了文本的遗漏。发明专利技术的主要创新点在于使用LSTM对特征进行横向和纵向的建模,得到该位置与其上下左右位置特征的空间上下文联系。相比于传统的场景文本检测算法,该方法能够更有效的检测到局部特征不明显的文本信息,并减少检测错误率,提升检测精度。

【技术实现步骤摘要】
一种基于长短期记忆网络的场景文本检测方法
本专利技术提出一种基于长短期记忆网络(LongShort-TermMemory,LSTM)的场景文本检测方法。该方法是场景文本检测的一种新型技术。
技术介绍
自然场景中包含着大量的文字信息,近年来让计算机准确的从自然场景图像中提取文字信息已经成为热点研究方向。场景文字检测是很多视觉应用的关键性技术,比如其被广泛的应用到无人驾驶、场景理解、车牌识别等领域。但由于场景文本具有字体、尺度的多变性,背景、排布的复杂性,传统算法很难获得很高的性能,基于深度学习的方法越来越成为该领域的主流方法,性能也得到卓越的提高,但该项任务的难点仍是客观存在的。本专利技术主要致力于基于LSTM提高场景文本检测方法。LSTM原本被用于语音识别技术当中,由于其优秀的时间序列建模能力,相对传统的语音识别技术获得了优异性能。但是,不仅时间序列可以使用LSTM建模,单帧的图像在空间上的关系也可以将其序列化看作空间关系,从而加强空间上下文信息的联系。目前的场景文本检测算法主要可以分为两类:第一类主要是基于连通域特征的文本检测算法,该算法从原始图像的最大稳定极值区域中提取出文本候选区域,然后使用训练好的分类器剔除不符合条件的候选区域。接下来通过一系列连接准则将候选区聚合起来。然而,这些连接准则只能适用于水平或接近水平的文本,无法检测倾斜角度稍大的文本行;第二类主要是基于卷积神经网络(ConvolutionalNeuralNetwork,CNN)的文本检测算法,该算法将图像通过CNN获得卷积特征谱,之后在特征谱上的每个位置产生候选框,并且对候选框的位置偏移进行回归得到文本区域。现有的这些方法都没有考虑到场景文本的分布特点,即场景文本总是以文本段的形式或者是以文本行的形式出现,而文本段或文本行都是由许多单个字符组成的序列,同一文本行上不同字符和同一文本段的不同文本行间可以互相利用上下文信息,所以可以使用LSTM来对图片特征按照从左到右、从上到下进行建模,提高检测精度。
技术实现思路
本专利技术的专利技术目的在于:针对传统场景文本检测算法只利用局部特征进行检测的缺陷。本专利技术通过使用LSTM对特征建模,得到该位置与其上下左右位置特征的空间上下文联系,再对该特征进行文本检测,更从而提高场景文本检测的精度。本专利技术的基于长短期记忆网络的场景文本检测方法,包括下列步骤:步骤1:将待检测图片输入预设的深层特征提取网络,取最后一层卷积特征结果作为待检测图片的局部特征谱,所述局部特征谱的大小由待检测图片的大小决定;步骤2:对局部特征谱按照横向和纵向两个方向进行序列化处理:按步长1,采用方块滑窗对局部特征谱从左向右进行滑窗,将每次滑窗作为一个行特征,再将每行的行特征作为一个序列,得到第一序列特征;按步长1,采用方块滑窗对局部特征谱从上向下进行滑窗,将每次滑窗作为一个列特征,再将每列的列特征作为一个序列,得到第二序列特征;步骤3:将第一序列特征输入第一横向LSTM,以及将第一序列特征的反向序列特征输入第二横向LSTM;将第二序列特征输入第一纵向LSTM,以及将第二序列特征的反向序列特征输入第二纵向LSTM;步骤4:再将四个LSTM的输出通过通道合并映射到全连接层进行文本检测处理,通过全连接层输出各滑窗对应的文字框属于文本和非文本的置信度得分,以及文字框的顶点位置信息;步骤5:对全连接层输出的文字框通过非极大值抑制去除重复框后输出。进一步的,步骤5中,非极大值抑制具体为:步骤S501:对全连接层输出的文字框按照置信度从高到低排序,得到第一集合T1;步骤S502:将第一集合T1中的第一个元素放入第二集合T2,其中集合T2的初始值为空集;步骤S503:判断第一集合T1的元素个数是否为1,若否,则删除第一集合T1中的第一个元素后,执行步骤S504;若是,则跳转到步骤S508;步骤S504:依次遍历第一集合T1中的所有文字框;步骤S505:判断是否遍历完毕,若是,则跳转到步骤S502;否则执行步骤S506;步骤S506:判断遍历的当前文字框与第二集合T2中的所有文字框的重叠面积的总和占待检测图片的全图面积的比例是否大于预设阈值(优选取值范围为:0.01~0.03),若是,则执行步骤S507;否则跳转到步骤S504;步骤S507:从集合T1中删除遍历的当前文字框(即与第二集合T2中的所有文字框的重叠面积的总和占待检测图片的全图面积的比例大于预设阈值的文字框会被删除),并跳转到步骤S504;步骤S508:输出集合T1与T2的并集。综上所述,由于采用了上述技术方案,本专利技术的有益效果是:本专利技术所提出的基于长短期记忆网络的场景文本检测方法,相比于传统只使用局部特征的方法能大大减少错误检测,同时还能够检测到很多局部特征不明显的文本信息,减少了文本的遗漏。专利技术的主要创新点在于使用LSTM对特征进行横向和纵向的建模,得到该位置与其上下左右位置特征的空间上下文联系。相比于传统的场景文本检测算法,该方法能够更有效的检测到局部特征不明显的文本信息,并减少检测错误率,提升检测精度。附图说明图1是本专利技术具体实施方式的处理流程示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面结合实施方式和附图,对本专利技术作进一步地详细描述。本专利技术提出了一种基于长短期记忆网络的场景文本检测方法。该方法主要对提取的文字特征按照横向和纵向使用LSTM获取上下文信息,再对该特征进行目标框回归,这样可以有效提高文本检测的精度。参见图1,本专利技术的文本检测方法主要包括四个部分:到深层的局部卷积特征谱,局部特征谱按横向和纵向分别序列化,将序列特征送入LSTM进行上下文建模,在建模后的特征上进行文本检测。其具体实现过程如下:步骤1:将待检测图片输入预设的深层特征提取网络,取最后一层卷积特征结果作为待检测图片的局部特征谱,局部特征谱的大小由输入图像的大小决定,其维度表示为CxHxW,其中C表示特征谱通道数,H表示特征谱的高度,W表示特征谱的宽度。本具体实施方式中,采用16层vggNet,取最后一层(conv5)卷积特征结果作为局部特征谱,特征谱总步长固定为16个像素,感受野大小固定为228个像素。步骤2:将得到局部特征谱按照横向和纵向两个方向序列化。具体可使用一个小的大小为3×3像素的空间窗口来滑动最后的卷积层局部特征谱,横向序列化时该滑动窗口从左向右密集移动,步长为1个像素,得到每行的1,2,...,W序列特征。每行的W维特征作为一个序列,共H个这样的序列,这些序列特征将作为横向LSTM的1到H时刻的输入。同理,纵向序列化时使用另一个同样3x3像素滑动窗口从上向下按照步长为1个像素密集移动,得到每列的1,2,...,H序列特征。每列的H维特征作为一个序列,共W个这样的序列,这些序列特征将作为纵向LSTM的1到W时刻的输入。步骤3:得到横向和纵向序列化的特征后,将这两个序列特征分别送到两个双向的LSTM中进行建模。即对于得到横向化序列,按照1~H的顺序输入第一横向LSTM;按照H~1的反向顺序输入第二横向LSTM;同样,对于纵向化序列,按照1~W的顺序输入第一纵向LSTM;按照W~1的反向顺序输入第二纵向LSTM。LSTM使用其隐藏层对这些信息进行循环编码,它将每个窗口的卷积特征作为序列输本文档来自技高网
...

【技术保护点】
1.一种基于长短期记忆网络的场景文本检测方法,其特征在于,包括下列步骤:步骤1:将待检测图片输入预设的深层特征提取网络,取最后一层卷积特征结果作为待检测图片的局部特征谱,所述局部特征谱的大小由待检测图片的大小决定;步骤2:对局部特征谱按照横向和纵向两个方向进行序列化处理:按步长1,采用方块滑窗对局部特征谱从左向右进行滑窗,将每次滑窗作为一个行特征,再将每行的行特征作为一个序列,得到第一序列特征;按步长1,采用方块滑窗对局部特征谱从上向下进行滑窗,将每次滑窗作为一个列特征,再将每列的列特征作为一个序列,得到第二序列特征;步骤3:将第一序列特征输入第一横向LSTM,以及将第一序列特征的反向序列特征输入第二横向LSTM;将第二序列特征输入第一纵向LSTM,以及将第二序列特征的反向序列特征输入第二纵向LSTM;步骤4:将四个LSTM的输出通过通道合并映射到全连接层进行文本检测处理,通过全连接层输出各滑窗对应的文字框属于文本和非文本的置信度得分,以及文字框的顶点位置信息;步骤5:对全连接层输出的文字框通过非极大值抑制去除重复框后输出。

【技术特征摘要】
1.一种基于长短期记忆网络的场景文本检测方法,其特征在于,包括下列步骤:步骤1:将待检测图片输入预设的深层特征提取网络,取最后一层卷积特征结果作为待检测图片的局部特征谱,所述局部特征谱的大小由待检测图片的大小决定;步骤2:对局部特征谱按照横向和纵向两个方向进行序列化处理:按步长1,采用方块滑窗对局部特征谱从左向右进行滑窗,将每次滑窗作为一个行特征,再将每行的行特征作为一个序列,得到第一序列特征;按步长1,采用方块滑窗对局部特征谱从上向下进行滑窗,将每次滑窗作为一个列特征,再将每列的列特征作为一个序列,得到第二序列特征;步骤3:将第一序列特征输入第一横向LSTM,以及将第一序列特征的反向序列特征输入第二横向LSTM;将第二序列特征输入第一纵向LSTM,以及将第二序列特征的反向序列特征输入第二纵向LSTM;步骤4:将四个LSTM的输出通过通道合并映射到全连接层进行文本检测处理,通过全连接层输出各滑窗对应的文字框属于文本和非文本的置信度得分,以及文字框的顶点位置信息;步骤5:对全连接层输...

【专利技术属性】
技术研发人员:李宏亮孙旭廖加竞何慕威刘玮
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1