一种基于长短期记忆网络的场景文本检测方法技术

技术编号：20364291 阅读：36 留言：0更新日期：2019-02-16 17:09

本发明专利技术公开了一种基于长短期记忆网络的场景文本检测方法。本发明专利技术通过使用LSTM对特征建模，得到该位置与其上下左右位置特征的空间上下文联系，再对该特征进行文本检测。本发明专利技术所提出的基于长短期记忆网络的场景文本检测方法，相比于传统只使用局部特征的方法能大大减少错误检测，同时还能够检测到很多局部特征不明显的文本信息，减少了文本的遗漏。发明专利技术的主要创新点在于使用LSTM对特征进行横向和纵向的建模，得到该位置与其上下左右位置特征的空间上下文联系。相比于传统的场景文本检测算法，该方法能够更有效的检测到局部特征不明显的文本信息，并减少检测错误率，提升检测精度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于长短期记忆网络的场景文本检测方法
本专利技术提出一种基于长短期记忆网络(LongShort-TermMemory，LSTM)的场景文本检测方法。该方法是场景文本检测的一种新型技术。
技术介绍
自然场景中包含着大量的文字信息，近年来让计算机准确的从自然场景图像中提取文字信息已经成为热点研究方向。场景文字检测是很多视觉应用的关键性技术，比如其被广泛的应用到无人驾驶、场景理解、车牌识别等领域。但由于场景文本具有字体、尺度的多变性，背景、排布的复杂性，传统算法很难获得很高的性能，基于深度学习的方法越来越成为该领域的主流方法，性能也得到卓越的提高，但该项任务的难点仍是客观存在的。本专利技术主要致力于基于LSTM提高场景文本检测方法。LSTM原本被用于语音识别技术当中，由于其优秀的时间序列建模能力，相对传统的语音识别技术获得了优异性能。但是，不仅时间序列可以使用LSTM建模，单帧的图像在空间上的关系也可以将其序列化看作空间关系，从而加强空间上下文信息的联系。目前的场景文本检测算法主要可以分为两类：第一类主要是基于连通域特征的文本检测算法，该算法从原始图像的最大稳定极值区域中提取出文本候选区域,然后使用训练好的分类器剔除不符合条件的候选区域。接下来通过一系列连接准则将候选区聚合起来。然而,这些连接准则只能适用于水平或接近水平的文本,无法检测倾斜角度稍大的文本行；第二类主要是基于卷积神经网络(ConvolutionalNeuralNetwork，CNN)的文本检测算法，该算法将图像通过CNN获得卷积特征谱，之后在特征谱上的每个位置产生候选框，并且对候选框的位置偏移...

【技术保护点】
1.一种基于长短期记忆网络的场景文本检测方法，其特征在于，包括下列步骤：步骤1：将待检测图片输入预设的深层特征提取网络，取最后一层卷积特征结果作为待检测图片的局部特征谱，所述局部特征谱的大小由待检测图片的大小决定；步骤2：对局部特征谱按照横向和纵向两个方向进行序列化处理：按步长1，采用方块滑窗对局部特征谱从左向右进行滑窗，将每次滑窗作为一个行特征，再将每行的行特征作为一个序列，得到第一序列特征；按步长1，采用方块滑窗对局部特征谱从上向下进行滑窗，将每次滑窗作为一个列特征，再将每列的列特征作为一个序列，得到第二序列特征；步骤3：将第一序列特征输入第一横向LSTM，以及将第一序列特征的反向序列特征输入第二横向LSTM；将第二序列特征输入第一纵向LSTM，以及将第二序列特征的反向序列特征输入第二纵向LSTM；步骤4：将四个LSTM的输出通过通道合并映射到全连接层进行文本检测处理，通过全连接层输出各滑窗对应的文字框属于文本和非文本的置信度得分，以及文字框的顶点位置信息；步骤5：对全连接层输出的文字框通过非极大值抑制去除重复框后输出。

【技术特征摘要】
1.一种基于长短期记忆网络的场景文本检测方法，其特征在于，包括下列步骤：步骤1：将待检测图片输入预设的深层特征提取网络，取最后一层卷积特征结果作为待检测图片的局部特征谱，所述局部特征谱的大小由待检测图片的大小决定；步骤2：对局部特征谱按照横向和纵向两个方向进行序列化处理：按步长1，采用方块滑窗对局部特征谱从左向右进行滑窗，将每次滑窗作为一个行特征，再将每行的行特征作为一个序列，得到第一序列特征；按步长1，采用方块滑窗对局部特征谱从上向下进行滑窗，将每次滑窗作为一个列特征，再将每列的列特征作为一个序列，得到第二序列特征；步骤3：将第一序列特征输入第一横向LSTM，以及将第一序列特征的反向序列特征输入第二横向LSTM；将第二序列特征输入第一纵向LSTM，以及将第二序列特征的反向序列特征输入第二纵向LSTM；步骤4：将四个LSTM的输出通过通道合并映射到全连接层进行文本检测处理，通过全连接层输出各滑窗对应的文字框属于文本和非文本的置信度得分，以及文字框的顶点位置信息；步骤5：对全连接层输...

【专利技术属性】
技术研发人员：李宏亮，孙旭，廖加竞，何慕威，刘玮，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人