文字检测方法及系统技术方案

技术编号:24411585 阅读:15 留言:0更新日期:2020-06-06 09:27
一种文字检测方法及系统,方法包括:对输入图像进行特征提取,得到特征图像;利用自适应区域建议网络进行预测,得到建议框;利用建议框对特征图像进行裁剪,得到裁剪特征图;在两个正交方向上分别对裁剪特征图进行文字纹理信息建模,得到每一正交方向对应的轮廓点热力图;对轮廓点热力图中的轮廓点进行筛选,得到轮廓点集合,以重建输入图像中的文字。自适应区域建议网络能够适应文字的尺度变化生成对应文字区域的建议框,文字纹理信息建模模块在正交方向上进行文字纹理信息建模能够抑制假阳性的轮廓点,从而提升任意形状场景文字检测的精度。

Text detection method and system

【技术实现步骤摘要】
文字检测方法及系统
本公开涉及文字识别
,具体地,涉及一种文字检测方法及系统。
技术介绍
自然场景文字检测是指在复杂背景中检测到文字区域,并用包围框对文字区域进行标识。自然场景文字检测的结果在自动驾驶、机器人等领域有广泛应用。自然场景中的文字检测面临分辨率低、背景复杂、字体尺寸多变等困难,使得传统文字检测技术的实际应用效果差。随着深度学习技术的发展,基于深度学习的自然场景文字检测技术得到了显著提升,该检测技术虽然能够检测任意形状的文字,但是检测结果中包含较多的假阳性检测,并且受文字尺寸多样性问题的影响,其检测精度有待提升。
技术实现思路
(一)要解决的技术问题有鉴于此,本公开提供了一种能够提升任意形状场景文字检测精度的文字检测方法及系统。(二)技术方案本公开提供了一种文字检测方法,包括:对输入图像进行特征提取,得到特征图像;利用自适应区域建议网络进行预测,得到建议框;利用所述建议框对所述特征图像进行裁剪,得到裁剪特征图;在两个正交方向上分别对所述裁剪特征图进行文字纹理信息建模,得到每一所述正交方向对应的轮廓点热力图;对所述轮廓点热力图中的轮廓点进行筛选,得到轮廓点集合,以重建所述输入图像中的文字。可选地,所述利用自适应区域建议网络进行预测,得到建议框,包括:利用所述自适应区域建议网络对预置锚框的点进行局部偏置预测,得到相应的预测点;根据所述预测点确定所述建议框。可选地,所述两个正交方向为水平方向和垂直方向,所述在两个正交方向上分别对所述裁剪特征图进行文字纹理信息建模,包括:根据第一卷积核,建立所述裁剪特征图在所述水平方向上的第一文字纹理信息模型;根据第二卷积核,建立所述裁剪特征图在所述垂直方向上的第二文字纹理信息模型。可选地,所述第一卷积核的尺寸为1×k,所述第二卷积核的尺寸为k×1,k不大于所述裁剪特征图的尺寸,本公开中k=3。可选地,所述方法还包括:根据所述裁剪特征图,利用微调网络对所述建议框进行调整,得到调整后的建议框;利用调整后的建议框对所述特征图像进行裁剪,得到调整后的裁剪特征图;对调整后的裁剪特征图进行上采样,得到上采样特征图。可选地,所述在两个正交方向上分别对所述裁剪特征图进行文字纹理信息建模,包括:在两个正交方向上分别对所述上采样特征图进行文字纹理信息建模。可选地,所述在两个正交方向上分别对所述裁剪特征图进行文字纹理信息建模,包括:分别利用所述两个正交方向上的文字纹理信息感知网络对所述裁剪特征图进行文字纹理信息建模;在对输入图像进行特征提取之前,所述方法还包括:利用随机梯度下降法,根据损失函数对所述自适应区域建议网络、文字纹理信息感知网络、微调网络进行训练,所述损失函数为:L=LArpn+λHcpLHcp+λVcpLVcp+λboxclassLboxclass+λboxregLboxreg其中,L为所述损失函数,LArpn为所述自适应区域建议网络的损失函数,LHcp为一正交方向上的文字纹理信息感知网络的损失函数,LVcp为另一正交方向上的文字纹理信息感知网络的损失函数,Lboxclass、Lboxreg为所述微调网络的损失函数,λHcp为所述一正交方向上的文字纹理信息感知网络的平衡参数,λVcp为所述另一正交方向上的文字纹理信息感知网络的平衡参数,λboxclass、λboxreg为所述微调网络的平衡参数。可选地,所述对所述轮廓点热力图进行筛选,得到轮廓点集合,包括:利用非极大值抑制法滤除所述轮廓点热力图中的背景像素点;根据预设阈值对所述轮廓点热力图进行筛选,得到所述轮廓点集合。可选地,所述根据预设阈值对所述轮廓点热力图进行筛选,得到所述轮廓点集合,包括:筛选出在所述两个正交方向对应的轮廓点热力图中的响应值均大于所述预设阈值的像素点,以形成所述轮廓点集合。本公开另一方面提供了一种文字检测系统,包括:提取模块,用于对输入图像进行特征提取,得到特征图像;预测模块,用于利用自适应区域建议网络进行预测,得到建议框;裁剪模块,用于利用所述建议框对所述特征图像进行裁剪,得到裁剪特征图;建模模块,用于在两个正交方向上分别对所述裁剪特征图进行文字纹理信息建模,得到每一所述正交方向对应的轮廓点热力图;筛选模块,用于对所述轮廓点热力图中的轮廓点进行筛选,得到轮廓点集合,以重建所述输入图像中的文字。(三)有益效果本公开提供的文字检测方法及系统,通过设计自适应区域建议网络,能够更好地适应文字的尺度变化,在正交方向上进行文字纹理信息建模,能够抑制假阳性的轮廓点,从而有效地解决了文字尺度变化和假阳性预测的问题,提升了任意形状场景文字检测的精度。附图说明图1示意性示出了本公开实施例提供的文字检测方法的流程图;图2示意性示出了本公开实施例提供的文字检测方法中预测裁剪框的示意图;图3示意性示出了本公开实施例提供的文字检测方法中文字纹理信息建模的示意图;图4示意性示出了本公开实施例提供的文字检测系统的结构框图;图5示意性示出了本公开实施例提供的微调网络的示意图。具体实施方式为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。图1示意性示出了本公开实施例提供的文字检测方法的流程图。参阅图1,同时结合图2-图3,对图1所示方法进行详细说明。如图1所示,该文字检测方法包括操作S110-操作S150。操作S110,对输入图像进行特征提取,得到特征图像。本实施例中,利用深度神经网络(DeepNeuralNetworks,DNN)进行文字检测,该深度神经网络包括ResNet50特征提取网络、自适应区域建议网络、微调网络、水平方向上的文字纹理信息感知网络、垂直方向上的文字纹理信息感知网络等。在操作S110之前,应对该深度神经网络进行训练。具体地,例如采用随机梯度下降法(StochasticGradientDescent,SGD)进行端到端的训练,该深度神经网络整体的损失函数L为:L=LArpn+λHcpLHcp+λVcpLVcp+λboxclassLboxclass+λboxregLboxreg其中,LArpn为自适应区域建议网络的损失函数,LHcp为一正交方向(例如水平方向)上的文字纹理信息感知网络的损失函数,LVcp为另一正交方向(例如垂直方向)上的文字纹理信息感知网络的损失函数,Lboxclass、Lboxreg为微调网络的损失函数,λHcp为一正交方向上的文字纹理信息感知网络的平衡参数,λVcp为另一正交方向上的文字纹理信息感知网络的平衡参数,λboxclass、λboxreg为微调网络的平衡参数。进一步地,自适应区域建议网络的损失函数LArpn为:LArpn=LArpnclass+LArpnreg其中,LArpnclass为分类损失函数,LArpnreg为回归本文档来自技高网...

【技术保护点】
1.一种文字检测方法,包括:/n对输入图像进行特征提取,得到特征图像;/n利用自适应区域建议网络进行预测,得到建议框;/n利用所述建议框对所述特征图像进行裁剪,得到裁剪特征图;/n在两个正交方向上分别对所述裁剪特征图进行文字纹理信息建模,得到每一所述正交方向对应的轮廓点热力图;/n对所述轮廓点热力图中的轮廓点进行筛选,得到轮廓点集合,以重建所述输入图像中的文字。/n

【技术特征摘要】
1.一种文字检测方法,包括:
对输入图像进行特征提取,得到特征图像;
利用自适应区域建议网络进行预测,得到建议框;
利用所述建议框对所述特征图像进行裁剪,得到裁剪特征图;
在两个正交方向上分别对所述裁剪特征图进行文字纹理信息建模,得到每一所述正交方向对应的轮廓点热力图;
对所述轮廓点热力图中的轮廓点进行筛选,得到轮廓点集合,以重建所述输入图像中的文字。


2.根据权利要求1所述的方法,其中,所述利用自适应区域建议网络进行预测,得到建议框,包括:
利用所述自适应区域建议网络对预置锚框的点进行局部偏置预测,得到相应的预测点;
根据所述预测点确定所述建议框。


3.根据权利要求1所述的方法,其中,所述两个正交方向为水平方向和垂直方向,所述在两个正交方向上分别对所述裁剪特征图进行文字纹理信息建模,包括:
根据第一卷积核,建立所述裁剪特征图在所述水平方向上的第一文字纹理信息模型;
根据第二卷积核,建立所述裁剪特征图在所述垂直方向上的第二文字纹理信息模型。


4.根据权利要求3所述的方法,其中,所述第一卷积核的尺寸为1×k,所述第二卷积核的尺寸为k×1,k不大于所述裁剪特征图的尺寸。


5.根据权利要求1所述的方法,其中,所述方法还包括:
根据所述裁剪特征图,利用微调网络对所述建议框进行调整,得到调整后的建议框;
利用调整后的建议框对所述特征图像进行裁剪,得到调整后的裁剪特征图;
对调整后的裁剪特征图进行上采样,得到上采样特征图。


6.根据权利要求5所述的方法,其中,所述在两个正交方向上分别对所述裁剪特征图进行文字纹理信息建模,包括:
在两个正交方向上分别对所述上采样特征图进行文字纹理信息建模。


7.根据权利要求5所述的方法,其中,所述在两个正交方向上分别对所述裁剪特征图进行文字纹理信息建模,包括:
分别利用所述两个正交方向上的文字纹理信息感知网络对...

【专利技术属性】
技术研发人员:张勇东王裕鑫谢洪涛
申请(专利权)人:中国科学技术大学北京中科研究院
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1