当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于端到端全卷积神经网络的场景文本检测方法技术

技术编号:18459113 阅读:28 留言:0更新日期:2018-07-18 12:50
本发明专利技术公开了一种基于端到端全卷积神经网络的场景文本检测方法,用于在自然场景的图像中发现多方向文本位置的问题。具体包括如下步骤:获取用于训练场景文本检测的多个图像数据集,并定义算法目标;利用全卷积特征提取网络对图像进行特征学习;对特征图上的每个样本点预测实例级别的仿射变换矩阵,根据预测的仿射变换变形采样网格对文本进行特征表达;对候选文本的特征向量进行分类,同时进行坐标回归和仿射变换回归,联合优化模型;使用所述学习框架检测文本的精确位置;对网络输出的包围框集合进行非极大值抑制得到最终文本检测结果。本发明专利技术用于真实图像数据的场景文本检测,对多方向、多尺度、多语种、形状畸变等各类复杂情况具有较佳的效果和鲁棒性。

A scene text detection method based on end-to-end full convolution neural network

The present invention discloses a scene text detection method based on end to end full convolution neural network, which is used to find the problem of multi direction text location in the image of natural scene. The following steps are as follows: obtaining multiple image data sets for training scene text detection and defining the algorithm target; using the full convolution feature extraction network to learn the feature of the image; predict the instance level of the affine transformation matrix for each sample point on the feature graph and the predicted affine transformation deformation sampling grid. The feature vectors of the text are expressed, the feature vectors of the candidate text are classified, the coordinate regression and affine transformation are carried out, the model is combined, the exact location of the text is detected by the learning framework, and the final text detection result is obtained by the non maximum suppression of the set of bounding boxes of the network output. This invention is used for scene text detection of real image data, and has better effect and robustness on various complex situations, such as multi direction, multiscale, multilingual, shape distortion and so on.

【技术实现步骤摘要】
一种基于端到端全卷积神经网络的场景文本检测方法
本专利技术属于计算机视觉领域,特别地涉及一种基于端到端全卷积神经网络场景文本检测方法。
技术介绍
场景文本检测被定义为如下问题:在自然场景图像中发现多方向、多尺度、多语种的文本区域位置。近年来,在计算机视觉任务如场景理解、图像检索等领域中得到了广泛应用。该任务主要有两个关键点:第一是如何很好地建模多方向、形状畸变剧烈的文本目标从而产生有效的特征表达;第二是如何实现利用一个端到端网络直接输出检测结果。针对第一点,本专利技术认为场景文本的特征表达关键在于准确地建模其空间几何特性,利用仿射变换编码其空间结构,以产生更加准确、完整、噪音较少的特征表达;针对第二点,本专利技术认为在网络中嵌入仿射变换模块,在特征提取的过程中适应性地调整特征提取的感受野能够实现端到端训练。传统方法一般用固定的感受野提取文本的特征表达而忽略文本目标空间结构的多样化,尽管这些方法有一定的创新性,但是却不能准确地表达文本的几何特性,这在本任务中是非常重要的。由于统计建模的有效性,目前基于学习的方法逐渐被应用到场景文本检测任务中。现有的基于学习的方法主要采用深度学习框架,输入一幅图像,输出检测的文本区域。
技术实现思路
为解决上述问题,本专利技术的目的在于提供一种基于端到端全卷积神经网络场景文本检测方法。在场景文本检测中,文本的方向、尺度、长宽比等几何特性多变,因此我们的工作基于卷积神经网络在特征层面上对文本目标空间几何特性的建模,以得到更准确的特征表达。另外,由于每个样本具有独特的几何特性,我们对每个文本实例进行适应性的特征表达。结合上述两方面,我们设计了一个统一的端到端深度学习框架对场景文本进行个性化、适应性的特征表达,从而使模型更具准确性和鲁棒性。为实现上述目的,本专利技术的技术方案为:基于端到端全卷积神经网络的场景文本检测方法,包括以下步骤:S1、获取用于训练显著性检测的多组图像数据集,并定义算法目标;S2、利用全卷积特征提取网络对组内图像进行特征学习;S3、对特征图上的每个样本点预测实例级别的仿射变换矩阵并根据预测的仿射变换变形采样网格对文本进行特征表达;S4、对候选文本的特征向量进行分类,同时进行坐标回归和仿射变换回归,联合优化模型;S5、使用由S1~S4建立的端到端联合学习框架检测文本的精确位置;S6、对网络输出的包围框集合进行非极大值抑制得到最终文本检测结果。基于上述方案,各步骤可以通过如下方式实现:步骤S1中,对于所述的用于场景文本检测的多个图像数据集中的一幅图像I,定义算法目标为:检测图像内的文本区域其中di为第i个文本区域包围框,K为I中的文本样本数量。进一步的,步骤S2中,利用全卷积特征提取网络对图像进行特征学习具体包括:S21、提取每张图像在不同尺度上的深度特征;S22、选取三个尺度的特征图并对尺寸较小的两层特征图进行上采样使得三层特征图尺寸匹配,对三个尺度的特征图进行拼接处理,得到融合的多尺度特征图M。进一步的,步骤S3中,对特征图M上的每个样本点预测实例级别的仿射变换矩阵并根据预测的仿射变换变形采样网格对文本进行特征表达具体包括:S31、使用一层卷积操作,对M上每个像素点针对其对应的文本实例预测一个六维的仿射变换θ,输出与M尺寸匹配的仿射变换参数图Θ;S32、根据预测的仿射变换变形采样网格并进行卷积操作对文本进行特征表达,输出特征图V:其中w为卷积核,w(p,q)为卷积核在(p,q)位置的参数值,k×k为卷积核大小,vxy为V上点(x,y)处的特征向量,θxy为S31步骤中在(x,y)处预测的仿射变换矩阵,Tθxy(x+p,y+q)为原采样网格位置(x+p,y+q)经过仿射变换后的新采样网格点坐标。进一步的,步骤S4中,对候选文本的特征向量进行分类,同时进行坐标回归和仿射变换回归,联合优化模型具体包括:S41、对vxy进行softmax分类,判别属于文本类或非文本;S42、对θxy利用smoothL1损失函数进行回归,利用最小二乘法计算出的从样本点(x,y)所对应原图中的区域到目标文本区域之间的仿射变换矩阵作为监督信息;S43、利用θxy计算文本粗略位置并在vxy上利用smoothL1损失函数回归文本区域包围框顶点粗略坐标和精确坐标之间的偏移量。进一步的,步骤S5中,使用由S1~S4建立的端到端联合学习框架检测文本的精确位置具体包括:基于由S1~S4建立的端到端联合学习框架,输入测试图像即真值监督信息,通过最小化损失函数学习得到V上每个样本点处所预测的区域是否为文本区域及判定为文本区域的样本点处所回归处的精确位置信息。进一步的,步骤S6中,对网络输出的包围框集合进行非极大值抑制得到最终文本检测结果具体包括:在网络输出中,消除重叠率较高的区域中分数较低的包围框,以去除冗余的重复检测,得到最终的检测结果。本专利技术的基于端到端全卷积神经网络场景文本检测方法,相比于现有的场景文本检测方法,具有以下有益效果:首先,本专利技术的场景文本检测方法定义了场景文本检测中的一个关键问题,即针对文本目标的空间几何特性的建模以及适应性的特征表达。通过寻求这个方向的解决方法,可以有效地解决复杂场景中的文本检测。其次,本专利技术提出了在网络中嵌入仿射变换模块,在训练过程中能够自适应提取特征,有效地提升了场景文本检测的结果。最后,本专利技术的场景文本检测方法提出端到端的深度学习网络去联合优化特征表达学习过程、文本与非文本分类过程及坐标偏移量回归过程,从而得到了更加鲁棒的场景文本检测结果。本专利技术的基于端到端全卷积神经网络场景文本检测方法,在场景理解、图像分割等场景中,具有良好的应用价值。例如,在场景分析任务中,场景中的文本包含大量帮助理解场景的信息,准确检测文本所在位置是利用场景文本信息的基础,本专利技术的场景文本检测方法能够快速准确地定位图像中的文本区域,为后续利用分析文本信息提供基础。附图说明图1为本专利技术的流程示意图;图2为实施例中的原始图像;图3为实施例中预测的仿射变换指导下的采样网格变形;其中○格子为普通卷积操作的采样网格,×格子为根据仿射变换变形之后的采样网格。图4为实施例中的联合学习框架对于自然场景图像的文本检测效果图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。相反,本专利技术涵盖任何由权利要求定义的在本专利技术的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本专利技术有更好的了解,在下文对本专利技术的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本专利技术。参考图1,在本专利技术的较佳实施例中,一种基于端到端全卷积神经网络场景文本检测方法,包括以下步骤:首先,获取用于场景文本检测的多个图像数据集,定义算法目标为:检测图像I内的文本区域其中di为第i个文本区域包围框,K为I中的文本样本数量。其次,利用全卷积特征提取网络对图像进行特征学习具体包括:第一步、提取每张图像在不同尺度上的深度特征;第二步、选取三个尺度的特征图并对尺寸较小的两层特征图进行上采样使得三层特征图尺寸匹配,对三个尺度的特征图进行拼接处理,得到融合的多尺度特征图本文档来自技高网...

【技术保护点】
1.一种基于端到端全卷积神经网络场景文本检测方法,其特征在于,包括以下步骤:S1、获取用于训练显著性检测的多组图像数据集,并定义算法目标;S2、利用全卷积特征提取网络对组内图像进行特征学习;S3、对特征图上的每个样本点预测实例级别的仿射变换矩阵并根据预测的仿射变换变形采样网格对文本进行特征表达;S4、对候选文本的特征向量进行分类,同时进行坐标回归和仿射变换回归,联合优化模型;S5、使用由S1~S4建立的端到端联合学习框架检测文本的精确位置;S6、对网络输出的包围框集合进行非极大值抑制得到最终文本检测结果。

【技术特征摘要】
1.一种基于端到端全卷积神经网络场景文本检测方法,其特征在于,包括以下步骤:S1、获取用于训练显著性检测的多组图像数据集,并定义算法目标;S2、利用全卷积特征提取网络对组内图像进行特征学习;S3、对特征图上的每个样本点预测实例级别的仿射变换矩阵并根据预测的仿射变换变形采样网格对文本进行特征表达;S4、对候选文本的特征向量进行分类,同时进行坐标回归和仿射变换回归,联合优化模型;S5、使用由S1~S4建立的端到端联合学习框架检测文本的精确位置;S6、对网络输出的包围框集合进行非极大值抑制得到最终文本检测结果。2.如权利要求1所述的基于端到端全卷积神经网络场景文本检测方法,其特征在于,步骤S1中,对于所述的用于场景文本检测的多个图像数据集中的一幅图像I,定义算法目标为:检测图像内的文本区域其中di为第i个文本区域包围框,K为I中的文本样本数量。3.如权利要求2所述的基于端到端全卷积神经网络场景文本检测方法,其特征在于,步骤S2中,利用全卷积特征提取网络对图像进行特征学习具体包括:S21、提取每张图像在不同尺度上的深度特征;S22、选取三个尺度的特征图并对尺寸较小的两层特征图进行上采样使得三层特征图尺寸匹配,对三个尺度的特征图进行拼接处理,得到融合的多尺度特征图M。4.如权利要求3所述的基于端到端全卷积神经网络场景文本检测方法,其特征在于,步骤S3中,对特征图M上的每个样本点预测实例级别的仿射变换矩阵并根据预测的仿射变换变形采样网格对文本进行特征表达具体包括:S31、使用一层卷积操作,对M上每个像素点针对其对应的文本实例预测一个六维的仿射变换θ,输出与M尺寸匹配的仿射变换参数图Θ;S32、根据预测的仿射变换变形采...

【专利技术属性】
技术研发人员:李玺王芳芳赵黎明
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1