一种基于端到端全卷积神经网络的场景文本检测方法技术

技术编号：18459113 阅读：28 留言：0更新日期：2018-07-18 12:50

本发明专利技术公开了一种基于端到端全卷积神经网络的场景文本检测方法，用于在自然场景的图像中发现多方向文本位置的问题。具体包括如下步骤：获取用于训练场景文本检测的多个图像数据集，并定义算法目标；利用全卷积特征提取网络对图像进行特征学习；对特征图上的每个样本点预测实例级别的仿射变换矩阵，根据预测的仿射变换变形采样网格对文本进行特征表达；对候选文本的特征向量进行分类，同时进行坐标回归和仿射变换回归，联合优化模型；使用所述学习框架检测文本的精确位置；对网络输出的包围框集合进行非极大值抑制得到最终文本检测结果。本发明专利技术用于真实图像数据的场景文本检测，对多方向、多尺度、多语种、形状畸变等各类复杂情况具有较佳的效果和鲁棒性。

A scene text detection method based on end-to-end full convolution neural network

The present invention discloses a scene text detection method based on end to end full convolution neural network, which is used to find the problem of multi direction text location in the image of natural scene. The following steps are as follows: obtaining multiple image data sets for training scene text detection and defining the algorithm target; using the full convolution feature extraction network to learn the feature of the image; predict the instance level of the affine transformation matrix for each sample point on the feature graph and the predicted affine transformation deformation sampling grid. The feature vectors of the text are expressed, the feature vectors of the candidate text are classified, the coordinate regression and affine transformation are carried out, the model is combined, the exact location of the text is detected by the learning framework, and the final text detection result is obtained by the non maximum suppression of the set of bounding boxes of the network output. This invention is used for scene text detection of real image data, and has better effect and robustness on various complex situations, such as multi direction, multiscale, multilingual, shape distortion and so on.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于端到端全卷积神经网络的场景文本检测方法
本专利技术属于计算机视觉领域，特别地涉及一种基于端到端全卷积神经网络场景文本检测方法。
技术介绍
场景文本检测被定义为如下问题：在自然场景图像中发现多方向、多尺度、多语种的文本区域位置。近年来，在计算机视觉任务如场景理解、图像检索等领域中得到了广泛应用。该任务主要有两个关键点：第一是如何很好地建模多方向、形状畸变剧烈的文本目标从而产生有效的特征表达；第二是如何实现利用一个端到端网络直接输出检测结果。针对第一点，本专利技术认为场景文本的特征表达关键在于准确地建模其空间几何特性，利用仿射变换编码其空间结构，以产生更加准确、完整、噪音较少的特征表达；针对第二点，本专利技术认为在网络中嵌入仿射变换模块，在特征提取的过程中适应性地调整特征提取的感受野能够实现端到端训练。传统方法一般用固定的感受野提取文本的特征表达而忽略文本目标空间结构的多样化，尽管这些方法有一定的创新性，但是却不能准确地表达文本的几何特性，这在本任务中是非常重要的。由于统计建模的有效性，目前基于学习的方法逐渐被应用到场景文本检测任务中。现有的基于学习的方法主要采用深度学习框架，输入一幅图像，输出检测的文本区域。
技术实现思路
为解决上述问题，本专利技术的目的在于提供一种基于端到端全卷积神经网络场景文本检测方法。在场景文本检测中，文本的方向、尺度、长宽比等几何特性多变，因此我们的工作基于卷积神经网络在特征层面上对文本目标空间几何特性的建模，以得到更准确的特征表达。另外，由于每个样本具有独特的几何特性，我们对每个文本实例进行适应性的特征表达。结合上述两方面，我...

【技术保护点】
1.一种基于端到端全卷积神经网络场景文本检测方法，其特征在于，包括以下步骤：S1、获取用于训练显著性检测的多组图像数据集，并定义算法目标；S2、利用全卷积特征提取网络对组内图像进行特征学习；S3、对特征图上的每个样本点预测实例级别的仿射变换矩阵并根据预测的仿射变换变形采样网格对文本进行特征表达；S4、对候选文本的特征向量进行分类，同时进行坐标回归和仿射变换回归，联合优化模型；S5、使用由S1～S4建立的端到端联合学习框架检测文本的精确位置；S6、对网络输出的包围框集合进行非极大值抑制得到最终文本检测结果。

【技术特征摘要】
1.一种基于端到端全卷积神经网络场景文本检测方法，其特征在于，包括以下步骤：S1、获取用于训练显著性检测的多组图像数据集，并定义算法目标；S2、利用全卷积特征提取网络对组内图像进行特征学习；S3、对特征图上的每个样本点预测实例级别的仿射变换矩阵并根据预测的仿射变换变形采样网格对文本进行特征表达；S4、对候选文本的特征向量进行分类，同时进行坐标回归和仿射变换回归，联合优化模型；S5、使用由S1～S4建立的端到端联合学习框架检测文本的精确位置；S6、对网络输出的包围框集合进行非极大值抑制得到最终文本检测结果。2.如权利要求1所述的基于端到端全卷积神经网络场景文本检测方法，其特征在于，步骤S1中，对于所述的用于场景文本检测的多个图像数据集中的一幅图像I，定义算法目标为：检测图像内的文本区域其中di为第i个文本区域包围框，K为I中的文本样本数量。3.如权利要求2所述的基于端到端全卷积神经网络场景文本检测方法，其特征在于，步骤S2中，利用全卷积特征提取网络对图像进行特征学习具体包括：S21、提取每张图像在不同尺度上的深度特征；S22、选取三个尺度的特征图并对尺寸较小的两层特征图进行上采样使得三层特征图尺寸匹配，对三个尺度的特征图进行拼接处理，得到融合的多尺度特征图M。4.如权利要求3所述的基于端到端全卷积神经网络场景文本检测方法，其特征在于，步骤S3中，对特征图M上的每个样本点预测实例级别的仿射变换矩阵并根据预测的仿射变换变形采样网格对文本进行特征表达具体包括：S31、使用一层卷积操作，对M上每个像素点针对其对应的文本实例预测一个六维的仿射变换θ，输出与M尺寸匹配的仿射变换参数图Θ；S32、根据预测的仿射变换变形采...

【专利技术属性】
技术研发人员：李玺，王芳芳，赵黎明，
申请(专利权)人：浙江大学，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人