The invention discloses a single detection method of multi direction scene text based on full convolution network. By constructing a full convolution single detection network model, it does not need to multistep processing steps and only use a single network to carry out end to end training. A multi scale feature extraction layer junction text frame prediction layer can detect the difference. The multi direction natural scene text of size, length width ratio and resolution can be fitted with a polygon encircling box to reduce the background interference. Finally, the final result of text detection can be obtained only by a simple non maximum value suppression operation. The detection method proposed by the invention is simple and effective compared with the existing technical structure, and has achieved excellent results in the accuracy, detection speed and robustness, and has a very strong practical application value.
【技术实现步骤摘要】
一种基于全卷积网络的多方向场景文本单次检测方法
本专利技术属于计算机视觉
,更具体地,涉及一种基于全卷积网络的多方向场景文本单次检测方法。
技术介绍
在自然场景中,场景文字是最常见的视觉物体之一,比如路牌、车牌、产品包装袋上的文字等。读取场景文字具有十分有用的应用价值,比如基于图片的地理定位、商品图像检索、交通监控系统等。由于背景变化大、前景文字方向任意、长宽比不定、光照条件不可控,读取自然场景中的文字仍然具有较大的挑战性。传统的文本检测方法通常涉及多级处理步骤,比如:字符或单词候选框的产生、候选框的过滤、候选框的组合连接。这些方法需要费力地调整参数和设计人工规则,来使每个模块相连接之后效果均衡正常预测,这样同时也导致了速度的下降。另外,目前的多方向场景文字检测算法都是以水平或者倾斜的矩形包围盒来贴合文字,而自然场景里的文字通常存在透视、变形等,矩形包围盒会引入过多的背景干扰,不利于检测性能的提升。因此需要设计一种无须多步处理步骤、仅用单个网络就可以进行端到端训练的多方向场景文本单次检测器,并且能以多边形来贴合文本,同时提升速度和精度。
技术实现思路
本专利技术 ...
【技术保护点】
一种基于全卷积网络的多方向场景文本单次检测方法,其特征在于,所述方法包括下述步骤:(1)训练基于全卷积网络的多方向场景文本单次检测网络模型,包括如下子步骤:(1.1)对原始数据集中所有图片进行文本标注并进行数据扩增,得到带标注的标准训练数据集:以单词级别标记原始训练数据集中所有文本图像的文本内容,标签为包含单词的规则或不规则四边形包围盒的四个顶点坐标,得到带标注的标准训练数据集;(1.2)定义用于根据单词标签可以预测输出四个顶点坐标的单次检测网络模型,所述单次检测网络模型由全卷积神经网络和卷积预测器组成,根据上述带标注的标准训练数据集计算得到四个顶点坐标相对于初始包围盒的几 ...
【技术特征摘要】
1.一种基于全卷积网络的多方向场景文本单次检测方法,其特征在于,所述方法包括下述步骤:(1)训练基于全卷积网络的多方向场景文本单次检测网络模型,包括如下子步骤:(1.1)对原始数据集中所有图片进行文本标注并进行数据扩增,得到带标注的标准训练数据集:以单词级别标记原始训练数据集中所有文本图像的文本内容,标签为包含单词的规则或不规则四边形包围盒的四个顶点坐标,得到带标注的标准训练数据集;(1.2)定义用于根据单词标签可以预测输出四个顶点坐标的单次检测网络模型,所述单次检测网络模型由全卷积神经网络和卷积预测器组成,根据上述带标注的标准训练数据集计算得到四个顶点坐标相对于初始包围盒的几何偏移量和类别,设计损失函数,结合在线扩增和在线负样本难例挖掘方法,利用反向传导方法训练该单次检测网络,得到单次检测网络模型;具体包括如下子步骤:(1.2.1)搭建基于全卷积网络的多方向场景文本单次检测网络模型;(1.2.2)根据多种尺度的特征图在原图上进行网格划分,产生多种尺度、多种长宽比的水平初始包围盒;(1.2.3)计算所有初始包围盒的标签,包括几何偏移量和类别;(1.2.4)以带标注的标准训练数据集作为多方向场景文本单次检测网络模型的输入,得到预测的输出;(1.2.5)设计目标损失函数,利用反向传播法进行模型训练;(1.2.6)对带标注的标准训练数据集进行在线扩增,并对在线负样本进行难例挖掘,进行多尺度训练;(2)利用上述训练好的多方向场景文本单次检测器模型对待检测文本图像进行文字检测,包括如下子步骤:(2.1)对待检测文本图像进行单尺度快速文本检测;(2.2)对待检测文本图像进行多尺度精准文本检测;(2.3)对多尺度检测结果进行非最大值抑制,实现对检测文本框的过滤,得到最终输出。2.根据权利要求1所述的基于全卷积网络的多方向场景文本单次检测方法,其特征在于,所述步骤(1.2.1)具体为:该单次检测网络有29层,包括特征提取单元和卷积预测单元;其中,特征提取单元包括两部分:前面一部分为来自VGG-16网络的4个卷积单元,包括13层(conv1_1,conv1_2,pool1,conv2_1,conv2_2,pool2,conv3_1,conv3_3,conv3_3,pool3,conv4_1,conv4_2,conv4_3),用于提取低层特征用于检测;后面一部分为5个额外添加的卷积单元,包括10层(conv6,conv7,conv8_1,conv8_2,conv9_1,conv9_2,conv10_1,conv10_2,conv11_1,conv11_2),用于提取更高层的深度特征进行检测;卷积预测单元包括:分别连接在6个特征待提取卷积层(conv4_3,conv6,conv7,conv8_2,conv9_2,conv10_2,conv11_2)之后的6个文本框预测层,用于预测几何偏移量和类别。3.根据权利要求1或2所述的基于全卷积网络的多方向场景文本单次检测方法,其特征在于,所述步骤(1.2.2)具体为:对于带标注的标准训练数据集Itr的第i张图片Itri,将图片Itri的宽度和高度分别缩放到预设宽度W和预设高度H,四边形标注包围盒集合为Qi=[Qi1,…,Qim],根据矩形包围盒的多边形包围盒标注生成最小水平矩形包围盒(x,y,w,h),其中(x,y)为最小水平矩形包围盒的中心点坐标,w、h分别为它的宽度和高度;对于标注包围盒Qip,其中p为下标,p=[1,…,m],m表示该图片上标注包围盒的数目,;以Itri作为单次检测网络模型的输入,记后6层特征待提取卷积层分别输出的特征图构成集合Ftri=[Ftri1,Ftri2,Ftri3,Ftri4,Ftri5,Ftri6],其中Ftril为后6层特征待提取卷积层中第l层输出的特征图,l=[1,…,6],wl、hl分别为该特征图的宽度和高度,它们的像素取值均为[38,19,10,5,3,1];特征图Ftril上的任一坐标(xl,yl)对应上输入图片Itri上以(xa,ya)为中心点坐标的网格Gila,(xa,ya)的计算公式如下:整数ii∈[0,wl]整数jj∈[0,hl]在每个网格内,长宽比ar的取值范围为[1,2,3,5,1/2,1/3,1/5];以网格中心点为中心,按照ar所有可能的取值产生第一部分多种长宽比的水平初始包围盒,并以网格中心沿竖直方向每移动1/2网格产生另一部分初始包围盒,这两部分组成特征图Ftril对应的初始包围盒集合Dil=[Dil1,…,Diln],其中n表示初始包围盒的数目,长宽比为ar的初始包围盒的宽度wil和高度hil满足下列公式:其中,Smin和Smax分别表示在最小的特征图和最大的特征图上的初始包围盒尺度,Sl表示特征图Ftril对应的初始包围盒尺度。4.根据权利要求1或2所述的基于全卷积网络的多方向场景文本单次检测方法,其特征在于,所述步骤(1.2.3)具体为:对于Ftril对应的初始包围盒集合Dil,考虑Dil集合中的第q个初始包围盒Dilq,其中q为下标,q=[1,…,n],当初始包围盒Dilq与所有的标注包围盒Qip的Jaccard系数均小于0.5,那么,初始包围盒Dilq被标记为负类,标签取值为0;否则,即至少存在一个标注包围盒Qip与Dilq的Jaccard系数不小于0.5,Dilq被标记为正类,标签取值为1,并相对于Jaccard系数最大的标注盒来计算几何偏移量;Qip用(x,y,w,h)和来表示,Dilq用(x0,y0,w0,h0)来表示,(x0,y0)为Dilq的中心点横、纵坐标,也是网格的中心或网格边界的中点,w0和h0分别为Dilq的宽度、高度,首先得到Dilq的四个顶点表达形式转换公式如下:
【专利技术属性】
技术研发人员:白翔,廖明辉,石葆光,许永超,徐培,
申请(专利权)人:华中科技大学,
类型:发明
国别省市:湖北,42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。