本发明专利技术属于自然场景文本检测算法技术领域,特别涉及一种EAST算法优化方法,步骤1:图像预处理;步骤2:输入特征提取网络进行特征提取;步骤3:特征融合;步骤4:输入BLSTM网络;步骤5:输出结果;通过优化混合特征金字塔结构,将自上而下的四层合并,改进为只合并前两层,然后再与自上而下路径进行融合。然后利用优化后的混合特征金字塔结构代替原来的EAST算法的特征提取和特征合并结构。解决EAST算法对小感受野文本关注不够,小感受野特征图处理较少不利于后续处理等问题。EAST算法预测误差大大减小,提升EAST算法预测精度。
【技术实现步骤摘要】
一种EAST算法优化方法
本专利技术属于自然场景文本检测算法
,特别涉及一种EAST算法优化方法。
技术介绍
传统的文本检测方法和一些基于深度学习的文本检测方法,大多是多级结构(multi-stage),在训练时需要对每一级进行调优,这势必会影响最终的定位效果,而且非常耗时.针对上述存在的问题,2017年旷世科技提出EAST算法(EAST:AnEfficientandAccurateSceneTextDetector),EAST算法提出了端到端的文本检测方法,消除中间多个stage(如候选区域聚合,文本分词,后处理等),直接预测文本行。EAST模型结构简单,重点在于采用FCN全卷积神经网络结构和loss函数。EAST算法在ICDAR2015数据集上的准确率可以达到80.57%。由于抛弃了Faster-RCNN中的anchor的思想,直接预测文本行,EAST算法不再局限于文本尺寸和文本比例,可以检测任意大小和比例的文本。其次,EAST算法使用Locality-AwareNMS来对生成的几何图进行过滤,可以减少文本框被误删的概率。最后EAST算法设计了两种不同的文本框预测形式,可以检测其他如CTPN算法不能检测的倾斜文本和不规则形状文本。针对以上三种视频中的文本特点,EAST算法更加适合自然场景中的文本检测。EAST原算法算法结构如图1,EAST算法采用4层特征金字塔结构,并且在特征融合部分进行合并即通道维度连接起来:将小尺寸特征图通过反卷积扩大到和大尺寸特征图相同的尺寸,再在通道维度进行相加。可以看出特征提取部分的小感受野特征图位于特征提取网络的最底层,而在特征合并时直接在特征合并的最顶层被合并,这种结构导致小感受野特征图只经过了很少的卷积计算,不利于后续处理,且通道数较少(一般的全卷积特征提取网络随着网络加深通道数也会变多)融合后信息所占比例较少。就造成了EAST算法存在小感受野文本关注不够,小感受野特征图处理较少致使特征不利于后续处理等问题,针对这些问题,一些研究者采用混合特征金字塔修改特征提取和特征合并部分。混合特征金字塔结构如图2。优化前的混合特征金字塔由自上而下和自下而上的合并路径组成,最后将两条合并路径进行融合如图2所示,就是把一条EAST算法合并方向相同的合并路径和一条合并方向相反的合并路径进行融合做为最后的输出,后者小感受野特征图位于特征合并的最底层,两者合并后就巧妙地解决了EAST算法特征金字塔结构存在的问题。但是,在EAST算法中,对大感受野给予了足够的关注度,致使大感受特征图的特征足够抽象,所以在另外一条路径上对其进行合并的话对检测精度提升不大,反而会带来计算量上的负担,致使整个计算速度大大下降。
技术实现思路
针对现有技术的不足,本专利技术提供了一种EAST算法优化方法,重新设计了混合特征金字塔结构,在合并方向相反的合并路径上只对特征金字塔的前两层进行合并(感受野比较小的两层),然后在与另外一条路径进行融合,具体结构如图3所示(左端虚线框框出为优化部分)。由于特征合并的特征图都来源于特征提取网络的特征图,两条特征提取路径是完全相同的(如图3所示,特征提取其实只进行过一次)只有在特征合并部分方向不同,所以只会在特征合并部分带来微小的计算量增加,这样既解决了EAST算法存在小感受野文本关注不够,小感受野特征图处理较少致使特征不够抽象不利于后续处理等问题,又不会为网络的计算量带来太多的负担。为实现上述目的,本专利技术提供如下技术方案:一种EAST算法优化算法,包括以下实施步骤:步骤1:图像预处理。步骤101:对所有的图像进行预处理,将图片都处理到512*512像素大小,以备后续处理。步骤2:输入特征提取网络进行特征提取。步骤201:EAST原算法特征提取网络为VGG16,为提高网络精度,加深网络层数,提取深层语义信息,解决特征图处理较少不利于后续处理等问题。用轻量型特征提取网络MobileNetV3代替原有特征提取网络,且为提取深层语义信息,将MobileNetV3网路加深至50层。步骤202:MobileNetV3使用通道域的注意力模块Squeeze-and-excitation(SE)模块,为了更提升通道域注意力机制效果和融入空间域注意力机制,利用CBAM(ConvolutionalBlockAttentionModule)轻量的混合注意力机制模块代替Squeeze-and-excitation(SE)模块。步骤203:利用改进后的MobileNetV3-50作为特征提取网络,提取4层特征图,依次记为f4、f3、f2、f1。步骤3:特征融合。步骤301:f4特征图经过池化操作大小缩小为原特征图1/2,记为F(2)3。步骤302:f3和F(2)3融合,融合后结果经过卷积收集空间和通道信息记为H(2)2。步骤303:H(2)2经过池化操作,大小缩小为原特征图1/2,记为F(2)2。步骤304:f1特征图记为h1。步骤305:h1反卷积后和F(2)2、f2融合,融合后结果经过卷积收集空间和通道信息记为h2。步骤306:h2反卷积扩大一倍和F(2)3、f3融合,融合后结果经过卷积收集空间和通道信息记为h3。步骤307:h3反卷积扩大一倍和f4融合,融合后结果经过卷积收集空间和通道信息记为h4。步骤4:输入BLSTM网络。步骤401:h4经过卷积收集空间和通道信息输入BLETM网络,BLSTM网络为整个算法带来序列特征。步骤5:输出结果。步骤501:经过卷积操作输出最后结果,与原算法结果对比图如图4所示。与现有技术相比,本专利技术提供了一种EAST算法优化方法,具备以下有益效果:本专利技术提供了一种EAST算法优化方法,重新设计了混合特征金字塔结构,在合并方向相反的合并路径上只对特征金字塔的前两层进行合并(感受野比较小的两层),然后在与另外一条路径进行融合,具体结构如图3所示(左端虚线框框出为优化部分)。由于特征合并的特征图都来源于特征提取网络的特征图,两条特征提取路径是完全相同的(如图3所示,特征提取其实只进行过一次)只有在特征合并部分方向不同,所以只会在特征合并部分带来微小的计算量增加,这样既解决了EAST算法存在小感受野文本关注不够,小感受野特征图处理较少致使特征不够抽象不利于后续处理等问题,又不会为网络的计算量带来太多的负担。附图说明图1为EAST原算法算法结构图;图2为优化前混合特征金字塔结构图;图3为优化后EAST算法结构图(左端虚线框框出为优化部分);图4为优化前后结果对比图;图5为原算法与优化算法结果对比图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例本文档来自技高网...
【技术保护点】
1.一种EAST算法优化方法,其特征在于,包括以下步骤:/n步骤1:训练集预处理;/n步骤2:将处理过的训练集图片输入特征提取网络进行特征提取;/n步骤201、提取4层特征图,依次记为f
【技术特征摘要】
1.一种EAST算法优化方法,其特征在于,包括以下步骤:
步骤1:训练集预处理;
步骤2:将处理过的训练集图片输入特征提取网络进行特征提取;
步骤201、提取4层特征图,依次记为f4、f3、f2、f1;
步骤3:特征融合;
步骤301:f4特征图经过池化操作大小缩小为原特征图1/2,记为F(2)3;
步骤302:f3和F(2)3融合,融合后结果经过卷积收集空间和通道信息记为H(2)2;
步骤303:H(2)2经过池化操作,大小缩小为原特征图1/2,记为F(2)2;
步骤304:f1特征图记为h1;
步骤305:h1反卷积后和F(2)2、f2融合,融合后结果经过卷积收集空间和通道信息记为h2;
步骤306:h2反卷积扩大一倍和F(2)3、f3融合,融合后结果经过卷积收集空间和通道信息记为h3;
步骤307:h3反卷积扩大一倍和f4融合,融合后结果经过卷积收集空间和通道信息记为h4;
步骤4:输入BLSTM网络;
步骤401:h4经过卷积收集空间和通道信息输入BLETM网络,BLSTM网络输出最后结果。
2.根据权利要求1所述的一种EAST算法优化方法,其特征在于,所述步骤201中,利用优化后的特征提取网络MobileNetV3-50,提取出四层特征图依次记为f4、f3、f2、f1,特征图大小依次减小,为上一特征图的1/2,通道数依次为:64、128、256、384。
3.根据权利要求1所述的一种EAST算法优化方法,其特征在于,所述步骤301中,f4特征图经过最大池化操作大小缩小为原特征图1/2,通道数不变,记为特征图F(2)3。
4.根据权利要求1所述的一种EAST算法优化方法,其特征在于,所述步骤302中,f3和F(2)3通道...
【专利技术属性】
技术研发人员:刘明珠,葛立鹏,付聪,
申请(专利权)人:哈尔滨理工大学,
类型:发明
国别省市:黑龙江;23
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。