基于多级分离特征增强和空间注意力的标签文本检测方法技术

技术编号:38324472 阅读:7 留言:0更新日期:2023-07-29 09:06
本发明专利技术公开基于多级分离特征增强和空间注意力的标签文本检测方法。获取工业产品标签文本图像并预处理,放入ResNet50HS

【技术实现步骤摘要】
基于多级分离特征增强和空间注意力的标签文本检测方法


[0001]本专利技术属于目标检测
,具体涉及一种基于多级分离特征增强和空间注意力的标签文本检测方法。

技术介绍

[0002]文本检测是指在包含文本的自然场景图像中标记出文本所在区域,如检测广告牌中的文字区域等。此外,文本检测在场景理解、自动驾驶和人机交互等计算机视觉任务中具有重要的实际应用价值,由此引发了研究者的广泛关注与研究。然而,复杂的图片背景以及多变的文本形态极大地增加了该任务的挑战性。工厂在流动生产线传输工业产品的过程中,在对产品装箱并贴完工业标签后,将货箱运送至发运区。尽管工人对产品信息都有所记录,但仍然避免不了因为工人疏忽而导致标签信息与实际要求信息不匹配的情况。一旦发生此种情况,就会导致一连串的产品发运错误,后期需要耗费相当高的成本进行排查,严重影响货物管理和生产效率。
[0003]针对上述问题,为了提高发运产品的准确性,利用文本检测技术精准检测产品标签中的文本。然而,将文本检测技术应用于该问题场景需要克服以下困难:(1)工厂环境复杂存在光照昏暗,遮挡物等情况,工业标签具有文字量大、文字语言种类不一、文字密集等特点,且由于工业产品形状各异使得货箱的大小不一,工业标签的贴放位置也不一,因此需要网络保证较高的准确率。(2)工业生产线处于运动的状态,但架设摄像头的位置和角度是固定不变的,因此,为了不影响流水线的正常运行,在保证较高的准确率的同时,还需要在一定的时间内完成检测及其他任务。

技术实现思路

[0004]为解决以上技术问题,本专利技术提出了一种基于多级分离特征增强和空间注意力的标签文本检测方法,在检测速度满足基本要求的情况下,达到了可观的精确性。
[0005]第一方面,本专利技术提供基于多级分离特征增强和空间注意力的标签文本检测方法,包括以下步骤:
[0006]步骤(1)、对工业产品进行拍摄,获取工业产品标签文本图像,并对所述工业产品标签文本图像进行预处理;
[0007]步骤(2)、将预处理后的文本图像放入多级分离增强ResNet模型(ResNet50HS

Block),获得充分的感受野,得到多尺度特征图;
[0008]所述ResNet50 HS

Block以ResNet50网络为骨架,用多级分离模块Hierarchical

Split Block替换原有3
×
3卷积模块;
[0009]所述多级分离模块Hierarchical

Split Block通过Split操作将接收到的特征图在通道维度上划分成4组,每一组特征图X
i
拥有相等的通道宽度w,i=1,2,3,4;第1组保留原输入特征图X1;第2组对输入特征图X2先进行卷积操作Conv、批量归一化操作、通过Relu激活函数增加网络非线性化,得到Y2,再对Y2进行Split操作将其划分为两部分Y
2,1
和Y
2,2
,输出
Y
2,1
;第3组将Y
2,2
与输入特征图X3进行Concat拼接,然后对拼接后特征图进行卷积操作Conv、批量归一化操作、通过Relu激活函数增加网络非线性化,得到Y3,然后再将Y3进行Split操作将其划分为两部分,输出Y
3,1
,并将Y
3,2
与下一组输入特征图进行Concat拼接;第4组将Y
3,2
与输入特征图X4进行Concat拼接,然后对拼接后特征图进行卷积操作Conv、批量归一化操作、通过Relu激活函数增加网络非线性化;最后将4组的输出进行Concat拼接,得到多尺度特征图;
[0010]Y
i
的计算公式如下:
[0011][0012]其中由于第1组不做Split操作,故Y
1,2
=0;
[0013]步骤(3)、采用双分支设计思想,将ResNet50 HS

Block输出的多尺度特征图分别送入基于空间注意力的特征融合模块SAFFMG和渐进式融合的特征金字塔模块CFPEM,提取多尺度的特征信息;
[0014]所述基于空间注意力的特征融合模块SAFFMG,用以提取多尺度的特征信息,具体是:
[0015]对所述ResNet50 HS

Block输出的不同尺度的特征映射经过上采样和叠加操作后被缩放成相同的分辨率,得到特征映射然后将上述特征映射X1进行串接,再通过一次3
×
3的卷积得到中间特征将中间特征M输入到空间注意力模块Spatial Attention中,计算空间注意力权重根据空间注意力权重对N个特征映射加权,获取融合特征
[0016]所述空间注意力模块Spatial Attention对输入特征分别进行最大池化操作和平均池化操作,之后进行Concat拼接,再对拼接后的特征与原输入特征再次融合,接着做一次卷积,得到空间注意力权重
[0017]所述渐进式融合的特征金字塔模块CFPEM包括特征金字塔增强模块FPEM和特征融合模块FFM;特征金字塔增强模块FPEM由两个阶段组成,分别为升尺度增强和降尺度增强;升尺度增强的输出阶段,将当前模块的输入与降尺度增强产生的特征进行逐元素相加得到结果;特征融合模块FFM将特征金字塔增强模块FPEM的所有结果进行特征融合;
[0018]步骤(4)、将基于空间注意力的特征融合模块SAFFMG和渐进式融合的特征金字塔模块CFPEM输出的特征图经过简单的拼接和卷积操作后,经预轻量级的检测头Head测得到对应的实例向量、文本区域、文本核;将实例向量、文本区域、文本核通过融合背景的像素聚合算法PA获得最终的检测结果;具体是:
[0019]将不同的实例向量作为不同的聚类,其文本核即为聚类中心,文本区域内的像素即为待聚类样本;在同一文本行内,为了引导像素走向相应的文本核,两者之间的距离应该最小化;
[0020]在训练阶段,聚类损失函数的公式为:
[0021][0022][0023][0024]其中,N表示文本行的数量,R
i
表示第i个文本区域,K
i
表示文本行R
i
对应的内核,表示文本像素r与文本核K
i
之间的距离,Relu函数用来保证计算非负,表示像素r对应的实例向量,表示文本核K
i
对应的实例向量,λ
clu
则是值为0.5的常数;
[0025]聚类中心需要保证足够的区分度,因此,文本核的实例向量需要与相邻的文本核保持一定的距离;在此基础上,引入对背景像素的区分,辨识损失函数如下:
[0026][0027][0028][0029]其中,P
bg
表示背景像素的实例向量,表示文本内核与背景向量之间的距离,表示文本核K
i
与K
j
之本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于多级分离特征增强和空间注意力的标签文本检测方法,其特征在于所述方法包括以下步骤:步骤(1)、对工业产品进行拍摄,获取工业产品标签文本图像,并对所述工业产品标签文本图像进行预处理;步骤(2)、将预处理后的文本图像放入ResNet50 HS

Block,获得充分的感受野,得到多尺度特征图;所述ResNet50 HS

Block以ResNet50网络为骨架,用多级分离模块Hierarchical

Split Block替换原有3
×
3卷积模块;步骤(3)、采用双分支设计思想,将ResNet50 HS

Block输出的多尺度特征图分别送入基于空间注意力的特征融合模块SAFFMG和渐进式融合的特征金字塔模块CFPEM,提取多尺度的特征信息;所述基于空间注意力的特征融合模块SAFFMG,用以提取多尺度的特征信息,具体是:对所述ResNet50 HS

Block输出的不同尺度的特征映射经过上采样和叠加操作后被缩放成相同的分辨率,得到特征映射然后将上述特征映射X1进行串接,再通过一次3
×
3的卷积得到中间特征将中间特征M输入到空间注意力模块Spatial Attention中,计算空间注意力权重根据空间注意力权重对N个特征映射加权,获取融合特征所述空间注意力模块Spatial Attention对输入特征分别进行最大池化操作和平均池化操作,之后进行Concat拼接,再对拼接后的特征与原输入特征再次融合,接着做一次卷积,得到空间注意力权重所述渐进式融合的特征金字塔模块CFPEM包括特征金字塔增强模块FPEM和特征融合模块FFM;特征金字塔增强模块FPEM由两个阶段组成,分别为升尺度增强和降尺度增强;升尺度增强的输出阶段,将当前模块的输入与降尺度增强产生的特征进行逐元素相加得到结果;特征融合模块FFM将特征金字塔增强模块FPEM的所有结果进行特征融合;步骤(4)、将基于空间注意力的特征融合模块SAFFMG和渐进式融合的特征金字塔模块CFPEM输出的特征图经过简单的拼接和卷积操作后,经轻量级的检测头Head预测得到对应的实例向量、文本区域、文本核;将实例向量、文本区域、文本核通过融合背景的像素聚合算法PA获得最终的检测结果。2.根据权利要求1所述的方法,其特征在于步骤(2)中所述多级分离模块Hierarchical

Split Block通过Split操作将接收到的特征图在通道维度上划分成4组,每一组特征图X
i
拥有相等的通道宽度w,i=1,2,3,4;第1组保留原输入特征图X1;第2组对输入特征图X2先进行卷积操作Conv、批量归一化操作、通过Relu激活函数增加网络非线性化,得到Y2,再对Y2进行Split操作将其划分为两部分Y
2,1
和Y
2,2
,输出Y
2,1
;第3组将Y
2,2
与输入特征图X3进行Concat拼接,然后对拼接后特征图进行卷积操作Conv、批量归一化操作、通过Relu激活函数增加网络非线性化,得到Y3,然后再将Y3进行Split操作将其划分为...

【专利技术属性】
技术研发人员:胡海洋冯凯华朱寅城
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1