基于注意力机制的X光安检图像危险物品检测方法技术

技术编号:35749314 阅读:19 留言:0更新日期:2022-11-26 18:54
本发明专利技术涉及一种基于注意力机制的X光安检图像危险物品检测方法,属于图像目标检测技术领域。该方法是在YOLOv3

【技术实现步骤摘要】
基于注意力机制的X光安检图像危险物品检测方法


[0001]本专利技术属于图像目标检测
,涉及一种基于注意力机制的X光安检图像危险物品检测方法。

技术介绍

[0002]在公众运输管理领域,对行李实施X光安检是保障乘客生命财产安全的重要方式,但安检人员以肉眼观察图像来确认危险物品易受人为因素影响且效率较低。因此,建立实时准确的X光行李安检系统意义十分重大。
[0003]X光图像中的目标识别主要基于视觉词袋(Bag

of

Visual

Words,BoVW)模型,而随着AlexNet的出现,卷积神经网络(Convolutional Neural Network,CNN)等深度神经网络已经在目标检测、图像分类等方面取得了显著成绩。Akcay S等人将CNN引入X光行李图像领域,使用迁移学习的方法优化AlexNet结构进行端到端的特征提取和分类,检测准确率达到98.92%。Akcay S等人探索了CNN在X光行李图像分类和检测任务中的应用,表明CNN比BoVW模型更有效。Mery D等人提出一种基于深度特征和最近邻分类器的策略来处理公开GDXray(Grima X

ray Dataset)上的X光图像识别问题,识别准确率超过95%。为了解决X光图像数据集有限的问题,Bhowmik N等人提出了合成复合(Synthetically Composite,SC)的数据增强方法,分别在Faster R

CNN和RetinaNet架构上进行危险物品检测,研究了真实和合成X光训练图像在检测性能上的差异。
[0004]因此,在目标检测任务中,为了解决现有方法中公共场所人工识别X光图像危险物品检测效率较低且易漏检的问题,亟需一种新的X光安检图像危险物品检测方法。

技术实现思路

[0005]有鉴于此,本专利技术的目的在于提供一种基于注意力机制的X光安检图像危险物品检测方法,用于解决公共场所人工识别X光图像危险物品效率较低且易漏检的问题,从而提高检测性能。本专利技术将通道和空间注意力信息融合以提升特征表示能力的目标检测方法,通过以YOLOv3

SPP网络为基础框架,融合多压缩激活(Multi

Squeeze Excitation,MSE)模块和多融合全局注意力(Multi

Fusion Global Attention,MFGA)模块。MSE模块能够有效地利用特征图之间的通道信息,使得浅层特征中包含危险物品的目标区域得到增强。最后在MFGA模块的空间注意力分支中采用膨胀卷积扩大感受野,这样可以有效地利用上下文信息来构建比标准卷积更有效的空间特征图,能够在预测前细化全局特征和相关局部特征组成的最后特征。
[0006]为达到上述目的,本专利技术提供如下技术方案:
[0007]一种基于注意力机制的X光安检图像危险物品检测方法,在YOLOv3

SPP架构上融合MSE模块和MFGA模块,构成注意力融合网络(AFN);其中MSE是多压缩激活,MFGA是多融合全局注意力;利用所述注意力融合网络进行X光安检图像危险物品检测,具体包括以下步骤:
[0008]S1:输入待检测行李的X光安检图像,经过YOLOv3

SPP主干网络获得特征图后将其输入MSE模块,用来增强特征图中的关键信息且抑制背景信息,得到具备通道全局性的语义特征;
[0009]S2:利用SPP模块进行多尺度特征融合后再经过MSE模块,使得融合后的局部特征和全局特征精细化,丰富特征图的表征能力,增强获取的多尺度语义信息;其中,SPP是空间金字塔池化;
[0010]S3:串联通道分支和空间分支构成MFGA(多融合全局注意力)模块,并将该模块放在每一个检测分支的分类器之前,有效地融合深层特征的通道及空间信息,使多尺度特征具备三维全局性;每一个检测分支分别针对X光安检图像中的小、中、大目标进行预测。
[0011]进一步,所述MSE模块的具体结构为:首先是将给定的输入映射到特征图X∈R
C
×
H
×
W
上,其中H、W、C分别对应特征图的高度、宽度和通道维度,MSE块在压缩操作中通过全局平均池化和最大池化,将生成的特征描述符在通道上拼接;其次是激活操作,全连接层通过缩减率参数对通道进行降维,之后再恢复通道维度;最后是特征重标定,将激活操作后得到的C
×1×
1的向量与输入特征在通道上进行权重的相乘,并将得到的结果输出。
[0012]进一步,所述MSE模块的权重w计算公式为:
[0013]w=σ(g
ex
{w1,w2}([g
avg
(X);g
max
(X)]))
[0014]令f=[g
avg
(X);g
max
(X)],得到g
ex
{w1,w2}(f)=w2ReLU(w1f),其中,g
avg
(
·
)、g
max
(
·
)分别表示全局平均池化和最大池化,σ表示激活函数,w1表示(C/r)
×
C参数矩阵,w2表示w2表示C
×
(C/r)参数矩阵,r表示膨胀率;式中激活操作先使用标准卷积对拼接后的特征进行通道上的降维。
[0015]进一步,所述MFGA模块具体结构为:基于HDC框架,使用三个膨胀率大小不同的3
×
3卷积核来扩大感受野;将CAM模块和SAM模块顺序放置;其中,HDC是混合膨胀卷积,CAM是通道注意力,SAM是空间注意力。
[0016]进一步,所述SAM模块的具体结构为:首先,采用一组膨胀率为r=[1,2,5]的卷积核大小为K的膨胀卷积对输入的特征图进行操作;其次,将全局平均池化和最大池化生成的特征描述符在通道上进行拼接来聚合特征图上的通道信息;然后,通过卷积核大小为K=3,膨胀率为r=2的膨胀卷积对通道降维;最后,通过Sigmoid函数生成最终的空间注意力图。
[0017]进一步,根据HDC框架对SAM进行修改时需遵守两个原则:(1)M
n
≤K,K是卷积核的内核大小,M
n
指两个非零值之间最大距离;(2)一个组内,膨胀率之间不能具有公因子,否则,仍然会出现“网格化”问题。
[0018]进一步,所述CAM模块的具体结构为:首先,通过池化操作来聚合特征图的全局空间信息,其中,全局平均池化的作用是聚合信息,最大池化主要用于将生成的通道注意力精细化;其次,将聚合后的信息输入共享网络中以生成通道注意力图,其中共享网络由多层感知器(Multi

Layer Perceptron,MLP)组成;使用标准卷积对通道上拼接后的特征进行降维。
[0019]进一步,所述CAM模块的计本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于注意力机制的X光安检图像危险物品检测方法,其特征在于,在YOLOv3

SPP架构上融合MSE模块和MFGA模块,构建AFN网络;其中MSE是多压缩激活,MFGA是多融合全局注意力,AFN是注意力融合网络;利用所述注意力融合网络进行X光安检图像危险物品检测,具体包括以下步骤:S1:输入待检测行李的X光安检图像,经过YOLOv3

SPP主干网络获得特征图后将其输入MSE模块,得到具备通道全局性的语义特征;S2:利用SPP模块进行多尺度特征融合后再经过MSE模块,使得融合后的局部特征和全局特征精细化,增强获取的多尺度语义信息;其中,SPP是空间金字塔池化;S3:串联通道分支和空间分支构成MFGA模块,并将该模块放在每一个检测分支的分类器之前;每一个检测分支分别针对X光安检图像中的小、中、大目标进行预测。2.根据权利要求1所述的X光安检图像危险物品检测方法,其特征在于,所述MSE模块的具体结构为:首先是将给定的输入映射到特征图X∈R
C
×
H
×
W
上,其中H、W、C分别对应特征图的高度、宽度和通道维度,MSE模块在压缩操作中通过全局平均池化和最大池化,将生成的特征描述符在通道上拼接;其次是激活操作,全连接层通过膨胀率参数对通道进行降维,之后再恢复通道维度;最后是特征重标定,将激活操作后得到的C
×1×
1的向量与输入特征在通道上进行权重的相乘。3.根据权利要求2所述的X光安检图像危险物品检测方法,其特征在于,所述MSE模块的权重w计算公式为:w=σ(g
ex
{w1,w2}([g
avg
(X);g
max
(X)]))令f=[g
avg
(X);g
max
(X)],得到g
ex
{w1,w2}(f)=w2ReLU(w1f),其中,g
avg
(
·
)、g
max
(
...

【专利技术属性】
技术研发人员:李国权郭豆豆吴建林金朝庞宇朱宏钰
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1