一种基于多注意力和语义的图像威胁物品分类及定位方法技术

技术编号:30792405 阅读:117 留言:0更新日期:2021-11-16 07:56
本发明专利技术涉及一种基于多注意力和语义的图像威胁物品分类及定位方法,属于图像处理领域。本发明专利技术包括以下步骤:1、对安检图像的数据集进行数据预处理;2、设计基于多注意力机制和高语义及高分辨率特征结合的威胁物品分类网络结构3、对最终的结果进行分类及定位。本发明专利技术提出一种针对安检过程中的威胁物品分类及定位网络模型,基于多注意力机制提出的新方法。并且获得了目前在威胁物品分类及定位领域中的较好效果。本发明专利技术对安检过程产生的X光图像,利用深度学习网络,通过设计空间注意力网络模块,通道注意力网络模块,以及高语义和高分辨率特征结合网络模块,对安检图像中存在的威胁物品进行分类及定位。辅助并提升安检人员的工作效率。作效率。作效率。

【技术实现步骤摘要】
一种基于多注意力和语义的图像威胁物品分类及定位方法


[0001]本专利技术属于图像处理领域,涉及一种基于多注意力和语义的图像威胁物品分类及定位方法。

技术介绍

[0002]分析复杂安检图像信息是安检员获取安全信息程度的主要方式。然而,由于需要在短促有限的时间内对紧凑且杂乱的旅客行李进行检查,不免导致安检员对不易察觉的危险物品产生疏漏的风险。已有的研究指出,安检人员根据X光的图片判定一个行李中是否包含限制物品至少需要两秒的时间,且准确率不足90%,容易产生漏检与误判现象。
[0003]为了保障公民乘坐公共交通工具的安全性,世界各国都加大了安检力度和资金投入,研究研制更先进的技术和设备,用于行李检测的X射线设备得到了快速的发展。现在X射线安检设备已被广泛部署在车站、机场、海关和各类封闭的公共场所,成为人们日常生活的一部分。目前的各安检设备制造商已经针对不同的应用场景研发了针对的X射线安检系统,如针对人体随身携带物品检测的能量型X射线人体检查设备用于集装箱的集装箱探测设备和应用于常规包裹检测但精度和速度不一的多视角X射线探测设备、X射线康普顿本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于多注意力和语义的图像威胁物品分类及定位方法,其特征在于:该方法包括以下步骤:S1:数据处理;S2:设计基于多注意力机制及高语义与高分辨率特征的威胁物品分类网络结构;根据特征的空间信息,设计多头空间注意力模型,并将其嵌入至浅层网络,根据特征的通道信息,设计多头通道注意力模型,并将其嵌入至深层网络,将不同网络层提取的特征信息进行结合从而形成高语义及高分辨率特征;S3:威胁物品分类及定位;对于分类任务,将带有威胁物品区域的图像进行类别标记并将处理完成的数据输入到网络中,最后对每张图像得到一个多分类的结果,根据模型的多分类预测结果最大值判断对应输入图像的威胁物品类别;对于定位任务,将包含其他物品的完整图像数据输入到网络中,得到网络对威胁物品的区域响应,根据模型的区域响应最大值判断对应威胁物品的相应位置。2.根据权利要求1所述的一种基于多注意力和语义的图像威胁物品分类及定位方法,其特征在于:所述S1具体包括以下步骤:S11:对原始数据集进行预处理;对SIXray数据集中数据进行预处理,即对图像数据的RGB数值大小分别进行标准化,然后将标准化后的图像统一至相同大小;S12:对处理好的数据进行数据增强;对处理好的数据进行数据增强,从而提升模型的泛化能力。3.根据权利要求1所述的一种基于多注意力和语义的图像威胁物品分类及定位方法,其特征在于:所述S11具体为:SIXray数据集中包含1059231张X光安检图像,其中8929张中包含6个不同类别的威胁物品:手枪、刀具、扳手、钳子和剪刀,取其中20%作为测试集,其余80%作为训练集;将原始数据加载到网络中,对其进行重新采样,将数据归一化至[0,1]数值范围,然后对数据进行标准化处理,使得RGB空间数值服从正态分布;根据SIXray提供的数据标记信息,通过矩形剪裁数据,除去大部分与威胁物品无关的图像区域;将每张裁剪后的X光图像的长度,宽度以及通道维度调整为112
×
112
×
3大小的三维数据;所述S12具体为:在数据加载到网络训练之前,将数据加入大小为4的padding,再随机剪裁成112
×
112
×
3的大小,通过将图像进行随机水平翻转、垂直翻转、镜像翻转,并将图片随机取大小为4的矩阵置零,为模型的训练提供更多数据。4.根据权利要求1所述的一种基于多注意力和语义的图像威胁物品分类及定位方法,其特征在于:所述S2中,网络模块分为三个部分,第一部分是空间注意力网络模块SAM,第二部分是通道注意力网络CAM,第三部分是高语义和高分辨率特征结合网络模块HRHSM,空间多头注意力网络通过构建自注意力矩阵,对网络提取的空间特征进行全局信息挖掘,通道多头注意力网络通过对空间信息进行聚类,只对通道特征进行全局信息挖掘,最后,通过对主干网络不同层的信息进行结合,使得输出特征具有高语义及高分辨率信息。5.根据权利要求4所述的一种基于多注意力和语义的图像威胁物品分类及定位方法,其特征在于:所述空间注意力网络模块由最大池化以及平均池化所构成的两个网络分支组
成,不同分支会对主干网络提取的特征建立其索引q,键值k及向量v,建立自注意力特征矩阵,其中,矩阵的每行元素代表单个特征与其余特征响应,将得到的自注意力特征矩阵与变量v进行矩阵相乘得到每个特征值的全局响应,公式如下:其中,q,k,v分别代表特征的索引,键值及变量,softmax函数将每个特征与其余特征得到的响应值限制在[0,1]数值范围,d
head
表示多头注意力中每个头所含有的通道特征维度;将得到的特征全局响应与池化后的局部特征进行相加,其中,对于全局响应部分,会乘以初始化为0的可学习参数,公式如下:O
AP
=β(Attention
AP<...

【专利技术属性】
技术研发人员:李国权夏瑞阳黄正文文凌云林金朝庞宇
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1