一种多尺度通道注意力的图像数据处理方法技术

技术编号:37603960 阅读:11 留言:0更新日期:2023-05-18 11:55
本发明专利技术公开了一种多尺度通道注意力的图像数据处理方法,通过提取输入数据中的全局特征和局部特征,从而使得卷积神经网络对输入数据的整体信息以及局部细节特征更加关注,从而缓解复杂场景中出现的目标聚集与目标遮挡问题。题。题。

【技术实现步骤摘要】
一种多尺度通道注意力的图像数据处理方法


[0001]本专利技术涉及计算机视觉领域,尤其涉及一种多尺度通道注意力的图像数据处理方法。

技术介绍

[0002]通道注意力机制能够显著地提高模型的表现力和泛化能力,且具有较低的计算成本,容易被集成到现有的卷积神经网络结构中。而由于这些优点,通道注意力机制也已经被广泛应用于图像分类、目标检测、语义分割等深度学习应用领域。
[0003]通道注意力机制的本质是对不同通道的特征进行加权平均,从而得到更加丰富、稳定、可靠的特征表达。
[0004]现有的通道注意力有SE,ECA,CA等,这些通道注意力仅仅关注某一局部特征中的细节信息或者全局特征中的语义信息,而没有同时关注细节信息与语义信息,导致不够丰富的通道维度的特征表达。

技术实现思路

[0005]本专利技术的目的是为了提供一种多尺度通道注意力的图像数据处理方法。
[0006]本专利技术所要解决的问题是:提出一种多尺度通道注意力的图像数据处理方法,提取输入数据中的全局特征和局部特征,从而使得卷积神经网络对输入数据的整体信息以及局部细节特征更加关注,从而缓解复杂场景中出现的目标聚集与目标遮挡问题。
[0007]一种多尺度通道注意力的图像数据处理方法采用的技术方案如下:一种多尺度通道注意力的图像数据处理方法S21:对输入数据(原始图像或特征图)进行数字化处理,将提取到的特征转换为数字化,并通过张量矩阵存储,经过归一化处理使卷积神经网络收敛加快;S22:使用全局通道注意力机制与局部通道注意力机制相结合的方法,对输入数据进行特征提取和特征融合;S23:在全局通道注意力机制内使用全局平均池化、自适应选择卷积核大小的一维卷积层和Sigmoid激活函数,全局通道注意力可以通过对特征图的全局平均池化和逐元素变换,自适应地调整不同通道的权重,使得模型能够关注更重要的特征,提高模型的分类性能和鲁棒性,其中全局平均池化的计算公式为:,其中表示全局平均池化结果,为输入图像,其尺寸为W
×
H
×
C,W、H和C分别表示输入图像的宽、高和通道,i和j分别代表宽和高上的像素点位置;自适应选择的计算公式为:,其中表示一维卷积的卷积核大小,表示通道数,表示k只能取奇数,和用于改变和之间的比例,本发
明中和分别取2和1;Sigmoid激活函数也称为S型生长曲线,计算公式为:,其中为输入;S24:在局部通道注意力机制中采用的是二维卷积实现的多层感知机MLP,用于提取局部特征,MLP架构为卷积核大小为1的两个二维卷积以及中间的ReLU函数激活,输入数据经二维卷积后仅改变其通道数,第一个卷积操作的输出通道数为输入通道数的十六分之一,第二个卷积操作的输出通道数与嵌入位置通道数一致,局部通道注意力则可以帮助模型更好地捕捉输入特征中的局部信息;S25:ReLU函数通过将相应的活性值设为0,仅保留正元素并丢弃所有负元素;S26:将全局注意力与局部注意力的输出进行融合操作,并使用Sigmoid函数激活数据得到最终的注意力权重,然后将激活后的数据与输入数据进行逐像素相乘;S27:通过Sigmoid函数进行压缩,它将已有数据根据其范围,将任意输入压缩到区间(0, 1)中的某个值,以保证归一化;S28:对输入数据与激活后的数据进行逐像素相乘操作,用来完成对输入数据的不同位置加权操作,从而更关注全局特征和局部特征。
[0008]进一步的,上述输入数据通过上述步骤S24中二维卷积后仅改变其通道数,且在整个MLP架构内,对输入数据的通道以一种先收缩后扩张的方式估计通道间的注意力,其中的收缩系数为r,收缩后特征尺度为H
×
W
×
C/r,使用ReLU激活函数,扩张后特征尺度为H
×
W
×
C。
[0009]进一步的,上述步骤S23和S24中分别通过全局通道注意力机制中全局平均池化的方式和局部通道注意力机制中多层感知机MLP的方式分别提取输入数据中的全局特征和局部特征,并通过上述步骤S26对步骤S23与步骤S24的全局通道注意力机制的输出与局部通道注意力机制的输出进行融合操作即对不同特征进行特征融合,从而使得卷积神经网络对输入数据的整体信息以及局部细节特征更加关注,从而缓解复杂场景中出现的目标聚集与目标遮挡问题。
[0010]本专利技术的有益效果:复杂场景下的小目标检测的大量聚集和严重的遮挡等特点带来的检测精度不高、漏检率高等问题,可以通过多尺度通道注意力的图像数据处理方法进一步缓解,多尺度通道注意力的图像数据处理方法通过提取数据中的全局特征和局部特征并对不同特征进行特征融合,从而使得卷积神经网络对输入数据的整体信息以及局部细节特征更加关注,从而缓解复杂场景中出现的目标聚集及目标遮挡问题。
附图说明
[0011]图1为本专利技术中多尺度通道注意力的图像数据处理方法示意图;图2为本专利技术中ReLU函数修正线性示意图;图3为本专利技术中sigmoid函数数据归一化示意图。
具体实施方式
[0012]下面结合说明书附图对本专利技术进一步清楚完整说明,但本专利技术的保护范围并不仅
限于此。
实施例
[0013]如图1至图3所示,一种多尺度通道注意力的图像数据处理方法,包括以下步骤:S21:对输入数据(原始图像或特征图)进行数字化处理,将提取到的特征转换为数字化,并通过张量矩阵存储,经过归一化处理使卷积神经网络收敛加快;S22:使用全局通道注意力机制与局部通道注意力机制相结合的方法,如图1所示,对输入数据进行特征提取和特征融合;S23:在全局通道注意力机制内使用全局平均池化、自适应选择卷积核大小的一维卷积层和Sigmoid激活函数,如图1左列所示,全局通道注意力可以通过对特征图的全局平均池化和逐元素变换,自适应地调整不同通道的权重,使得模型能够关注更重要的特征,提高模型的分类性能和鲁棒性,其中全局平均池化的计算公式为:,其中表示全局平均池化结果,为输入图像,其尺寸为W
×
H
×
C,W、H和C分别表示输入图像的宽、高和通道,i和j分别代表宽和高上的像素点位置;自适应选择的计算公式为:,其中表示一维卷积的卷积核大小,表示通道数,表示k只能取奇数,和用于改变和之间的比例,本专利技术中和分别取2和1;Sigmoid激活函数也称为S型生长曲线,如图3所示,计算公式为:,其中为输入;S24:在局部通道注意力机制中采用的是二维卷积实现的多层感知机MLP,用于提取局部特征,MLP架构为卷积核大小为1的两个二维卷积以及中间的ReLU函数激活,ReLU函数激活使一部分神经元的输出为0,减少了参数的相互依存关系,缓解了过拟合问题的发生,输入数据经二维卷积后仅改变其通道数,第一个卷积操作的输出通道数为输入通道数的十六分之一,第二个卷积操作的输出通道数与嵌入位置通道数一致,局部通道注意力则可以帮助模型更好地捕捉输入特征中的局部信息,如图1右列所示;S25:ReLU函数通过将相应的活性值设为0,如图2所示,仅保留正元素并丢弃所有负元素;S本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多尺度通道注意力的图像数据处理方法,其特征在于,包括以下步骤:S21:对输入数据即原始图像或特征图进行数字化处理,将提取到的特征转换为数字化,并通过张量矩阵存储,经过归一化处理使卷积神经网络收敛加快;S22:使用全局通道注意力机制与局部通道注意力机制相结合的方法,对输入数据进行特征提取和特征融合;S23:在全局通道注意力机制内使用全局平均池化、自适应选择卷积核大小的一维卷积层和Sigmoid激活函数,其中所述全局平均池化过程的计算公式为:,其中表示全局平均池化结果,为输入图像,其尺寸为W
×
H
×
C,W、H和C分别表示输入图像的宽、高和通道,i和j分别代表宽和高上的像素点位置;自适应选择的计算公式为:,其中表示一维卷积的卷积核大小,表示通道数,表示k只能取奇数,和用于改变和之间的比例;Sigmoid激活函数也称为S型生长曲线,计算公式为:,其中为输入;S24:在局部通道注意力机制中采用的是二维卷积实现的多层感知机MLP,用于提取局部特征,MLP架构为卷积核大小为1的两个二维卷积以及中间的ReLU函数激活,输入数据经二维卷积后仅改变其通道数,第一个卷积操作的输出通道数为输入通道数的十六分之一,第二个卷积操作的输出通道数与嵌入位置通道数一致;S25:ReLU函数通过将相应的活性值设为0,仅保留正元素并丢弃所有负元素;S26:将全局注意力与局部注意力的输出进行融合操作,并使用Si...

【专利技术属性】
技术研发人员:刘刚王冰冰周杰王磊史魁杰曾辉张金烁胡莉
申请(专利权)人:江西师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1