一种改进YOLOX网络结构的小目标检测方法技术

技术编号:35831411 阅读:22 留言:0更新日期:2022-12-03 14:00
本发明专利技术涉及目标检测技术领域,具体涉及一种改进YOLOX网络结构的小目标检测方法,通过引入CSPDarkNet网络并进行改进,将多尺度空间金字塔池化层、全局自注意力和多尺度特征融合等模块融入网络模型中,能够从复杂数据集中提取图像的小目标特征,准确地检测小目标的定位与有效检测。主要解决三个方面技术问题,一是针对有限使用最大池化卷积使顶层卷积变得过于稀疏,导致所提取的特征不完整的问题;二是针对CNN缺乏全局建模、长距离建模的能力问题;三是针对单一层次提取的特征,会造成最终的预测结果与真实情况相差甚远的问题。测结果与真实情况相差甚远的问题。测结果与真实情况相差甚远的问题。

【技术实现步骤摘要】
一种改进YOLOX网络结构的小目标检测方法


[0001]本专利技术涉及目标检测
,具体涉及一种改进YOLOX网络结构的小目标检测方法。

技术介绍

[0002]YOLOX是在2021年被提出的基于YOLO算法的一种目标检测方法,并且开发者团队一直在对YOLOX网络模型进行改进和维护,因此基于YOLOX网络结构的目标检测方法得到了广泛的应用。
[0003]然而现有的基于YOLOX网络结构的小目标检测方法存在以下缺点:
[0004]1、在特征提取阶段,使用有限核尺寸的最大池化会使高层卷积变得过于稀疏,捕获全局特征信息的能力下降,造成局部和远距离的特征信息丢失,导致所提取的特征不完整。对于目标检测而言,目标的呈现形态复杂多变,当卷积网络进行特征提取时,若网络无法从全局的角度去提取目标特征,会使得最终的预测结果丢失大量的细节信息,从而导致检测的准确率降低。
[0005]2、YOLOX主干特征提取网络为CNN网络,CNN具有平移不变性和局部性,缺乏全局建模、长距离建模的能力。
[0006]3、低层特征具有较高的分辨率,包含更多的位置和细节信息,但语义较低,噪声较大。高层特征语义信息较强,但分辨率很低,对细节的感知较差。对于小目标检测而言,物体呈现复杂多变,例如物体变形,遮挡物体,重叠物体等,而且实际捕捉的图像中小目标的数目在整个图像像素中占比少,所以仅使用单一层次的卷积进行特征提取,会造成最终的预测结果与真实情况相差甚远。

技术实现思路

[0007]本专利技术的目的在于提供一种改进YOLOX网络结构的小目标检测方法,旨在使YOLOX网络能够从复杂数据集中提取图像的小目标特征,准确地检测小目标的定位与有效检测。
[0008]为实现上述目的,本专利技术提供了一种改进YOLOX网络结构的小目标检测方法,包括下列步骤:
[0009]选择CSPDarkNet网络作为骨干网络进行初始化;
[0010]在CSPDarkNet网络的第五层嵌入多尺度空间金字塔池化模块;
[0011]在CSPDarkNet网络的第二层、第五层与路径聚合特征金字塔之间嵌入全局自注意力模块;
[0012]在原始路径聚合特征金字塔的C3_P3与C3_n3之间嵌入全局自注意力模块构成多尺度融合模块;
[0013]训练及评估改进后的CSPDarkNet网络模型,用于小目标检测。
[0014]其中,在CSPDarkNet网络的第五层嵌入多尺度空间金字塔池化模块的过程,具体为将第二层卷积特征提取的位置信息与语义信息输入到多尺度特征融合阶段,并将第五层
的空间金字塔池化层替换成多尺度空间金字塔池化模块。
[0015]其中,所述多尺度空间金字塔池化模块通过3
×
3、5
×
5、9
×
9、13
×
13、17
×
17池化核尺寸来增加感受野提取的特征信息数量,与原空间金字塔池化层的不同在于针对局部信息增加小核池化卷积3
×
3,对于全局信息提取增加17
×
17的大核池化卷积。
[0016]其中,在CSPDarkNet网络的第二层、第五层与路径聚合特征金字塔之间嵌入全局自注意力模块的过程,具体为在第二层和第五层分别嵌入一个全局自注意力模块,改变了原始的Bottleneckblock的普通3
×
3空间卷积。
[0017]其中,在原始路径聚合特征金字塔的C3_P3与C3_n3之间嵌入全局自注意力模块构成多尺度融合模块的过程,在路径聚合特征金字塔的特征融合层中的C2与C3_P4之间增加C2特征提取的位置信息和语义信息,并将路径聚合特征金字塔的C3_P3和C3_n3之间嵌入一个全局自注意力模块来完成多尺度特征信息的融合。
[0018]其中,所述多尺度空间金字塔池化模块排列方式采用递增模式排列,即增加一组小尺寸池化层和一组大核尺寸池化层,5个分支的感受野按照由小到大的方式递增,小的感受野提取临近信息,大的感受野提取全局信息。
[0019]其中,所述全局自注意力模块包含空间注意力机制和通道注意力机制。
[0020]其中,所述多尺度融合模块首先对CSPDarkNet网络输出的特征使用1
×
1的卷积进行处理,然后将得到的特征图上采样到与输入图像相同的大小,并进入路径聚合特征金字塔的特征融合层,最后将融合的特征使用1
×
1的卷积进行处理得到最终预测结果。
[0021]本专利技术提供了一种改进YOLOX网络结构的小目标检测方法,通过引入CSPDarkNet网络并进行改进,将多尺度空间金字塔池化层、全局自注意力和多尺度特征融合等模块融入网络模型中,能够从复杂数据集中提取图像的小目标特征,准确地检测小目标的定位与有效检测。主要解决三个方面技术问题,一是针对有限使用最大池化卷积使顶层卷积变得过于稀疏,导致所提取的特征不完整的问题;二是针对CNN缺乏全局建模、长距离建模的能力问题;三是针对单一层次提取的特征,会造成最终的预测结果与真实情况相差甚远的问题。
附图说明
[0022]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0023]图1是本专利技术的一种改进YOLOX网络结构的小目标检测方法的流程示意图。
[0024]图2是本专利技术的多尺度空间金字塔模块的结构示意图。
[0025]图3是本专利技术的全局自注意力模块的结构示意图。
[0026]图4是本专利技术的多尺度融合模块的结构示意图。
具体实施方式
[0027]下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附
图描述的实施例是示例性的,旨在用于解释本专利技术,而不能理解为对本专利技术的限制。
[0028]以下针对本专利技术中的中英文术语进行解释说明,为后文中的英文描述提供参考:
[0029]多尺度空间金字塔池化模块(Multi

Spatial Pyramid Pooling,M

SPP);
[0030]路径聚合特征金字塔(Path Aggregation Feature Pyramid Networks,PAFPN);
[0031]全局自注意力模块(Global self

attention block,GAB);
[0032]空间金字塔池化(Spatial Pyramid Pooling,SPP);
[0033]特征金字塔(Feature Pyramid Networks,FPN);
[0034]路本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种改进YOLOX网络结构的小目标检测方法,其特征在于,包括下列步骤:选择CSPDarkNet网络作为骨干网络进行初始化;在CSPDarkNet网络的第五层嵌入多尺度空间金字塔池化模块;在CSPDarkNet网络的第二层、第五层与路径聚合特征金字塔之间嵌入全局自注意力模块;在原始路径聚合特征金字塔的C3_P3与C3_n3之间嵌入全局自注意力模块构成多尺度融合模块;训练及评估改进后的CSPDarkNet网络模型,用于小目标检测。2.如权利要求1所述的改进YOLOX网络结构的小目标检测方法,其特征在于,在CSPDarkNet网络的第五层嵌入多尺度空间金字塔池化模块的过程,具体为将第二层卷积特征提取的位置信息与语义信息输入到多尺度特征融合阶段,并将第五层的空间金字塔池化层替换成多尺度空间金字塔池化模块。3.如权利要求2所述的改进YOLOX网络结构的小目标检测方法,其特征在于,所述多尺度空间金字塔池化模块通过3
×
3、5
×
5、9
×
9、13
×
13、17
×
17池化核尺寸来增加感受野提取的特征信息数量,与原空间金字塔池化层的不同在于针对局部信息增加小核池化卷积3
×
3,对于全局信息提取增加17
×
17的大核池化卷积。4.如权利要求1所述的改进YOLOX网络结构的小目标检测方法,其特征在于,在CSPDarkNet网络的第二层、第五...

【专利技术属性】
技术研发人员:瞿中王升烨樊骏雅李翠锦高乐园
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1