基于高斯感受野增强自注意力的密集害虫图像检测方法技术

技术编号：41400186 阅读：3 留言：0更新日期：2024-05-20 19:24

本发明专利技术涉及基于高斯感受野增强自注意力的密集害虫图像检测方法，与现有技术相比解决了田间密集害虫图像检测容易出现漏检的缺陷。本发明专利技术包括以下步骤：获取密集害虫图像；构建密集害虫检测模型；密集害虫检测模型的训练；获取待检测害虫图像；获得害虫图像检测结果。本发明专利技术提供一种端到端的密集害虫检测框架，有利于密集害虫的检测。利用差异化特征选择网络去除大量相似目标查询，使得在一对一标签分配的网络训练中不会出现相似查询分配成正样本和负样本，从而造成网络训练难以拟合。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及害虫图像识别，具体来说是基于高斯感受野增强自注意力的密集害虫图像检测方法。

技术介绍

1、随着计算机视觉和机器学习领域的迅速发展，利用计算机对图像进行智能分析和识别成为可能。深度学习技术为图像识别提供了强大的工具，使得害虫图像检测得以更为准确和高效地实现。

2、而在实际应用中发现，虽然现有目标检测算法针对稀疏分布的害虫检测表现很好，但是针对一些密集的害虫，特别是对于小目标害虫及害虫尺度不一的图像时，容易出现漏检等问题。这是由于这些常用的害虫检测方式通常是基于手工设置的锚框，并且采用一对多的标签分配方式，因此需要在模型推理后端加上nms等后处理操作去除重复检测框，对于密集分布的害虫容易导致正确的检测框被抑制。

3、因此，如何构建一个端到端的害虫检测方法，以此提高整体检测精度成为急需解决的技术问题。

技术实现思路

1、本专利技术的目的是为了解决现有技术中田间密集害虫图像检测容易出现漏检的缺陷，提供一种基于高斯感受野增强自注意力的密集害虫图像检测方法来解决上述问题。

2、为了实现上述目的，本专利技术的技术方案如下：

3、一种基于高斯感受野增强自注意力的密集害虫图像检测方法，包括以下步骤：

4、获取密集害虫图像：获取田间密集害虫图像，形成密集害虫图像数据集；

5、构建密集害虫检测模型：设定密集害虫检测模型包括特征提取网络、特征编码网络、差异化特征选择网络、特征解码网络和任务头部网络；

6、密集

7、获取待检测害虫图像：获取待检测的田间密集害虫图像；

8、获得害虫图像检测结果：将待检测的田间密集害虫图像输入训练后的密集害虫检测模型，得到田间密集害虫的分类和定位结果。

9、所述构建密集害虫检测模型包括以下步骤：

10、设定特征提取网络：

11、设定特征提取网络基于resnet50网络构建，由叠加的多层卷积神经网络层、池化层与激活函数层构成，特征提取网络用于提取整张图像中害虫的特征图，特征提取网络的输入为田间密集害虫图像，特征提取网络的输出为该田间密集害虫图像的整体特征图；

12、设定特征编码网络：特征编码网络根据整体特征图获取害虫图像的整体编码特征，

13、特征编码网络的输入为整体特征图，特征编码网络的输出为多个目标查询向量；特征编码网络首先将特征提取网络提取的多层特征进行编码操作，将其映射为一个特征向量，并且为该特征向量生成非学习的位置编码，位置编码是通过正弦余弦函数编码每个特征在整个特征图上的位置得到的；将特征向量和位置编码输入到编码器中进一步融合；

14、设定差异化特征选择网络：差异化特征选择网络的输入为所有目标查询向量，差异化特征选择网络的输出为多个差异化的目标查询向量，差异化特征选择网络基于阈值为0.8的单类nms来完成，选取得分最高的m个查询向量初始化解码网络的目标查询，选取得分最高的1.5m个查询向量作为解码网络的辅助查询；

15、设定特征解码网络，用于将目标查询进行解码，特征解码网络的输入为差异化的目标查询向量、辅助查询向量的集合以及编码网络的输出特征向量，特征解码网络的输出为多个经过解码的目标查询和辅助查询集合，其中辅助查询仅用于训练过程监督网络训练，而不存在于推理过程；

16、设定任务头部网络用于将目标查询映射为害虫类型和坐标，任务头部网络包含主头部网络和辅助头部网络，辅助头部网络仅存在于训练过程，任务头部网络的输入为特征解码网络的输出查询向量集合，对于每个目标查询向量，经过一个ffn前馈网络，预测目标框的中心位置、宽高。

17、所述密集害虫检测模型的训练包括以下步骤：

18、将密集害虫图像数据集输入特征提取网络，特征提取网络采用resnet50网络提取密集害虫图像的整体特征图，采用多层特征c2、c3、c4、c5表示整体特征图中每个尺度的特征，将c2、c3、c4、c5层特征分别进行1x1卷积操作，使得每个尺度上的特此通道数相同；

19、将整体特征向量输入特征编码网络，特征编码网络采用transformer的编码器结构，特征编码网络包含6个编码层，每个编码层由一个多头自注意力模块和一个ffn前馈网络构成，两个模块后都接有残差连接和layer norm层；

20、多头自注意力模块的输入包括查询q、键k和值v；查询q是图像特征和位置编码逐元素相加而得，图像特征是通过对特征提取网络提取的特征图沿着空间维度拉直得到图像整体特征向量；位置编码是通过正弦余弦函数编码每个特征在整个特征图上的位置，维度数与特征向量的维度一样，位置编码同时考虑了x和y两个维度的位置，该位置编码是固定的，而不是通过网络学习出来的；多头自注意力的k和q相同，多头自注意力的v是图像特征向量；

21、具体公式表示为：

22、pe(pos,2i)＝sin(pos/100002i/dim_model) (1)

23、pe(pos,2i+1)＝cos(pos/100002i/dim_model) (2)

24、

25、msa(q,k,v)＝[attention(qj,kj,vj)]j＝1:hwo (4)

26、其中，pe是位置编码，pos表示输入向量的位置索引，i表示位置编码的维度索引，取值范围为[0,dim_model/2]，dim_model表示位置编码的维度，attention表示自注意力，q为查询向量，k为键向量，v值向量，dk为向量的维度，用于缩小点积范围，确保softmax梯度稳定性；msa表示多头自注意力，wo是一组用于组合多个头的可学习参数，j为头的索引，h为多头自注意力中头的个数；

27、经过多头自注意力模块后的输出向量再与输入向量相加，并经过layer norm层，即在通道维度c上做归一化，然后将该特征向量输入ffn前馈网络；

28、ffn前馈网络是由两个全连接层和relu激活函数组成，经过layer norm层的向量经过ffn层后再经过残差和layer norm层操作后得到的向量即为一个编码层的输出向量；

29、对于后续编码层的输入为前一编码层输出的特征向量；

30、差异化特征选择网络将特征编码网络输出的目标查询向量上的所有特征点作为密集分布的初始查询，通过与类无关的非极大值抑制nms删除重叠的查询，得到m个具有区分性的查询，其中nms阈值为0.8，后续只对保留下的m个差异化查询计算主损失，减轻一对一标签分配的负担；同时根据分类得分选择前1.5m个查询向量作为解码器中辅助头的密集查询，采用一对多标签分配方式用于计算辅助损失，其中m为900；

31、特征解码网络包含6个解码层，每个解码层的结构相同，每个解码层由一个基于高斯感受野的本文档来自技高网...

【技术保护点】

1.一种基于高斯感受野增强自注意力的密集害虫图像检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于高斯感受野增强自注意力的密集害虫图像检测方法，其特征在于，所述构建密集害虫检测模型包括以下步骤：

3.根据权利要求1所述的基于高斯感受野增强自注意力的密集害虫图像检测方法，其特征在于，所述密集害虫检测模型的训练包括以下步骤：

【技术特征摘要】

1.一种基于高斯感受野增强自注意力的密集害虫图像检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于高斯感受野增强自注意力的密集害虫图像检测方法，其特征在于...

【专利技术属性】
技术研发人员：陈红波，陈天娇，杜健铭，张威，刘海云，王儒敬，胡海瀛，
申请(专利权)人：中国科学院合肥物质科学研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人