一种扩散模型引导的高速车辆检测集成学习方法和装置制造方法及图纸

技术编号：40740777 阅读：2 留言：0更新日期：2024-03-25 20:00

本发明专利技术涉及道路交通管理与车辆违规检测技术领域，尤其涉及一种扩散模型引导的高速车辆检测集成学习方法和装置，所述方法包括：S1、获取待检测高速车辆图片数据；S2、将所述待检测高速车辆图片数据输入选择的训练完成的多个不同的检测基模型，预测得到多个原始高速车辆检测框，所述多个不同的检测基模型的训练过程由扩散模型引导；S3、使用检测框融合算法对所述多个原始高速车辆检测框进行集成学习，得到经过融合后的新检测框，所述新检测框为所述待检测高速车辆图片数据的最终检测结果的输出检测框。本发明专利技术降低了高速车辆的检测难度，提高了高速车辆的检测精度与泛化能力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及道路交通管理与车辆违规检测，尤其涉及一种扩散模型引导的高速车辆检测集成学习方法和装置。

技术介绍

1、当前的深度学习目标检测算法通常使用单一检测模型，但不同的模型各有优缺点，使用单一模型难以取得较好的泛化能力，另一方面，相比于一般的目标检测问题，高速车辆的目标检测存在目标移动速度快、画质不清晰等造成误检等难点，这些难点使得单一模型的检测能力受到制约，同时，由于相关训练数据的缺失，对于高速车辆的目标检测缺乏足够的图像信息进行目标检测网络的训练，严重影响检测效果。

技术实现思路

1、本专利技术提供了一种扩散模型引导的高速车辆检测集成学习方法和装置，用以解决现有技术存在的问题，本专利技术提供的技术方案如下：

2、一方面，提供了一种扩散模型引导的高速车辆检测集成学习方法，所述方法包括：

3、s1、获取待检测高速车辆图片数据；

4、s2、将所述待检测高速车辆图片数据输入选择的训练完成的多个不同的检测基模型，预测得到多个原始高速车辆检测框，所述多个不同的检测基模型的训练过程由扩散模型引导；

5、s3、使用检测框融合算法对所述多个原始高速车辆检测框进行集成学习，得到经过融合后的新检测框，所述新检测框为所述待检测高速车辆图片数据的最终检测结果的输出检测框。

6、可选地，所述s2中选择训练完成的多个不同的检测基模型，具体包括：

7、收集高速车辆图片数据，并划分为两阶段训练的训练集、验证集与测试集；

8、

9、可选地，所述收集高速车辆图片数据，并划分为两阶段训练的训练集、验证集与测试集，具体包括：

10、s21、使用公开的visdrone2019以及uavdt数据集获取无人机视角下的高速车辆图片数据；

11、s22、使用无人机拍摄高速公路上的高速行驶车辆，将拍摄视频进行抽帧获取高速车辆图片数据；

12、s23、利用扩散模型中的先验信息生成高速车辆图片数据，包括：

13、使用第一类指定的提示词，利用扩散模型，直接进行第一类无人机视角下高速车辆图片数据生成，所述第一类指定的提示词使用“无人机视角下的”和“车辆”这一语句作为提示词；使用第二类指定的提示词，利用扩散模型，进行第二类车辆图片数据生成，并对于生成的第二类图片数据，将其进行缩放与裁剪后，选择包含公路的无人机视角下图片，并将其粘贴至图片的公路处，所述第二类指定的提示词使用“车辆”这一语句作为提示词；将扩散模型生成的部分模糊图片删去，保留生成的高质量图片；

14、s24、生成对应检测框标签；

15、对于第一类图片数据和s22中的图像数据，使用公开的目标检测模型对图片中的车辆进行预标注，再通过人工检查的方式对预标注签的检测框进行修正；对于第二类图片，在对图片进行粘贴时直接保存检测目标在图像上的位置信息，并生成对应的检测框标签；

16、s25.将数据划分为两阶段训练的数据集、验证集与测试集；

17、将s21和s22获取的高速车辆图片数据与扩散模型生成的高速车辆图片数据合并形成第一阶段训练的数据；

18、将s21和s22获取的高速车辆图片数据中的检测框标签内的检测目标图像截取出来，使用扩散模型在不同的重绘幅度下进行重绘，所述重绘幅度在0.1至0.5之间，保存对应的重绘幅度，使用重绘后的检测目标覆盖原数据中的检测目标，使用1减去每个检测目标对应的重绘幅度，生成软置信度标签，保存重绘后的图片和图片中检测目标对应的软置信度标签，作为检测基模型第二阶段训练数据；

19、将两个阶段的数据分别数据划分为训练集，验证集与测试集。

20、可选地，使用划分好的训练集对备选的检测基模型进行两阶段的训练，具体包括：

21、第一阶段训练使用的损失是不同的检测基模型默认的损失函数；

22、在第二阶段训练时，加入了软置信度标签损失：在计算损失时，使用检测基模型输出的置信度与软置信度标签的差值的平方作为新的额外的损失；

23、将所述软置信度标签损失通过梯度回传，引导模型进行第二阶段训练。

24、可选地，所述s2中的检测基模型为基于可变形卷积的视觉大模型internimage目标检测模型，将一张的高速车辆图片输入到模型中，其中h、w分别是图片的高、宽，c表示图片的通道数，图片经过干线模块后形成的特征图，为特征图的通道数，交替进行4个类似的阶段与下采样以后得到预测的检测框，每个阶段包括一个基础模块，不同的阶段中最大的不同是其中所使用的可变形卷积算子dcnv3的参数g不同以及所使用基础模块的个数不同，在一个基础模块中，会先经过可变形卷积算子dcnv3，然后进行层归一化，归一化后的特征和原来的特征相加进行残差链接，之后特征会经过一个前馈神经网络与层归一化，归一化后的特征再与前馈神经网络的输入相加进行残差链接，得到一个基础模块的输出；

25、可变形卷积算子dcnv3以输入和任务信息为条件进行自适应空间聚集，捕捉图像中目标的形变信息，dcnv3算子采用的运算方式写为：

26、

27、其中，g表示聚合组的总数，对于第g组，表示这组的位置无关投影权重，c表示通道数，表示这组的维数，表示第g组中第k个采样点用softmax函数进行归一化后的调制标量，表示输入的经过切片的特征图，为第g组网格采样位置对应的偏移量，为当前像素点；

28、dcnv3将原始卷积权值拆分为深度方向和点方向两部分，其中深度方向部分由原始位置调制标量负责，点方向部分为采样点之间的共享投影权重w，dcnv3将空间聚集过程分成g组，每组都有单独的采样偏移量和调制标量，单个卷积层上的不同组具有不同的空间聚集模式，提取更丰富的特征；

29、或者

30、所述s2中的检测基模型为yolov5目标检测模型，以一张待检测的高速车辆图片作为输入，经过模型的主干网络、颈部网络以及不同的检测头以后，得到预测的检测框，主干网络包括交替的卷积操作与c3模块，最后经过一个spff模块，主干网络获得不同尺度下的图像特征，随后，模型将不同尺度下的特征输入颈部网络，颈部网络包括不同尺度特征的上采样以及卷积，获得高度编码的特征用于最后的检测，检测头1到检测头3为不同尺度下的检测器，将不同尺度下的高度编码特征输出为检测框；

31、spff模块由spp模块改进而来，使用3个5×5的最大池化，代替spp模块的5×5、9×9、13×13最大池化，多个小尺寸池化核级联代替spp模块中单个大尺寸池化核；

32、针对主干网络和检测头，yolov5设计了两种不同的类似yolov4中csp结构的c3net结构，c3net中包含本文档来自技高网...

【技术保护点】

1.一种扩散模型引导的高速车辆检测集成学习方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述收集高速车辆图片数据，并划分为两阶段训练的训练集、验证集与测试集，具体包括：

3.根据权利要求2所述的方法，其特征在于，使用划分好的训练集对备选的检测基模型进行两阶段的训练，具体包括：

4.根据权利要求1所述的方法，其特征在于，所述S2中的检测基模型为基于可变形卷积的视觉大模型InternImage目标检测模型，将一张的高速车辆图片输入到模型中，其中H、W分别是图片的高、宽，C表示图片的通道数，图片经过干线模块后形成的特征图，为特征图的通道数，交替进行4个类似的阶段与下采样以后得到预测的检测框，每个阶段包括一个基础模块，不同的阶段中最大的不同是其中所使用的可变形卷积算子DCNv3的参数G不同以及所使用基础模块的个数不同，在一个基础模块中，会先经过可变形卷积算子DCNv3，然后进行层归一化，归一化后的特征和原来的特征相加进行残差链接，之后特征会经过一个前馈神经网络与层归一化，归一化后的特征再与前馈神经网络的输入相加进行残差链接，得到一个基础模块的输出；

5.根据权利要求1所述的方法，其特征在于，所述S3中的检测框融合算法为权重框加权融合算法，具体包括：

6.根据权利要求5所述的方法，其特征在于，B中每一簇检测框经过加权融合后形成新检测框，具体包括：

7.根据权利要求1所述的方法，其特征在于，所述S3中的检测框融合算法为网络自适应加权算法，具体包括：

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：在训练阶段对所述全连接神经网络进行训练，具体训练方法为：

9.一种扩散模型引导的高速车辆检测集成学习系统，其特征在于，所述系统包括：

...

【技术特征摘要】

1.一种扩散模型引导的高速车辆检测集成学习方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述收集高速车辆图片数据，并划分为两阶段训练的训练集、验证集与测试集，具体包括：

3.根据权利要求2所述的方法，其特征在于，使用划分好的训练集对备选的检测基模型进行两阶段的训练，具体包括：

4.根据权利要求1所述的方法，其特征在于，所述s2中的检测基模型为基于可变形卷积的视觉大模型internimage目标检测模型，将一张的高速车辆图片输入到模型中，其中h、w分别是图片的高、宽，c表示图片的通道数，图片经过干线模块后形成的特征图，为特征图的通道数，交替进行4个类似的阶段与下采样以后得到预测的检测框，每个阶段包括一个基础模块，不同的阶段中最大的不同是其中所使用的可变形卷积算子dcnv3的参数g不同以及所使用基础模块的个数不同，在...

【专利技术属性】
技术研发人员：孔佑原，潘斌，谭英豪，林德平，张靖华，吴乔清，王旋，任义，
申请(专利权)人：贵州博睿科讯科技发展有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人