多阶特征交互的目标检测模型及其构建方法、装置及应用制造方法及图纸

技术编号:37240846 阅读:22 留言:0更新日期:2023-04-20 23:21
本方案提出了一种多阶特征交互的目标检测模型及其构建方法、装置及应用,包括以下步骤:获取包含待检测目标的至少一待检测图像,所述待检测图像进行标记后送入构建好的多阶特征交互的目标检测模型中;所述多阶特征交互的目标检测模型中的主干网络和颈部网络对所述待检测图像进行处理得到待检测图像特征,在所述多阶特征交互的目标检测模型的头部网络中使用空间聚合模块对所述待检测图像特征的上下文信息进行聚合得到空间聚合结果后进行输出得到检测目标框。本方案通过对YOLOv8的头部网络进行改进,使得YOLOv8可以有效捕捉上下文中的多阶交互从而精准的进行目标识别。文中的多阶交互从而精准的进行目标识别。文中的多阶交互从而精准的进行目标识别。

【技术实现步骤摘要】
多阶特征交互的目标检测模型及其构建方法、装置及应用


[0001]本申请涉及深度学习多模态视频处理领域,尤其涉及一种多阶特征交互的目标检测模型及其构建方法、装置及应用。

技术介绍

[0002]多模态指的是多种模态的信息,包括:文本、图像、视频、音频等,它像人类利用视觉、嗅觉、味觉、听觉等多感官理解现实世界一样,充分利用文本、图像、语音和视频等多种模态来进行学习,这就是多模态学习,在信息飞速发展的今天,多模态数据已经成为近年来数据来源的主要形式,在互联网时代,在搜索引擎中使用文本(关键词)来搜索图片、视频,或以图搜图,以图搜视频等都是使用多模态数据进行模型训练的应用,当然,以文本到图像、以视频到文本、以文本到视频等生成任务也可以用多模态数据进行模型训练来得到。
[0003]zero

shot表示0样本学习的模型训练方法,其利用训练数据集来对模型进行训练,使得模型能够对测试集的对象进行分类,且训练数据集合测试集在类别之间没有任何交集,在对测试集的对象进行分类时需要借助类别的描述来建立训练数据集合和测试集之间的联系,从而使得本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种多阶特征交互的目标检测模型的构建方法,其特征在于,包括以下步骤:获取包含待检测目标的至少一待检测图像,所述待检测图像进行标记后送入构建好的多阶特征交互的目标检测模型中,使用所述多阶特征交互的目标检测模型对所述待检测图像进行检测得到检测目标框,所述多阶特征交互的目标检测模型以YOLOv8为原型,所述多阶特征交互的目标检测模型中的主干网络和颈部网络对所述待检测图像进行处理得到待检测图像特征,在所述多阶特征交互的目标检测模型的头部网络中使用空间聚合模块对所述待检测图像特征的上下文信息进行聚合得到空间聚合结果,再使用通道聚合模块对所述空间聚合结果进行聚合得到通道聚合结果,对所述通道聚合结果进行输出得到检测目标框;所述空间聚合模块由归一化层、卷积层、池化层、激活层、多阶门控聚合模块依次串联组成,所述归一化层对待检测图像特征进行归一化得到空间归一结果,将空间归一结果输入到卷积层中得到空间卷积特征,所述池化层对空间卷积特征进行全局平均池化得到空间池化特征,使用所述空间卷积特征减去所述空间池化特征再与缩放因子进行点积得到空间缩放特征,所述缩放因子为模型参数,将所述空间缩放特征与所述空间卷积特征进行元素级相加得到空间相加特征,所述激活层对所述空间相加特征进行激活输出得到空间激活特征;所述多阶门控聚合模块对所述空间激活特征进行聚合得到空间门控聚合结果,将所述空间门控聚合结果与所述待检测图像特征进行元素级相加得到所述空间聚合结果,所述空间聚合结果经过通道聚合模块得到通道聚合结果,对所述通道聚合结果进行卷积输出得到检测目标框。2.根据权利要求1所述的一种多阶特征交互的目标检测模型的构建方法,其特征在于,在“所述多阶门控聚合模块对所述空间激活特征进行聚合得到空间门控聚合结果”步骤中,所述多阶门控聚合模块分为第一层级和第二层级,第一层级由第一多阶门控卷积层和第一门控输出层串联组成,第二层级由深度可分离卷积层、门控通道分离层、深度可分离卷积组、门控特征堆叠层、第二多阶门控卷积层、第二门控输出层、第三多阶门控卷积层串联组成。3.根据权利要求2所述的一种多阶特征交互的目标检测模型的构建方法,其特征在于,将所述多阶门控聚合模块输入到所述第一多阶门控卷积层进行卷积后通过第一门控输出层进行输出得到第一层级输出结果,将所述多阶门控聚合模块输入到所述深度可分离卷积层中得到深度可分离卷积结果,所述门控通道分离层对所述深度可分离卷积结果进行通道分离得到通道分离结果,所述深度可分离卷积组对所述通道分离结果进行深度可分离卷积得到多个深度可分离卷积结果,所述深度可分离卷积组中包含多个串联的深度可分离卷积层,将所述通道分离结果与深度可分离卷积组中的多个深度可分离卷积结果在所述门控特征堆叠层中进行特征堆叠得到堆叠结果,多数第二多阶门控卷积层对所述堆叠结果进行卷积后通过第二门控输出层进行输出得到第二层级输出结果,将所述第一层级输出结果和所述第二层级输出结果进行点积后通过第三多阶门控卷积层进行输出得到空间门控聚合结果。4.根据权利要求1所述的一种多阶特征交互的目标检测模型的构建方法,其特征在于,所述空间聚合模块后紧跟一通道聚合模块,使用通道聚合模块对空间聚合结果进行聚合,
所述通道聚合模块由通道归一层、第一通道卷积层、通道深度卷积层、通道输出层,特征重新分配模块、第二通道卷积层组成。5.根据权利要求4所述的一种多阶特征交互的目标检测模型的构建方法,其特征在于,将空间聚合结果输入所述通道聚合模块中,所述通道聚合模块中的通道归一层对所述空间聚合结果进行归一化得到通道归一结果,所述第一通道卷积层对所述通道归一结果进行卷积得到第一通道卷积结果,使用通道参数乘以所述第一通道卷积结果后送入所述通道深度卷积层中进行卷积得到通道深度卷积结果,所述通道深度卷积结果经所述通道输出层进行输出后送入所述特征重新分配模块进行分配得到通道分配结果,所述第二通道卷积模块对所述通道分配结果进行卷积后与所述图像特征中的通道特征进行元素级相加得到通道聚合结果。6.根据权利要求4所述的一种多阶特征交互的目标检测模型的构建方法,其特征在于,所述特征重新分配模块由重分配卷积层和重分配输出层组成,输入的通道特征经过重分配卷积层卷积后由所述重分配输出层进行输出得到初步重分配结果,并使用输入的通道特征减去所述初步重分配结果再与通道级比例因子乘积得到乘积重分配结果,所述乘积重分配结果与输入的通道特征进行元素级相加得到最终重分配结果,所述最终重分配结果为所述特征重新分配模块的输出,所述通道级比例因子为模型的一个参数。7.一种目标检测方法,其特征在于,包括:获取待检测图像,将所述待检测图像送入训练好的多阶特征交互的目标检测模型中,所述多阶特征交互的目标检测模型中的主干网络和颈部网络对所述待检测图像进行处理得到待检测图像特征,在所述多阶特征交互的目标检测模型的头部网络中使用空间聚合模块对所述待检测图像特征的上下文信息进行聚合得到空间聚合结果,所述空间聚合结果经过通道聚合模块得到通道聚合结果,对所述通道聚合结果进行卷积输出得到检测目标框。8.一种多模态类别检测模型的构建方法,其特征在于,包括:文本编码模块、图像编码模块以及类别检测模块,所述文本编码模块的输入为物品类别的文本描述信息,所述文本编码模块将物品类别的文本描述信息转换为文本特征后输入到类别检测模块中;所述图像编码模块由网络茎秆层、第一卷积局部模块、第一子采样层、第二卷积局部模块、第二子采样层、第一局部和全局上下文组合模块、第三子采样层、第二局部和全局上下文组合模块依次串联组成,所述图像编码模块的输入为多阶特征交互的目标检测模型输出的包含检测目标...

【专利技术属性】
技术研发人员:方剑锋张香伟程洁黎维曹喆
申请(专利权)人:城云科技中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1