一种基于目标检测的多尺度特征融合方法技术

技术编号:35002792 阅读:17 留言:0更新日期:2022-09-21 14:52
本发明专利技术公开了一种基于目标检测的多尺度特征融合方法,其通过网络收集计算机视觉图像样本建立多尺度目标检测数据集,并将数据集划分为训练集和测试集;利用一阶段代表作YOLOv5算法负责图像内目标物体的检测;通过骨干网络多阶段多层次的卷积操作提取出多尺度图像特征;将其中一个支路以传统特征融合方式与颈部网络相连,另一支路以捷径方式与相同采样倍率的颈部网络相连,最后一支路以捷径方式与相同采样倍率的预测结构相连;通过深度学习一个三支路骨干网络结构,并将骨干网络中不同尺度的特征图像通过三支路向后实现神经网络的前向、后向传递;本发明专利技术具有目标检测准确率高,容易应用于大规模数据集及多种网络模型结构,实现方式简单,因此具有广阔的应用前景和巨大的市场价值。场价值。场价值。

【技术实现步骤摘要】
一种基于目标检测的多尺度特征融合方法


[0001]本专利技术涉及深度学习领域,尤其涉及一种基于目标检测的多尺度特征融合方法。

技术介绍

[0002]在各种特征融合网络问世之前,各大网络结构大多都采用单向一维从头到尾的结构,如最早的AlexNet、到后来的VGGNet、ResNet等,早期的YOLOv1、YOLOv2也采用了这种结构,直到CVPR 2017中发表了FPN特征金字塔网络结构,人们才逐渐意识到,在不断堆叠骨干网络结构单纯追求特征提取效益之外,还可以对网络结构的连接方式、堆叠方式和整体走向进行变化,且整体结构可以通过二维方式呈现,这样的结构在后来的YOLOv3中被采用,并独立出了后来的Neck颈部网络。后来港中大联合腾讯优图于CVPR 2018提出基于FPN的改进网络

PANet路径聚合网络,让FPN结构的融合方式从网络输出的角度增加了一维Bottom

up Path Augmentation结构,主要是考虑到网络的浅层特征中包含了大量的细粒度特征,对于目标检测不同尺度的融合和实例分割这种像素级别的分类任务起到至关重要的作用。接着Google Brain团队于CVPR 2019发布了基于神经架构搜索的特征金字塔网络NAS

FPN,这种金字塔网络是在PAN网络结构上进行AutoML自动机器学习,即通过机器学习自动寻找基于PAN网络结构的最佳连接方式和参数。然而这三个网络结构均拘泥于二维平面进行搭建,导致网络模型的多次上下折返连接时与骨干网络无法进行良好的特征传递和信息融合,尤其是当网络结构折返融合多次时,会造成深层次网络的特征信息与骨干网络的联系弱化。此外,像NAS

FPN这种AutoML的方式对算力要求极为苛刻,通常AutoML即便拥有优良的GPU时其运算时间也会高达几百天。后来Google Brain团队于2020年在CVPR发表了BiFPN(bidirectional feature pyramid network)双向特征金字塔网络结构,将FPN网络模型中的每层模块视为节点,引入了三维的立体连接方式,从三维的角度对整个网络的特征传递和特征融合方式进行了改进,让整个网络模型从最开始的二位平面连接方式跃然于纸上,增加了立体的第三维的连接。
[0003]目前在YOLO算法中,仅用到了FPN与PAN的网络结构:YOLOv3采用的是FPN网络结构,YOLOv4与YOLOv5同时期发布因此采用的是PAN网络结构,这两种结构均为CVPR 2018及更早的结构,接下来将在YOLOv5上采用最新的BiFPN连接方式,并分析这种方式在YOLOv5上带来的性能提升,以及存在的不足之处并加以改进,进而设计一套新的网络结构

AS

BiFPN。

技术实现思路

[0004]本专利技术的目的在于提供一种基于目标检测的多尺度特征融合方法,以解决上述
技术介绍
中提出的问题。
[0005]为实现上述目的,本专利技术提供如下技术方案:本专利技术公开了一种基于目标检测的多尺度特征融合方法,其通过网络收集计算机视觉图像样本建立多尺度目标检测数据集,并将数据集划分为训练集和测试集;利用一阶
段代表作YOLOv5(You Only Look Onceversion 5)算法负责图像内目标物体的检测;通过骨干网络多阶段多层次的卷积操作提取出多尺度图像特征;将其中一个支路以传统特征融合方式与颈部网络相连,另一支路以捷径(Shortcut)方式与相同采样倍率的颈部网络相连,最后一支路以捷径方式与相同采样倍率的预测结构相连;通过深度学习一个三支路骨干网络结构,并将骨干网络中不同尺度的特征图像通过三支路向后实现神经网络的前向、后向传递;本专利技术具有目标检测准确率高,容易应用于大规模数据集,容易应用于多种网络模型结构,并且实现简单,更好地对不同尺度的特征图像信息保真等特点,因此具有广阔的应用前景和巨大的市场价值。
[0006]本专利技术基于目标检测的多尺度特征融合方法,其特征在于其通过计算机装置实现如下步骤:步骤S1,通过网络收集计算机视觉图像样本建立多尺度目标检测数据集,建立并将数据集划分为训练集和测试集;步骤S2,利用YOLOv5目标检测算法的骨干网络(Backbone)提取图像的特征;步骤S3,利用骨干网络(Backbone)与颈部网络(Neck)、预测结构(Prediction)的三支路特征融合方法实现多尺度融合,并通过深度学习重复学习各结构支路上的权重参数,根据深度学习的训练方式,不断缩小训练时目标值与预测值之间的差距,即以最小化损失函数为学习准则,得出目标域数据集下的优化网络结构,其融合方式基于FPN(Feature Pyramid Networks);步骤S4,在FPN的基础上改进形成PAN,利用low

level特征中存储的精确定位信号,提升特征金字塔架构;步骤S5,在PAN的基础上改进形成BiFPN,通过BiFPN让网络自行学习不同输入特征的权重。
[0007]进一步的,对于步骤S3中的FPN分解为三个递进的阶段,其包含以下步骤:步骤S31,骨干网络Backbone生成特征阶段,在深度学习计算机视觉领域的任务是基于常用预训练的骨干网络Backbone,生成抽象的语义特征,再分别针对不同的应用场景对骨干网络提取的图像形态学特征调整;骨干网络Backbone生成的特征按stage划分,分别记作,n为自然数,其中的数字n与stage的编号相同,代表图像形态学特征下采样的不同阶段特征,也即分辨率减半的次数,如代表stage2输出的特征图,分辨率为输入图片的,代表stage5输出的特征图,分辨率为输入图片的;步骤S32,特征融合阶段, FPN将步骤S31生成的不同分辨率特征作为输入,输出经过融合后的特征,输出的特征以P作为编号标记,FPN的输入是、、、、,经过融合后,输出为、、、、,用数学公式表达:步骤S33,通过检测头输出bounding box,FPN输出融合后的特征后,将融合后的特征输入到检测头做具体的物体检测。
[0008]进一步的,步骤S5的BiFPN使用的Fusion策略,具体包含以下步骤:
步骤S51, Unboundedfusion策略,公式为:该公式为深度学习特征融合的第一种策略,其中,为可学习的权重参数,代表单个的深度学习神经网络节点之间的数据权值比重;为输入特征信息,在计算机视觉领域中表示该神经网络输入的图像形态学特征矩阵;步骤S52, Softmax

basedfusion策略公式为:该公式为深度学习特征融合的第二种策略,其中,、为可学习的权重参数,代表多个的深度学习神经网络节点之间的数据权值比重;为输入特征信息,在计算机视觉领域中表示该神经网络输入的图像形态学特征矩阵;步骤S53,Fastnormalizedfusion策略公式为: 该公式为深度学习特征融合的第三种策略,其中,、为可学习的权重参数,代表多个的深度学习神经网络节点之间的数据权值比重;,是一个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于目标检测的多尺度特征融合方法,其特征在于,步骤S1,通过网络收集计算机视觉图像样本建立多尺度目标检测数据集,建立并将数据集划分为训练集和测试集;步骤S2,利用YOLOv5目标检测算法的骨干网络Backbone提取输入图像的形态学矩阵特征;步骤S3,利用骨干网络Backbone与颈部网络Neck、预测结构Prediction的三支路特征融合方法实现多尺度融合,并通过深度学习重复学习各结构支路上的权重参数,根据深度学习的训练方式,不断缩小训练时目标值与预测值之间的差距,即以最小化损失函数为学习准则,得出目标域数据集下的优化网络结构,其融合方式基于FPN;步骤S4,在FPN的基础上改进形成PAN,利用low

level特征中存储的精确定位信号,提升特征金字塔架构;步骤S5,在PAN的基础上改进形成BiFPN,通过BiFPN让网络自行学习不同输入特征的权重。2.根据权利要求1所述的一种基于目标检测的多尺度特征融合方法,其特征在于,对于步骤S3中的FPN分解为三个递进的阶段,其包含以下步骤:步骤S31,骨干网络Backbone生成特征阶段,在深度学习计算机视觉领域的任务是基于常用预训练的骨干网络Backbone,生成抽象的语义特征,再分别针对不同的应用场景对骨干网络提取的图像形态学特征调整;骨干网络Backbone生成的特征按stage划分,分别记作,n为自然数,其中的数字n与stage的编号相同,代表图像形态学特征下采样的不同阶段特征,也即分辨率减半的次数,如代表stage2输出的特征图,分辨率为输入图片的,代表stage5输出的特征图,分辨率为输入图片的;步骤S32,特征融合阶段, FPN将步骤S31生成的不同分辨率特征作为输入,输出经过融合后的特征,输出的特征以P作为编号标记,FPN的输入是、、、、,经过融合后,输出为、、、、,用数学公式表达:步骤S33,通过检测头输出bounding box,FPN输出融合后的特征后,将融合后的特征输入到检测头做具体的物体检测。3.根据权利要求2所述的一种基于目标检测的多尺度特征融合方法,其特征在于,步骤S5的BiFPN使用的Fusion策略,具体包含以下步骤:步骤S51, Unboundedfusion策略,其公式为:该公式为深度学习特征融合的第一种策略,其中,为可学习的权重参数,代表单个的深度学习神经网络节点之间的数据权值比重;为输入特征信息,在计算机视觉领域中表
示该神经网络输入的图像形态学特征矩阵;步骤S52, Softmax

basedfusion策略,其公式为:该公式为深度学习特征融合的第二种策略,其中,、为可学习的权重参数,代表多个的深...

【专利技术属性】
技术研发人员:闫连山董高照姚涛
申请(专利权)人:西南交通大学烟台新一代信息技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1