【技术实现步骤摘要】
一种引入attention机制的多尺度目标检测方法
本专利技术涉及图像处理领域,尤其是一种引入attention机制的yolo-v3多尺度检测技术。目标检测被广泛地应用于行人检测、智能辅助驾驶、智能监控、火焰烟雾检测以及智能机器人等领域,目标检测技术虽然发展迅速,但是也存在很多问题,光照、遮挡、背景混淆、尺度问题一直是目标检测的难点。深度卷积神经网络在目标检测任务上表现非常出色,这主要归功于大样本和其复杂的形式,深度使得模型拥有了很强的非线性表达能力。但目前的很多目标检测算法将检测过程看成是回归问题来处理,还不能很好的区分前景和背景,容易出现错捡和漏检。针对上述问题,可以利用深度学习进行目标检测,最后结合人工修改少量误检的方式从而更智能、高效的完成此任务。
技术实现思路
针对上述问题及技术需求,提出了一种基于attentionyolo-v3的目标检测方法,该方法不仅利用了经典的实时目标检测检测方法yolo-v3,结合语意信息多加注意力机制,以及结合特征金字塔网络,从而提高了网络检测精度。提出引入注意力机制的A ...
【技术保护点】
1.一种引入attention机制的多尺度目标检测方法,其特征在于,该attention yolo-v3包括yolo-v3模型的骨架卷积神经网络darknet-53、具有通道注意力机制的SENet、特征金字塔网络、分类器,所述方法包括:/n采集待测图像,将待测图像输入darknet-53网络,该网络大量使用3*3与1*1卷积层依次连接的形式,并且添加了shortcut连接,其网络结构复杂,有53个卷积层。/n在darknet-53前向传播过程中加入具有通道注意力机制的SENet。步骤是先对H′×W′×C′的特征输入X进行卷积操作,得到待处理的W×H×C的特征图U.接着对得到 ...
【技术特征摘要】
1.一种引入attention机制的多尺度目标检测方法,其特征在于,该attentionyolo-v3包括yolo-v3模型的骨架卷积神经网络darknet-53、具有通道注意力机制的SENet、特征金字塔网络、分类器,所述方法包括:
采集待测图像,将待测图像输入darknet-53网络,该网络大量使用3*3与1*1卷积层依次连接的形式,并且添加了shortcut连接,其网络结构复杂,有53个卷积层。
在darknet-53前向传播过程中加入具有通道注意力机制的SENet。步骤是先对H′×W′×C′的特征输入X进行卷积操作,得到待处理的W×H×C的特征图U.接着对得到的U分别进行Fsq和Fscale.
Fsq操作:对于每一个通道进行全局平均池化,得到一个1×1×C的特征图z。计算公式为:
其中,Uc表示的是U的第c个通道。
Fscale操作:将z作为一个全连接神经网络的输入,该神经网络的权重为W。Fex(*,W)表示的是一个全连接层的计算过程。得到不同通道特征图的权重系数s,再通过与U对应通道上的特征图进行相乘,以此来表示不同通道的特征图的重要性程度。具体计算如下式所示:s=Fex(z,W)Xc=Fscale(uc,sc)=sc·uc
在darknet-53卷积结果中取最顶层的特征,自顶向下的采用上采样进行,每进行一次up-sample时,输出特征层扩大一倍。而横向连接则是将上采样的结果和自底向上生成的相同大小的featuremap进行融合,从而形成FPN特征金字塔网络结构;在融合之后还会再采用3*3的卷积核对每个融合结果进行卷积,目的是用于消除上采样的混叠效应;
采用k-means聚类得到三种尺度共9种尺寸先验框,COCO数据集上在最小的13*13特征图上(有最大的感受野)用较大的先验框(116*90),(156*198),(373*326),中等的26*26特征图上(中等感受野)应用中等的先验框(30x61),(62*45),(59*119),较大的52*52特征图上(较小的感受野)应用较小的先验框(10*13),(16*30),(33*23)。
2.根据权利要求所述的方法,其特征在于,输入416*416*3的图像,通过darknet网络得到三种不同尺度的feature-map,对输出的feature-map网格化得到输出特征层,每个尺度预测3种大小的anchor-box,包含着预测的信息,共有1...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。