一种基于多特征图融合的野生动物视频目标检测方法技术

技术编号:21548588 阅读:15 留言:0更新日期:2019-07-06 21:51
本发明专利技术公开了一种基于多特征图融合的野生动物视频目标检测方法,包括如下步骤:获取视频序列图像,提取视频序列图像中每一帧图像的特征图;判断视频序列图像中的相邻帧图像是否满足融合条件;若相帧图像满足融合条件,则对相邻帧图像进行特征图融合;对融合后的特征图进行类别与目标框的预测,获得具有目标语义关联信息的最终检测结果。与现有技术相比,本发明专利技术的方法更适合对遮挡、形变目标进行准确检测,检测成功的目标数量与检测置信度得到了提升。

A Wildlife Video Target Detection Method Based on Multi-feature Map Fusion

【技术实现步骤摘要】
一种基于多特征图融合的野生动物视频目标检测方法
本专利技术涉及图像识别领域,尤其涉及一种基于多特征图融合的野生动物视频目标检测方法。
技术介绍
生物资源是人类赖以生存和发展的自然基础,是生态系统平衡与稳定的有力保障。野生动物资源是生物资源的重要组成部分,具有珍稀性和生命脆弱性,保护和合理利用野生动物资源对可持续发展有着重要意义。然而,当下对于野生动物的监测保护是通过实地探查,或者使用昂贵的实时录像机进行不间断的定点录像,需要投入大量的人力物力。因此,将目标检测的研究成果运用于野生动物视频检测领域,对辅助科学研究有重要意义。近年来,国内外研究学者在野生动物领域做了一系列的分类与检测识别研究工作。随着深度卷积网络的不断发展,基于深度学习的目标检测方法凭借其强大的特征学习能力,表现出了巨大优势。在基于深度学习的目标检测领域,有人结合selectivesearch算法与SVM分类器,提出了基于区域的卷积神经网络R-CNN,其提取出的特征鲁棒性高、通用性好,但存在时间开销大的缺点;有人使用卷积神经网络直接产生候选框区域对R-CNN进行改进,提出的FasterR-CNN模型解决了R-CNN模型的时空开销大的问题;基于回归的YOLO模型,使用端到端的训练方法,提升了目标检测的速度,但其检测精度低;SSD模型对全图各个位置的多尺度区域进行回归,目标检测精度高,但检测速度不及YOLO模型;有人通过Darknet-53卷积神经网络与金字塔网络,对全图进行三个不同尺度的特征图检测,得到检测速度与检测精度的平衡。在上述模型中,YOLOv3模型的综合性能最优,在保持YOLO模型检测速度的同时,达到了SSD模型的检测精度。然而,针对YOLOv3在野生动物视频目标检测领域中,存在的前后视频帧同区域关系难以描述的缺点,这会导致平均准确率的下降。因此,如何提高野生动物视频目标检测的平均准确率,成为了本领域技术人员急需解决的问题。
技术实现思路
针对现有技术中存在的上述不足,本专利技术需要解决的问题是:如何提高野生动物视频目标检测的平均准确率。为解决上述技术问题,本专利技术采用了如下的技术方案:一种基于多特征图融合的野生动物视频目标检测方法,包括如下步骤:S1、获取视频序列图像,提取视频序列图像中每一帧图像的特征图;S2、判断视频序列图像中的相邻帧图像是否满足融合条件;S3、若相帧图像满足融合条件,则对相邻帧图像进行特征图融合;S4、对融合后的特征图进行类别与目标框的预测,获得具有目标语义关联信息的最终检测结果。优选地,判断视频序列图像中的相邻帧图像是否满足融合条件的方法包括:基于对两相邻帧图像进行相似度计算,式中,P为两相邻帧图像的相似度,p及p'分别为两相邻帧图像的直方图数据,N为直方图数据长度,p(i)及p'(i)分别为两相邻帧图像的直方图数据值;若两相邻帧图像的相似度P大于或等于融合阈值σ,两相邻帧图像是否满足融合条件。优选地,图像中任一像素点的RGB值为(a,b,c),基于公式对图像中每个像素点进行计算,得到图像的直方图数据。优选地,基于公式Fn'=ω*Fn+1+Fn+ω*Fn-1'采用线性迭代的方式进行相邻帧图像的特征图融合,式中,Fn-1'=ω*Fn+Fn-1+ω*Fn-2',Fn为第n帧图像的特征图,Fn'为第n帧图像的融合后的特征图,Fn+1为第n+1帧图像的特征图,Fn-1为第n-1帧图像的特征图,Fn-1'为第n-1帧图像的融合后的特征图,Fn-2为第n-2帧图像的融合后的特征图,ω为相邻视频帧的相关因子,ω∈[0,1]。优选地,σ为高斯分布中的标准差,μ为高斯分布中的均值,x为相邻视频帧图像的相似度均值,distance_weight为距离权重。优选地,采用下述方法计算两相邻帧图像的相似度均值:设任意两个视频序列图像A和B的互信息熵为H(A)和H(B);式中,PA(i)为H(A)发生的概率,PB(j)为H(B)发生的概率;I(A,B)=H(A)+H(B)-H(A,B)I(A,A)=H(A)+H(A)-H(A,A)x=I(A,B)/I(A,A),x∈(0,1]式中,H(A,B)表示视频序列图像A和视频序列图像B的联合熵,H(A,A)表示视频序列图像A与视频序列图像A的联合熵,I(A,B)表示视频序列图像A与视频序列图像B的互信息熵,I(A,A)表示视频序列图像A与视频序列图像A的互信息熵,a、b分别为A、B的特定值,PAB(a,b)为a、b一起出现的联合概率,PAA(a,a)为a、a一起出现的联合概率。综上所述,本专利技术公开了一种基于多特征图融合的野生动物视频目标检测方法,包括如下步骤:获取视频序列图像,提取视频序列图像中每一帧图像的特征图;判断视频序列图像中的相邻帧图像是否满足融合条件;若相帧图像满足融合条件,则对相邻帧图像进行特征图融合;对融合后的特征图进行类别与目标框的预测,获得具有目标语义关联信息的最终检测结果。与现有技术相比,本专利技术的方法更适合对遮挡、形变目标进行准确检测,检测成功的目标数量与检测置信度得到了提升。附图说明图1为本专利技术公开的一种基于多特征图融合的野生动物视频目标检测方法的流程图;图2为当前帧与视频序列帧的相关因子变化曲线的示意图;图3为相邻视频帧相似度的示意图;图4为YOLOv3模型与本专利技术的方法的实验结果对比示意图;图5为YOLOv3模型与本专利技术的方法在WVDDS数据集上的P-R变化曲线。具体实施方式下面结合附图对本专利技术作进一步的详细说明。如图1所示,本专利技术公开了一种基于多特征图融合的野生动物视频目标检测方法,包括如下步骤:S1、获取视频序列图像,提取视频序列图像中每一帧图像的特征图;将Darknet-53残差神经网络作为特征提取网络,对输入图像进行特征提取,能够得到三个不同尺度的特征图。本专利技术中,可以使用Darknet-53网络对视频帧进行特征提取,从而提取到三个不同尺度特征图。提取特征图为现有技术,在此不再赘述。S2、判断视频序列图像中的相邻帧图像是否满足融合条件;S3、若相帧图像满足融合条件,则对相邻帧图像进行特征图融合;考虑到将视频拆分为连续的图像帧进行处理时,会丢失帧间相关性,本专利技术中将YOLOv3模型、图像相似度与时间序列关系相结合,对Darknet-53网络提取到的连续前后视频帧的特征图进行线性迭代融合,以提升野生动物视频目标检测的准确率。S4、对融合后的特征图进行类别与目标框的预测,获得具有目标语义关联信息的最终检测结果。与现有技术相比,本专利技术的方法更适合对遮挡、形变目标进行准确检测,检测成功的目标数量与检测置信度得到了提升。具体实施时,判断视频序列图像中的相邻帧图像是否满足融合条件的方法包括:基于对两相邻帧图像进行相似度计算,式中,P为两相邻帧图像的相似度,p及p'分别为两相邻帧图像的直方图数据,N为直方图数据长度,p(i)及p'(i)分别为两相邻帧图像的直方图数据值;若两相邻帧图像的相似度P大于或等于融合阈值σ,两相邻帧图像是否满足融合条件。在相邻帧融合之前,引入直方图均衡计算图像相似度的方法,对相邻视频图像进行相似度度量。若为视频“镜头切换”,相邻视频帧则不存在时间序列关系,若仍对其进行特征图融合,会导致识别率降低。具体实施时,图像中任一像素点的RGB值为(a,b,c)本文档来自技高网
...

【技术保护点】
1.一种基于多特征图融合的野生动物视频目标检测方法,其特征在于,包括如下步骤:S1、获取视频序列图像,提取视频序列图像中每一帧图像的特征图;S2、判断视频序列图像中的相邻帧图像是否满足融合条件;S3、若相帧图像满足融合条件,则对相邻帧图像进行特征图融合;S4、对融合后的特征图进行类别与目标框的预测,获得具有目标语义关联信息的最终检测结果。

【技术特征摘要】
1.一种基于多特征图融合的野生动物视频目标检测方法,其特征在于,包括如下步骤:S1、获取视频序列图像,提取视频序列图像中每一帧图像的特征图;S2、判断视频序列图像中的相邻帧图像是否满足融合条件;S3、若相帧图像满足融合条件,则对相邻帧图像进行特征图融合;S4、对融合后的特征图进行类别与目标框的预测,获得具有目标语义关联信息的最终检测结果。2.如权利要求1所述的基于多特征图融合的野生动物视频目标检测方法,其特征在于,判断视频序列图像中的相邻帧图像是否满足融合条件的方法包括:基于对两相邻帧图像进行相似度计算,式中,P为两相邻帧图像的相似度,p及p'分别为两相邻帧图像的直方图数据,N为直方图数据长度,p(i)及p'(i)分别为两相邻帧图像的直方图数据值;若两相邻帧图像的相似度P大于或等于融合阈值σ,两相邻帧图像是否满足融合条件。3.如权利要求2所述的基于多特征图融合的野生动物视频目标检测方法,其特征在于,图像中任一像素点的RGB值为(a,b,c),基于公式对图像中每个像素点进行计算,得到图像的直方图数据。4.如权利要求1所述的基于多特征图融合的野生动物视频目标检测方法,其特征在于,基于公式Fn'=ω*Fn+1+Fn+ω*Fn-1'采用线性迭代的方式进行相邻帧图像的特征图融合,式中,Fn-1'=ω*Fn+Fn-1+ω*Fn-2',Fn为第n帧图像的特征图,...

【专利技术属性】
技术研发人员:朱小飞陈建促李章宇王越林志航
申请(专利权)人:重庆理工大学
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1