一种基于卷积神经网络的红外船视频跟踪方法技术

技术编号:28213418 阅读:9 留言:0更新日期:2021-04-24 14:53
本发明专利技术公开一种基于卷积神经网络的红外船视频跟踪方法,通过融合SiamRPN特征提取网络的三到五层增加输出特征的空间信息,提高模型识别效率。在搜索分支添加由定位网络、网格生成器和取样器构成的空间变换网络,以对特征图进行旋转和缩放,降低目标旋转和缩放对识别率的影响。另外,针对缺少红外船视频跟踪数据集的问题,本发明专利技术也构建了一个包含3000幅红外船目标图像的数据集。本发明专利技术通过多层融合网络和空间变化网络提取更精确的红外目标特征,从而提高跟踪的准确度;本发明专利技术可操作性、可扩展性较强,适用于海面背景的红外船目标跟踪。适用于海面背景的红外船目标跟踪。适用于海面背景的红外船目标跟踪。

【技术实现步骤摘要】
一种基于卷积神经网络的红外船视频跟踪方法


[0001]本专利技术属于图像处理
,尤其涉及一种基于卷积神经网络的红外船视频跟踪方法。

技术介绍

[0002]随着近年来视频成像设备的发展和普及,以及存储设备的高速发展,社会生活、工业生产和公共安全等领域对于智能视频应用的需求越来越迫切。实现视频的理解和分析,需要知道视频中目标的位置和运动轨迹。视觉目标跟踪任务作为计算机视觉的一项基本研究内容,能够根据在初始帧中给定的目标,估算目标在后续视频帧中位置。
[0003]目前大部分视觉跟踪的研究基于可见光视频,但可见光目标跟踪只能在有光线的情况下进行。对于无充足可见光的环境,例如夜晚或光线不好的环境,更倾向于红外目标跟踪。虽然红外摄像头已经广泛应用于海洋环境,但基于深度学习的红外目标跟踪算法较少,主要因为缺少红外目标跟踪的数据集。
[0004]随着红外跟踪需求的快速增多,如何设计出针对红外视频的高准确率的跟踪模型模型成为国内外研究重点。目前跟踪红外船目标方法可分为两类:1.使用可见光视频模型跟踪,例如将红外视频第一帧的跟踪目标图输入SiamRPN模板帧的特征提取网络,得到跟踪目标的特征图,再将后续帧输入SiamRPN搜索帧的特征提取网络,得到对应帧的特征图。将跟踪目标和后续帧的目标图输入区域提取网络,比较两者的相似度,得到后续帧目标的位置。2.使用相关滤波方法,相关滤波方法根据初始框选定区域或上一帧目标位置所在区域适当方法做为采样区域,然后将采集到样本按一定准则做最优化回归,下一帧响应分数最大的区域就是目标区域。
[0005]近年来,随着红外摄像头的应用,如何设计出针对红外视频的跟踪模型得到关注。这种模型能够降低红外图像分辨率低和目标轮廓、纹理、空间结构信息损失严重等特性对于最终结果的影响,并能有较高的跟踪准确率。本专利技术通过多层融合网络和空间变化网络提取更精确的红外目标特征,从而提高跟踪的准确度;本专利技术可操作性、可扩展性较强,适用于海面背景的红外船目标跟踪。

技术实现思路

[0006]本专利技术要解决的技术问题是,提供一种基于卷积神经网络的红外船视频跟踪方法,用于红外视频中船目标跟踪,通过特征提取网络和区域提取网络对区域进行分类和回归,进而达到跟踪的目的。为实现上述目的,本专利技术采用如下的技术方案:针对基于深度学习的红外目标跟踪算法缺乏数据集的问题,构建红外船视频跟踪数据集。提取红外船视频的每一帧,人工框选每一帧船目标位置,标注结果应为xml文件,包含框选船目标方框的左上角和右下角点的坐标。利用构建数据集,设计红外船视频跟踪网络。基于SiamRPN网络,在特征提取分支增加多层融合结构和空间变化网络,增加特征图的空间信息并降低目标平移和旋转对结果的影响。用构建数据集训练模型并保存。
[0007]一种基于卷积神经网络的红外船视频跟踪方法包括以下步骤:
[0008]步骤1:基于SiamRPN结构,在特征提取网络中添加多层融合结构。
[0009]步骤2:基于SiamRPN结构,在特征网络中添加空间变化网络。
[0010]步骤3:将训练数据顺序输入到特征提取网络、多层融合网络、空间变化网络和区域提取网络,选择迭代次数、学习率等超参数训练网络,并选择损失函数,依据网络结果反向传播训练网络。
[0011]步骤4:保存步骤3中模型,用于模型测试。
附图说明
[0012]图1(a)为红外船视频提取的帧图像。
[0013]图1(b)为图1(a)对应的框选船目标示意图。
[0014]图1(c)为标注数据的XML文件。
[0015]图2为本专利技术船目标提取跟踪方法流程图。
[0016]图3(a)为测试数据集的帧图像。
[0017]图3(b)为本专利技术测试结果图像。
具体实施方式
[0018]本专利技术实施例提供一种基于卷积神经网络的红外船视频跟踪方法,下面结合附图对本专利技术进行解释和阐述:
[0019]数据处理方式为:编写程序提取红外视频的每一帧(图1(a)),通道数为3,像素值∈[0,256],大小为256
×
256。用LableMe软件框选每一帧的船目标,方框应尽可能贴合船目标(图1(b)),标注结果是xml文件(图1(c)),文件名和帧图片名相同。标注文件中应包含框选目标方框左上点和右下点的坐标。
[0020]本专利技术的实施方案流程如下:
[0021]步骤1:基于SiamRPN的特征提取网络,添加多层融合网络。SiamRPN的特征提取网络基于AlexNet网络,一共五层。使用池化层和正则化层,将三四层特征图宽度改为与第五层特征图宽度相同。顺序连接三到五层特征图,达到融合空间特征目的,增加输出特征图的空间信息。此时特征图的通道数为1024,通道数过多,计算量较大。使用1*1的卷积,输出特征通道数为256,与SiamRPN的特征提取网络输出通道数相同。
[0022]步骤2:基于步骤1网络,添加空间变换网络。STN网络由定位网络、网格生成器和取样器三个部分组成。定位网络接受特征图,通过三个卷积层和一个全连接层组成的隐藏层,返回变化参数θ,用于特征图的平、移旋转和缩放。网格生成器将输出特征图点坐标映射到输入特征图中,以便后续结构在输入特征图取样。取样器将输入特征图依照参数θ映射到输出特征图。这个步骤可以减少物体平移、旋转和缩放对最终结果的影响。
[0023]步骤3:将训练数据集输入特征提取网络和区域提取网络。每个视频需要分为模板帧和搜索帧。模板帧是人工框选出第一帧目标位置,其余帧为搜索帧。选择迭代次数、学习率等超参数训练训练特征提取网络,得到分类和回归的结果。选择合适的损失函数评估训练结果,反向传播训练网络。
[0024]步骤4:保存训练好模型。将测试红外视频数据输入到模型中,得到预测框,计算预
测跟踪框和真值跟踪框的交并比和跟踪的准确率,评估模型性能。其中,红外视频单帧图像如附图3(a),单帧预测图像如附图3(b)。
[0025]以上实例仅用于描述本专利技术,而非限制本专利技术所描述的技术方案。因此,一切不脱离本专利技术精神和范围的技术方案及其改进,均应涵盖在本专利技术的权利要求范围中。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于卷积神经网络的红外船目标视频跟踪方法,包括以下步骤:步骤1:船目标数据集处理。提取船视频的每一帧,人工用方框标注船在图片中位置,标注结果是xml文件,包含方框左上角和右下角点的坐标。步骤2:基于SiamRPN结构,在特征提取网络中添加多层融合结构。基于AlexNet网络,去除卷积层中填充,使用池化层和正则化层,将第三、第四层的特征图宽度改为与第五层特征图宽度相同。顺序连接第三到第五层特征图,并使用1*1卷积更改特征图通道数。步骤3:基于SiamRPN结构,在特征网络中添加空间变化网络。...

【专利技术属性】
技术研发人员:唐然刘兆英张婷李玉鑑
申请(专利权)人:北京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1