水下目标跟踪方法、系统、存储介质、设备、终端及应用技术方案

技术编号:27849492 阅读:22 留言:0更新日期:2021-03-30 13:10
本发明专利技术属于水下目标跟踪技术领域,公开了一种水下目标跟踪方法、系统、存储介质、设备、终端及应用,设计基于孪生网络结合注意力机制和尺度金字塔的结构,该算法由一个修改后的深度卷积神经网络VGG和注意力模块组成,将模板分支和搜索分支提取到的图像高维语义信息特征进行相关操作;得到下一帧的目标位置,再结合尺度自适应选择最优尺度。本发明专利技术提出了一种基于注意力机制和尺度自适应的水下目标跟踪方法,实现对水下目标的准确、鲁棒跟踪,为海洋生态保护、海洋渔业提供基础保障,促进海洋可持续发展。本发明专利技术提出基于注意力机制和尺度自适应的水下目标跟踪方法,进一步缓解水下跟踪过程中的问题。过程中的问题。过程中的问题。

【技术实现步骤摘要】
水下目标跟踪方法、系统、存储介质、设备、终端及应用


[0001]本专利技术属于水下目标跟踪
,尤其涉及一种水下目标跟踪方法、系 统、存储介质、设备、终端及应用。

技术介绍

[0002]目前:目标跟踪是计算机视觉领域的热点方向之一,它是指对视频中的目 标进行监控,记录目标的活动过程,得到目标的运动轨迹,为视频分析与理解 提供支撑。目标跟踪技术经过几十年的研究,已经取得一定的进展,比如相关 滤波方法,可以在很多场景下取得较好的跟踪效果。但基于水下视觉的目标跟 踪仍然是一个非常有挑战性的问题,其主要原因是水下场景有其特殊性,比如 水下光照差,对比度低,水下鱼类目标、虾类目标等运动速度快且在运动时会 发生非刚性形变等。下面,首先对当前主要的目标跟踪方法进行介绍。目标跟 踪算法按照是否需要目标检测,可以将其分为两类,一类是生成式跟踪算法, 另一类是判别式跟踪算法。生成式跟踪算法是通过学习目标的表观特征,处理 当前帧与下一帧的关系,进行目标跟踪,主要包括稀疏编码(sparse coding)、 在线密度估计(online density estimation)等方法。它的缺点是过于关注目标本 身,忽略背景信息,容易产生漂移现象。
[0003]判别式跟踪算法通过区分目标和背景进行目标跟踪,跟踪效果比生成式跟 踪算法更鲁棒,目前也是跟踪领域更为流行的研究方向。它包括目标的检测和 跟踪,常被称为tracking by detection,目标检测指对于图像而言找出目标物体的 位置,而目标跟踪对于视频而言在每时每刻都能够找出物体的位置,检测是跟 踪的基础,目标检测是初始化目标,目标跟踪是连续估计目标状态。常见的判 别式跟踪算法包括多示例学习方法(multiple instance learning)、结构SVM (structured SVM)等。此外,大多数深度学习的算法也属于判别式跟踪算法, 比如大部分基于相关滤波和基于深度学习的跟踪方法都是判别式跟踪算法。
[0004]近几年,以相关滤波(Correlation Filter)和深度学习(Deep Learning)为 代表的判别式跟踪方法逐渐占据了目标跟踪领域的主要地位,并取得了令人满 意的跟踪效果。相关滤波跟踪算法的本质是利用循环位移寻找不同帧中最相似 的区域,基于深度学习的跟踪算法本质则是基于统计学习,利用大规模分类数 据集训练神经网络提取目标更加丰富准确的特征信息,使跟踪模型具有很好的 泛化性能力和特征表达能力,并使得目标跟踪算法的性能和鲁棒性得到大幅提 升。在水下复杂场景中进行目标跟踪,首先目标周围会出现外观相似的物体, 以及由于目标快速运动导致外观特征快速变化的情况,会对跟踪造成干扰从而 无法准确跟踪目标。其次,水下鱼类、虾类等会出现目标在运动过程中,目标 由远及近或由近及远运动而产生目标尺度变化过快难以准确跟踪目标的问题, 所以预测目标框的大小也是目标跟踪中的一项挑战,能否又快又准确的预测出 目标的尺度大小直接影响了跟踪算法准确率,故本专利技术将在当前帧目标中心位 置处进行多尺度采样,并在多个不同尺度目标上进行目标跟踪,产生多个预测 结果,选择最优的跟踪框尺度大小作为下一
帧预测的目标框。最后,基于孪生 网络的跟踪算法很多都使用浅层AlexNet网络结构作为基准特征提取网络,但浅 层网络提取的特征不够细致和突出,无法利用深层网络的高级语义信息而导致 跟踪算法精度下降,因此在快速运动和尺度变化过快的情况下无法达到实时准 确跟踪的目的。
[0005]过去几十年视觉目标跟踪技术取得长足的发展,特别是利用深度学习的目 标跟踪算法取得了令人满意的效果,使目标跟踪技术获得了突破性的进展。根 据目标跟踪任务的复杂性,需要在不同应用场景选择不同的跟踪方法。由于真 实水下环境中光照条件复杂,海洋鱼类种类繁多,因此水下鱼类跟踪的挑战更 多。传统的跟踪方法如相关滤波法、光流法等,仅通过在线学习目标外观模型 进行目标跟踪,但这类方法只从跟踪视频本身进行学习,限制了可以学到的模 型的丰富性,得到的跟踪模型相对简单,且这类算法需要用大量的训练样本才 能很好地近似模型的后验概率密度,当面临的环境越复杂,描述后验概率分布 所需要的样本数量就越多,算法的复杂度就越高,从而在复杂场景中实时跟踪 不断变化的水下目标就成为一个极具挑战的任务。
[0006]通过上述分析,现有技术存在的问题及缺陷为:现有基于孪生网络的跟踪 算法的浅层网络提取的特征不够细致和突出,无法利用深层网络的高级语义信 息而导致跟踪算法精度下降,在快速运动和尺度变化过快的情况下无法达到实 时准确跟踪的目的。
[0007]解决以上问题及缺陷的难度为:随着深度学习在目标跟踪领域的广泛应用, 对目标跟踪算法的要求也越来越高,深度网络越复杂,训练速度也越慢,高层 特征擅长区分不同类别的物体,对目标的形变和遮挡非常鲁棒,但是对类内物 体的区分能力非常差。低层特征更关注目标的局部细节,可以用来区分背景中 相似的distractor(非目标的干扰物体),因此在使用深度网络提取深层特征的 同时还要关注浅层特征。由于目标在运动过程中会出现尺度上的改变,通常会带 来图像特征尤其是大小的不断变化,这种特点导致传统的固定尺度检测器难以适 应目标大小的改变,无法获得最优的提取结果。
[0008]解决以上问题及缺陷的意义为:基于孪生网络的深层网络不摒弃在线更新 过程,利用大量图像数据预训练网络模型获得显著特征表达能力,避免在线跟 踪过程的时耗问题。在孪生网络的基础上引入注意力机制来构建适应性外观特 征模型,根据空间注意力网络和通道注意力网络的结构差异,分别对不同网络 层次特征进行注意力选择,即针对低层特征进行空间注意力选择,关注目标外 观相似性结构特征;针对高层特征进行通道注意力选择,重点关注有助于分类 任务的目标语义特征,该方法具有较高的准确性和鲁棒性,能够显著提高目标 前景与语义背景间的判别能力,从而有效缓解目标漂移问题。此外,使用利用 尺度金字塔结构,选择大小合适的目标跟踪框,以适应运动过程中目标大小的 改变。本专利可以在目标尺度变化、遮挡等情况下对快速运动的目标能够取得 较好的跟踪效果能够在精度和速度之间取得平衡,进而取得更好的跟踪效果。

技术实现思路

[0009]针对现有技术存在的问题,本专利技术提供了一种水下目标跟踪方法、系统、 存储介质、设备、终端及应用。
[0010]本专利技术是这样实现的,一种水下目标跟踪方法,所述水下目标跟踪方法包 括:
[0011]采用适用于目标跟踪任务的基于孪生神经网络和注意力机制模块的网络结 构,
其中注意力机制包括通道注意模块和空间注意模块;空间注意力模块通过 计算不同特征图中相同位置之间的相似程度,并赋予不同的权重,相似程度越 大则给予更大的权重,反之,给予更小的权重;空间注意力模块通过建立不同 特征图之间的空间信息关系增强网络的特征表达能力;加入通道注意力模块优 化目标维度特征,关注不同卷积核对应的特征类型,学习通道特征权值;
[0012]基于深度学习的目标本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种水下目标跟踪方法,其特征在于,所述水下目标跟踪方法包括:采用适用于目标跟踪任务的基于孪生神经网络和注意力机制模块的网络结构,其中注意力机制包括通道注意模块和空间注意模块;空间注意力模块通过计算不同特征图中相同位置之间的相似程度,并赋予不同的权重,相似程度越大则给予更大的权重,反之,给予更小的权重;空间注意力模块通过建立不同特征图之间的空间信息关系增强网络的特征表达能力;加入通道注意力模块优化目标维度特征,关注不同卷积核对应的特征类型,学习通道特征权值;基于深度学习的目标跟踪算法,利用卷积神经网络搭建端到端的跟踪框架,对视频序列中的目标状态进行预测;通过使用孪生网络和尺度金字塔网络,学习图像特征,构建鲁棒性的目标表观特征,结合目标尺度自适应算法在当前帧的目标中心位置处进行多尺度采样,构建多分辨率特征金字塔,训练尺度滤波器及尺度特征降维;在全卷积孪生神经网络的基础上将特征提取网络更换为预训练的深度VGG

16网络,学习图像的深度语义特征;并在孪生网络的基础上,除了最后一个卷积层,每一层卷积后都增加批归一化层和下采样,同时最大值池化的方式代替平均值池化,没有填充,在网络的第十层后加入注意力机制。2.如权利要求1所述的水下目标跟踪方法,其特征在于,所述采用适用于目标跟踪任务的基于孪生神经网络和注意力机制模块的网络结构由一个修改后的深度卷积神经网络和一个双重注意模块组成,其中双重注意模块包括通道注意模块和空间注意模块,使用注意力机制选择性地强调目标有用的信息,最后将提取到的模板图像和搜索图像的高层语义信息特征进行互相关操作,得到响应值最大的位置即为目标新的位置。3.如权利要求2所述的水下目标跟踪方法,其特征在于,由孪生网络在两个分支中加入注意力模块,当目标发生快速形变时,网络能够通过注意力机制关注前景中目标部分;构建空间注意力模块关注卷积特征图的空间特征,学习图像外观特征权值;空间注意力网络的增强目标前景和抑制语义背景,分配目标前景和背景图像内容不同的重要性权值;构建通道注意力网络优化维度特征,关注不同卷积核对应的特征类型,学习图像特征的通道权值;通道注意力网络利用多种卷积核提取的外观特征存在冗余,采用通道特征选择策略剔除冗余精简特征表达,同时激活与目标相关性高的通道特征构建显著外观特征模型;(1)通道注意力机制是以特征图为操作单位,给出输入图像的特征通道集合记为B=[b1,b2…
,b
n
],b
k
∈R
W
×
H
,k=1,2

n,并把它定义为对每个通道都匹配一个权值,输入的特征图M∈R
w
×
h
×
d
首先经过平均池化层得到一个特征向量m=(m1,m2,

m
d
)作为全连接层的输入,其中m
i
∈R,i=1,2

n,接着经过一个修正线性单元(ReLU)激活函数,然后经过第二个全连接层,最后经过一个Sigmoid函数,把经过变换的输入特征图给转换成权重分布,最后得到的权重就是通道注意力的参数记为β∈[β1,β2…

n
],其中β
i
∈R.然后将激活向量β与输入特征M进行元素相乘,最终输出通道注意力特征图U∈R
w
×
h
×
d
,卷积神经网络的最终输出,记为就是把通道注意力机制作用于输入图像的特征通道集合中,从而实现特征通道的重新缩放,输出公式为:(2)对于空间注意力模块,以特征图中的每个像素点为单位的,对特征图中的每个像素
点都配一个权重,建立空间信息的结构依赖关系去增强模型的特征表达能力;空间注意模块给定一个输入特征图M∈R
d
×
W
×
H
,首先经过三个变换函数h、f、g得到变换后的特征图[O、P、Q]∈R
d
×
W
×
H
,变换函数包括1
×
1卷积层,BN层和ReLU层,把P、Q变换为R
d
×
W
×
H
,用P的转置矩阵乘以Q,再经过一个sigmoid激活函数计算得到经过空间注意特征图,计算公式为:(3)其中s
i,j
表示第i个图像区域与第j个图像区域之间的权重,特征图O也变换为R
d
×
W
×
H
,再将特征图O与权重矩阵S的转置进行矩阵相乘并且将得到的结果重新变换为R
d
×
W
×
H
,由下式计算经过空间注意力模块得到的最终特征输出:其中λ是可学习的学习率,初始化为0,逐渐赋予更大的权重值;双重注意力机制的输出是将通道注意特征和空间注意特征进行元素相加,见公式,以便获得更好的特征表征信息:Y
i
=U
i
+V
i
。4.如权利要求1所述的水下目标跟踪方法,其特征在于,所述基于深度学习的目标跟踪算法利用MatConvNet框架构建全卷积对称网络,使用训练好的网络得到实验图像与模板的多维特征图,两者通过互相关操作,选取置信分数最大的点为所追踪目标的中心位置;同时在对中心位置进行多尺度采样,建立目标模板和样本概率直方图,计算模板与样本间的海林洛距离,将小于概率方差阈值样本过滤掉,选取合适的尺度作为目标追踪窗口的尺度;所述基于深度学习的目标跟踪算法利用Siamese网络能够度量样本间相似度的特性,设计了一种全连接对称网络完成目标中心定位;将Siamese Network架构中用于表征样本的子网络更换成结构为5层卷积2层池化层的卷积神经网络CNN;通过最小化损失函数来获取两张图片相似度最高的位置,实现目标中心定位;同时结合目标尺度自适应算法采用多尺度图像构建样本集,训练多尺度核相关滤波分类器,通过分类器对目标的尺度估计实现目标的最佳尺度检测;在最佳尺度下采集样本在线学习更新分类器,实现尺度自适应的目标跟踪;所述基于深度学习的目标跟踪算法结合多尺度采样方法和相似度匹配进行目标尺度估计,在目标中心位置进行多尺度采样,具体步骤如下:(1)在孪生网络中,通过学习一个相似度匹配函数,计算搜索区域和目标模板之间的相似度,模板图像使用的是视频第一帧的真实框;x代表的是搜索区域,代表在后面的待跟踪帧中候选框的搜索区域;若相似度函数得分较大,则表明两个图像块表示的相同目标;若得到的函数值较小,则表明两个图像块是不同的目标;在视频下一帧图像中,通过在整张图片中寻找最大相似度的候选图像块,确定目标的中心位置;首先初始帧中目标在图像的位置记为L1(L1=w1×
h1),采样窗口大小s
d
w1×
s
d
h1作为模板图像块大小,目标图像区域记为z
d
,其中s
d

【专利技术属性】
技术研发人员:黄磊王秋倩李晓静魏志强
申请(专利权)人:中国海洋大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1