一种足式机器人动态目标跟踪方法技术

技术编号:37131420 阅读:10 留言:0更新日期:2023-04-06 21:29
本发明专利技术公开了一种足式机器人动态目标跟踪方法。首先,采集佩戴口罩,未佩戴口罩和未正确佩戴口罩的行人行走过程中的图像和视频,搭建用于行人口罩佩戴检测的数据集。其次,采用基于递归神经网络的目标识别模块,判断行人是否佩戴口罩,获取当前帧中未佩戴口罩行人的面部位置坐标。再次,采用残差网络作为基准网络,提取当前图像帧中未佩戴口罩行人的面部语义特征,预测下一图像帧中该行人的面部语义特征。最后,设计基于孪生网络的目标跟踪模块,通过计算当前帧及下一帧中行人面部位置语义特征映射间的相关系数,对未佩戴口罩行人进行跟踪,从而实现足式机器人对动态目标的跟踪。本发明专利技术能够应用于疫情防控条件下足式机器人巡检过程中。检过程中。

【技术实现步骤摘要】
一种足式机器人动态目标跟踪方法


[0001]本专利技术涉及目标检测领域,具体为一种足式机器人动态目标跟踪方法。

技术介绍

[0002]在新冠病毒肺炎肆虐之下,国内疫情防控总体形势依然严峻,校园、医院、公园等环境人员密集、接触面广、流动性大,其疫情防控和安全保障任务十分艰巨。在人群密集场所采用足式机器人进行安全巡检,对重要目标进行准确识别和跟踪,将对当前的疫情防控具有重要的应用价值和现实意义。
[0003]基于视觉的动态目标跟踪是计算机视觉中较为基础的研究问题,正在被广泛地应用于智慧监控、工业检测和人机交互等诸多领域,具有重要的研究和应用价值,但其仍面临复杂场景下的诸多挑战,如视觉传感器震动导致获取的图像模糊不清、目标相互遮挡、环境光照变化明显、背景干扰等。
[0004]近年来,深度学习算法的深入研究进一步推动了环境感知性能的提升,在目标分类等任务上甚至达到或超过了人类识别的精度,因此,许多基于深度学习的目标跟踪方法被提出。相比于传统方法,基于深度学习的动态目标跟踪方法因其更强的准确性和鲁棒性受到了广大研究者的关注。
[0005]目标尺度和纵横比变化大在动态目标跟踪过程中非常容易发生,传统方法首先从输入视频图像帧中对动态目标进行识别,生成目标所在位置的边界框,判断目标种类并与视频下一帧进行比较,根据两帧图像之间的相关系数实现对动态目标的跟踪。但动态目标跟踪过程中目标尺度和纵横比会随着目标或视觉传感器的运动而变化,导致生成的包含目标的边界框超参数不够准确,因此无法有效匹配前后两帧图像中同一目标,很难判断下一帧图像中目标所在的具体位置,当目标运动或视觉传感器震动导致图像模糊不清时跟踪效果不佳。
[0006]近年来,一系列基于深度学习的动态目标跟踪方法已被提出,例如Bertinetto等人在European Conference on Computer Vision提出使用孪生网络(Siamese Network)进行动态目标识别,该网络包含识别分支和回归分支,分别用于获取下一帧图像中的目标语义特征和计算当前帧与下一帧中目标语义特征的相关系数,并根据所获得的相关系数对前后两帧图像帧中同一目标进行匹配。实验证明,该方法可得到更出色的动态目标跟踪性能,足以证明深度学习算法在动态目标跟踪上的确具有优异表现。然而这类方法不能很好地分析输入视频多帧图像中的动态目标语义特征信息,难以准确跟踪动态目标。经过相关技术检索发现,目前尚无满足当目标运动或视觉传感器震动导致图像模糊不清时基于深度学习的足式机器人动态目标跟踪方法。

技术实现思路

[0007]为了解决足式机器人动态目标跟踪方法无法解决受运动模糊影响下的动态目标跟踪准确率低的问题,本专利技术提出了足式机器人动态目标跟踪新方法,该方法通过融合输
入视频多帧图像中的动态目标语义特征信息,能够在输入视频受运动模糊影响较大的情况下,对动态目标进行识别与跟踪,提高了足式机器人动态目标识别与跟踪的准确率。
[0008]本专利技术提供一种足式机器人动态目标跟踪方法,该方法包括训练和测试两个阶段,其中,训练阶段由基于递归神经网络的目标识别模块,基于残差网络的目标语义特征提取模块以及基于孪生网络的目标跟踪模块实现。基于残差网络的目标语义特征提取模块采用ResNet

50模型作为基准网络,并删除了最后两层的下采样操作,其中第4组和第5组卷积块的步长设置为1。为了减少计算负担,在最后增加了1
×
1卷积块,将输出特征的通道数减小至256,并且仅使用模板分支中心7
×
7区域的特征,该特征仍可以捕获整个目标区域。该模块包含模板分支和搜索分支,分别用于提取当前图像帧中的目标语义特征和预测下一图像帧中的目标语义特征。基于孪生网络的目标跟踪模块包含识别分支和回归分支,分别用于获取下一图像帧中的目标语义特征映射和计算当前图像帧与下一图像帧中目标语义特征映射间的相关系数,每个分支使用深度互相关层来组合特征图。测试阶段:训练完成后,采用足式机器人搭载的基于递归神经网络的目标识别模块,判断行人是否佩戴口罩,利用基于孪生网络的目标跟踪模块对未佩戴口罩的行人进行跟踪。该方法包含以下步骤:
[0009]步骤1:训练数据集准备。
[0010]步骤2:将训练数据集中的视频输入递归神经网络,通过递归神经网络获取标记有行人是否佩戴口罩的信息及其面部边界框信息的相邻帧序列(f
t
‑1,f
t
),t=2,

T

1,其中,f
t
表示标记有行人是否佩戴口罩信息及其面部边界框信息的第t帧图像,其中行人是否佩戴口罩的信息用于判断行人已正确佩戴口罩、未正确佩戴口罩或未佩戴口罩,边界框信息用于获取行人面部位置的坐标。
[0011]步骤3:将递归神经网络获取的相邻帧序列(f
t
‑1,f
t
)输入基于残差网络的目标语义特征提取模块,获取第t帧和第t+1帧序列上行人面部语义特征信息,从模板分支提取的第t帧图像中的行人面部语义特征信息可表示为从搜索分支预测的第t+1帧图像中的行人面部语义特征信息可表示为模板分支的输出特征大小为127
×
127,搜索分支的输出特征大小为255
×
255。
[0012]步骤4:计算损失函数,其中,整体损失函数表达式更新如下:其中,λ1和λ2为超参数,分别定义了整体损失函数中各个分支的权重,λ1=1,λ2=1。L
c
表示第t帧行人是否佩戴口罩的识别损失,采用基于交叉熵的损失函数,其表达式如下:其中y表示根据递归神经网络获取的第t帧图像中行人是否佩戴口罩的置信度值,
表示采用残差网络预测的第t+1帧图像中行人是否佩戴口罩的置信度值。L
r
表示第t帧行人面部语义特征的回归损失,采用基于交并比的损失函数,其表达式如下:L
r
=1

IoU其中,IoU表示第t帧图像中行人的面部边界框预测值与第t+1帧图像中行人的面部边界框真实值的交并比。将残差网络提取到的行人面部语义特征信息和输入基于孪生网络的目标跟踪模块,采用识别分支和回归分支分别提取第t帧及第t+1帧图像中行人面部位置的语义特征映射,分别表示为为了对第t帧和第t+1帧图像中的同一行人面部进行匹配,需要计算两帧之间行人面部语义特征映射:面部语义特征映射:其中*表示卷积操作,P
c
表示识别映射,P
r
表示回归映射。为了对第t帧和第t+1帧图像中的同一行人面部进行匹配,可根据识别映射P
c
和回归映射P
r
计算两帧之间同一行人面部位置间的预测系数P
s
,其表达式如下:P
s
=(1

ω)P
c
+ωP
r
其中ω表示超参数,此处ω=0.6。为了预测第t+1帧图像中行人面部位置的边界框坐标,可根据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种足式机器人动态目标跟踪方法,其特征在于:包括训练和测试两个阶段,其中,训练阶段由基于递归神经网络的目标识别模块,基于残差网络的目标语义特征提取模块以及基于孪生网络的目标跟踪模块实现;基于残差网络的目标语义特征提取模块采用ResNet

50模型作为基准网络,并删除了最后两层的下采样操作,其中第4组和第5组卷积块的步长设置为1;在最后增加了1
×
1卷积块,将输出特征的通道数减小至256,并且仅使用模板分支中心7
×
7区域的特征;该模块包含模板分支和搜索分支,分别用于提取当前图像帧中的目标语义特征和预测下一图像帧中的目标语义特征;基于孪生网络的目标跟踪模块包含识别分支和回归分支,分别用于获取下一图像帧中的目标语义特征映射和计算当前图像帧与下一图像帧中目标语义特征映射间的相关系数,每个分支使用深度互相关层来组合特征图;测试阶段:训练完成后,采用足式机器人搭载的基于递归神经网络的目标识别模块,判断行人是否佩戴口罩,利用基于孪生网络的目标跟踪模块对未佩戴口罩的行人进行跟踪。2.根据权利要求1所述的足式机器人动态目标跟踪方法,其核心在于,训练过程如下:步骤1:训练数据集准备;步骤2:将训练数据集中的视频输入递归神经网络,通过递归神经网络获取标记有行人是否佩戴口罩的信息及其面部边界框信息的相邻帧序列(f
t
‑1,f
t
),t=2,

T

1,其中,f
t
表示标记有行人是否佩戴口罩信息及其面部边界框信息的第t帧图像,其中行人是否佩戴口罩的信息用于判断行人已正确佩戴口罩、未正确佩戴口罩或未佩戴口罩,边界框信息用于获取行人面部位置的坐标;步骤3:将递归神经网络获取的相邻帧序列(f
t
‑1,f
t
)输入基于残差网络的目标语义特征提取模块,获取第t帧和第t+1帧序列上行人面部语义特征信息,从模板分支提取的第t帧图像中的行人面部语义特征信息表示为从搜索分支预测的第t+1帧图像中的行人面部语义特征信息表示为模板分支的输出特征大小为127
×
127,搜索分支的输出特征大小为255
×
255;步骤4:计算损失函数,其中,整体损失函数表达式更新如下:其中,λ1和λ2为超参数,1=1,λ2=1;L
c
表示第t帧行人是否佩戴口罩的识别损失,采用基于交叉熵的损失函数,其表达式如下:其中y表示根据递归神经网络获取的第t帧图像中行人是否佩戴口罩的置信度值,表示采用残差网络预测的第t+1帧图像中行人是否佩戴口罩的置信度值;L
r
表示第t帧行人面部语义特征的回归损失,采用基于...

【专利技术属性】
技术研发人员:曹政才李俊年邵士博张东
申请(专利权)人:北京化工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1