一种基于孪生网络结构和锚框自适应思想的RGBT目标跟踪方法技术

技术编号:38463123 阅读:9 留言:0更新日期:2023-08-11 14:40
本发明专利技术属于图像处理领域,公开了一种基于孪生网络结构和锚框自适应思想的RGBT目标跟踪方法,用于解决传统的RGBT目标跟踪方法在可见度低或者照明条件较差等情况下难以实现鲁棒性跟踪的难题。模型包括基于孪生网络结构的特征提取网络、跨模态信息互补的融合网络和基于锚框自适应思想的跟踪预测网络;本发明专利技术利用可见光和热红外图像信息的互补性和一致性设计基于孪生网络结构的特征提取网络,增强网络对目标的表征能力;同时设计跨模态信息互补的融合方案,增强跟踪模型在复杂场景下跟踪器的鲁棒性;基于锚框自适应思想的跟踪预测网络使跟踪器具有更强的灵活性。本发明专利技术的方法可以实现对复杂背景的目标进行跟踪,跟踪精度更高,且效率更好。且效率更好。且效率更好。

【技术实现步骤摘要】
一种基于孪生网络结构和锚框自适应思想的RGBT目标跟踪方法


[0001]本专利技术属于图像处理领域,具体涉及一种基于孪生网络结构和锚框自适应思想的RGBT目标跟踪方法。

技术介绍

[0002]RGBT跟踪任务旨在利用可见光数据和热红外数据的互补优势,实现复杂环境下的视觉目标跟踪,其目的是确定各种场景下给定目标的位置和大小。作为计算机视觉领域一项基本且具有挑战性的任务,目标跟踪技术现已广泛应用于智能安防、交通控制、医学治疗和诊断、人机交互和现代军事等众多实际领域。尽管相关研究和应用已经取得了重大进展,但现有的目标跟踪器大多数是基于单模态数据实现的,其鲁棒性和可靠性在复杂环境下有限,如基于可见光数据的目标跟踪器在可见度低或者照明条件较差的情况下难以实现强鲁棒性的跟踪效果。近年来提出了大量的RGBT跟踪方法来解决这些问题,但由于无法有效挖掘多模态信息中所包含的目标特征信息,通常会导致跟踪漂移。

技术实现思路

[0003]本专利技术的目的在于克服现有技术的不足,提供一种基于孪生网络结构和锚框自适应思想的RGBT目标跟踪方法,所述RGBT目标跟踪方法可以实现对复杂背景的目标进行跟踪,跟踪精度更高,且效率更好。
[0004]本专利技术解决上述技术问题的技术方案是:
[0005]一种基于孪生网络结构和锚框自适应思想的RGBT目标跟踪方法,包括以下步骤:
[0006](S1)、构建数据集:从公开的RGB数据集和RGBT目标跟踪数据集中按需筛选出数据,得到对应预训练数据集和训练数据集;
[0007](S2)、构建网络:包括基于孪生网络结构的特征提取网络、跨模态信息互补的融合网络和基于锚框自适应思想的跟踪预测网络;
[0008](S3)、将从(S1)步骤中得到的预训练数据集对基于孪生网络结构的特征提取网络进行预训练,采用梯度下降法训练至损失值基本收敛;随后再利用S1步骤中得到的训练数据集对跟踪模型进行微调,并降低学习率进行训练,采用随机梯度下降法训练至损失值基本收敛,获得训练好的网络;
[0009](S4)、获取可见光图像和热红外图像中待跟踪目标模板,计算后续帧的搜索区域,再利用训练好的网络对可见光和红外视频序列进行跟踪,获得跟踪结果。
[0010]优选的,在步骤(S2)中,基于孪生网络结构的特征提取网络、跨模态信息互补的融合网络和基于锚框自适应思想的跟踪预测网络的构建,包括以下步骤:
[0011](S2

1)、构建特征提取网络:特征提取网络为基于孪生网络结构的特征提取网络,采用深层次、多分支结构,包括特征提取和特征增强两部分;特征提取部分由包含4条修改后的ResNet

50构成,特征增强部分包含两个基于注意力机制的图像增强模块,
[0012](S2

2)、构建跨模态信息互补的融合网络:为一种跨模态特征融合方案,通过4个1
×
1的卷积模块实现跨模态特征的融合;融合后的结果经过互相关操作得到用于预测目标跟踪结果的响应图;
[0013](S2

3)、构建基于锚框自适应思想的跟踪预测网络:基于锚框自适应思想的跟踪预测网络包含两个结构相同的跟踪预测头。每个检测头均包含3个分支,分别是用于预测响应图中每个位置类别的分类分支;用于计算该位置的目标包围框的回归分支;用于计算每个位置的中心度得分,剔除异常值的中心度分支。
[0014]优选的,在步骤(S3)中,基于孪生网络结构的特征提取网络的预训练和跟踪模型的微调,包括以下步骤:
[0015](S3

1)、特征提取网络包含4条结构相同的ResNet

50,我们使用基于可见光数据构成的预训练数据集对其中一条特征提取网络进行预训练,预训练模型的输入图像尺寸为127
×
127,采用随机梯度下降法优化跟踪模型至模型收敛,并保存训练好的预训练模型;
[0016](S3

2)、使用(S2

1)步骤中保存的预训练模型初始化特征提取网络中的特征提取部分参数,冻结所有ResNet

50的前两层,使用在S1步骤中获得的训练数据集微调跟踪模型,并降低学习率进行训练,采用随机梯度下降法训练至损失值基本收敛;获得训练好的网络。
[0017]优选的,在步骤(S4)中,获取可见光图像和热红外图像中待跟踪目标模板和进行跟踪,包括以下步骤:
[0018](S4

1)、目标的模板获取是在跟踪的开始阶段,目标的模板为视频序列初始帧中的目标,后续帧为候选帧;
[0019](S4

2)、模型的输入分别是两种模态视频序列的第一帧和待检测帧裁剪出来的图像块,RGB模板图像、RGB候选图像、热红外模板图像和热红外候选图像,并统一模板图像和候选图像的输入大小,分别设置为127
×
127个像素和255
×
255个像素;
[0020](S4

3)、将从步骤(S4

1)和(S4

2)中得到的RGB模板图像、RGB候选图像、热红外模板图像和热红外候选图像分别经过特征提取网络的特征提取部分和特征增强部分,分别得到RGB模板特征、RGB候选特征、热红外模板特征和热红外候选特征、RGB模板增强特征、RGB候选增强特征、热红外模板增强特征和热红外候选增强特征;
[0021](S4

4)、在步骤(S4

3)的基础上,经过跨模态信息互补的融合网络分别将RGB模板特征和热红外模板增强特征进行融合、将RGB候选特征和热红外候选增强特征进行融合、将热红外模板特征和RGB模板增强特征进行融合、将热红外候选特征和RGB候选增强特征进行融合,分别得到跨模态信息互补增强后的RGB模板特征、RGB候选特征、热红外模板特征和热红外候选特征;
[0022](S4

5)、将新生成的RGB模板特征、RGB候选特征、热红外模板特征和热红外候选特征;两两进行互相关操作得到用于跟踪预测的响应图;
[0023](S4

6)、最后再将响应图输入到基于锚框自适应思想的跟踪预测网络,通过生成一个6D向量t=(cls,cen,l,t,r,b)完成对位置的预测,其中cls表示分类得分,cen表示中心度得分,l+r和t+b表示当前帧中目标预测的宽和高。
[0024]优选的,在步骤(S2

1)中,我们结合特征金字塔结构设计特征提取网络,并对ResNet

50网络进行了必要的改进,删除了原ResNet

50中最后2个卷积块(Conv4和Conv5)
中的下采样操作,以提供更详细的空间详细用于跟踪器的预测,并使用空洞率为2和4的空洞卷积代替Conv4和Conv5中的卷积核,以提升感受野范围。最本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于孪生网络结构和锚框自适应思想的RGBT目标跟踪方法,其特征在于,包括以下步骤:(S1)、构建数据集:从公开的RGB数据集和RGBT目标跟踪数据集中按需筛选出数据,得到对应预训练数据集和训练数据集;(S2)、构建网络:包括基于孪生网络结构的特征提取网络、跨模态信息互补的融合网络和基于锚框自适应思想的跟踪预测网络;(S3)、将从(S1)步骤中得到的预训练数据集对基于孪生网络结构的特征提取网络进行预训练,采用梯度下降法训练至损失值基本收敛;随后再利用S1步骤中得到的训练数据集对跟踪模型进行微调,并降低学习率进行训练,采用随机梯度下降法训练至损失值基本收敛,获得训练好的网络;(S4)、获取可见光图像和热红外图像中待跟踪目标模板,计算后续帧的搜索区域,再利用训练好的网络对可见光和红外视频序列进行跟踪,获得跟踪结果。2.根据权利要求1所述的基于孪生网络结构和锚框自适应思想的RGBT目标跟踪方法,其特征在于,在步骤(S2)中,基于孪生网络结构的特征提取网络、跨模态信息互补的融合网络和基于锚框自适应思想的跟踪预测网络的构建,包括以下步骤:(S2

1)、构建特征提取网络:特征提取网络为基于孪生网络结构的特征提取网络,采用深层次、多分支结构,包括特征提取和特征增强两部分;特征提取部分由包含4条修改后的ResNet

50构成,特征增强部分包含两个基于注意力机制的图像增强模块;(S2

2)、构建跨模态信息互补的融合网络:为一种跨模态特征融合方案,通过4个1
×
1的卷积模块实现跨模态特征的融合;融合后的结果经过互相关操作得到用于预测目标跟踪结果的响应图;(S2

3)、构建基于锚框自适应思想的跟踪预测网络:基于锚框自适应思想的跟踪预测网络包含两个结构相同的跟踪预测头。每个检测头均包含3个分支,分别是用于预测响应图中每个位置类别的分类分支;用于计算该位置的目标包围框的回归分支;用于计算每个位置的中心度得分,剔除异常值的中心度分支。3.根据权利要求1所述的基于孪生网络结构和锚框自适应思想的RGBT目标跟踪方法,其特征在于,在步骤(S3)中,基于孪生网络结构的特征提取网络的预训练和跟踪模型的微调,包括以下步骤:(S3

1)、特征提取网络包含4条结构相同的ResNet

50,我们使用基于可见光数据构成的预训练数据集对其中一条特征提取网络进行预训练,预训练模型的输入图像尺寸为127
×
127,采用随机梯度下降法优化跟踪模型至模型收敛,并保存训练好的预训练模型;(S3

2)、使用(S2

1)步骤中保存的预训练模型初始化特征提取网络中的特征提取部分参数,冻结所有ResNet

50的前两层,使用在S1步骤中获得的训练数据集微调跟踪模型,并降低学习率进行训练,采用随机梯度下降法训练至损失值基本收敛;获得训练好的网络。4.根据权利要求1所述的基于孪生网络结构和锚框自适应思想的RGBT目标跟踪方法,其特征在于,在步骤(S4)中,获取可见光图像和热红外图像中待跟踪目标模板和进行跟踪,包括以下步骤:(S4

1)、目标的模板获取是在跟踪的开始阶段,目标的模板为视频序列初始帧中的目标,后续帧为候选帧;
(S4

2)、模型的输入分别是两种模态视频序列的第一帧和待检测帧裁剪出来的图像块,RGB模板图像、RGB候选图像、热红外模板图像和热红外候选图像,并统一模板图像和候选图像的输入大小,分别设置为127
×
127个像素和255
×
255个像素;(S4

3)、将从步骤(S4

1)和(S4

2)中得到的RGB模板图像、RGB候选图像、热红外模板图像和热红外候选图像分别经过特征提取网络的特征提取部分和特征增强部分,分别得到RGB模板特征、RGB候选特征、热红外模板特征和热红外候选特征、RGB模板增强特征、RGB候选增强特征、热红外模板增强特征和热红外候选增强特征;(S4

4)、在步骤(S4

3)的基础上,经过跨模态信息互补的融合网络分别将RGB模板特征和热红外模板增强特征进行融合、将RGB候选特征和热红外候选增强特征进行融合、将热红外模板特征和RGB模板增强特征进行融合、将热红外候选特征和RGB候选增强特征进行融合,分别得到跨模态信息互补增强后的RGB模板特征、RGB候选特征、热红外模板特征和热红外候选特征;(...

【专利技术属性】
技术研发人员:秦玉文陈建明豆嘉真钟丽云邸江磊
申请(专利权)人:广东工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1