当前位置: 首页 > 专利查询>安徽大学专利>正文

一种基于困难样本感知的RGBT目标跟踪方法技术

技术编号:28467584 阅读:26 留言:0更新日期:2021-05-15 21:34
本发明专利技术公开一种基于困难样本感知的RGBT目标跟踪方法,包括对行可见光图片和热红外图片进行配准标注分成训练集和测试集,然后对构建对应模型对预处理后的图片进行训练和测试;模型中包括实时跟踪网络RT

【技术实现步骤摘要】
一种基于困难样本感知的RGBT目标跟踪方法


[0001]本专利技术属于计算机视觉目标跟踪技术,具体涉及一种基于困难样本感知的RGBT目标跟踪方法。

技术介绍

[0002]视频目标跟踪作为计算机视觉中的一个重要分支,在视频监控、无人机巡航、智能监控等应用中起到了关键的作用,同时也能帮助解决其他计算机视觉任务。目标跟踪是给出第一帧中的目标,在后续帧中利用一个合适大小的矩形框实现目标物体的跟踪,其中包含每一帧中物体的尺度信息和位置信息。
[0003]随着深度学习的快速发展,视频目标跟踪的性能问题得到了很大的提升,但在跟踪问题中仍然有很多的问题需要进一步的解决。视频目标跟踪是基于视频帧来处理的,所以在视频帧跟踪的过程中,背景和前景都会发生变化,因此主要的挑战包括:遮挡、形变、背景杂乱、尺度变化、光照等,这些挑战无疑增加了视频目标跟踪的难度。当前一些跟踪器有针对性地解决相关的挑战以此来提高跟踪的效率。同时也出现了利用其他模态的图片信息来弥补单个模态的缺陷,减缓甚至消除单个模态下某些挑战的影响。因此,越来越多的研究关注于利用多模态的互补信息来提高跟踪性能,热红外模态尤其适合于低光照或者光照变化强烈的条件下。
[0004]近年来,研究者们提出众多深度度量学习方法,并在图像检索、行人车辆的重识别以及目标跟踪上取得很好的效果。深度度量学习方法通过采用卷积神经网络作为其嵌入函数,极大的提高了嵌入表达的性能。具体来说,这些方法训练神经网络将图像投影到一个嵌入空间上,如果两个样本示例在语义上相似,那么样本间的欧式距离或马氏距离就会比较小,否则距离就会比较大。因此,深度度量学习的加入,可以辅助分类器对样本进行更好的分类,可以应用于许多分类任务中。

技术实现思路

[0005]专利技术目的:本专利技术的目的在于解决现有技术中存在的不足,提供一种基于困难样本感知的RGBT目标跟踪方法,通过挖掘更多有价值的困难样本加入训练,提高RGBT目标跟踪模型的判别性和鲁棒性。
[0006]技术方案:本专利技术的一种基于困难样本感知的RGBT目标跟踪方法,包括以下步骤:
[0007]步骤S1、构建数据库,获得数据集;
[0008]采集多模态相机拍摄的图片,并对图片进行人工配准和标注,按要求筛选出适合训练和测试的图片,并标注上相应挑战,形成对应训练集和测试集;
[0009]步骤S2、分别对训练集RGBT234和测试集GTOT中的图片进行预处理,即将每一张图片所在的路径位置和图片内目标所处的像素位置均分别加入到各自的XML文件内,以方便后续对图片的读入;
[0010]步骤S3、通过MLX文件读取对应图片信息,所述图片信息包括图片的路径、图片内
目标的坐标等,然后对训练集中的图片进行数据增强的预处理(例如旋转、缩放、平移、翻转、裁剪等),进而扩充训练集中的图片数据量,丰富图片的数据量;
[0011]步骤S4、构建优化目标跟踪模型,该模型中包括实时跟踪网络RT

MDNet、VGG

M特征提取模块、前景增强模块、特征嵌入模块和二分类模块;具体方法为:
[0012]S4.1、将预处理后的可见光图片和热红外图片同时输入到网络中(基础网是RT

MDNet);
[0013]S4.2、加载两个结构相同且参数不同的VGG

M特征提取模块分别对两个数据源(即是指训练集中的可见光图片和热红外图片)的数据进行特征提取;
[0014]S4.3、针对步骤S4.2所提取的特征,使用全局平均池化GAP层和softmax层进行特征融合;即计算每个模态的特征图的全局平均池化的结果,然后送到softmax,计算其通道权重,然后将每个模态的特征的通道权重和特征相乘再拼接;
[0015]S4.4、使用自适应的ROIAlign将原图(此处原图是指步骤S4.1中输入的可见光和热红外图片)上样本的矩形包围盒映射到原图的特征图上,得到相应的样本特征;
[0016]S4.5、将步骤S4.4提取的样本特征通过前景增强模块生成前景掩膜,用于增强前景特征;即通过前景增强模块来增强前景的特征并同时抑制背景噪声带来的负面影响;
[0017]S4.6、使用困难感知的结构性损失函数挖掘更多困难样本来训练特征嵌入空间,用来辅助分类器目标背景的分类;
[0018]S4.7、使用softmax损失函数计算二分类损失,再与困难样本感知的结构性损失函数一起共同更新网络参数。
[0019]进一步地,所述步骤1中多模态相机拍摄的图片包括可见光图片和热红外图片;人工标注时使用labelimg标注软件,对包含目标的部分画框,生成的坐标格式为(xmin,ymin,width,height),
[0020]其中,(xmin,ymin)代表目标左上角信息,(width,height)表示的是目标框的宽和高。
[0021]进一步地,所述步骤S2中将标注完成的可见光图片和热红外图片分别放在nfrared和visible两个文件夹内,坐标文件按照infrared.txt和visible.txt格式和两个文件夹在同一目录下。
[0022]进一步地,所述步骤S4.2中将可将光图片和热红外图片输入到网络后,使用两个结构相同但参数不同的VGG

M预训练网络分别对这两个不同模态提取不同模态的特征;每个VGG

M预训练网络均包括三层卷积层,分别是:
[0023]第一层为卷积层,使用7*7*96卷积核,步长为2,对图像进行卷积操作,然后使用局部响应归一化LRN层归一化数据,帮助模型快速收敛并提高模型的泛化能力,然后使用3*3的Max Pool操作;
[0024]第二层为卷积层,使用5*5*256卷积核,步长为2,对图像进行卷积操作,再使用一个LRN层归一化数据;
[0025]第三层为卷积层,使用3*3*512卷积核进行卷积操作。
[0026]进一步地,所述步骤S4.3中使用全局平均池化GAP层和softmax层融合两个模态的特征。
[0027]进一步地,所述步骤S4.5中使用前景增强模块对目标增强的详细方法为:
[0028](1)对于同一个特征图分别经过两个相同结构的网络:前景网络和背景网络;前景网络中先使用目标增强模块对前景目标进行学习前景的mask,这样学习到的前景特征的信息被加强,而背景的噪声信息一定程度上也能被压制,然后使用中间的目标注意力损失函数对前景mask的学习;最终得到对应特征图。
[0029]其中,目标增强模块的网络结构通过对应卷积操作进行目标增强,依次为:使用1*1*256卷积核来对特征进行降维,3*3*128的卷积核继续提取特征,1*1*64卷积核进行特征降低维数减少网络参数。
[0030](2)将所得特征图对应通道的特征值进行相加求平均,然后按照通道池化操作通过一个sigmoid函数,就生成对应一个前景mask。
[0031](3)生成本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于困难样本感知的RGBT目标跟踪方法,其特征在于:包括以下步骤:步骤S1、构建数据库,获得数据集采集多模态相机拍摄的图片,并对图片进行人工配准和标注,按要求筛选出适合训练和测试的图片,并标注上相应挑战,形成对应训练集和测试集;步骤S2、分别对训练集和测试集中的图片进行预准备,即将每一张图片所在的路径位置和图片内目标所处的像素位置均加入到一个各自的XML文件内,以方便后续对图片的读入;步骤S3、通过MLX文件读取对应图片信息,所述图片信息包括图片的路径、图片内目标的坐标,然后对训练集中的图片进行数据增强的预处理操作,进而扩充训练集中的图片数据量;步骤S4、构建优化目标跟踪模型,该模型中包括实时跟踪网络RT

MDNet、VGG

M特征提取模块、前景增强模块、特征嵌入模块和二分类模块;具体方法为:S4.1、将预处理后的可见光图片和热红外图片同时输入到网络中;S4.2、加载两个结构相同且参数不同的VGG

M特征提取模块分别对训练集中的可见光图片和热红外图片进行特征提取;S4.3、针对步骤S4.2所提取的特征,使用全局平均池化GAP层和softmax层进行特征融合;S4.4、使用自适应的ROIAlign将原图上样本的矩形包围盒映射到原图的特征图上,得到相应的样本特征;S4.5、将步骤S4.4提取的样本特征通过前景增强模块生成前景掩膜来增强前景特征;S4.6、使用困难感知的结构性损失函数挖掘更多困难样本来训练特征嵌入空间,用来辅助分类器目标背景的分类;S4.7、使用softmax损失函数计算二分类损失,再与困难样本感知的结构性损失函数一起共同更新网络参数。2.根据权利要求1所述的基于困难样本感知的RGBT目标跟踪方法,其特征在于:所述步骤1中多模态相机拍摄的图片包括可见光图片和热红外图片;人工标注时使用labelimg标注软件,对包含目标的部分画框,生成的坐标格式为(xmin,ymin,width,height),其中,(xmin,ymin)代表目标左上角信息,(width,height)表示的是目标框的宽和高。3.根据权利要求1所述的基于困难样本感知的RGBT目标跟踪方法,其特征在于:所述步骤S2中将标注完成的可见光图片和热红外图片分别放在infrared和visible两个文件夹内,坐标文件按照infrared.txt和visible.txt格式和两个文件夹在同一目录下。4.根据权利要求1所述的基于困难样本感知的RGBT目标跟踪方法,其特征在于:所述步骤S4.2中将可将光图片和热红外图片输入到网络后,使用两个结构相同但参数不同的VGG

M预训练网络分别对这两个不同模态提取不同模态的特征;每个VGG

M预训练网络均包括三层卷积层,分别是:第一层为卷积层,使用7*7*96卷积核,步长为2,对图像进行卷积操作,然后使用局部响应归一化LRN层归一化数据,然后使用3*3的Max Pool操作;第二层为卷积层,使用5*5*256卷积核,步长为2,对图像进行卷积操作,再使用一个LRN层归一化数据;
第三层为卷积层,使...

【专利技术属性】
技术研发人员:涂铮铮林春李成龙汤进罗斌
申请(专利权)人:安徽大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1