当前位置: 首页 > 专利查询>山东大学专利>正文

一种基于知识蒸馏模型的红外和可见光视频的行为识别方法技术

技术编号:31802411 阅读:10 留言:0更新日期:2022-01-08 11:03
本发明专利技术涉及一种基于知识蒸馏模型的红外和可见光视频的行为识别方法,是指:将待识别的数据预处理后输入至训练好的学生网络进行行为识别。本发明专利技术为了解决红外数据集少,训练效果差,应用难的问题,提出一种基于知识蒸馏模型用于红外和可见光视频的行为识别方法。与现有网络模型相比,利用可见光数据集对比度、信噪比和分辨率高的优势,弥补红外数据集对比度、信噪比和分辨率低的问题;利用可见光数据集多的优势,弥补红外数据集少的问题;利用可见光数据集行为识别的高性能,训练得到性能好的小型网络。的小型网络。的小型网络。

【技术实现步骤摘要】
一种基于知识蒸馏模型的红外和可见光视频的行为识别方法
[0001]专利技术名称
[0002]本专利技术涉及一种基于知识蒸馏模型的红外和可见光视频的行为识别方法,属于计算机视觉领域中视频行为识别


技术介绍

[0003]随着互联网与通信技术的发展,在信息的表达形式中,视频以其直观、生动、便捷等优势,逐渐占据主导地位。在大型的视频网站上,各类视频数以亿计,并且在每分每秒持续增长。随着近年来移动通信技术不断发展,手机成为了一个全新的信息载体。在手机平台上,多种视频应用软件的发展如火如荼。通过这类软件,用户可以随时随地获取网络上的视频资源,并上传自己拍摄的视频。因此,现阶段互联网的视频资源达到了空前大的数量。另一方面,随着人们安全意识的增强,视频监控系统与设备也在高速地发展和普及。现有的视频监控系统只能提供视频数据,无法做到实时监控和预警作用,而需要大量的人力筛选排查。面对海量的数据,需要解决的问题是如何从视频中提取用户感兴趣的、有用的信息。
[0004]到目前为止,大多数的互联网视频、监控系统视频都是基于可见光光谱的。近年来,随着红外成像仪的普及,红外光谱图像逐步被应用在监控系统中。在军事领域,基于红外图像的小目标识别是军事预警体系的重要任务。在民用方面,红外图像也有广泛的应用,包括无人驾驶技术、无人机技术,都需要对周围的环境信息进行检测、识别与筛选。而红外与可见光光谱的结合,对视频监控领域带来了许多优点。红外图像是对物体的热辐射能量大小的直接反映,有较强的抗干扰能力、灵敏度高等优点。利用红外图像,人们可以在完全无光的夜晚,或是在烟云密布的战场,清晰地观察到前方的情况,这些在可见光图像中都是难以呈现的。然而,红外图像也存在一些不足,例如成像的物体缺少清晰的外观、纹理特征。另外,红外成像仪接收机内部还有较强的噪声和背景杂波干扰,使得红外图像存在对比度、信噪比和分辨率较低的问题,而可见光图像能够在一定程度上克服红外图像存在的问题。
[0005]因此,结合红外与可见光两种光谱图像,在智能监控等应用中有很大的意义。基于红外和可见光双视频的行为识别旨在利用红外和可见光两种光谱视频图像的互补性,并训练模型,以识别视频数据中人们感兴趣的行为信息。与基于可见光视频的行为识别算法的蓬勃发展相比较,现有的红外和可见光光谱视频图像行为识别相关算法较少、数据量缺乏,很少用于实际应用。而这种多种光谱图像结合的方式正逐渐成为一种现实迫切需求的研究领域,受到越来越广泛的关注。

技术实现思路

[0006]针对现有技术的不足,本专利技术提出了一种基于知识蒸馏模型用于红外和可见光视频的行为识别方法。
[0007]本专利技术提出了一种用于红外和可见光视频的知识蒸馏模型。该模型的最大贡献是利用可见光的对比度、信噪比和分辨率,弥补红外图像对比度、信噪比和分辨率较低的缺陷,获得高性能、网络参数少的模型。使用可见光数据集训练大型教师网络,通过知识蒸馏,
让输入为红外图像的小型学生网络学习教师网络知识,使学生网络的性能逼近性能好的教师网络。训练得到的小型学生网络不仅可以解决红外数据集少、训练效果不好的问题,还可以用于实际应用,对硬件要求小。
[0008]术语解释:
[0009]1、NTU RGB+D数据集,包含RGB、IR、3D联合信息以及深度图四种模态的数据。数据收集使用了微软Kinect v2传感器。深度图是以毫米为单位的二维深度值序列。每个深度帧的分辨率为512*424。关节信息由场景中被检测和跟踪的人体的25个主要关节的三维位置组成。对于每个关节和每一帧,还提供了RGB帧上相应的像素和深度图。
[0010]2、Kinetics400数据集,该数据集有400个人类动作类,每个动作有400

1150个片段,每个片段都来自一个独特的视频。每一段可以持续10秒左右。目前的版本有306,245个视频,分为三个部分,一个用于培训,每节课有250

1000个视频,一个用于验证,每节课有50个视频,一个用于测试,每节课有100个视频。这些剪辑来自youtube视频,视频有可变的分辨率和帧率。
[0011]3、Resnet50网络,Resnet为残差网络,它的提出是为了解决由于梯度消失,深层网络很难训练的问题。因为梯度反向传播到前面的层,重复相乘可能使梯度无穷小。结果就是,随着网络的层数更深,其性能趋于饱和,甚至迅速下降。残差网络的核心思想是引入一个恒等快捷键(也称之为跳跃连接线),直接跳过一个或者多个层。Resnet50是具有50层结构的残差网络。
[0012]4、CAM,class activation mapping,类激活图,是指在不同空间位置处存在这些视觉图案的加权线性和。通过简单地将类激活映射上采样到输入图像的大小,我们可以识别与特定类别最相关的图像区域。
[0013]5、Resnet18网络,是具有18层结构的残差网络,和Resnet50不一样的地方就是层数不一样,Resnet50网络结构更复杂,参数更多。
[0014]6、TSN,Temporal Segment Network。
[0015]本专利技术的技术方案为:
[0016]一种基于知识蒸馏模型用于红外和可见光视频的行为识别方法,是指:将待识别的行为视频预处理后输入至训练好的学生网络进行行为识别;训练好的学生网络的获取过程为:使用可见光数据集训练教师网络,通过知识蒸馏,让输入为红外图像的学生网络学习教师网络知识,使学生网络的性能逼近性能好的教师网络。
[0017]根据本专利技术优选的,预处理的过程包括:
[0018]A、将行为视频截取成若干时间段的视频片段;
[0019]B、生成包含视频数据路径、每一段视频包含的帧图片数量的文件。
[0020]根据本专利技术优选的,学生网络的训练过程包括步骤如下:
[0021](1)训练教师网络;
[0022](2)获取教师网络和学生网络的CAM;
[0023](3)获取教师网络和学生网络的CAM损失;
[0024](4)获取教师网络和学生网络的蒸馏损失;
[0025](5)获取教师网络和学生网络的交叉熵损失;
[0026](6)最小化CAM损失、蒸馏损失、交叉熵损失来训练学生网络,得到训练好的学生网
络。
[0027]根据本专利技术优选的,步骤(1)中,训练教师网络,是指:
[0028]A、预处理,包括:
[0029]①
将从NTU RGB+D数据集获取的avi格式的行为视频截取成若干时间段(3s)的视频片段;
[0030]②
将对步骤

得到的视频片段进行行为分类,即标注行为标签;
[0031]③
生成包括行为视频数据路径、每一段视频片段包含的帧图片数量以及步骤

得到的行为标签的文件,并按照4:1的比例划分为训练集和测试集;
[0032]④
提取每一段视频片段包含的帧图片并保存本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于知识蒸馏模型用于红外和可见光视频的行为识别方法,其特征在于,是指:将待识别的行为视频预处理后输入至训练好的学生网络进行行为识别;训练好的学生网络的获取过程为:使用可见光数据集训练教师网络,通过知识蒸馏,让输入为红外图像的学生网络学习教师网络知识,使学生网络的性能逼近性能好的教师网络。2.根据权利要求1所述的一种基于知识蒸馏模型用于红外和可见光视频的行为识别方法,其特征在于,预处理的过程包括:A、将行为视频截取成若干时间段的视频片段;B、生成包含视频数据路径、每一段视频包含的帧图片数量的文件。3.根据权利要求1所述的一种基于知识蒸馏模型用于红外和可见光视频的行为识别方法,其特征在于,学生网络的训练过程包括步骤如下:(1)训练教师网络;(2)获取教师网络和学生网络的CAM;(3)获取教师网络和学生网络的CAM损失;(4)获取教师网络和学生网络的蒸馏损失;(5)获取教师网络和学生网络的交叉熵损失;(6)最小化CAM损失、蒸馏损失、交叉熵损失来训练学生网络,得到训练好的学生网络。4.根据权利要求3所述的一种基于知识蒸馏模型用于红外和可见光视频的行为识别方法,其特征在于,步骤(1)中,训练教师网络,是指:A、预处理,包括:

将从NTU RGB+D数据集获取的avi格式的行为视频截取成若干时间段的视频片段;

将对步骤

得到的视频片段进行行为分类,即标注行为标签;

生成包括行为视频数据路径、每一段视频片段包含的帧图片数量以及步骤

得到的行为标签的文件,并按照4:1的比例划分为训练集和测试集;

提取每一段视频片段包含的帧图片并保存。B、将步骤A预处理后获取的训练集送入搭建好的Resnet50网络中进行训练,对于输入的训练集的视频片段,利用随机法选择视频片段中的n张帧图片,迭代训练50次;进一步优选的,n=3。5.根据权利要求3所述的一种基于知识蒸馏模型用于红外和可见光视频的行为识别方法,其特征在于,步骤(2)中,教师网络的CAM的求取过程如下:获取教师网络最后一个卷积层的特征映射的加权和,来生成CAM;对于给定的一帧图像,表示教师网络最后一个卷积层上第k个单元,全局平均池化后的总激活程度如式(I)所示:式(I)中,x为卷积层的输入,y为卷积层的输出,k为卷积层上第k个单元,T代表的是教师网络;因此,对于教师网络给定的行为类别c,输入到softmax层的对应类别分数如式(II)所示:
式(II)中,是教师网络对应行为类别c下第k个单元的权重值,该值表明了在行为类别c下的重要程度;最终,softmax层输出的对应行为类别c的概率如式(Ⅲ)所示:将softmax层的输入...

【专利技术属性】
技术研发人员:李玉军权振振刘治胡喜风郑逸凡
申请(专利权)人:山东大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1