【技术实现步骤摘要】
一种基于知识蒸馏模型的红外和可见光视频的行为识别方法
[0001]专利技术名称
[0002]本专利技术涉及一种基于知识蒸馏模型的红外和可见光视频的行为识别方法,属于计算机视觉领域中视频行为识别
技术介绍
[0003]随着互联网与通信技术的发展,在信息的表达形式中,视频以其直观、生动、便捷等优势,逐渐占据主导地位。在大型的视频网站上,各类视频数以亿计,并且在每分每秒持续增长。随着近年来移动通信技术不断发展,手机成为了一个全新的信息载体。在手机平台上,多种视频应用软件的发展如火如荼。通过这类软件,用户可以随时随地获取网络上的视频资源,并上传自己拍摄的视频。因此,现阶段互联网的视频资源达到了空前大的数量。另一方面,随着人们安全意识的增强,视频监控系统与设备也在高速地发展和普及。现有的视频监控系统只能提供视频数据,无法做到实时监控和预警作用,而需要大量的人力筛选排查。面对海量的数据,需要解决的问题是如何从视频中提取用户感兴趣的、有用的信息。
[0004]到目前为止,大多数的互联网视频、监控系统视频都是基于可见光光谱的。近年来,随着红外成像仪的普及,红外光谱图像逐步被应用在监控系统中。在军事领域,基于红外图像的小目标识别是军事预警体系的重要任务。在民用方面,红外图像也有广泛的应用,包括无人驾驶技术、无人机技术,都需要对周围的环境信息进行检测、识别与筛选。而红外与可见光光谱的结合,对视频监控领域带来了许多优点。红外图像是对物体的热辐射能量大小的直接反映,有较强的抗干扰能力、灵敏度高等优点。利用红外图像,人们可以在完全无光 ...
【技术保护点】
【技术特征摘要】
1.一种基于知识蒸馏模型用于红外和可见光视频的行为识别方法,其特征在于,是指:将待识别的行为视频预处理后输入至训练好的学生网络进行行为识别;训练好的学生网络的获取过程为:使用可见光数据集训练教师网络,通过知识蒸馏,让输入为红外图像的学生网络学习教师网络知识,使学生网络的性能逼近性能好的教师网络。2.根据权利要求1所述的一种基于知识蒸馏模型用于红外和可见光视频的行为识别方法,其特征在于,预处理的过程包括:A、将行为视频截取成若干时间段的视频片段;B、生成包含视频数据路径、每一段视频包含的帧图片数量的文件。3.根据权利要求1所述的一种基于知识蒸馏模型用于红外和可见光视频的行为识别方法,其特征在于,学生网络的训练过程包括步骤如下:(1)训练教师网络;(2)获取教师网络和学生网络的CAM;(3)获取教师网络和学生网络的CAM损失;(4)获取教师网络和学生网络的蒸馏损失;(5)获取教师网络和学生网络的交叉熵损失;(6)最小化CAM损失、蒸馏损失、交叉熵损失来训练学生网络,得到训练好的学生网络。4.根据权利要求3所述的一种基于知识蒸馏模型用于红外和可见光视频的行为识别方法,其特征在于,步骤(1)中,训练教师网络,是指:A、预处理,包括:
①
将从NTU RGB+D数据集获取的avi格式的行为视频截取成若干时间段的视频片段;
②
将对步骤
①
得到的视频片段进行行为分类,即标注行为标签;
③
生成包括行为视频数据路径、每一段视频片段包含的帧图片数量以及步骤
②
得到的行为标签的文件,并按照4:1的比例划分为训练集和测试集;
④
提取每一段视频片段包含的帧图片并保存。B、将步骤A预处理后获取的训练集送入搭建好的Resnet50网络中进行训练,对于输入的训练集的视频片段,利用随机法选择视频片段中的n张帧图片,迭代训练50次;进一步优选的,n=3。5.根据权利要求3所述的一种基于知识蒸馏模型用于红外和可见光视频的行为识别方法,其特征在于,步骤(2)中,教师网络的CAM的求取过程如下:获取教师网络最后一个卷积层的特征映射的加权和,来生成CAM;对于给定的一帧图像,表示教师网络最后一个卷积层上第k个单元,全局平均池化后的总激活程度如式(I)所示:式(I)中,x为卷积层的输入,y为卷积层的输出,k为卷积层上第k个单元,T代表的是教师网络;因此,对于教师网络给定的行为类别c,输入到softmax层的对应类别分数如式(II)所示:
式(II)中,是教师网络对应行为类别c下第k个单元的权重值,该值表明了在行为类别c下的重要程度;最终,softmax层输出的对应行为类别c的概率如式(Ⅲ)所示:将softmax层的输入...
【专利技术属性】
技术研发人员:李玉军,权振振,刘治,胡喜风,郑逸凡,
申请(专利权)人:山东大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。