System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种面向黑暗场景的端到端多任务动作识别方法及系统技术方案_技高网
当前位置: 首页 > 专利查询>武汉大学专利>正文

一种面向黑暗场景的端到端多任务动作识别方法及系统技术方案

技术编号:39968580 阅读:4 留言:0更新日期:2024-01-09 00:36
本发明专利技术提供了一种面向黑暗场景的端到端多任务动作识别方法及系统,包括选择实时黑暗场景下摄像头拍摄得到的视频识别或已有黑暗视频片段识别;对视频数据进行预处理然后进行数据集标注与划分;改进VideoSwinTransformer模型,进行训练得到网络权重,形成黑暗场景下识别用的动作识别模型,并对动作识别模型进行轻量化处理;将新的黑暗场景下动作视频作为训练好的动作识别模型测试样本,输出增强后的视频和各个视频的动作类别评分;对输出结果进行分析,通过各个类别评分判断视频动作所属的一个获多个动作类别。本发明专利技术解决了由于黑暗视频帧亮度增强过程独立于动作识别过程导致低照度条件下动作识别准确度低的问题。

【技术实现步骤摘要】

本专利技术涉及计算机视觉视频分析领域中基于深度学习的黑暗场景下动作识别方法,能有效处理黑暗动作识别中方法精度低、方法实时性差和黑暗场景视觉信息弱三大难点问题。


技术介绍

1、黑暗场景下的视频动作识别在全天候监控、夜间自动驾驶等诸多领域有着广泛的应用前景。黑暗场景下摄像头拍摄的视频亮度低、对比度低,可供利用的视觉特征少,对动作识别方法提出了挑战。尽管在正常光照场景下的视频动作识别已经取得了进展,但黑暗场景中的视频动作识别仍然缺乏研究。因此,开发高精度的、可实时检测的、能够增强有效视觉特征的黑暗动作识别方法与系统是实际中一个亟需解决的难点问题。

2、目前,主流的黑暗场景下动作识别方法通过利用亮度增强来提升识别精度,采用的是两阶段的处理方法:

3、(1)视频增强。视频增强就是在对视频进行正式动作识别之前,进行一些提升视频亮度、削弱噪声信息、突出运动信息等提高黑暗视频质量工作的步骤。具体来说,包括将视频段转化为图像、图像亮度增强、图像对比度增强、合成视频等多种方法。核心是图像亮度增强,其作用是提升视频图像整体的亮度,将视频图像的像素值分布由黑暗域迁移到明亮域,使得视频中的人体运动和环境语义信息具有人眼视觉效果友好性和方法运动特征提取鲁棒性。在实际生产过程中,方法设计者需要综合考虑视频增强的算力消耗和运行速度,依靠视觉判断与亮度增强处理方法的选取,采用实验验证的方式来研究视频增强的策略。

4、(2)动作识别。准确捕获视频中时空信息的变化是识别区分人体动作的关键。亮度增强后的背景更加清晰,人类肢体的运动得到强化,黑暗域的时空特征被像素级迁移至明亮域。现有的动作识别方法包含双流法和单流法两种思路:单流法将增强后的视频输入动作识别网络提取运动特征,基于提取后的运动特征进行动作分类。双流法同时使用增强前的黑暗视频和增强后的明亮视频,分别提取两者的运动特征,然后将两者运动特征融合,使用融合特征进行动作分类。

5、上述基于两阶段处理方法的黑暗条件下动作识别方法与早期的直接使用一般动作识别方法相比极大地提高了识别精度,但在识别的效率、实时性与分类的准确性上仍存在着不少缺陷:(1)两个阶段之间的方法选取需要相互配合,并根据实际的实验情况不断调整,面对不同环境情况很难进行推广,且无法实现多任务端到端的增强与识别;(2)预处理与视频增强部分参数需要人工设定,不具备自适应性,识别效果不佳,且与识别速度难以同时提升;(3)视频增强过程中没有考虑到视频的时序变化信息,易受光照条件变化、运动模糊等噪声干扰,鲁棒性较差。


技术实现思路

1、针对现有黑暗条件下动作识别方法所存在的缺点,本专利技术基于深度学习提供了一种新的面向黑暗场景的端到端多任务动作识别方案,将对基于videoswintransformer基本架构的黑暗场景下动作识别方法和损失函数进行改进后的深度网络用于黑暗场景的动作识别,专门用于解决当前存在的问题。针对方法难以推广的问题,本专利技术采用的改进后的videoswintransformer网络同时实现了视频增强和动作识别功能,这种端到端的识别适用于多种场景,不用考虑两个阶段方法之间的配适性,且更加容易调试与改进。针对传统方法检测速度与精度存在固有矛盾的问题,本专利技术采用的深度学习方法需要手动调试的参数大大减少,且可以通过对网络的改进实现对精度和速度的同时提升。针对传统黑暗场景下动作识别方法易受光照条件变化、运动模糊等噪声干扰导致动作误识别的问题,本专利技术将时序滑动窗口方法应用于视频增强子网络增强连续的视频帧,提升分类的准确性。该方法能有效的处理现存黑暗场景下动作识别方法模型难以提取视频时序特征,精度不高、速度不快、鲁棒性不够的问题。

2、为实现上述目的,按照本专利技术的一个方面,提供了一种面向黑暗场景的端到端多任务动作识别方法,包括以下处理,

3、选择实时黑暗场景下摄像头拍摄得到的视频识别或已有黑暗视频片段识别;

4、对视频数据进行预处理,包括从高像素长视频中截取出小段短视频,处理成为视频帧,并对视频帧图像进行裁剪、缩放及归一化操作;然后进行数据集标注与划分;

5、改进videoswintransformer模型,以建立动作识别模型,实现方式为,与videoswintransformer中的基本网络swintransformer-base替换为swintransformer-large,以在swintransformer-base的基础上增加网络的宽度和深度;

6、将transformer视频增强子网络与videoswintransformer网络级联,且transformer视频增强子网络在前,videoswintransformer在后;

7、将transformer视频增强子网络的输出头保留,用于训练优化增强子网络,以提高增强视觉质量;

8、将训练样本作为输入对改进的videoswintransformer模型进行训练,得到网络权重,形成黑暗场景下识别用的动作识别模型,并对动作识别模型进行轻量化处理;

9、将新的黑暗场景下动作视频作为训练好的动作识别模型测试样本,输出增强后的视频和各个视频的动作类别评分;对输出结果进行分析,通过各个类别评分判断视频动作所属的一个获多个动作类别。

10、而且,对视频数据进行预处理的实现方式如下,

11、通过复制等操作针对正负样本视频进行比例调整,使得数据的分布均衡,避免深度学习对某一特征的不充分学习;

12、裁剪、缩放,调整色彩对比度、光照明暗度与图像角度等数据增广操作;

13、随机在1%的图像中加入光照变化调整,使深度网络学习更具鲁棒性。

14、而且,所述的数据集标注与划分,实现方式如下,

15、统一数据集视频的格式后,对黑暗场景下拍摄的视频所属的动作类别进行校验后作为数据标签,训练改进后的videswintransformer网络。

16、为实现有监督学习,将数据集进行扩充后,使用连续抽样的方式,按8:1:1的比例将其划分为训练集、验证集与测试集,并保持其同分布;

17、面对不同应用场景,包装特定的数据集,加载训练完成的网络权重,用特定场景的数据集对网络进行训练,调整网络权重参数与超参数。

18、而且,改进后的videoswintransformer网络中,包含弱光视频增强和动作识别两个部分,进行包括以下处理,将采样得到的连续k帧原始弱光视频图像帧i1~ik输入增强模型,对增强模型结果再进行时序增强,最终得到亮度对比度增强后的增强图像帧ei1~eik;

19、将增强图像帧ei1~eik输入videoswintransformer动作识别网络,videoswintransformer将swintransformer-large作为主干网络用于特征提取,附加一个全连接层,输出各个动作类别评分结果;

20、将videoswintransformer本文档来自技高网...

【技术保护点】

1.一种面向黑暗场景的端到端多任务动作识别方法,其特征在于:包括以下处理,选择实时黑暗场景下摄像头拍摄得到的视频识别或已有黑暗视频片段识别;

2.根据权利要求1所述面向黑暗场景的端到端多任务动作识别方法,其特征在于:对视频数据进行预处理的实现方式如下,

3.根据权利要求1所述面向黑暗场景的端到端多任务动作识别方法,其特征在于:所述的数据集标注与划分,实现方式如下,

4.根据权利要求1所述面向黑暗场景的端到端多任务动作识别方法,其特征在于:改进后的VideoSwinTransformer网络中,包含弱光视频增强和动作识别两个部分,进行包括以下处理,将采样得到的连续k帧原始弱光视频图像帧I1~Ik输入增强模型,对增强模型结果再进行时序增强,最终得到亮度对比度增强后的增强图像帧EI1~EIk;

5.根据权利要求1或2或3或4所述面向黑暗场景的端到端多任务动作识别方法,其特征在于:模型轻量化时,在算法轻量化层面,采用结构优化、模型剪枝与模型蒸馏压缩模型尺寸;在框架轻量化层面上,利用TensorRT实现。

6.一种面向黑暗场景的端到端多任务动作识别系统,其特征在于:用于实现如权利要求1-5任一项所述的一种面向黑暗场景的端到端多任务动作识别方法。

7.根据权利要求6所述面向黑暗场景的端到端多任务动作识别系统,其特征在于:包括以下模块,

8.根据权利要求6所述面向黑暗场景的端到端多任务动作识别系统,其特征在于:包括处理器和存储器,存储器用于存储程序指令,处理器用于调用存储器中的存储指令执行如权利要求1-5任一项所述的一种面向黑暗场景的端到端多任务动作识别方法。

9.根据权利要求6所述面向黑暗场景的端到端多任务动作识别系统,其特征在于:包括可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序执行时,实现如权利要求1-5任一项所述的一种面向黑暗场景的端到端多任务动作识别方法。

...

【技术特征摘要】

1.一种面向黑暗场景的端到端多任务动作识别方法,其特征在于:包括以下处理,选择实时黑暗场景下摄像头拍摄得到的视频识别或已有黑暗视频片段识别;

2.根据权利要求1所述面向黑暗场景的端到端多任务动作识别方法,其特征在于:对视频数据进行预处理的实现方式如下,

3.根据权利要求1所述面向黑暗场景的端到端多任务动作识别方法,其特征在于:所述的数据集标注与划分,实现方式如下,

4.根据权利要求1所述面向黑暗场景的端到端多任务动作识别方法,其特征在于:改进后的videoswintransformer网络中,包含弱光视频增强和动作识别两个部分,进行包括以下处理,将采样得到的连续k帧原始弱光视频图像帧i1~ik输入增强模型,对增强模型结果再进行时序增强,最终得到亮度对比度增强后的增强图像帧ei1~eik;

5.根据权利要求1或2或3或4所述面向黑暗场景的端到端多任务动作识别方法,其特征在于:模型轻量化时,...

【专利技术属性】
技术研发人员:刘远忠涂志刚
申请(专利权)人:武汉大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1