当前位置: 首页 > 专利查询>河海大学专利>正文

一种视频人体行为识别方法、系统、装置及存储介质制造方法及图纸

技术编号:40008695 阅读:14 留言:0更新日期:2024-01-16 14:55
本发明专利技术公开了一种视频人体行为识别方法、系统、装置及存储介质,对人体行为视频数据集中的每一个样本,先提取获得其RGB图像帧序列,并进行预处理;将每个训练集样本对应的预处理后的RGB图像帧序列输入经过预训练的空间流行为识别子模块、时间流行为识别子模块和时空流行为识别子模块,分别由其特征提取网络提取空间、时间、时空维度特征,获得预测结果,使用多模块融合算法将预测结果进行融合,获得多流网络的人体行为类型识别结果。本发明专利技术不需要手工设计特征,将深度卷积神经网络和Transformer模型结合,能够有效改善模型的序列建模能力和有效提高人体行为识别精准度,并且具有良好的泛化性能。

【技术实现步骤摘要】

本专利技术公开了一种视频人体行为识别方法、系统、装置及存储介质,涉及水利工程施工自动控制领域。


技术介绍

1、近年来,随着监控视频、互联网视频和虚拟现实等应用的广泛使用,社会对于实时行为分析和智能安防系统的需求不断增加,视频中的人体行为识别受到了越来越多的研究者的关注。但是,由于受到光照变化、遮挡、复杂背景、视角变化和行为多样性等因素的影响,视频中的人体行为识别较为困难,具有很大的挑战性。

2、针对深度卷积神经网络,应用最广泛的视频人体行为识别网络架构为双流网络和3d网络。双流网络分别从视频帧序列的空间流和时间流提取特征表示并预测行为类型,最后再进行融合;3d网络则采用3d卷积核从视频帧序列中提取特征表示并预测行为类型。

3、近几年,transformer逐渐替代cnn或与cnn结合来处理主流计算机视觉任务,特别是视频中的人体行为识别任务。transformer相比cnn有更好的序列建模能力,能有效处理视频序列的长时依赖关系,从而更好的提取全局特征。目前,视频人体行为识别领域较常用的结构有vit、vivit、mvit、videosw本文档来自技高网...

【技术保护点】

1.一种基于多流深度神经网络的视频人体行为识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述基于多流深度神经网络的视频人体行为识别方法,其特征在于,所述按帧提取原始视频中多个待识别的RGB图像帧序列,并预处理每个待识别的RGB图像帧序列具体包括以下步骤:

3.根据权利要求1所述基于多流深度神经网络的视频人体行为识别方法,其特征在于,预先训练好的多流深度神经网络包括:构建多流深度神经网络和训练多流深度神经网络:

4.根据权利要求3所述基于多流深度神经网络的视频人体行为识别方法,其特征在于,所述采用特征融合模块在时空流-时间流、时空流-空间流之间...

【技术特征摘要】

1.一种基于多流深度神经网络的视频人体行为识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述基于多流深度神经网络的视频人体行为识别方法,其特征在于,所述按帧提取原始视频中多个待识别的rgb图像帧序列,并预处理每个待识别的rgb图像帧序列具体包括以下步骤:

3.根据权利要求1所述基于多流深度神经网络的视频人体行为识别方法,其特征在于,预先训练好的多流深度神经网络包括:构建多流深度神经网络和训练多流深度神经网络:

4.根据权利要求3所述基于多流深度神经网络的视频人体行为识别方法,其特征在于,所述采用特征融合模块在时空流-时间流、时空流-空间流之间建立交互,逐网络层提取原始视频中人体行为在空间流、时间流和时空流的特征表示具体包括:

5.根据权利要求4所述基于多流深度神经网络的视频人体行为识别方法,其特征在于,所述将特征表示输入分类器获得空间流识别类型概率、时间...

【专利技术属性】
技术研发人员:钱惠敏尚瑞欣陈实陶源
申请(专利权)人:河海大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1