一种基于跨模态融合的视频行为识别方法技术

技术编号：37964529 阅读：24 留言：0更新日期：2023-06-30 09:39

本发明专利技术提供一种基于跨模态融合的视频行为识别方法，包括以下步骤：对视频流进行下采样处理，将下采样后的各帧图像划分为像素块，采用线性投射层计算出图像特征向量输入Transformer空间编码器得到每帧视频的图像特征序列；对惯性运动传感器数据进行分段处理，逐段地对数据采用线性映射升维再输入Transformer时序编码器传感器特征序列；将图像特征序列作为键和值向量，将传感器特征序列作为查询向量输入带掩码Transformer时间编码器得到时序融合后的多模态特征，将多模态特征输入多层感知机MLP，由MLP输出视频识别的结果。本发明专利技术通过空间编码的Transformer和时间编码的Transformer联合地从视频流数据和惯性运动传感器数据中提取时空语义特征和人体运动特征，并基于跨模态编码的Transformer方法完成行为识别。完成行为识别。完成行为识别。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于跨模态融合的视频行为识别方法

[0001]本专利技术属于深度学习领域，涉及跨模态融合的视频行为识别技术。

技术介绍

[0002]近年来，随着可穿戴智能设备、智能家居等的推广，以及社交媒体平台上大量用户视频的产生，使视频识别方法成为计算机视觉中最普遍和热门的领域之一。视频行为识别具有广泛的应用前景，包括人机交互、健康监测、安防监控、游戏娱乐和基于视频内容检索等。视频识别是视频理解领域的基础，在这些实际应用中，都需要识别与区分场景中执行的动作，甚至可以基于该推断执行进一步的决策或处理。因此，视频行为识别方法的研究具有十分重大的实际意义。
[0003]目前，基于深度学习的行为识别的算法已经成为普遍使用的方法。其中利用3D卷积神经网络对视频流提取场景特征、运动特征是行为识别方法的一个重要分支，利用循环卷积神经网络对时序性的惯性运动传感器数据提取肢体运动特征是行为识别的另一个分支。
[0004]此前，基于3D卷积神经网络的视频行为识别方法已经被广泛使用并取得了显著的效果。在目前的主流算法中，只采用3D卷积网络提...

【技术保护点】

【技术特征摘要】
1.一种基于跨模态融合的视频行为识别方法，其特征在于，包括以下步骤：视频数据处理步骤：对视频流进行下采样处理，将下采样后的各帧图像划分为无重叠的像素块，采用线性投射层计算出图像特征向量，再将特征向量输入Transformer空间编码器得到每帧视频的图像特征序列；惯性运动传感器数据处理步骤：对传感器数据进行分段处理，逐段地对数据采用线性映射升维得到运动特征向量，再将传感器特征向量输入Transformer时序编码器得到与特征表示维度对齐的时间片段的传感器特征序列；视频识别步骤：将图像特征序列作为键和值向量，将传感器特征序列作为查询向量输入带掩码Trans...

【专利技术属性】
技术研发人员：周毓轩，李宏亮，谢晶晶，梁悦，刘黛瑶，万金鹏，孟凡满，吴庆波，许林峰，潘力立，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人