【技术实现步骤摘要】
一种基于多特征融合的视频行为识别方法
[0001]本专利技术属于图像识别
,涉及一种基于多特征融合的视频行为识别方法。
技术介绍
[0002]行为识别是视频理解中的一个重要任务,在视频推荐系统,人机交互,游戏娱乐等领域有重要的应用。
[0003]为了更好的理解行为识别,需要从多个角度对视频中的信息进行分析。目前人们常采集RGB信息,通过端到端的方法对视频中的行为进行分类。
[0004]随着传感器和多种信息提取算法的出现,人们可以从多个视角来提取对特定人物有用的信息。目前多特征融合的行为识别方法,如通过提取光流信息和图像空间信息,对动作和外形信息进行融合,如slowfast,通过两个支路,提取空间和时间的信息进行融合。视频中的人体骨骼信息,常常作为简单行为识别的特征描述。语义分割信息,可以用以区分前景和背景信息,屏蔽无效的背景信息。
[0005]基于上述有效信息,本专利技术针对单一特征表达能力有限的问题,通过提取多个视角的特征,进行互补性的融合操作,对识别效果进行增强,视频中的行为,人物和场景信息 ...
【技术保护点】
【技术特征摘要】
1.一种基于多特征融合的视频行为识别方法,其特征在于,包括如下步骤:步骤一,对视频序列进行图像帧采样,得到原始的RGB图像序列,后送入3DCNN网络进行特征提取,获取特征后通过全连接进行全连接维度变换生成;步骤二,对原始的RGB图像序列进行 skeleton提取,获取关键点热度图视频序列,后送入3DCNN网络中进行特征提取,获取特征后通过全连接进行全连接变换生成;步骤三,对原始的RGB图像序列进行语义分割,获取语义分割热度图序列,将语义分割热度图序列跟对应的原始的RGB图像序列进行与操作,生成前景分割图像序列,再将送入3DCNN网络中进行特征提取,获取特征后通过全连接进行全连接维度变换生成;步骤四,将、、通过全连接,进行全连接维度变换后融合,进行分类操作。2.如权利要求1所述的一种基于多特征融合的视频行为识别方法,其特征在于,所述3DCNN网络包括8个3*3*3卷积层,5个池化层,2个全连接层,和1个softmax分类层。3.如权利要求1所述的一种基于多特征融合的视频行为识别方法,其特征在于,所述原始的RGB图像序列的大小为T
×3×
H
×
W,其中T为视频采样的帧数,3为图像的通道数,H为图像高度,W为图像宽度;其中的,,是进行展平之后的一维特征向量。4.如权利要求1所述的一种基于多特征融合的视频行为识别方法,其特征在于,所述步骤二,具体包括:步骤201,将原始的RGB图像序列送入用于处理二维图像的人体关键点检测网络OpenPose网络中进行处理,输出骨骼点和骨骼点之间的关系生成骨骼图序列,即关键点热度图视频序列;步骤2...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。