【技术实现步骤摘要】
基于多模态融合及隐式交互关系学习的群组行为识别方法
[0001]本专利技术属于群组行为识别领域,具体涉及一种基于自适应多模态融合及隐式交互关系学习的群组行为识别方法。
技术介绍
[0002]近年来,视频中的人类行为识别在计算机视觉领域取得了举世瞩目的成就,人体行为识别在现实生活中也得到了广泛应用,如智能视频监控、异常事件检测、体育分析、理解社会行为等,这些应用都使得组群行为识别具有重要的科学实用性和巨大的经济价值。
[0003]Sina Mokhtarzadeh Azar等人发表的“A Multi
‑
Stream Convolutional Neural Network Framework for GroupActivity Recognition”(文献1),该方案提出了一个多流卷积神经网络群体行为识别框架,对于不同的CNN流分别进行不同的训练,最后进行决策级融合预测最终的群体行为。另外“Empowering Relational Network by Self
‑
Attenti ...
【技术保护点】
【技术特征摘要】
1.基于多模态融合及隐式交互关系学习的群组行为识别方法,其特征在于,包括以下步骤:步骤A、动静态双流人物特征提取:基于人物级别特征提取模块提取人物静态姿态特征和动态光流特征;步骤B、多模态特征融合:将静态姿态特征和动态光流特征单峰连接后进行卷积压缩得到显著信息的潜在向量,进而得到融合后既包含光流又含有精细姿态各模态最具代表性的特征信息表示;步骤C、成员交互关系学习:利用步骤B得到的融合后特征信息表示,基于自注意力机制,通过关联强度计算成对人物特征的外观相似度,以选择性的提取对行为识别重要的人物,得到以注意力权重和的形式计算的组群成员之间的隐含向量表示;步骤D、全局特征提取:基于全局特征提取模块,针对输入视频帧,提取包含背景信息的全局特征信息;步骤E、基于步骤C和步骤D,实现对群组行为的识别。2.根据权利要求1所述的基于多模态融合及隐式交互关系学习的群组行为识别方法,其特征在于:所述步骤B具体包括以下步骤:步骤B1、首先将单个单峰特征连接,将其通过编码器卷积网络降低通道数,得到自融合的潜在向量;步骤B2、从自融合的潜在向量重建最初连接的向量;步骤B3、最小化原始和重构级联向量之间的欧式距离,并将中间向量作为融合后的多模态特征信息表示。3.根据权利要求2所述的基于多模态融合及隐式交互关系学习的群组行为识别方法,其特征在于:所述步骤B1具体通过以下方式实现:(1)将人物级别特征提取模块得到的人物静态姿态特征和动态光流特征通过Embedding线性映射嵌入到具有相同维度的向量空间中,将其分别作为单峰输入;(2)给定n个d维多模态潜在向量,n≤3,设(2)给定n个d维多模态潜在向量,n≤3,设两个模态分别代表人物静态姿态特征和动态光流特征向量,首先进行级联操作获得其中(3)然后经过编码部分得到将其维度减少到t:在编码部分,先经过Linear层将多模态级联后的维度进行压缩,变为单模态初始化的维度,然后通过Tanh激活函数进行非线性映射;之后继续进行第二次Linear线性变换压缩特征维度,再进行Relu函数进行激活,此时的称之为融合后的潜在特征。4.根据权利要求3所述的基于多模态融合及隐式交互关系学习的群组行为识别方法,其特征在于:所述步骤B2具体通过以下方式实现:通过解码变换部分将融合的潜在特征重建最初的连接向量,得到计算与之间的损失F
tr
来指导网络迭代优化,使得学习到的潜在特征表示最能代表各模态显著信息。5.根据权利要求4所述的基于多模态融合及隐式交互关系学习的群组行为识别方法,其特征在于:所述步骤B3中,采用MSE损失函数指导融合网络的学习,将中间向...
【专利技术属性】
技术研发人员:邓海刚,刘斯凡,李成伟,邹风山,王传旭,
申请(专利权)人:青岛科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。