基于多模态融合及隐式交互关系学习的群组行为识别方法技术

技术编号:36703577 阅读:24 留言:0更新日期:2023-03-01 09:22
本发明专利技术公开一种基于多模态融合及隐式交互关系学习的群组行为识别方法,首先提取人物静态姿态特征和动态光流特征;进行多模态特征融合,得到既包含光流又包含姿态的特征信息表示;基于融合后的特征向量,进行成员交互关系学习,以选择性的提取对行为识别重要的人物,更好地建模人物之间的关系;然后提取包含背景信息的全局特征信息;最后利用全局视野中的场景级别信息差异性的特征,辅助人物级别特征共同进行群组行为识别。本方案通过提取组群中个体行为,建模推理组群成员之间的交互关系最终达到预测群体行为的目的,识别精度高,在群组行为识别领域具有较高的实际应用价值和推广价值。价值。价值。

【技术实现步骤摘要】
基于多模态融合及隐式交互关系学习的群组行为识别方法


[0001]本专利技术属于群组行为识别领域,具体涉及一种基于自适应多模态融合及隐式交互关系学习的群组行为识别方法。

技术介绍

[0002]近年来,视频中的人类行为识别在计算机视觉领域取得了举世瞩目的成就,人体行为识别在现实生活中也得到了广泛应用,如智能视频监控、异常事件检测、体育分析、理解社会行为等,这些应用都使得组群行为识别具有重要的科学实用性和巨大的经济价值。
[0003]Sina Mokhtarzadeh Azar等人发表的“A Multi

Stream Convolutional Neural Network Framework for GroupActivity Recognition”(文献1),该方案提出了一个多流卷积神经网络群体行为识别框架,对于不同的CNN流分别进行不同的训练,最后进行决策级融合预测最终的群体行为。另外“Empowering Relational Network by Self

Attention Augmented Conditional Random Fields for Group Activity Recognition”(文献2),以及Hu等人发表的“Deep bilinear learning for rgb

d action recognition”(文献3)也公开了相应的群组行为识别方法。但是,对于文献1所公开的算法框架,虽然结合了多模态的特征表示,丰富了提取的信息,但仅采用后期决策级融合,未考虑特征多模态融合,难免会导致多种模态特征信息冗余的问题;文献2虽然在成员特征提取阶段通过级联方式将姿态、空间位置、外观特征进行了聚合,但这样的简单操作通常具有很少或没有关联参数,无法学习到互补信息的交互以及各模态显著性表示;而文献3虽然将骨架和RGB特征构建张量结构立方体进行多模态融合从而组合人物动作特征,使得各模态特征得以相互补充学习,但却无法避免其庞大的计算量。
[0004]近几年,在成员交互关系推理部分,Wu等人发表的“Learning actor relation graphs for group activity recognition.”,以及Azar等人发表的“Convolutional relational machine for group activity recognition.”利用图卷积网络以及图结构等中间表示建立人物关系拓扑图,捕获成员间的外观和位置关系,进行关系推理。上述方法虽然取得了较好的预测结果,但为了提取空间特征,这些显式的建模的方法需要明确的人物位置节点建立拓扑图结构,并且使用卷积神经网络作为基本构建块,并行计算所有输入的隐藏表示和输出位置,关联来自两个任意输入或输出位置的信号,所需的操作数量随着位置之间的距离而增长,其多次重复迭代的特性使得网络计算复杂且庞大。

技术实现思路

[0005]本专利技术针对现有技术群组行为识别中多模态个体成员特征信息冗余,仅通过级联相加等操作导致的显著信息难以突出问题,为精确识别出组群中每个个体的行为,并利用个体以及他们之间的交互特征推断出组群行为,提出一种基于自适应多模态融合及隐式交互学习的群组行为识别方法。
[0006]本专利技术是采用以下的技术方案实现的:一种基于多模态融合及隐式交互关系学习
的群组行为识别方法,包括以下步骤:
[0007]步骤A、动静态双流人物特征提取:基于人物级别特征提取模块提取人物静态姿态特征和动态光流特征;
[0008]步骤B、多模态特征融合:将静态姿态特征和动态光流特征单峰连接后进行卷积压缩得到显著信息的潜在向量,进而得到融合后既包含光流又含有精细姿态各模态最具代表性的特征信息表示;
[0009]步骤C、成员交互关系学习:利用步骤B得到的融合后特征信息表示,基于自注意力机制,通过关联强度计算成对人物特征的外观相似度,以选择性的提取对行为识别重要的人物,得到以注意力权重和的形式计算的组群成员之间的隐含向量表示;
[0010]步骤D、全局特征提取:基于全局特征提取模块,针对输入视频帧,提取包含背景信息的全局特征信息;
[0011]步骤E、基于步骤C和步骤D,实现对群组行为识别。
[0012]进一步的,所述步骤B具体包括以下步骤:
[0013]步骤B1、首先将单个单峰特征连接,将其通过编码器卷积网络降低通道数,得到自融合的潜在向量;
[0014]步骤B2、从自融合的潜在向量重建最初连接的向量;
[0015]步骤B3、最小化原始和重构级联向量之间的欧式距离,并将中间向量作为融合后的多模态特征信息表示。
[0016]进一步的,所述步骤B1具体通过以下方式实现:
[0017](1)将人物级别特征提取模块得到的人物静态姿态特征和动态光流特征通过Embedding线性映射嵌入到具有相同维度的向量空间中,将其分别作为单峰输入;
[0018](2)给定n个d维多模态潜在向量,n≤3,设两个模态分别代表人物静态姿态特征和动态光流特征向量,首先进行级联操作获得其中
[0019](3)然后经过编码部分得到将其维度减少到t:
[0020]在编码部分,先经过Linear层将多模态级联后的维度进行压缩,变为单模态初始化的维度,然后通过Tanh激活函数进行非线性映射;之后继续进行第二次Linear线性变换压缩特征维度,再进行Relu函数进行激活,此时的称之为融合后的潜在特征。
[0021]进一步的,所述步骤B2具体通过以下方式实现:
[0022]通过解码变换部分将融合的潜在特征重建最初的连接向量,得到计算与之间的损失F
tr
来指导网络迭代优化,使得学习到的潜在特征表示最能代表各模态显著信息。
[0023]进一步的,所述步骤B3中,采用MSE损失函数指导融合网络的学习,将中间向量作为融合后的多模态特征信息表示。
[0024]进一步的,所述步骤C具体包括以下步骤:
[0025]第一阶段、通过查询Q与键值集合K匹配来计算每个人物与其他参与者关联度的的得分,所有三种表示(Q,K,V)都是通过线性投影从输入序列S计算出来的,S为人物特征提取
器获得的经过多模态自适应融合后的一组人物特征S={s
i
|i=1,

,N},有A(S)=A(Q(S),K(S),V(S));
[0026]第二阶段、将查询Q与K点积计算后得到的每个人物与其他参与者关联度的结果做归一化处理,得到一个相似度集合a
n
,n=1,2,

,n个人物,其和相加为1;
[0027]第三阶段、将二阶段归一化得到的相似度向量分别与V相乘后得到最后的加权和注意力矩阵,以用于最后的分类识别。
[0028]进一步的,所述步骤D中,采用I3D作为主干网,并以RGB视频剪辑作为输入,选取以注释本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于多模态融合及隐式交互关系学习的群组行为识别方法,其特征在于,包括以下步骤:步骤A、动静态双流人物特征提取:基于人物级别特征提取模块提取人物静态姿态特征和动态光流特征;步骤B、多模态特征融合:将静态姿态特征和动态光流特征单峰连接后进行卷积压缩得到显著信息的潜在向量,进而得到融合后既包含光流又含有精细姿态各模态最具代表性的特征信息表示;步骤C、成员交互关系学习:利用步骤B得到的融合后特征信息表示,基于自注意力机制,通过关联强度计算成对人物特征的外观相似度,以选择性的提取对行为识别重要的人物,得到以注意力权重和的形式计算的组群成员之间的隐含向量表示;步骤D、全局特征提取:基于全局特征提取模块,针对输入视频帧,提取包含背景信息的全局特征信息;步骤E、基于步骤C和步骤D,实现对群组行为的识别。2.根据权利要求1所述的基于多模态融合及隐式交互关系学习的群组行为识别方法,其特征在于:所述步骤B具体包括以下步骤:步骤B1、首先将单个单峰特征连接,将其通过编码器卷积网络降低通道数,得到自融合的潜在向量;步骤B2、从自融合的潜在向量重建最初连接的向量;步骤B3、最小化原始和重构级联向量之间的欧式距离,并将中间向量作为融合后的多模态特征信息表示。3.根据权利要求2所述的基于多模态融合及隐式交互关系学习的群组行为识别方法,其特征在于:所述步骤B1具体通过以下方式实现:(1)将人物级别特征提取模块得到的人物静态姿态特征和动态光流特征通过Embedding线性映射嵌入到具有相同维度的向量空间中,将其分别作为单峰输入;(2)给定n个d维多模态潜在向量,n≤3,设(2)给定n个d维多模态潜在向量,n≤3,设两个模态分别代表人物静态姿态特征和动态光流特征向量,首先进行级联操作获得其中(3)然后经过编码部分得到将其维度减少到t:在编码部分,先经过Linear层将多模态级联后的维度进行压缩,变为单模态初始化的维度,然后通过Tanh激活函数进行非线性映射;之后继续进行第二次Linear线性变换压缩特征维度,再进行Relu函数进行激活,此时的称之为融合后的潜在特征。4.根据权利要求3所述的基于多模态融合及隐式交互关系学习的群组行为识别方法,其特征在于:所述步骤B2具体通过以下方式实现:通过解码变换部分将融合的潜在特征重建最初的连接向量,得到计算与之间的损失F
tr
来指导网络迭代优化,使得学习到的潜在特征表示最能代表各模态显著信息。5.根据权利要求4所述的基于多模态融合及隐式交互关系学习的群组行为识别方法,其特征在于:所述步骤B3中,采用MSE损失函数指导融合网络的学习,将中间向...

【专利技术属性】
技术研发人员:邓海刚刘斯凡李成伟邹风山王传旭
申请(专利权)人:青岛科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1