基于Transformer双流融合网络的多模态人体动作识别方法及装置制造方法及图纸

技术编号：39406826 阅读：9 留言：0更新日期：2023-11-19 15:58

本发明专利技术公开了一种基于Transformer双流融合网络的多模态人体动作识别方法及装置，该方法包括以下步骤：首先，提取人体动作视频数据的RGB帧和光流图像，等间隔采样一定长度的视频图像序列，并利用卷积神经网络为RGB帧和光流图像提取时空特征，作为双流网络模型的输入；然后，使用Transformer编码器捕捉单个分支网络的显著特性以及它们之间的交互特性；最后，将双路分支网络的输出进行融合，并将融合后的特征和单个分支网络的输出送入分类器实现对人体动作的有效识别。本发明专利技术通过Transformer编码器增强RGB帧和光流图像的特征表达与融合能力，能有效提高人体动作识别的性能，满足现实生活场景对于人体动作识别技术的应用需求。的应用需求。的应用需求。

全部详细技术资料下载

【技术实现步骤摘要】
基于Transformer双流融合网络的多模态人体动作识别方法及装置

[0001]本专利技术属于多模态视频动作理解
，涉及一种基于Transformer双流融合网络的多模态人体动作识别方法及装置。

技术介绍

[0002]随着社会经济与科技的不断发展，影像采集技术及设备的持续进步，近年来人体行为数据总量显著增长，采集场景愈发复杂多样，光照、视角、目标姿态、目标比例及背景等成像条件差异巨大，数据采集形式也从单一可见光模态演变为多种模态。人体行为识别技术具有极大应用价值，高效准确的行为识别方法能显著促进人机交互、智慧安防、无人驾驶以及无人系统等多个实际应用领域的发展。
[0003]基于双流网络的人体行为识别方法包含两个分支网络：时间流分支和空间流分支网络。其中，时间流分支网络将连续帧的光流图像作为输入，空间流分支网络将单张RGB图像作为输入，通过卷积神经网络分别提取光流图像和RGB图像的运动和静态特征，最终将两个网络的预测结果进行融合得到最终的行为分类结果，此方法虽然实现了对人体行为的有效识别，但是这种传统的双流网络缺少对两个支路交互信息的有效建模，只是单纯地做后融合，实质上光流和RGB图像之间的互补特性很难被有效地挖掘。
[0004]因此需要提出了一种多模态人体动作识别的方法，可以利用Transformer进行光流和RGB多模数据的协同学习以解决现有存在的技术问题。

技术实现思路

[0005]针对现有技术的不足，本专利技术提供了一种基于Transformer双流融合网络的多模态人体动...

【技术保护点】

【技术特征摘要】
1.一种基于Transformer双流融合网络的多模态人体动作识别方法，其特征在于，该方法包括以下步骤：（1）提取人体动作视频数据的RGB帧和光流图像，等间隔采样若干个视频图像序列，并利用卷积神经网络为RGB帧和光流图像提取时空特征，作为双流网络模型的输入；（2）使用Transformer编码器捕捉单个分支网络的特征以及单个分支网络之间的交互；（3）将双路分支网络的输出进行融合，并将融合后的特征和单个分支网络的输出送入分类器完成对人体动作的有效识别。2.根据权利要求1所述的一种基于Transformer双流融合网络的多模态人体动作识别方法，其特征在于，所述步骤（3）具体为：（3.1）首先使用大小的卷积减少通道数目，得到相应的特征图、，然后在空间维度进行展平操作，得到RGB图像的特征表示和光流图像的特征表示，并将其作为原始输入特征；其中d为通道数，H和W为特征图的高和宽；（3.2）对RGB和flow的特征进行三元组矩阵变换，利用变换得到两种模态对应的查询特征、键特征以及值特征；再利用交叉注意力计算进行两种模态的特征融合，且数学表达式中的查询矩阵和键矩阵K分别来自两个模态；（3.3）通过跳跃连接将得到的多头注意力的输出特征与原始输入特征进行连接，得到与特征；再将与特征通过前馈神经网络FFN后得到交叉模态特征和，然后将交叉模态特征和进行拼接得到融合后的多模态特征表示；（3.4）将多模态特征、以及融合后的特征进行空间维度的平均池化操作，并送入分类器分别得到预测类别的概率得分；（3.5）利用三元组损失函数优化多模态人体动作识别网络，使得通过RGB特征、Flow特征以及融合特征预测得到的动作类别的真实类别；（3.6）测试时将输入视频进行特征提取、交叉模态特征融合得到融合后的特征，将在融合后的特征上预测相应的动作类别概率得分，将得分最大的类别作为该视频的动作识别结果。3.根据权利要求2所述的一种基于Transformer双流融合网络的多模态人体动作识别方法，其特征在于，所述步骤（3.2）中利用变换得到两种模态对应的查询特征、键特征以及值特征，其变换的数学表达式如下：；其中，分别表示对特征进行线性变换得到的三元组特征表示即查询特征、键特征以及值特征，表示对RGB特征进行线性变换得到的三元组矩阵特征，即RGB特征的查询、键、值矩阵特征；，表示多头注意力的头数，表示矩阵的转置操作；为建模RGB和两个模态之间的交互特性，表示三元组矩阵的第h个注意力头的分量。
4.根据权利要求2所述的一种基于Transformer双流融合网络的多模态人体动...

【专利技术属性】
技术研发人员：汪雯，钟灵，高广，宛敏红，顾建军，
申请(专利权)人：之江实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人