当前位置: 首页 > 专利查询>中移雄安信息通信科技有限公司中移系统集成有限公司专利>正文

基于时空自适应融合的端到端人体行为分类方法及系统技术方案

技术编号：37703113 阅读：8 留言：0更新日期：2023-06-01 23:50

本发明专利技术提供基于时空自适应融合的端到端人体行为分类方法及系统，属于计算机识别技术领域，获取待分类行为的多个图像；利用基于时空自适应融合的端到端人体行为分类模型对多个图像进行处理，得到行为特征图像，基于时空自适应融合的端到端人体行为分类模型根据基于时空自适应融合的端到端人体行为分类模型训练方法训练得到。本发明专利技术在网络结构上控制了计算复杂度和参数量，后期轻量化过程减少了特征在时间和空间维度上的关键信息丢失，保证模型在性能和效率之间的平衡；针对时间维度上的特征通道自适应剪枝，根据情况挑选保留、丢弃和复用的通道，减少了参数量；针对不同行为对象关系建模的自适应剪枝，减少模型在空间维度上的计算复杂度和参数量。上的计算复杂度和参数量。上的计算复杂度和参数量。

全部详细技术资料下载

【技术实现步骤摘要】
基于时空自适应融合的端到端人体行为分类方法及系统

[0001]本专利技术涉及计算机识别
，具体涉及一种基于时空自适应融合的端到端人体行为分类方法及系统。

技术介绍

[0002]针对解决复杂行为识别任务，现有方案中，绝大多数采用二维或三维卷积神经网络提取视频特征，再利用深度学习的方法训练网络模型，最终利用训练好的模型得到预测结果。
[0003]在采用了二维卷积神经网络的方案中，有基于双流模型结构的方案，通过使用卷积神经网络分别处理RGB图片帧数据和光流数据，再将得到的两组特征数据进行融合，进行模型训练或预测；另一种方案是先利用二维卷积神经网络提取每一帧的图片特征，再利用其它不同的聚合模块对这些图片数据进行时间因果建模，例如TSN网络。
[0004]在采用了三维卷积神经网络的方案中，如，SlowFast模型，它跟双流模型结构相似，不同点是利用三维卷积主干特征提取模块对视频帧中的高频数据和低频数据进行特征提取，再进行特征融合，以便区分行为主体和背景，从而提升识别效果；另一种方案，如Video Transformer，是引入区域建议网络(Region Proposal Network,RPN)先找出特征图中的行为主体,再利用其它方法对这些行为主体特征进行时空维度建模，目的是利用不同行为主体之间和环境背景之间的的联系，从而进一步提升行为识别效果。引入三维卷积网络的目的是为了在提取视频特征时，更好地对数据的时间和空间维度进行联合建模，但这样会增大模型的参数量，并且对于一些以行为主体为中心建模的网络，RPN的...

【技术保护点】

【技术特征摘要】
1.一种基于时空自适应融合的端到端人体行为分类模型训练方法，其特征在于，包括：获取训练数据；所述训练数据包括多张图像以及标注图像中行为分布特征；所述行为分布特征指示至少一个行为在所述标注图像中的位置分布；基于训练数据对行为分类模型进行训练；其中，所述行为分类模型包括主干特征提取网络、特征解耦融合网络和分类网络；其中，所述主干特征提取网络用于提取所述多个图像的行为类别特征和位置特征，得到三维特征图；所述特征解耦融合网络用于对所述三维特征图分别在时间维度和空间维度上进行全局平均池化后，分别编码空间属性和时间尺度属性，再进行融合得到融合特征图；所述分类网络用于对所述融合特征图进行分类，得到所述融合特征图中各个通道的行为分类，并根据各个通道的行为分类，进行归一化处理，得到标注图像在单通道的行为分布特征。2.根据权利要求1所述的基于时空自适应融合的端到端人体行为分类模型训练方法，其特征在于，所述主干特征提取网络包括特征金字塔单元、目标定位单元和对齐操作单元；所述特征金字塔单元用于提取图像的关键帧特征；所述目标定位单元用于将特征金字塔层的输出作为输入，提取图像的锚框位置信息；所述对齐操作单元用于将目标定位层的输出作为输入，提取包含行为主体的建议框，再分别进行对齐操作，得到所述三维特征图。3.根据权利要求1所述的基于时空自适应融合的端到端人体行为分类模型训练方法，其特征在于，所述特征解耦融合模块包括特征解耦单元、第一特征编码单元、第二特征编码单元以及特征融合单元；所述特征解耦单元用于对所述三维特征图分别在空间维度和时间维度上进行全局平均池化，分别得到时间维度特征图和空间维度特征图；所述第一特征编码单元用于对所述时间维度特征图编码时间尺度属性特征；所述第二特征编码单元用于对空间维度特征图编码空间属性特征；所述特征融合单元用于对编码后的时间维度特征图和空间维度特征图进行融合。4.根据权利要求3所述的基于时空自适应融合的端到端人体行为分类模型训练方法，其特征在于，所述特征融合单元对编码后的空间维度特征图和时间维度特征图进行融合包括：分别将时间维度特征图和空间维度特征图进行卷积操作调整通道数后，进行拼接得到第一矩阵特征图，然后再次卷积提取特征得到第二矩阵特征图，第二矩阵特征图经过reshape操作后得到第三矩阵特征图，将第三矩阵特征图和其转置相乘得到格拉姆矩阵，使用softmax层生成通道注意图矩阵，将通道注意图矩阵与第三矩阵特征图相乘，与第二矩阵特征图结合得到第四矩阵特征图，再卷积提取特征输出...

【专利技术属性】
技术研发人员：田卉，金一，贾万豪，王旭，李浥东，
申请(专利权)人：中移雄安信息通信科技有限公司中移系统集成有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人