【技术实现步骤摘要】
基于时空自适应融合的端到端人体行为分类方法及系统
[0001]本专利技术涉及计算机识别
,具体涉及一种基于时空自适应融合的端到端人体行为分类方法及系统。
技术介绍
[0002]针对解决复杂行为识别任务,现有方案中,绝大多数采用二维或三维卷积神经网络提取视频特征,再利用深度学习的方法训练网络模型,最终利用训练好的模型得到预测结果。
[0003]在采用了二维卷积神经网络的方案中,有基于双流模型结构的方案,通过使用卷积神经网络分别处理RGB图片帧数据和光流数据,再将得到的两组特征数据进行融合,进行模型训练或预测;另一种方案是先利用二维卷积神经网络提取每一帧的图片特征,再利用其它不同的聚合模块对这些图片数据进行时间因果建模,例如TSN网络。
[0004]在采用了三维卷积神经网络的方案中,如,SlowFast模型,它跟双流模型结构相似,不同点是利用三维卷积主干特征提取模块对视频帧中的高频数据和低频数据进行特征提取,再进行特征融合,以便区分行为主体和背景,从而提升识别效果;另一种方案,如Video Transfor ...
【技术保护点】
【技术特征摘要】
1.一种基于时空自适应融合的端到端人体行为分类模型训练方法,其特征在于,包括:获取训练数据;所述训练数据包括多张图像以及标注图像中行为分布特征;所述行为分布特征指示至少一个行为在所述标注图像中的位置分布;基于训练数据对行为分类模型进行训练;其中,所述行为分类模型包括主干特征提取网络、特征解耦融合网络和分类网络;其中,所述主干特征提取网络用于提取所述多个图像的行为类别特征和位置特征,得到三维特征图;所述特征解耦融合网络用于对所述三维特征图分别在时间维度和空间维度上进行全局平均池化后,分别编码空间属性和时间尺度属性,再进行融合得到融合特征图;所述分类网络用于对所述融合特征图进行分类,得到所述融合特征图中各个通道的行为分类,并根据各个通道的行为分类,进行归一化处理,得到标注图像在单通道的行为分布特征。2.根据权利要求1所述的基于时空自适应融合的端到端人体行为分类模型训练方法,其特征在于,所述主干特征提取网络包括特征金字塔单元、目标定位单元和对齐操作单元;所述特征金字塔单元用于提取图像的关键帧特征;所述目标定位单元用于将特征金字塔层的输出作为输入,提取图像的锚框位置信息;所述对齐操作单元用于将目标定位层的输出作为输入,提取包含行为主体的建议框,再分别进行对齐操作,得到所述三维特征图。3.根据权利要求1所述的基于时空自适应融合的端到端人体行为分类模型训练方法,其特征在于,所述特征解耦融合模块包括特征解耦单元、第一特征编码单元、第二特征编码单元以及特征融合单元;所述特征解耦单元用于对所述三维特征图分别在空间维度和时间维度上进行全局平均池化,分别得到时间维度特征图和空间维度特征图;所述第一特征编码单元用于对所述时间维度特征图编码时间尺度属性特征;所述第二特征编码单元用于对空间维度特征图编码空间属性特征;所述特征融合单元用于对编码后的时间维度特征图和空间维度特征图进行融合。4.根据权利要求3所述的基于时空自适应融合的端到端人体行为分类模型训练方法,其特征在于,所述特征融合单元对编码后的空间维度特征图和时间维度特征图进行融合包括:分别将时间维度特征图和空间维度特征图进行卷积操作调整通道数后,进行拼接得到第一矩阵特征图,然后再次卷积提取特征得到第二矩阵特征图,第二矩阵特征图经过reshape操作后得到第三矩阵特征图,将第三矩阵特征图和其转置相乘得到格拉姆矩阵,使用softmax层生成通道注意图矩阵,将通道注意图矩阵与第三矩阵特征图相乘,与第二矩阵特征图结合得到第四矩阵特征图,再卷积提取特征输出...
【专利技术属性】
技术研发人员:田卉,金一,贾万豪,王旭,李浥东,
申请(专利权)人:中移雄安信息通信科技有限公司中移系统集成有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。