【技术实现步骤摘要】
一种基于门的视频上下文多模态感知特征优化方法
本专利技术涉及视频分析
,具体涉及一种基于门的视频上下文多模态感知特征优化方法。
技术介绍
现有计算机视觉等相关
中,行为识别和视频行人重识别等领域采用的多模态融合方案,存在多模态信息利用不完全、特征并行而缺乏多模态全局的监督学习的问题。视频或者图像序列与单一图像的区别不止在于外观特征更加丰富且连续和以光流为代表的运动模态的丰富信息,还在于运动模态的关键信息可以有助于区分外观层面的关键特征以及外观信息的突出特征可以作为运动模态层面的启发信息,即模态之间交互学习的作用。时序上的交互学习得到的特征是真正所谓跨模态学习的产物,是融合多模态信息后视频级的全局特征,具有良好的表征效果。现有的多模态融合模型主要有三种,如图1、图2和图3所示:通道融合、特征元素加法和特征合并,通道融合是在利用深度卷积网络进行特征提取之间,将两种模态按照通道进行结合,形成一个统一的输入,并由单一的特征提取网络进行提取;特征元素加法是在深度卷积网络进行特征提取的过程中,将两种模态的特征 ...
【技术保护点】
1.一种基于门的视频上下文多模态感知特征优化方法,其特征在于,具体步骤为,步骤一:输入RGB视频序列和光流序列;/n步骤二:通过外观特征提取器和运动特征提取器提取得到双模态的基础特征;/n步骤三:输入双流特征优化结构;/n步骤四:通过连接的RGB特征优化记忆流和光流特征优化记忆流进行上下文和多模态的感知优化,得到对应的记忆流保留优化特征;/n步骤五:对RGB特征优化记忆流和光流特征优化记忆流保留特征进行串联,得到对应模态的优化特征;/n步骤六:对RGB特征优化特征和光流特征优化特征进行通道融合,形成视频级的特征表征。/n
【技术特征摘要】
1.一种基于门的视频上下文多模态感知特征优化方法,其特征在于,具体步骤为,步骤一:输入RGB视频序列和光流序列;
步骤二:通过外观特征提取器和运动特征提取器提取得到双模态的基础特征;
步骤三:输入双流特征优化结构;
步骤四:通过连接的RGB特征优化记忆流和光流特征优化记忆流进行上下文和多模态的感知优化,得到对应的记忆流保留优化特征;
步骤五:对RGB特征优化记忆流和光流特征优化记忆流保留特征进行串联,得到对应模态的优化特征;
步骤六:对RGB特征优化特征和光流特征优化特征进行通道融合,形成视频级的特征表征。
2.根据权利要求1所述基于门的视频上下文多模态感知特征优化方法,其特征在于:所述步骤四中RGB特征优化记忆流和光流特征优化记忆流进行上下文感知优化具体为,设置同模态时序上下文学习器,其输入为前一交互学习后的优化特征及当前模态当前帧的特征,其主要结构为1*1卷积层和通道注意力结构,用于学习联合前后帧的上下文信息后、该模态在这个时间节点保留的特征,这里运用通道注意力的深度卷积网络能够有效提取上下文特征,并以此学习与帧特征尺度一致的掩码矩阵作为参数,实现门的设计,保证了同模态信息的时序传递。
3.根据权利要求1所述基于门的视频上下文多模态感知特征优化方法,其特征在于:所...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。