一种基于双模态协同的弱监督时序动作定位方法及系统技术方案

技术编号:26304686 阅读:25 留言:0更新日期:2020-11-10 20:01
本发明专利技术公开了一种基于双模态协同的弱监督时序动作定位方法及系统,所述方法包括以下步骤:对未剪辑视频中的视频片段进行特征提取;基于双流基础网络对未剪辑视频进行动作分类,获得视频片段注意力权重序列和动作分类结果;基于获得的视频片段注意力权重序列,获得伪时序标签;将伪时序标签作为时序监督,训练两个单模态子网络,迭代直至最终拟合;基于迭代训练获得的两个单模态子网络,对未剪辑视频进行时序动作定位。本发明专利技术在只有视频的类别标签下进行训练,可得到视频中所有动作实例开始与结束时间及其类别。

【技术实现步骤摘要】
一种基于双模态协同的弱监督时序动作定位方法及系统
本专利技术属于计算机视觉
,特别涉及一种基于双模态协同的弱监督时序动作定位方法及系统。
技术介绍
随着互联网的发展,视频在人们生活中占有越来越重要的作用。时序动作定位是视频理解领域的一项重要技术,它旨在定位未剪辑视频中主要动作的开始与结束时间,并对动作进行正确分类。目前,现有大部分时序动作定位方法需要精确的时序标注进行训练,即需要每个动作实例的类别及其开始与结束时间;这种精确的时序标注需要耗费大量人力物力,并且可能由于不同标注员进行标注产生偏差。与之相对的,弱监督时序动作定位只需要视频级别的类别标签进行训练,而且这种数据可以轻易地在关键词检索的视频网站中获得。因此,弱监督时序动作定位可以极大地减轻数据标注的压力,是一个更为实际的方法。目前,弱监督时序动作定位方法有两个缺陷:首先,由于缺少时序标注,弱监督的方法容易产生大量的假阳性动作提议;其次,现有方法使用固定的阈值对激活序列进行划分以产生动作提议,而在训练过程中没有对该阈值进行建模。综上,亟需一种新的基于双模态协同本文档来自技高网...

【技术保护点】
1.一种基于双模态协同的弱监督时序动作定位方法,其特征在于,包括以下步骤:/n步骤1,未剪辑视频中的视频片段特征提取,包括:将未剪辑视频分为多个不重合视频片段;对每个视频片段的帧进行平均取样,获得每个视频片段的样本帧;使用预训练的卷积神经网络提取所述样本帧的片段特征作为样本帧对应视频片段的表示;所述片段特征包括:RGB特征和光流特征;/n步骤2,搭建双流基础网络;基于所述双流基础网络对未剪辑视频进行动作分类,获得视频片段注意力权重序列和动作分类结果;其中,所述双流基础网络包括:两个结构相同的单模态子网络,分别用于输入RGB特征和光流特征并进行处理;/n步骤3,基于步骤2获得的视频片段注意力权重...

【技术特征摘要】
1.一种基于双模态协同的弱监督时序动作定位方法,其特征在于,包括以下步骤:
步骤1,未剪辑视频中的视频片段特征提取,包括:将未剪辑视频分为多个不重合视频片段;对每个视频片段的帧进行平均取样,获得每个视频片段的样本帧;使用预训练的卷积神经网络提取所述样本帧的片段特征作为样本帧对应视频片段的表示;所述片段特征包括:RGB特征和光流特征;
步骤2,搭建双流基础网络;基于所述双流基础网络对未剪辑视频进行动作分类,获得视频片段注意力权重序列和动作分类结果;其中,所述双流基础网络包括:两个结构相同的单模态子网络,分别用于输入RGB特征和光流特征并进行处理;
步骤3,基于步骤2获得的视频片段注意力权重序列,获得伪时序标签;将伪时序标签作为时序监督,训练两个单模态子网络,迭代直至最终拟合;
步骤4,基于步骤3迭代训练获得的两个单模态子网络,对未剪辑视频进行时序动作定位,包括:在步骤2获得的动作分类结果上进行遍历;其中,对于每一个动作分类,进行的步骤包括:对视频片段注意力权重序列进行阈值划分;将高于阈值的相邻视频片段进行连接,产生动作提议;其中,所述动作提议的置信度分数由分类层对每个片段特征的映射得到。


2.根据权利要求1所述的一种基于双模态协同的弱监督时序动作定位方法,其特征在于,步骤2中,每个单模态子网络均包括:
时序卷积层,用于输入每个视频片段的片段特征,将片段特征映射到用于分类的特征空间,输出用于分类的片段特征;
注意力预测层,包括:一层卷积层;用于输入时序卷积层输出的用于分类的片段特征,对每个片段特征输出一个注意力权重,用于衡量该视频片段包含动作的可能性;
按照时间顺序,将所有片段特征的注意力权重组成视频片段注意力权重序列;
分类层,包括:一层卷积层;用于根据注意力预测层输出的注意力权重对所有用于分类的片段特征进行加权平均,得到未剪辑视频的特征表示;将特征表示送入分类层,得到视频类别预测获得动作分类结果。


3.根据权利要求2所述的一种基于双模态协同的弱监督时序动作定位方法,其特征在于,步骤2中,注意力预测层输出的第i个视频片段的注意力值Ai的表达式为:
Ai=σ(wA·xi+bA);
式中,wA、bA为卷积层的权重的偏置;xi是第i个视频片段的特征;σ(·)是Sigmoid函数;
使用注意力值Ai对用于分类的片段特征加权平均得到视频特征表示xfg的表达式为:



以xfg为输入,训练一层全连接层,得到动作分类结果;
分类预测的表达式为:



式中,wi和bi为分类卷积层对类别i的权重和偏置,C为所有动作类别数;Wc和bc是分类卷积层对于类别c的权重和偏置。


4.根据权利要求3所述的一种基于双模态协同的弱监督时序动作定位方法,其特征在于,步骤2中,双流基础网络的损失函数表达式为:
Lbase=Lcls+αLatt;
式中,α为控制Latt相对重要性的超参数;
交叉熵损失函数Lcls表达式为:



式中,yc为真实类别标签;
注意力正则化损失函数的表达式为:



式中,T是视频片段总个数,s是控制片段选择片段的超参数。


5.根据权利要求4所...

【专利技术属性】
技术研发人员:王乐翟元浩郑南宁
申请(专利权)人:西安交通大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1