一种基于动作连贯性的弱监督时序动作定位方法技术

技术编号:22330643 阅读:32 留言:0更新日期:2019-10-19 12:22
本发明专利技术属于机器视觉领域,公开了一种基于动作连贯性的弱监督时序动作定位方法,包括:将视频分为RGB帧和光流分别处理;对于每个动作模态,首先针对视频上的每个时间点,提出长度不同的假设的动作片段,然后根据视频的动作连贯性和分类准确率使用卷积神经网络回归动作片段。对于两个动作模态得到的不同动作片段,通过一个特性的模块进行结合,筛选出最终的动作定位结果。本发明专利技术在给定视频类别的情况下,可定位视频中属于该类别的动作片段。

A method of weak supervision sequential action location based on action coherence

【技术实现步骤摘要】
一种基于动作连贯性的弱监督时序动作定位方法
本专利技术属于计算机视觉
,涉及弱监督时序动作定位方法,特别涉及一种基于动作连贯性的弱监督时序动作定位方法。
技术介绍
时序动作定位是一项重要的计算机视觉问题,它在抽象的视频理解任务,如事件检测、视频总结和视频问题回答等方向有着非常重要的应用。目前大多数的时序动作定位方法需要精确的时间标注,需要消耗大量人力物力;同时,可能因动作的边界的模糊性使得该时间标注不准确。另外,目前的时序动作定位方法中,未将RGB和光流分别处理,忽略了RGB和光流本身的特征;最终片段得分仅由分类得分得出,忽视了RGB和光流本身的区别,且对分类神经网络依赖性大,很难得到最优结果。综上,亟需一种新的弱监督时序动作定位方法。
技术实现思路
本专利技术的目的在于提供一种基于动作连贯性的弱监督时序动作定位方法,以解决上述存在的一个或多个技术问题。本专利技术中,将视频分为RGB和光流分别处理,分别提出可能的动作片段,然后筛选融合来提出最后的结果,能够得出较优的定位结果。为达到上述目的,本专利技术采用以下技术方案:一种基于动作连贯性的弱监督时序动作定位方法,包括以下步骤:步骤1,将待处理视频分为多个不重合片段,获取每个片段的RGB特征和光流特征;步骤2,对步骤1获得的RGB特征和光流特征分别进行动作片段回归处理,获得RGB动作片段和光流动作片段;所述动作片段回归处理包括:对于待处理视频的每个时间点,枚举不同预设长度的假想的动作片段,对于不同长度的动作片段使用预定的回归神经网络进行回归,回归神经网络使用动作连贯性损失函数进行训练,并获得动作片段;步骤3,通过动作连贯性损失函数评价步骤2得到的RGB动作片段和光流动作片段的置信程度;使用非最大值抑制过滤掉重合度超过阈值的动作片段;步骤4,回归神经网络训练结束后;经过一个无参数的融合模块,筛选融合RGB动作片段和光流动作片段,得到最后的定位结果。本专利技术的进一步改进在于,步骤1具体包括:将待处理视频分为多个不重合片段;对每个片段平均取样,使用卷积神经网络提取取样帧的特征,将提取获得的特征作为该片段的表示;其中,分别对RGB和光流提取特征。本专利技术的进一步改进在于,步骤2中,动作片段回归处理具体包括:对于假想长度为P的动作片段,使用下式进行回归:式中,xs为开始边界的序号,xe为结束边界的序号,为在开始边界位置回归的结果,为在结束边界位置回归的结果,P为动作片段长度。本专利技术的进一步改进在于,步骤3中,动作连贯性损失函数由两部分组成;一部分用来表征动作片段特征与其上下文特征的余弦相似度;假设该动作片段与其上下文的特征分别用如下符号表示其中F(u)为视频在时间点为u特征表示,这部分的计算表达式为:另一部分用分类置信度来表征:其中,S(k,u)表示在类别k下,片段u的分类置信度;对于动作片段[xs,xe],将其扩充到[Xs,Xe],其中作为该片段的上下文信息;动作连贯性损失函数的表达式为:L=αLc+(1-α)(Lc-1)其中,α为超参数,取值为0<α<1。本专利技术的进一步改进在于,步骤4中,回归网络训练结束后,对于RGB和光流分别得到的动作片段,筛选融合步骤具体包括:由RGB和光流得到的动作片段分别为其中,Nr和Nf分别为RGB和光流动作片段数;对于每个RGB的动作片段,计算其与光流片段的最大IoU,计算公式为:最终的筛选融合结果,为所有光流动作片段和具有I(pr,j)小于预设阈值的RGB动作片段的组合。本专利技术的进一步改进在于,最终的筛选融合结果,为所有光流动作片段和具有I(pr,j)<0.4的RGB动作片段的组合。本专利技术的进一步改进在于,α设置为0.6。本专利技术的进一步改进在于,步骤2中,将步骤1得到的RGB特征Rs输入到多个回归网络;每个回归网络由3层1D卷积神经网络构成,并指定了一个片段长度P;回归网络的最后一层有2个大小为1的卷积核,其输出分别回归开始边界和结束边界。本专利技术的进一步改进在于,回归网络的前两层由空洞卷积网络构成。本专利技术的进一步改进在于,回归网络的前两层的空洞卷积的空洞设置为与现有技术相比,本专利技术具有以下有益效果:本专利技术中,将视频分为RGB和光流分别处理,分别提出可能的动作片段,然后筛选融合来提出最后的结果,减少了传统方法中由于直接处理RGB和光流拼接的特征可能带来的干扰,能够得到较优的定位结果。本专利技术中,两个动作模态的表示不同,分别处理更能挖掘不同动作模态的特点;本专利技术设计了一个筛选融合模块来结合两个不同动作模态的动作定位结果。本专利技术的方法基于视频动作的连贯性,提出了一种基于余弦相似度的损失函数,结合了动作片段特征与动作片段分类置信度,一定程度上避免了传统方法中仅根据动作片段分类置信度评估动作片段的局限性。本专利技术的方法,可在只知道视频中动作类别的条件下,定位视频中的动作片段。进一步地,为了避免过拟合,回归网络的前两层由空洞卷积网络构成;为了保证有足够的上下文信息输入到网络,回归网络的感受野被设置成了P,设置方法为将回归网络的前两层的空洞卷积的空洞设置为附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面对实施例或现有技术描述中所需要使用的附图做简单的介绍;显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例的一种基于动作连贯性的弱监督时序动作定位方法的流程示意图;图2是本专利技术实施例中,与历史实验结果在THUMOS14数据集上的测试结果对比示意图;图3是本专利技术实施例中,与历史实验结果在ActivityNet数据集上的测试结果对比示意图。具体实施方式为使本专利技术实施例的目的、技术效果及技术方案更加清楚,下面结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述;显然,所描述的实施例是本专利技术一部分实施例。基于本专利技术公开的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的其它实施例,都应属于本专利技术保护的范围。请参阅图1,本专利技术的一种基于动作连贯性的弱监督时序动作定位方法,包括以下步骤:步骤1:特征提取。将视频分为多个不重合的15帧片段,对每个片段取3帧,使用卷积神经网络提取特征,将该特征作为该片段的表示。并且分别对RGB和光流提取特征,作为下一步的输入。步骤2:动作片段回归。该步骤对RGB和光流分别进行如下相同的处理。对于视频的每个时间点,枚举不同长度的假想的动作片段。对于所有相同长度的动作片段,使用同一个卷积神经网络进行回归。具体来说,假设对于假想长度为P的动作片段,其开始与结束边界的序号分别为xs和xe,神经网络在该位置回归的结果分别为和使用下式进行回归:式中,xs为开始边界的序号,xe为结束边界的序号,为在开始边界位置回归的结果,为在结束边界位置回归的结果,P为动作片段长度。步骤3:动作片段评估。使用动作连贯性损失函数评价由步骤2得到的动作片段的置信程度。同时使用该损失函数训练回归神经网络。具体地说,该损失函数由两部分组成,一部分用来度量动作片段特征与其上下文特征的余弦相似度,另一部分度量该片段与其上下文分类置信度之差。步骤4:动作片段筛选融合。回归神经网络训练结束后,经过一个无参数的融合模块,筛选本文档来自技高网...

【技术保护点】
1.一种基于动作连贯性的弱监督时序动作定位方法,其特征在于,包括以下步骤:步骤1,将待处理视频分为多个不重合片段,获取每个片段的RGB特征和光流特征;步骤2,对步骤1获得的RGB特征和光流特征分别进行动作片段回归处理,获得RGB动作片段和光流动作片段;所述动作片段回归处理包括:对于待处理视频的每个时间点,枚举不同预设长度的假想的动作片段,对于不同长度的动作片段使用预定的回归神经网络进行回归,回归神经网络使用动作连贯性损失函数进行训练,并获得动作片段;步骤3,通过动作连贯性损失函数评价步骤2得到的RGB动作片段和光流动作片段的置信程度;使用非最大值抑制过滤掉重合度超过阈值的动作片段;步骤4,回归神经网络训练结束后;经过一个无参数的融合模块,筛选融合RGB动作片段和光流动作片段,得到最后的定位结果。

【技术特征摘要】
1.一种基于动作连贯性的弱监督时序动作定位方法,其特征在于,包括以下步骤:步骤1,将待处理视频分为多个不重合片段,获取每个片段的RGB特征和光流特征;步骤2,对步骤1获得的RGB特征和光流特征分别进行动作片段回归处理,获得RGB动作片段和光流动作片段;所述动作片段回归处理包括:对于待处理视频的每个时间点,枚举不同预设长度的假想的动作片段,对于不同长度的动作片段使用预定的回归神经网络进行回归,回归神经网络使用动作连贯性损失函数进行训练,并获得动作片段;步骤3,通过动作连贯性损失函数评价步骤2得到的RGB动作片段和光流动作片段的置信程度;使用非最大值抑制过滤掉重合度超过阈值的动作片段;步骤4,回归神经网络训练结束后;经过一个无参数的融合模块,筛选融合RGB动作片段和光流动作片段,得到最后的定位结果。2.根据权利要求1所述的一种基于动作连贯性的弱监督时序动作定位方法,其特征在于,步骤1具体包括:将待处理视频分为多个不重合片段;对每个片段平均取样,使用卷积神经网络提取取样帧的特征,将提取获得的特征作为该片段的表示;其中,分别对RGB和光流提取特征。3.根据权利要求1所述的一种基于动作连贯性的弱监督时序动作定位方法,其特征在于,步骤2中,动作片段回归处理具体包括:对于假想长度为P的动作片段,使用下式进行回归:式中,xs为开始边界的序号,xe为结束边界的序号,为在开始边界位置回归的结果,为在结束边界位置回归的结果,P为动作片段长度。4.根据权利要求3所述的一种基于动作连贯性的弱监督时序动作定位方法,其特征在于,步骤2和步骤3中,动作连贯性损失函数由两部分组成;一部分用来表征动作片段特征与其上下文特征的余弦相似度;假设该动作片段与其上下文的特征分别用如下符号表示其中F(u)为视频在时间点为...

【专利技术属性】
技术研发人员:王乐翟元浩刘子熠
申请(专利权)人:西安交通大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1