一种基于弱监督学习的视频时序动作检测方法技术

技术编号:20486211 阅读:27 留言:0更新日期:2019-03-02 19:30
本发明专利技术涉及数字图像处理技术领域,具体为一种基于弱监督学习的视频时序动作检测方法。该方法具体步骤是,步骤1:把视频输入分类器,分别得到不同的检测置信度;步骤2:融合视频在不同分类器的得分;步骤3:条件随机场精调结果;检测阶段的步骤是,步骤4:把待检测视频输入训练出的分类器,得到不同的检测置信度;步骤5:通过FC‑CRF优化融合不同的检测置信度。本方法可将人类的先验知识和神经网络的输出结合起来,实验结果表明FC‑CRF在ActivityNet上提高了20.8%mAP@0.5的检测性能。

【技术实现步骤摘要】
一种基于弱监督学习的视频时序动作检测方法
本专利技术涉及数字图像处理
,具体为一种基于弱监学习的视频时序动作检测方法。
技术介绍
在过去的几年里,受深度学习在基于图像的分析任务方面的巨大成功的启发,许多模型具有深度学习架构,特别是卷积神经网络(CNN)或递归神经网络(RNN)已被引入到基于视频的动作分析中。Karpathy等人首先在视频中采用深度学习进行动作识别,并设计处理单帧或一系列帧的各种深度学习模型。Tran等人构建一个C3D模型,该模型在空间-时间视频体中执行3D卷积并整合外观和运动提示以便更好地表示。Wang等人提出时间分段网络(TSN),它继承了双流特征提取结构的优点,并利用稀疏采样方案来应对更长的视频剪辑。Qiu等人提出伪3D(P3D)残余网络以循环利用3DCNN的现成2D网络。除了处理动作识别之外,还有其他一些工作可以解决行动检测或候选区域生成问题。Shou等人利用多级CNN检测网络进行时间动作定位。Escorcia等人提出了DAPs模型,该模型使用RNN编码视频序列,并在单个过程中检索行动建议。Lin等人跳过使用单步动作检测器(SSAD)的候选区域生成步骤。Shou等人设计卷积-解卷积(CDC)网络来确定精确的时序界限。在过去的几年中,行为分析在视频理解领域引起了很多关注。根据手工特征表示或深度学习模型体系结构,对此问题进行了许多研究。大量现有工作以强监督的方式处理行动分析任务,其中无背景的行动实例的训练数据被手动注释或修剪掉。近年来,一些强监督方法取得了令人满意的结果。然而,如今在越来越大规模的视频数据集上,标注动作实例的精确时间位置是费时和费时的。此外,正如所指出的,与物体边界不同,动作的确切时间范围的定义通常是主观的,并且在不同观察者之间不一致,这可能导致额外的偏差和错误。为了克服时序动作检测这些限制,利用弱监督方法是合理的选择。现有技术是通过精确的时间标注或剪裁的视频构建深度学习模型,而本专利技术的模型直接采用未修剪的视频数据进行培训,并且只需要视频级别类别标签。
技术实现思路
本专利技术的目的在于一种基于弱监督学习的视频时序动作检测方法。以解决时序动作检测,本专利技术的模型预测了动作类别以及视频中动作实例的时间位置。在弱监督学习任务中,只有视频级分类标签作为监督信号提供,并且在训练过程中,包含与背景混合的动作实例的视频剪辑不会被修改。为了实现本专利技术的目的,具体采取了如下技术方案:一种基于弱监督学习的视频时序动作检测方法,训练的具体步骤如下:步骤1:把视频输入分类器,分别得到不同的检测置信度;步骤2:融合视频在不同分类器的得分;步骤3:条件随机场精调结果。上述步骤1按照如下顺序进行:A)把视频划分为不重合的等长片段,以片段为单位抽取特征。B)分类器根据这些片段的特征,分别对不同的动作类别给出对应的检测置信度。所述的步骤2按如下顺序进行:C)给定视频片断,经过初始分类器,得到对应类别得分(详见步骤1);D)根据得分,擦除视频片断部分内容,得到新视频片断。具体操作为:根据视频片断类别得分,算出其类别的分类概率,然后根据概率高低,随机把对应视频片段,移出训练集。E)把训练集的所有视频遍历一次,如上述移除部分视频片段,得到新的训练集。所述的步骤3按如下顺序进行:F)在新训练集的视频上训练分类器;G)训练收敛判断,判断为否时,重复步骤第二步和第三步,判断为是时,得到一系列训练好的分类器。在训练过程中,逐步删除具有高度信任行为发生的片段。通过这样做,来获得了一系列具有各自偏好的分类器,用于不同类型的动作片段。在使用阶段,反复根据训练出的分类器选择带动作实例的片段,并通过全连接条件随机场(FC-CRF)优化融合结果。检测阶段的步骤如下:步骤4:把待检测视频输入训练出的分类器,得到不同的检测置信度;步骤5:通过FC-CRF优化融合不同的检测置信度;上述步骤4按照如下顺序进行:I)把待检测视频划分为不重合的等长片段,以片段为单位抽取特征。II)训练好的分类器根据这些片段的特征,分别对不同的动作类别给出对应的检测置信度。上述步骤5按照如下顺序进行:III)根据视频片断类别得分,算出其类别的分类概率。IV)使用全连接条件随机场FC-CRF,以概率图的形式,接受分类概率输入,并根据视频片段的时间轴位置,优化融合结果,输出最终的检测概率。由于采取了上述的技术手段,本专利技术具有如下优点和积极效果:1.本专利技术提出了一个弱监督模型来检测未修剪视频中的时间动作。该模型通过对视频进行逐步擦除来获得一系列分类器。在测试阶段,通过收集来自逐个分类器的检测结果来应用本专利技术的模型是方便的。2.据本专利技术所知,这是第一个将全连接条件随机场[22](fullyconnectedconditionalramdomfiled,FC-CRF)引入时间动作检测任务的工作,它被用于将人类的先验知识和神经网络的输出结合起来。实验结果表明FC-CRF在ActivityNet上提高了20.8%mAP@0.5的检测性能。3.本专利技术对两个具有挑战性的未修剪视频数据集进行了广泛的实验,即ActivityNet[11]和THUMOS'14[20];证明本专利技术方法的检测效果在平均准确率(meanaverageprecision,mAP)超过其他所有的弱监督时序动作检测方法,甚至比得上某些强监督方法。为了更清楚地说明本专利技术的构思和技术方案,下面结合附图,通过具体实施例对本专利技术做进一步说明。附图说明图1为本专利技术视频时序动作检测方法的流程图;图2为本专利技术的训练流程图。具体实施方式图1为本专利技术视频时序动作检测方法的流程图,如图1所示,一种基于弱监督学习的视频时序动作检测方法,包括如下步骤:1、把视频输入各个分类器S1,分别得到不同的检测置信度;2、融合视频在不同分类器的得分S2;3、条件随机场精调结果S3。图2为本专利技术的训练流程图,如图2所示,训练流程图包括如下步骤:视频片断经过初始分类器,得到对应类别得分11;根据得分,擦除视频片断部分内容,得到新视频片断12;在新视频上训练分类器13;训练收敛判断,判断为否14,重复步骤12和13,判断为是进入下一步骤15;得到一系列训练好的分类器15。本专利技术方法的模型训练过程具体步骤如下:给定视频包含N个剪辑,其中K个视频级别的类别标签给定由参数θ指定的分类器,本专利技术可以获得分类分数φ(V;θ)∈RNXC,其中C是所有类别的数量。在第t个擦除步骤中,本专利技术将训练视频的剩余片段表示为Vt,并将分类器表示为θt。对于第i行φ(Vt;θt)的φi,:,对应的原始分类得分第i个剪辑,本专利技术计算第j个的片段内概率softmax标准化的类别pi,j(Vt):此外,本专利技术定义权重因子αi,j:其中δτ定义如下:其中τ为衰减因子,是一个超参数。擦除概率si,j如下:si,j(Vt)=αi,j(Vt)pi,j(Vt)得到第t轮擦除概率si,j(Vt)后,本专利技术如下完成训练过程:步骤2:模型的使用。由得到的一系列分类器计算pi,j与αi,j,得到其平均值与本专利技术建立一个全连接条件随机场,其能量函数如下:其中,标签自变量li与lj由指定,表示第i,j个片段对应的类别标签。此后,使用平均场近似优化并求αp的结果即可各个片段的监测置信度。根据该全本文档来自技高网
...

【技术保护点】
1.一种基于弱监督学习的视频时序动作检测方法,其具体步骤如下:步骤1:把视频输入分类器,分别得到不同的检测置信度;步骤2:融合视频在不同分类器的得分;步骤3:条件随机场精调结果。

【技术特征摘要】
1.一种基于弱监督学习的视频时序动作检测方法,其具体步骤如下:步骤1:把视频输入分类器,分别得到不同的检测置信度;步骤2:融合视频在不同分类器的得分;步骤3:条件随机场精调结果。2.根据权利要求1所述的基于弱监督学习的视频时序动作检测方法,其特征在于:所述的步骤1按如下顺序进行:A)把视频划分为不重合的等长片段,以片段为单位抽取特征。B)分类器根据这些片段的特征,分别对不同的动作类别给出对应的检测置信度。3.根据权利要求1所述的基于弱监督学习的视频时序动作检测方法,其特征在于:所述的步骤2按如下顺序进行:C)给定视频片断,经过初始分类器,得到对应类别得分(详见步骤1);D)根据得分,擦除视频片断部分内容,得到新视频片断。具体操作为:根据视频片断类别得分,算出其类别的分类概率,然后根据概率高低,随机把对应视频片段,移出训练集。E)把训练集的所有视频遍历一次,如上述移除部分视频片段,得到新的训练集。4.根据权利要求1所述的基于弱监督学习的视频时序动作检测方法,其特征在于:所述的步骤3按如下顺序进行:F)在新训练集的视频上训练分类器;G)训练收敛判断,判断为否时,重复步骤第二步和第三步,判断为是时,得到一系列训练好的分类器。5.根据权利要求1-4任意一项所述的基于弱监督学习的视频时序动作检测方法,在步骤3之后还包含有检测阶段,该检测阶段的具体步骤是:步骤4:把待检测视频输入训练出的分类器,得到不同的检测置信度;步骤5:通过FC-CRF优化融合不同的检测置信度。6.根据权利要求5所述的基于弱监督学习的视频时序动作检测方法,其特征在于:所述的步骤4按如下顺序进行:I)把待检测视频划分为不重合的等长片段,以片段为单位抽取特征。II)训练好的分类器根...

【专利技术属性】
技术研发人员:李革钟家兴李楠楠孔伟杰张涛黄靖佳
申请(专利权)人:北京大学深圳研究生院
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1