一种基于边界查找的用于视频中动作时间轴定位的方法技术

技术编号:19546552 阅读:24 留言:0更新日期:2018-11-24 21:05
一种基于边界查找的用于视频中动作时间轴定位的方法,采用时间轴边界似然的组件来改进第三阶段的定位问题。该组件通过三个步骤来执行更精确的视频动作定位:给定一段由第一和第二阶段产生的类别可知的动作提议,第一步将其左右边界扩充得到一个更大的搜索间隔片段,同时将这个时间间隔均匀等分成多个单元,每个单元包含同样数目的帧数;第二步对每一个单元计算内外概率或者边界概率,分别表示该单元位于真实标注之内或之外以及是该动作发生的开始边界或结束边界的概率;第三步基于每个单元计算出的概率,利用最大似然估计来估计出最优的动作时间轴边界,从而达到定位的效果。

A Boundary Search-based Method for Locating Action Time Axis in Video

A method based on boundary lookup is proposed to locate the action time axis in video. The component of boundary likelihood of time axis is used to improve the location problem in the third stage. The component performs more precise video action localization in three steps: Given a class-aware action proposal generated by the first and second stages, the first step expands its left and right boundaries to a larger search interval segment, and divides the time interval evenly into multiple units, each containing the same unit. The second step calculates the internal and external probabilities or boundary probabilities for each cell, indicating the probability that the cell is within or outside the real label and that the start or end boundaries of the action occur respectively; and the third step estimates the optimum using the maximum likelihood estimation based on the probability calculated by each cell. The boundary of action time axis can achieve the effect of positioning.

【技术实现步骤摘要】
一种基于边界查找的用于视频中动作时间轴定位的方法
本专利技术涉及视频分析
,尤其涉及一种基于边界查找的用于视频中动作时间轴定位的方法,该方法是基于视频深度三维特征并利用最大似然法进行动作边界查找来实现视频中动作时间轴精确定位。
技术介绍
视频动作时间轴定位技术是指给定一段包含一个或多个动作的未修剪长视频,让计算机结合视频处理与相关的机器学习算法,通过对该视频内容进行分析,能够对其中是否发生某类动作做出判断,同时还需要定位动作发生和结束的位置。由于在当今这个数据爆炸的时代,每天多会产生海量的视频数据,这些数据中包含丰富有价值的信息,如何从原始视频数据中提取出有用信息是视频分析技术最主要的目的。近些年,作为视频分析中的一个新的任务,视频动作时间轴定位技术被广泛研究,然而由于视频背景复杂,动作长度不一,动作发生的时刻任意等因素,也使得该任务具有很大的挑战性。对于给定的一段视频帧序列,现有的大部分算法通常采用“提议+分类+定位(微调)”的三阶段策略来解决这个问题。第一阶段提议:产生一系列行为不可知的动作提议,这些提议是大量有可能包含某类动作的候选视频段,其通常通过多尺度滑动窗口或者其他高效的动作提议算法对原视频进行二分类得到;第二阶段分类:利用预先训练的行为可知的分类器对每一个提议进行分类,识别出该提议所属的动作类别;第三阶段定位:利用时间轴边界框回归对每个提议框的边界进行定位微调得到最终更精准的检测结果。在现有的许多方法中,提议和分类的性能已经能达到较高的水平,然而如何实现精准的边界定位微调依旧是一个开放的问题。虽然大部分方法采用了回归网络来达到这一目的,但是,直接利用边界坐标进行回归是一个较难学习的任务,而且仅仅利用提议的起止时间坐标回归是无法产生足够准确的动作时间轴边界,因此如何精确地对动作时间轴边界进行定位是目前很多方法性能的瓶颈所在,也是一个目前亟待解决的问题。
技术实现思路
为了解决上述时间轴边界回归所存在的问题,并产生更精准的动作时间轴边界,本专利技术提出了一个称为时间轴边界似然(TemporalBoundaryLikelihood,TBL)的组件来改进第三阶段的定位问题。该组件通过三个步骤来执行更精确视频动作定位:给定一段由第一和第二阶段产生的类别可知的动作提议,第一步将其左右边界扩充得到一个更大的搜索间隔片段,同时将这个时间间隔均匀等分成多个单元,每个单元包含同样数目的帧数;第二步对每一个单元计算内外(In-Out)概率或者边界(Boundary)概率,分别表示该单元位于真实标注(GroundTruth)之内或之外以及是该动作发生的开始边界或结束边界的概率;第三步基于每个单元计算出的概率,利用最大似然估计来估计出最优的动作时间轴边界,从而达到定位的效果。由于内外概率和边界概率能提供更细节更有用的用于定位的信息,因此边界寻找模型能够产生比边界回归模型仅仅利用两个边界坐标值去回归更精确的动作时间轴边界。通过在THUMOS’14和ActivityNet1.3数据集上大量的实验,验证了本定位算法的优越性,并且检测效果优越于目前所存在的算法。本专利技术提出一种名为时间轴边界似然网络(TemporalBoundaryLikelihoodNetwork,TBL-Net)的算法框架进行视频动作时间轴定位,同样采用“提议+分类+定位”的三阶段检测框架,相对应的整个框架包括了3个主要组件:动作提议网络、动作分类网络和动作定位网络。输入一段视频序列,首先利用共享的C3D深度网络对其提取丰富的深度时空特征,在C3D最后一层特征图conv5b上利用动作提议网络(ActionProposalNetwork)结合类似于FasterR-CNN目标检测框架中锚点(Anchor)机制来提取大量可能包含动作的高质量提议片段。对于每一个动作提议,本专利技术设计了一种多次迭代的方法对其进行分类和定位:在每一次迭代中,首先利用分类网络对该动作提议进行分类,得到其属于每一类的概率值;然后利用定位网络查找每一段提议所对应搜索间隔片段中存在动作的左右边界,得到检测后的动作片段,该片段经过定位网络定位调整之后,会具有更加靠近真是标注的时间轴边界,在下一次迭代中对该片段进行同样的操作。达到迭代终止条件后,将各次迭代产生的检测结果进行利用极大值抑制进行融合,得到最终的检测结果。具体包括如下步骤:1)输入:一段待检测的视频帧序列,维度为3×L×H×W,其中L为序列的长度,H和W表示3通道帧图像的长和宽;2)特征提取:利用C3D深度卷积网络模型对输入的视频帧序列进行特征提取,每一个卷积层都会产生一个特征图;最后一层特征图为Fconv5b,维度为3)动作提议网络:利用一个卷积层和一个最大值池化层将最后一层特征图conv5b压缩到仅保留时间维度的特征图Ftpn,其维度为利用一个滑动空间窗口在Ftpn上以步长为1的速度沿着时间轴维度滑动,每滑到一个位置,同时预测产生K个不同尺度的锚点,并根据这些锚点产生相应的动作提议;每个动作提议都根据其中包含目标的可能性预测一个分数,根据分数从高到低排序,保留前N(如前2000个)最有可能包含动作提议,生成候选动作提议集B0;4)开始迭代:设置迭代次数为T,在每次迭代给定一个候选动作提议集里面包含上一次迭代得到的检测结果,在这一次迭代中本专利技术利用分类和定位网络执行如下的操作对其进行进一步定位微调,将每次迭代之后得到的新的动作提议集重新送入到进行进一步迭代,迭代结束后,将每次迭代之后的结果进行融合得到最终的检测结果;5)动作分类网络:对候选动作提议集Bt中的每一个动作片段首先利用3DRoI池化层将其池化到固定维度(512×1×4×4)的特征,从而可以将其送入两个全连接层和一个Softmax层去预测一组分数值表示该提议属于每一类的概率;6)动作定位网络:动作定位网络由一个时间轴边界似然组件构成,其输入是一个动作片段,输出是一组条件概率矩阵,表示该片段中动作边界的某种位置信息。对候选动作提议集Bt中的每一个动作片段首先将其扩充γ倍来生成一个更大的搜索间隔片段,同时将I均匀等分成M个单元,每个单元包含同样数目的帧数;然后同样利用3DRoI池化层池化后的固定维度特征送入三个全连接层产生一个尺寸为N×M×C的一维特征向量,将该向量送入到一个Sigmoid层产生最终维度为N×M×C的条件概率矩阵,这里本专利技术定义了如下两种概率:·内外(In-Out)概率:本专利技术定义内外概率来表示该单元位于真实标注边界内部的概率;理想情况下,给定一个真实标注,其中和分别表示其开始和结束边界,则In-Out概率pio应该与如下目标概率T={Tio}相等。·边界(Boundary)概率:本专利技术定义边界概率和分别表示该单元是该动作的开始边界以及结束边界的概率;理想情况下,给定一个真实标注,其中和分别表示其开始和结束边界,则边界概率pl应该与如下目标概率T={Ts,Te}相等,其中l∈{s,e}。在检测阶段,基于上述的两种条件概率,给定一个搜索间隔片段I,本专利技术设计了如下三种模型,利用极大似然估计(MaximumLikelihoodEstimation,MLE)来确定该搜索间隔片段中存在动作的时间轴边界B=Bs,Be)。·内外(In-Out)模型:基于时间轴边界本文档来自技高网
...

【技术保护点】
1.一种基于边界查找的用于视频中动作时间轴定位的方法,其特征在于:该方法包括如下步骤:1)输入:一段待检测的视频帧序列,维度为3×L×H×W,其中L为序列的长度,H和W表示3通道帧图像的长和宽;2)特征提取:利用C3D深度卷积网络模型对输入的视频帧序列进行特征提取,每一个卷积层都会产生一个特征图;最后一层特征图为Fconv5b,维度为

【技术特征摘要】
1.一种基于边界查找的用于视频中动作时间轴定位的方法,其特征在于:该方法包括如下步骤:1)输入:一段待检测的视频帧序列,维度为3×L×H×W,其中L为序列的长度,H和W表示3通道帧图像的长和宽;2)特征提取:利用C3D深度卷积网络模型对输入的视频帧序列进行特征提取,每一个卷积层都会产生一个特征图;最后一层特征图为Fconv5b,维度为3)动作提议网络:利用一个卷积层和一个最大值池化层将最后一层特征图conv5b压缩到仅保留时间维度的特征图Ftpn,其维度为利用一个滑动空间窗口在Ftpn上以步长为1的速度沿着时间轴维度滑动,每滑到一个位置,同时预测产生K个不同尺度的锚点,并根据这些锚点产生相应的动作提议;每个动作提议都根据其中包含目标的可能性预测一个分数,根据分数从高到低排序,保留前N(如前2000个)最有可能包含动作提议,生成候选动作提议集B0;4)开始迭代:设置迭代次数为T,在每次迭代给定一个候选动作提议集里面包含上一次迭代得到的检测结果,在这一次迭代中我们利用分类和定位网络执行如下的操作对其进行进一步定位微调,将每次迭代之后得到的新的动作提议集重新送入到进行进一步迭代,迭代结束后,将每次迭代之后的结果进行融合得到最终的检测结果;5)动作分类网络:对候选动作提议集Bt中的每一个动作片段首先利用3DRoi池化层将其池化到固定维度(512×1×4×4)的特征,从而可以将其送入两个全连接层和一个Softmax层去预测一组分数值表示该提议属于每一类的概率;6)动作定位网络:动作定位网络由一个时间轴边界似然组件构成,其输入是一个动作片段,输出是一组条件概率矩阵,表示该片段中动作边界的某种位置信息。2.根据权利要求1所述的动作时间轴定位的方法,其特征在于:步骤6)中,对候选动作提议集Bt中的每一个动作片段首先将其扩充γ倍来生成一个更大的搜索间隔片段,同时将I均匀等分成M个单元,每个单元包含同样数目的帧数;然后同样利用3DRoi池化层池化后的固定维度特征送入三个全连接层产生一个尺寸为N×M×C的一...

【专利技术属性】
技术研发人员:李革孔伟杰李楠楠钟家兴张涛李宏王荣刚王文敏高文
申请(专利权)人:北京大学深圳研究生院
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1