A method based on boundary lookup is proposed to locate the action time axis in video. The component of boundary likelihood of time axis is used to improve the location problem in the third stage. The component performs more precise video action localization in three steps: Given a class-aware action proposal generated by the first and second stages, the first step expands its left and right boundaries to a larger search interval segment, and divides the time interval evenly into multiple units, each containing the same unit. The second step calculates the internal and external probabilities or boundary probabilities for each cell, indicating the probability that the cell is within or outside the real label and that the start or end boundaries of the action occur respectively; and the third step estimates the optimum using the maximum likelihood estimation based on the probability calculated by each cell. The boundary of action time axis can achieve the effect of positioning.
【技术实现步骤摘要】
一种基于边界查找的用于视频中动作时间轴定位的方法
本专利技术涉及视频分析
,尤其涉及一种基于边界查找的用于视频中动作时间轴定位的方法,该方法是基于视频深度三维特征并利用最大似然法进行动作边界查找来实现视频中动作时间轴精确定位。
技术介绍
视频动作时间轴定位技术是指给定一段包含一个或多个动作的未修剪长视频,让计算机结合视频处理与相关的机器学习算法,通过对该视频内容进行分析,能够对其中是否发生某类动作做出判断,同时还需要定位动作发生和结束的位置。由于在当今这个数据爆炸的时代,每天多会产生海量的视频数据,这些数据中包含丰富有价值的信息,如何从原始视频数据中提取出有用信息是视频分析技术最主要的目的。近些年,作为视频分析中的一个新的任务,视频动作时间轴定位技术被广泛研究,然而由于视频背景复杂,动作长度不一,动作发生的时刻任意等因素,也使得该任务具有很大的挑战性。对于给定的一段视频帧序列,现有的大部分算法通常采用“提议+分类+定位(微调)”的三阶段策略来解决这个问题。第一阶段提议:产生一系列行为不可知的动作提议,这些提议是大量有可能包含某类动作的候选视频段,其通常通过多尺度滑动窗口或者其他高效的动作提议算法对原视频进行二分类得到;第二阶段分类:利用预先训练的行为可知的分类器对每一个提议进行分类,识别出该提议所属的动作类别;第三阶段定位:利用时间轴边界框回归对每个提议框的边界进行定位微调得到最终更精准的检测结果。在现有的许多方法中,提议和分类的性能已经能达到较高的水平,然而如何实现精准的边界定位微调依旧是一个开放的问题。虽然大部分方法采用了回归网络来达到这一目的, ...
【技术保护点】
1.一种基于边界查找的用于视频中动作时间轴定位的方法,其特征在于:该方法包括如下步骤:1)输入:一段待检测的视频帧序列,维度为3×L×H×W,其中L为序列的长度,H和W表示3通道帧图像的长和宽;2)特征提取:利用C3D深度卷积网络模型对输入的视频帧序列进行特征提取,每一个卷积层都会产生一个特征图;最后一层特征图为Fconv5b,维度为
【技术特征摘要】
1.一种基于边界查找的用于视频中动作时间轴定位的方法,其特征在于:该方法包括如下步骤:1)输入:一段待检测的视频帧序列,维度为3×L×H×W,其中L为序列的长度,H和W表示3通道帧图像的长和宽;2)特征提取:利用C3D深度卷积网络模型对输入的视频帧序列进行特征提取,每一个卷积层都会产生一个特征图;最后一层特征图为Fconv5b,维度为3)动作提议网络:利用一个卷积层和一个最大值池化层将最后一层特征图conv5b压缩到仅保留时间维度的特征图Ftpn,其维度为利用一个滑动空间窗口在Ftpn上以步长为1的速度沿着时间轴维度滑动,每滑到一个位置,同时预测产生K个不同尺度的锚点,并根据这些锚点产生相应的动作提议;每个动作提议都根据其中包含目标的可能性预测一个分数,根据分数从高到低排序,保留前N(如前2000个)最有可能包含动作提议,生成候选动作提议集B0;4)开始迭代:设置迭代次数为T,在每次迭代给定一个候选动作提议集里面包含上一次迭代得到的检测结果,在这一次迭代中我们利用分类和定位网络执行如下的操作对其进行进一步定位微调,将每次迭代之后得到的新的动作提议集重新送入到进行进一步迭代,迭代结束后,将每次迭代之后的结果进行融合得到最终的检测结果;5)动作分类网络:对候选动作提议集Bt中的每一个动作片段首先利用3DRoi池化层将其池化到固定维度(512×1×4×4)的特征,从而可以将其送入两个全连接层和一个Softmax层去预测一组分数值表示该提议属于每一类的概率;6)动作定位网络:动作定位网络由一个时间轴边界似然组件构成,其输入是一个动作片段,输出是一组条件概率矩阵,表示该片段中动作边界的某种位置信息。2.根据权利要求1所述的动作时间轴定位的方法,其特征在于:步骤6)中,对候选动作提议集Bt中的每一个动作片段首先将其扩充γ倍来生成一个更大的搜索间隔片段,同时将I均匀等分成M个单元,每个单元包含同样数目的帧数;然后同样利用3DRoi池化层池化后的固定维度特征送入三个全连接层产生一个尺寸为N×M×C的一...
【专利技术属性】
技术研发人员:李革,孔伟杰,李楠楠,钟家兴,张涛,李宏,王荣刚,王文敏,高文,
申请(专利权)人:北京大学深圳研究生院,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。