一种视频行为时间轴检测方法技术

技术编号:19480986 阅读:20 留言:0更新日期:2018-11-17 10:38
本发明专利技术公布了一种视频行为时间轴检测方法,基于深度学习和时间结构建模,并结合粗粒度检测与细粒度检测做视频行为时间轴检测,在已有模型SSN的基础上,使用双流模型来提取视频的时空特征;对行为的时间结构进行建模,将单个行为分为三个阶段;接着提出一种新的能够有效提取视频行为的时间边界信息的特征金字塔;最后结合粗粒度检测与细粒度检测,使得检测结果更加精确;本发明专利技术的检测精度高,超过了当前已有的所有公开方法,具有广泛的适用性,可适用于智能监控系统或者人机监护系统中对人类感兴趣视频片段的检测,便于后续的分析与处理,具有重要的应用价值。

【技术实现步骤摘要】
一种视频行为时间轴检测方法
本专利技术涉及视频分析
,尤其涉及一种视频行为时间轴检测方法,该方法基于深度学习并结合视频上下文信息进行视频内人类行为的时间轴检测。
技术介绍
包含人类行为的视频可以分为两类:一类是经过人工裁剪的、仅包含人类行为而不包含任何无关背景视频的视频;一类是拍摄后未经裁剪的视频,该类视频中不仅仅包括人类行为而且包含无关的背景片段,比如片头,观众等。视频行为时间轴检测指在一段未经过人工裁剪的视频中,定位出人类行为发生的起始时间与结束时间,并识别人类行为的类别。目前已有的视频行为时间轴检测方法主要遵循两步策略:首先,提取大量的很可能包含人类动作视频片段的视频行为时间轴候选框,然后对所提取的候选框进行位置和长度上的细微调整,并对定位到的行为进行分类。一般地,视频行为时间轴候选框提取虽然能大致定位到视频内的人类行为,但定位精度较低,与动作片段的重叠率较低,因此对视频行为时间轴候选框的调优和精确分类非常重要。在实际的应用场景中,精确地定位到人类行为发生的起始时间和结束时间非常重要,。本专利技术在已有视频行为时间轴候选框提取方法的基础上,主要针对视频行为时间轴检测这一任务,基于深度学习,进行精确的视频行为时间轴定位。目前根据视频行为时间轴检测方式的不同,可以将现有的视频行为时间轴检测模型分为两类:第一类是一阶段方法。所谓的一阶段方法,是指直接从未裁剪视频中寻找和定位人类行为的方法。这一类方法的效率相对较高。但是由于视频内包含的信息量巨大,这种直接一步到位的定位方法很难取得较好的定位结果。第二类方法是两阶段方法,即先提取视频行为时间轴候选框,然后对候视频行为时间轴选框进行调整和分类。目前已有的大部分视频行为时间轴检测方法都是两阶段方法。这一类方法,通过一些快速的视频行为时间轴候选框提取算法,从视频中提取大量的很可能包含人类行为片段的视频段。虽然视频行为时间轴候选框可以作为粗糙的定位结果,但是其定位精度很差,并且其中包含着大量的无用的背景视频段。因此,一些算法专注于在第二阶段中对视频行为时间轴候选框进行位置微调,从而纠正视频行为时间轴候选框的位置,提高定位的精度。同时,在第二阶段,对视频行为时间轴候选框进行再次筛选分类,去除无用的背景片段,从而达到较好的视频行为时间轴检测结果。现有的较好的视频行为时间轴检测方法有R-C3D,SSN(Zhao,Yue,etal."Temporalactiondetectionwithstructuredsegmentnetworks."TheIEEEInternationalConferenceonComputerVision(ICCV).Vol.8.2017.)等。其中SSN提出应该对视频内行为的时间结构进行建模,从而达到精确定位的目标。SSN将一个时间轴候选框分为起始、中间、结束三个阶段,在每个阶段上建立结构化特征金字塔,提取时间结构信息。在提取出的金字塔特征之上,SSN建立两个分类器,分别进行行为分类和候选框完整性判定。SSN取得了较优的视频行为时间轴检测结果。但是,SSN模型本身具有两个缺点:一是SSN试图精确地定位行为的时间边界,但是忽视了时间边界部分的信息;二是SSN对一整个候选框进行完整性判断,将包含不完整行为的候选框直接丢弃,没有充分地利用候选框,效率有待提高。
技术实现思路
为了克服上述现有技术的不足,本专利技术提供一种新的视频行为时间轴检测方法TBN,基于深度学习,并融合视频的低级特征和高级特征,结合粗粒度检测和细粒度检测,实现视频内人类行为的时间轴检测。本专利技术方法可应用于多个领域,比如智能监控视频、人机交互等场景中对人类感兴趣的行为进行捕捉,从而过滤掉大量的无用的视频数据,便于系统后续的分析及操作。本专利技术的原理是:本专利技术方法基于深度学习,融合视频的低级特征和高级特征,集合粗粒度检测和细粒度检测,实现视频内的行为时间轴检测。本方法首先基于一个目前较优秀的视频行为时间轴检测模型SSN,对视频内的人类行为的时间结构进行建模,将一个视频行为时间轴候选框分为起始、中间、结束三个阶段。然后使用一个全新的结构化的时间轴边界注意力特征金字塔来融合视频的高级特征和低级特征,提取行为的时间边界信息;最后,使用一个行为分类器进行行为分类,并使用两种不同粒度的完整性分类器,进行粗粒度和细粒度的检测,并融合这两类检测结果,达到精确地进行视频行为时间轴定位的效果。本专利技术基于SSN提出新的模型TBN进行视频行为时间轴检测,利用时间轴边界注意力特征金字塔来融合视频的各级特征,提取时间轴边界信息,并融合不同粒度的检测结果。本专利技术方法在THUMOS’14数据集上进行试验验证,所取得的实验效果超过了目前已有的所有公开方法,达到了精确地视频行为时间轴定位。本专利技术提供的技术方案是:一种结合了粗粒度检测和细粒度检测的视频行为时间轴检测方法。先使用高效的视频行为时间轴候选框提取方法提取视频行为时间轴候选框,将每个视频行为时间轴候选框两段各延长1/2,得到一个延长后的视频行为时间轴候选框。本专利技术对延长后的视频行为时间轴候选框进行分阶段建模,并使用经典的双流模型(RGB+光流)对每一个阶段的视频进行特征提取。在每一个阶段上,构建了能够有效提取视频行为时间轴边缘信息的时间轴边界注意力特征金字塔。连接各个阶段的特征,得到一个全局的特征向量,并在全局特征向量上构建3个分类器,分别进行行为的分类,候选框内行为的完整性评估,候选框内行为的分阶段完整性评估。通过大量的训练,训练了出了能够从两种粒度判断行为完整性的模型,结合行为分类器,达到对视频内人类行为进行精确时间轴定位的目的。具体包括以下步骤:1)输入:从视频行为时间轴候选框内采样出来的视频帧(RGB+光流);2)视频行为时间轴候选框时间结构建模:将视频行为时间轴候选框两端各延长1/2,然后将延长的候选框分为三个阶段,分为是起始,中间,结束。3)特征提取:利用基于BNInception网络结构的双流网络对视频行为时间轴候选框的每一个阶段进行特征提取,分为提取出其基于RGB分支和光流分支的特征,三个阶段的特征分别为Hs,Hc,He4)建立时间轴边界注意力特征金字塔:在候选的每一个阶段的特征上,建立一个多层的特征金字塔,提取行为的时间边缘信息。5)构建全局特征:连接视频行为时间轴候选框的每一个阶段的特征,形成全局特征。6)构建分类器:在金字塔特征上,建立三个分类器和一个回归器。三个分类器分别进行行为分类、候选框内行为完整性评估、候选框分阶段完整性评估,而分类器则对视频行为时间轴候选框的位置进行微调。三个分类器一次建立在Hc,(Hs+Hc+He),(Hs+Hc+He)特征上。7)生成细粒度视频行为时间轴候选框检测结果。从不完整的视频行为片段中组合出完整的视频行为片段。8)分类器结果融合。融合三个分类器的输出,将每个分类器的结果相乘,得到所有候选框的置信分数。9)回归。对所有的视频行为时间轴候选框进行位置和长度的回归,使定位结果更加精确。10)非极大值抑制。对所有的定位结果进行非极大值抑制,筛选出高置信度的结果,作为最终的定位结果。与现有技术相比,本专利技术的有益效果是:本专利技术提供了一种新的视频内人类行为时间轴检测方法,在已有的公开模型SSN的基础上,提出了一本文档来自技高网
...

【技术保护点】
1.一种视频行为时间轴检测方法,该方法包括如下步骤:1)对待检测视频,使用TAG提取视频行为时间轴候选框;2)对每一个视频行为时间轴候选框进行时间结构建模,将单个候选框分为三个阶段;3)使用视频分类深度模型提取视频的时空特征,将特征保存在内存中;4)在每一个阶段上,建立多层特征金字塔以有效提取视频行为的时间边界信息;5)在金字塔特征上,构建三个分类器A、B、C和一个回归器R,三个分类器分别进行行为分类、候选框内行为完整性评估、候选框内行为分阶段完整性评估;6)利用分类器C的候选框分阶段完整性评估结果,使用TAG中提出的组合方法,从不完整行为片段中组合出完整的行为片段。7)进行两种不同粒度的行为时间轴检测;融合两种粒度的检测结果,由此达到精确的视频行为时间轴定位的目的。

【技术特征摘要】
1.一种视频行为时间轴检测方法,该方法包括如下步骤:1)对待检测视频,使用TAG提取视频行为时间轴候选框;2)对每一个视频行为时间轴候选框进行时间结构建模,将单个候选框分为三个阶段;3)使用视频分类深度模型提取视频的时空特征,将特征保存在内存中;4)在每一个阶段上,建立多层特征金字塔以有效提取视频行为的时间边界信息;5)在金字塔特征上,构建三个分类器A、B、C和一个回归器R,三个分类器分别进行行为分类、候选框内行为完整性评估、候选框内行为分阶段完整性评估;6)利用分类器C的候选框分阶段完整性评估结果,使用TAG中提出的组合方法,从不完整行为片段中组合出完整的行为片段。7)进行两种不同粒度的行为时间轴检测;融合两种粒度的检测结果,由此达到精确的视频行为时间轴定位的目的。2.如权利要求1所述视频行为时间轴检测方法,其特征是,步骤3)所述的视频分类深度模型为基于BNInception网络的双流模型;该模型将视频的RGB图片和光流特征分别输入两个相同结构的BNInception网络,训练其学习视频的颜色特征与运动特征;其提取的特征向量的长度为1024。3.如权利要求2所述的视频行为时间轴检测方法,其特征是,对每个时间轴候选框,将其两端各延长候选框长度的1/2,以包含行为的上下文语义信息。针对每个延长后的视频行为时间轴候选框,将其分为三个阶段,分别为“起始阶段”,“中间阶段”和“结束阶段”,对应一个行为的“起始”,“进行”和“结束”。4.如权利要求3所述的视频行为时间轴检测方法,其特征是,对于每个视频行为时间轴候选框的“起始阶段”,“中间阶段”和“结束阶段”...

【专利技术属性】
技术研发人员:李革张涛李楠楠林凯孔伟杰李宏
申请(专利权)人:北京大学深圳研究生院
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1