视频理解方法技术

技术编号:19635563 阅读:47 留言:0更新日期:2018-12-01 16:13
本发明专利技术涉及计算机视觉技术领域,具体涉及一种视频理解方法,旨在解决如何有效提取视频的密集帧特征和长期时空特征的技术问题。为此目的,本发明专利技术提供的视频理解方法首先利用残差网络获取目标视频的视频帧组,然后利用时序关系网络并根据多个视频帧组生成视频的时序关系特征,最后根据时序关系特征预测目标视频的视频行为类别。其中,视频帧组包括两个有序视频帧,每个有序视频帧均包括多个按照时间顺序依次排列的视频帧。基于上述步骤,能够有效获取到目标视频的密集帧特征和长期时空特征,进而可以快速且准确地预测出目标视频的视频行为类别。

Video understanding method

The invention relates to the field of computer vision technology, in particular to a video understanding method, aiming at solving the technical problems of how to effectively extract the dense frame features and long-term spatiotemporal features of video. To this end, the video understanding method provided by the present invention firstly obtains the video frame group of the target video by residual network, then generates the video sequence relationship characteristics according to multiple video frame groups by using the time sequence relationship network, and finally predicts the video behavior category of the target video according to the time sequence relationship characteristics. The video frame group includes two ordered video frames. Each ordered video frame includes several video frames arranged in chronological order. Based on the above steps, the dense frame features and long-term spatiotemporal features of the target video can be obtained effectively, and then the video behavior categories of the target video can be predicted quickly and accurately.

【技术实现步骤摘要】
视频理解方法
本专利技术涉及计算机视觉
,具体涉及一种视频理解方法。
技术介绍
相比于静态图像,视频包含一维时序信息,因此视频能够承载更多的运动信息。根据这些运动信息可以预测未来一段时间内可能发生的动作。在计算机视觉
中主要按照下列步骤进行视频理解:特征提取、分类模型学习和行为分类。其中,“特征提取”的步骤主要包括基于人工设计技术的特征提取和基于机器学习技术的特征提取。“基于人工设计技术的特征提取”主要包括:采样局部视频子块并统计每个局部视频子块的特征(即局部特征提取)。具体地,首先检测局部时空兴趣点,然后统计局部时空兴趣点。但是这种特征提取方法不能有效处理具有长期时间结构的运动。“基于机器学习技术的特征提取”主要是利用卷积神经网络和机器学习算法构建视频识别模型,进而利用该视频识别模型获取视频特征。例如,利用图像序列深度卷积网络模型或双流卷积神经网络模型等模型提取视频特征。但是这种特征提取方法往往不能提取密集帧特征。
技术实现思路
为了解决现有技术中的上述问题,即为了解决如何有效提取视频的密集帧特征和长期时空特征的技术问题。为此目的,本专利技术提供了一种视频理解方法。在第一方面,本专利技术中的视频理解方法包括下列步骤:获取目标视频的多个视频帧组;基于预设的残差网络提取每个所述视频帧组对应的单视频帧特征;基于预设的时序关系网络并根据所述单视频帧特征生成时序关系特征;根据所述时序关系特征和预设的视频行为类别,预测所述目标视频对应的视频行为类别;其中,所述残差网络和时序关系网络均是基于深度神经网络并利用机器学习算法构建的网络;所述视频帧组包括两个有序视频帧,所述有序视频帧包括多个按照时间顺序依次排列的视频帧。进一步地,本专利技术提供的一个优选技术方案是:“获取目标视频的多个视频帧组”的步骤包括:对所述目标视频进行抽样处理得到多个视频帧;对所述视频帧进行随机抽取得到两个包含特定数量视频帧的视频帧序列;将每个所述视频帧序列中的视频帧按照时间顺序依次排列得到有序视频帧;根据所述有序视频帧构建所述视频帧组。进一步地,本专利技术提供的一个优选技术方案是:所述视频帧组中每个有序视频帧均包括d+1个按照时间顺序依次排列的视频帧;其中,1≤d≤N,所述N是视频帧组的总数。进一步地,本专利技术提供的一个优选技术方案是:所述时序关系特征如下式所示:T(V)=T1(V)+T2(V)+...+Td(V)+...+TN(V)其中,所述V表示目标视频,T(V)是所述目标视频V对应的时序关系特征,所述Td(V)是所述目标视频V的第d个视频帧组对应的时序关系特征且1≤d≤N,所述N是视频帧组的总数。进一步地,本专利技术提供的一个优选技术方案是:所述时序关系特征Td(V)如下式所示:Td(V)=hφ∑gθ(f1,...,fk,...,fd+1)其中,所述fk是第d个视频帧组中第k个有序视频帧对应的单视频帧特征且1≤k≤d+1,所述hφ和gθ分别表示预设的感知器。进一步地,本专利技术提供的一个优选技术方案是:所述感知器hφ是单层感知器并且所述单层感知器中神经元的数量与所述视频行为类别的数量相同;所述感知器gθ是双层感知器。进一步地,本专利技术提供的一个优选技术方案是:所述残差网络是基于ResNet-50网络框架构建的深度残差网络。进一步地,本专利技术提供的一个优选技术方案是:所述深度残差网络包括四层残差子网络和一个池化层;其中,按照由浅至深的顺序每层所述残差子网络分别包括3个残差块、4个残差块、6个残差块和3个残差块。进一步地,本专利技术提供的一个优选技术方案是:所述时序关系网络是基于TRN网络框架构建的网络。与最接近的现有技术相比,上述技术方案至少具有如下有益效果:本专利技术中的视频理解方法首先利用残差网络获取目标视频的视频帧组,然后利用时序关系网络并根据多个视频帧组生成视频的时序关系特征,最后根据时序关系特征预测目标视频的视频行为类别。其中,视频帧组包括两个有序视频帧,每个有序视频帧均包括多个按照时间顺序依次排列的视频帧。也就是说,利用残差网络和时序关系网络得到的时序关系特征相当于获取到了目标视频的密集帧特征和长期时空特征,进而可以根据时序关系特征快速且准确地预测出目标视频的视频行为类别。附图说明图1是本专利技术实施例中一种视频理解方法的主要步骤示意图;图2是本专利技术实施例中一种视频帧组的示意图。具体实施方式下面参照附图来描述本专利技术的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本专利技术的技术原理,并非旨在限制本专利技术的保护范围。参阅附图1,图1示例性示出了本实施例中一种视频理解方法的主要步骤。如图1所示,本实施例中的视频理解方法可以包含如下步骤:步骤S101:获取目标视频的多个视频帧组。本实施例中的视频帧组可以包括两个有序视频帧,每个有序视频帧可以包括多个按照时间顺序依次排列的视频帧。具体地,在本实施例中可以按照如下步骤获取目标视频的视频帧组:步骤S1011:对目标视频进行抽样处理得到多个视频帧。参阅附图2,图2示例性示出了本实施例中的一种视频帧组。如图2所示,本实施例中对目标视频进行抽样处理可以得到视频帧1~视频帧12。可选地,本实施例中可以利用平均抽样方法对目标视频进行抽样处理。步骤S1012:对视频帧进行随机抽取得到两个包含特定数量视频帧的视频帧序列。在本实施例的一个优选实施方案中,视频帧组中的每个有序视频帧均可以包括d+1个按照时间顺序依次排列的视频帧。其中,1≤d≤N,N是视频帧组的总数。继续参阅附图2,本实施例中当获取目标视频帧的视频帧组1时对视频帧1~视频帧12进行随机抽取可以得到包含视频帧1和视频帧9的视频帧序列(为描述简洁,将该视频帧序列描述为“视频帧序列1”)以及包含视频帧10和视频帧5的视频帧序列(为描述简洁,将该视频帧序列描述为“视频帧序列2”)。当获取目标视频帧的视频帧组1时对视频帧1~视频帧12进行随机抽取可以得到包含视频帧3、视频帧8和视频帧12的视频帧序列(为描述简洁,将该视频帧序列描述为“视频帧序列3”)以及包含视频帧10、视频帧1和视频帧4的视频帧序列(为描述简洁,将该视频帧序列描述为“视频帧序列4”)。当获取目标视频帧的视频帧组3时对视频帧1~视频帧12进行随机抽取可以得到包含视频帧2、视频帧5、视频帧12和视频帧9的视频帧序列(为描述简洁,将该视频帧序列描述为“视频帧序列5”)。步骤S1013:将每个视频帧序列中的视频帧按照时间顺序依次排列得到有序视频帧。继续参阅附图2,本实施例中可以将视频帧序列1~视频帧序列5中的视频帧按照时间顺序依次排列可以得到有序视频帧1~有序视频帧5。其中,有序视频帧1包括依次排列的视频帧1和视频帧9。有序视频帧2包括依次排列的视频帧5和视频帧10。有序视频帧3包括依次排列的视频帧3、视频帧8和视频帧12。有序视频帧4包括依次排列的视频帧1、视频帧4和视频帧10。有序视频帧5包括依次排列的视频帧2、视频帧5、视频帧9和视频帧12。步骤S1014:根据有序视频帧构建视频帧组。继续参阅附图2,本实施例中可以根据有序视频帧1和有序视频帧2构建视频帧组1,可以根据有序视频帧3和有序视频帧4构建视频帧组2,可以将有序视频帧5作为视频帧组3的第1个有序视频帧,而视频帧组3的第2个有序视频帧的获取方法本文档来自技高网...

【技术保护点】
1.一种视频理解方法,其特征在于包括:获取目标视频的多个视频帧组;基于预设的残差网络提取每个所述视频帧组对应的单视频帧特征;基于预设的时序关系网络并根据所述单视频帧特征生成时序关系特征;根据所述时序关系特征和预设的视频行为类别,预测所述目标视频对应的视频行为类别;其中,所述残差网络和时序关系网络均是基于深度神经网络并利用机器学习算法构建的网络;所述视频帧组包括两个有序视频帧,所述有序视频帧包括多个按照时间顺序依次排列的视频帧。

【技术特征摘要】
1.一种视频理解方法,其特征在于包括:获取目标视频的多个视频帧组;基于预设的残差网络提取每个所述视频帧组对应的单视频帧特征;基于预设的时序关系网络并根据所述单视频帧特征生成时序关系特征;根据所述时序关系特征和预设的视频行为类别,预测所述目标视频对应的视频行为类别;其中,所述残差网络和时序关系网络均是基于深度神经网络并利用机器学习算法构建的网络;所述视频帧组包括两个有序视频帧,所述有序视频帧包括多个按照时间顺序依次排列的视频帧。2.根据权利要求1所述的视频理解方法,其特征在于,“获取目标视频的多个视频帧组”的步骤包括:对所述目标视频进行抽样处理得到多个视频帧;对所述视频帧进行随机抽取得到两个包含特定数量视频帧的视频帧序列;将每个所述视频帧序列中的视频帧按照时间顺序依次排列得到有序视频帧;根据所述有序视频帧构建所述视频帧组。3.根据权利要求1所述的视频理解方法,其特征在于,所述视频帧组中每个有序视频帧均包括d+1个按照时间顺序依次排列的视频帧;其中,1≤d≤N,所述N是视频帧组的总数。4.根据权利要求1-3中任一项所述的视频理解方法,其特征在于,所述时序关系特征如下式所示:T(V)=T1(V)+T2(V)+...+Td(V)+...+T...

【专利技术属性】
技术研发人员:李扬曦杜翠兰佟玲玲王晶缪亚男胡卫明王博邓智方张宏源
申请(专利权)人:国家计算机网络与信息安全管理中心中国科学院自动化研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1