视频理解方法技术

技术编号:19635563 阅读:73 留言:0更新日期:2018-12-01 16:13
本发明专利技术涉及计算机视觉技术领域,具体涉及一种视频理解方法,旨在解决如何有效提取视频的密集帧特征和长期时空特征的技术问题。为此目的,本发明专利技术提供的视频理解方法首先利用残差网络获取目标视频的视频帧组,然后利用时序关系网络并根据多个视频帧组生成视频的时序关系特征,最后根据时序关系特征预测目标视频的视频行为类别。其中,视频帧组包括两个有序视频帧,每个有序视频帧均包括多个按照时间顺序依次排列的视频帧。基于上述步骤,能够有效获取到目标视频的密集帧特征和长期时空特征,进而可以快速且准确地预测出目标视频的视频行为类别。

Video understanding method

The invention relates to the field of computer vision technology, in particular to a video understanding method, aiming at solving the technical problems of how to effectively extract the dense frame features and long-term spatiotemporal features of video. To this end, the video understanding method provided by the present invention firstly obtains the video frame group of the target video by residual network, then generates the video sequence relationship characteristics according to multiple video frame groups by using the time sequence relationship network, and finally predicts the video behavior category of the target video according to the time sequence relationship characteristics. The video frame group includes two ordered video frames. Each ordered video frame includes several video frames arranged in chronological order. Based on the above steps, the dense frame features and long-term spatiotemporal features of the target video can be obtained effectively, and then the video behavior categories of the target video can be predicted quickly and accurately.

【技术实现步骤摘要】
视频理解方法
本专利技术涉及计算机视觉
,具体涉及一种视频理解方法。
技术介绍
相比于静态图像,视频包含一维时序信息,因此视频能够承载更多的运动信息。根据这些运动信息可以预测未来一段时间内可能发生的动作。在计算机视觉
中主要按照下列步骤进行视频理解:特征提取、分类模型学习和行为分类。其中,“特征提取”的步骤主要包括基于人工设计技术的特征提取和基于机器学习技术的特征提取。“基于人工设计技术的特征提取”主要包括:采样局部视频子块并统计每个局部视频子块的特征(即局部特征提取)。具体地,首先检测局部时空兴趣点,然后统计局部时空兴趣点。但是这种特征提取方法不能有效处理具有长期时间结构的运动。“基于机器学习技术的特征提取”主要是利用卷积神经网络和机器学习算法构建视频识别模型,进而利用该视频识别模型获取视频特征。例如,利用图像序列深度卷积网络模型或双流卷积神经网络模型等模型提取视频特征。但是这种特征提取方法往往不能提取密集帧特征。
技术实现思路
为了解决现有技术中的上述问题,即为了解决如何有效提取视频的密集帧特征和长期时空特征的技术问题。为此目的,本专利技术提供了一种视频理解方法。在第一方本文档来自技高网...

【技术保护点】
1.一种视频理解方法,其特征在于包括:获取目标视频的多个视频帧组;基于预设的残差网络提取每个所述视频帧组对应的单视频帧特征;基于预设的时序关系网络并根据所述单视频帧特征生成时序关系特征;根据所述时序关系特征和预设的视频行为类别,预测所述目标视频对应的视频行为类别;其中,所述残差网络和时序关系网络均是基于深度神经网络并利用机器学习算法构建的网络;所述视频帧组包括两个有序视频帧,所述有序视频帧包括多个按照时间顺序依次排列的视频帧。

【技术特征摘要】
1.一种视频理解方法,其特征在于包括:获取目标视频的多个视频帧组;基于预设的残差网络提取每个所述视频帧组对应的单视频帧特征;基于预设的时序关系网络并根据所述单视频帧特征生成时序关系特征;根据所述时序关系特征和预设的视频行为类别,预测所述目标视频对应的视频行为类别;其中,所述残差网络和时序关系网络均是基于深度神经网络并利用机器学习算法构建的网络;所述视频帧组包括两个有序视频帧,所述有序视频帧包括多个按照时间顺序依次排列的视频帧。2.根据权利要求1所述的视频理解方法,其特征在于,“获取目标视频的多个视频帧组”的步骤包括:对所述目标视频进行抽样处理得到多个视频帧;对所述视频帧进行随机抽取得到两个包含特定数量视频帧的视频帧序列;将每个所述视频帧序列中的视频帧按照时间顺序依次排列得到有序视频帧;根据所述有序视频帧构建所述视频帧组。3.根据权利要求1所述的视频理解方法,其特征在于,所述视频帧组中每个有序视频帧均包括d+1个按照时间顺序依次排列的视频帧;其中,1≤d≤N,所述N是视频帧组的总数。4.根据权利要求1-3中任一项所述的视频理解方法,其特征在于,所述时序关系特征如下式所示:T(V)=T1(V)+T2(V)+...+Td(V)+...+T...

【专利技术属性】
技术研发人员:李扬曦杜翠兰佟玲玲王晶缪亚男胡卫明王博邓智方张宏源
申请(专利权)人:国家计算机网络与信息安全管理中心中国科学院自动化研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1