The invention relates to the field of computer vision technology, in particular to a video understanding method, aiming at solving the technical problems of how to effectively extract the dense frame features and long-term spatiotemporal features of video. To this end, the video understanding method provided by the present invention firstly obtains the video frame group of the target video by residual network, then generates the video sequence relationship characteristics according to multiple video frame groups by using the time sequence relationship network, and finally predicts the video behavior category of the target video according to the time sequence relationship characteristics. The video frame group includes two ordered video frames. Each ordered video frame includes several video frames arranged in chronological order. Based on the above steps, the dense frame features and long-term spatiotemporal features of the target video can be obtained effectively, and then the video behavior categories of the target video can be predicted quickly and accurately.
【技术实现步骤摘要】
视频理解方法
本专利技术涉及计算机视觉
,具体涉及一种视频理解方法。
技术介绍
相比于静态图像,视频包含一维时序信息,因此视频能够承载更多的运动信息。根据这些运动信息可以预测未来一段时间内可能发生的动作。在计算机视觉
中主要按照下列步骤进行视频理解:特征提取、分类模型学习和行为分类。其中,“特征提取”的步骤主要包括基于人工设计技术的特征提取和基于机器学习技术的特征提取。“基于人工设计技术的特征提取”主要包括:采样局部视频子块并统计每个局部视频子块的特征(即局部特征提取)。具体地,首先检测局部时空兴趣点,然后统计局部时空兴趣点。但是这种特征提取方法不能有效处理具有长期时间结构的运动。“基于机器学习技术的特征提取”主要是利用卷积神经网络和机器学习算法构建视频识别模型,进而利用该视频识别模型获取视频特征。例如,利用图像序列深度卷积网络模型或双流卷积神经网络模型等模型提取视频特征。但是这种特征提取方法往往不能提取密集帧特征。
技术实现思路
为了解决现有技术中的上述问题,即为了解决如何有效提取视频的密集帧特征和长期时空特征的技术问题。为此目的,本专利技术提供了一种视频理解方法。在第一方面,本专利技术中的视频理解方法包括下列步骤:获取目标视频的多个视频帧组;基于预设的残差网络提取每个所述视频帧组对应的单视频帧特征;基于预设的时序关系网络并根据所述单视频帧特征生成时序关系特征;根据所述时序关系特征和预设的视频行为类别,预测所述目标视频对应的视频行为类别;其中,所述残差网络和时序关系网络均是基于深度神经网络并利用机器学习算法构建的网络;所述视频帧组包括两个有序视频 ...
【技术保护点】
1.一种视频理解方法,其特征在于包括:获取目标视频的多个视频帧组;基于预设的残差网络提取每个所述视频帧组对应的单视频帧特征;基于预设的时序关系网络并根据所述单视频帧特征生成时序关系特征;根据所述时序关系特征和预设的视频行为类别,预测所述目标视频对应的视频行为类别;其中,所述残差网络和时序关系网络均是基于深度神经网络并利用机器学习算法构建的网络;所述视频帧组包括两个有序视频帧,所述有序视频帧包括多个按照时间顺序依次排列的视频帧。
【技术特征摘要】
1.一种视频理解方法,其特征在于包括:获取目标视频的多个视频帧组;基于预设的残差网络提取每个所述视频帧组对应的单视频帧特征;基于预设的时序关系网络并根据所述单视频帧特征生成时序关系特征;根据所述时序关系特征和预设的视频行为类别,预测所述目标视频对应的视频行为类别;其中,所述残差网络和时序关系网络均是基于深度神经网络并利用机器学习算法构建的网络;所述视频帧组包括两个有序视频帧,所述有序视频帧包括多个按照时间顺序依次排列的视频帧。2.根据权利要求1所述的视频理解方法,其特征在于,“获取目标视频的多个视频帧组”的步骤包括:对所述目标视频进行抽样处理得到多个视频帧;对所述视频帧进行随机抽取得到两个包含特定数量视频帧的视频帧序列;将每个所述视频帧序列中的视频帧按照时间顺序依次排列得到有序视频帧;根据所述有序视频帧构建所述视频帧组。3.根据权利要求1所述的视频理解方法,其特征在于,所述视频帧组中每个有序视频帧均包括d+1个按照时间顺序依次排列的视频帧;其中,1≤d≤N,所述N是视频帧组的总数。4.根据权利要求1-3中任一项所述的视频理解方法,其特征在于,所述时序关系特征如下式所示:T(V)=T1(V)+T2(V)+...+Td(V)+...+T...
【专利技术属性】
技术研发人员:李扬曦,杜翠兰,佟玲玲,王晶,缪亚男,胡卫明,王博,邓智方,张宏源,
申请(专利权)人:国家计算机网络与信息安全管理中心,中国科学院自动化研究所,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。