单阶段的视频行为检测方法技术

技术编号:19426310 阅读:29 留言:0更新日期:2018-11-14 10:47
本发明专利技术公开了一种单阶段的视频行为检测方法,其包括:在训练阶段,基于卷积神经网络构建多尺度行为片段回归网络;将训练视频和帧级真实行为标签作为输入,使用多任务学习的端到端优化方法训练多尺度行为片段回归网络,获得训练好的多尺度行为片段回归网络模型;在使用阶段,当新视频输入时,通过时间维度滑窗生成与训练视频具有相同长度的输入帧序列,使用训练好的多尺度行为片段回归网络模型,预测输入帧序列的行为类别和对应的时间位置;再使用非极大值抑制对预测结果进行处理,产生最终的行为检测结果。该方法可以提高检测性能与检测效率。

【技术实现步骤摘要】
单阶段的视频行为检测方法
本专利技术涉及视频行为检测
,尤其涉及一种单阶段的视频行为检测方法。
技术介绍
近年来,视频拍摄设备(例如:智能手机、数码相机、监控摄像头等)飞速普及,使人们可以便捷的拍摄视频,现代通信设备使视频的获取和传播越来越便捷,视频已经成为现代社会中重要的信息载体。随着计算机智能化需求的不断增长以及模式识别技术、图像处理技术和人工智能技术的快速发展,使用计算机视觉技术对视频内容进行分析有着巨大的实际需求和很高的商业价值。而人类活动往往是视频中的信息主体,对视频中的人类行为进行检测对于视频理解具有重大的意义。视频人类行为检测任务是在未分割的长视频中,检测出视频中包含的每个人类行为实例的类别同时定位出每个行为实例发生的时间。由于绝大多数监控视频和网络视频均为未分割的长视频,在长视频中做检测更加符合实际需求。随着深度学习技术的发展,视频行为检测领域取得了一些研究成果。然而,视频行为检测领域仍处于发展起步阶段,当前的视频行为检测方法往往不够成熟,普遍存在模型过于复杂、计算成本过高、行为定位精确度低等问题。为满足实际应用的需求,急需提出新的视频行为检测框架和方法。目前针本文档来自技高网...

【技术保护点】
1.一种单阶段的视频行为检测方法,其特征在于,包括:在训练阶段,基于卷积神经网络构建多尺度行为片段回归网络;将训练视频和帧级真实行为标签作为输入,使用多任务学习的端到端优化方法训练多尺度行为片段回归网络,获得训练好的多尺度行为片段回归网络模型;在使用阶段,当新视频输入时,通过时间维度滑窗生成与训练视频具有相同长度的输入帧序列,使用训练好的多尺度行为片段回归网络模型,预测输入帧序列的行为类别和对应的时间位置;再使用非极大值抑制对预测结果进行处理,产生最终的行为检测结果。

【技术特征摘要】
1.一种单阶段的视频行为检测方法,其特征在于,包括:在训练阶段,基于卷积神经网络构建多尺度行为片段回归网络;将训练视频和帧级真实行为标签作为输入,使用多任务学习的端到端优化方法训练多尺度行为片段回归网络,获得训练好的多尺度行为片段回归网络模型;在使用阶段,当新视频输入时,通过时间维度滑窗生成与训练视频具有相同长度的输入帧序列,使用训练好的多尺度行为片段回归网络模型,预测输入帧序列的行为类别和对应的时间位置;再使用非极大值抑制对预测结果进行处理,产生最终的行为检测结果。2.根据权利要求1所述的一种单阶段的视频行为检测方法,其特征在于,所构建的多尺度行为片段回归网络包括:基础泛化模块、行为实例锚定模块和行为预测模块;其中:所述基础泛化模块,包含交替设置的N1层三维卷积层和N2层三维最大值池化层,用于对输入的视频序列进行特征泛化,并扩大感受野;所述行为实例锚定模块,采用N3层时间维度上的步幅为s1,空间维度上的步幅为s2的三维卷积网络,用于为本模块每一个三维卷积层输出的锚定特征图的每个单元格关联不同时间长度的锚定行为实例;所述行为预测模块,用于对锚定特征图的每个单元格使用Dk·(m+2)个尺寸为h×w×3的卷积核进行卷积,输出相应单元格对应的Dk个锚定行为实例对m个行为类别的预测得分和两个时间位置偏移量;其中,h、w对应的表示锚定特征图的高、宽。3.根据权利要求2所述的一种单阶段的视频行为检测方法,其特征在于,所述行为实例锚定模块中,为每个锚定特征图定义一个基础时间刻度sk,k∈[1,N3];为每个锚定特征图定义一组刻度比率Dk是刻度比率的个数;每个锚定特征图的大小表示为h×w×t,t表示锚定特征图的长,则锚定特征图的每一个尺寸为h×w×3的单元格关联Dk个锚定行为实例,行为实例的时间长度为ld=sk·rd,d∈[1,Dk],中心位置为单元格中心。4.根据权利要求2所述的一种单阶...

【专利技术属性】
技术研发人员:王子磊刘志康
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1