一种基于多任务监督学习的视频行为识别方法技术

技术编号:23446485 阅读:26 留言:0更新日期:2020-02-28 20:29
一种基于多任务监督学习的视频行为识别方法,包括:步骤1)将输入视频划分成多个视频序列,每个视频序列包含若干帧图像;以及步骤2)设计3D卷积神经网络对视频序列提取时间和空间联合特征,实现显著性区域检测和视频行为分类。其中,这两个任务共享特征提取模块,显著性特征图用于指导行为识别特征的提取,使得神经网络更加关注于行为发生的区域,有利于网络学习到对运动分类敏感的特征,从而提高了行为识别的检测精度。同时,相比于单任务检测模型,显著性区域检测加快了视频行为分类任务的训练速度。在当前公布的测试数据集上,本发明专利技术提出的方法取得了领先的检测水平。

A video behavior recognition method based on multi task supervised learning

【技术实现步骤摘要】
一种基于多任务监督学习的视频行为识别方法
本专利技术涉及机器学习方法和视频行为分析
,具体涉及到一种基于多任务监督学习的视频行为识别方法。
技术介绍
近年来,随着自媒体的兴起,互联网上存在着巨量的由用户上传的视频,且这个数量每日都被不断地进行刷新。如何智能地对这些视频进行分析,减少人工干预,提升管理效率是众多视频平台提供商关注的问题。利用计算机视觉技术进行智能视频分析是一种可行的解决方案,其中视频行为识别是高层次视频理解(例如视频推断、视频摘要等)的基础。目前普遍流行的视频行为识别方法都是基于单一任务的,即:利用标注数据训练一个神经网络模型,该模型只用于视频行为分类。例如,有些方法使用RGB图像和光流信息训练一个双通道神经网络实现行为分类。然而,机器学习的理论和实践都证实知识在相关的机器学习任务间可以传递和共享,联合学习多个任务比单独学习各个任务能获得更好的性能。
技术实现思路
本专利技术的目的是提供一种基于多任务监督学习的视频行为识别方法,给定一段视频序列作为输入,设计深度卷积网络模型提取特征,并产生两个相关联的任务输出:显著性区域检测和视频行为分类。由于共用特征提取网络,知识在这两个任务间传递和共享,因而使得两个关联任务相互促进,提升了视频行为分类的准确性。本专利技术提供的技术方案如下:根据本专利技术的一个方面,提供了一种基于多任务监督学习的视频行为识别方法,包括:步骤1)将输入视频划分成多个视频序列,每个视频序列包含若干帧图像;以及步骤2)设计3D卷积神经网络对视频序列提取时间和空间联合特征,实现显著性区域检测和视频行为分类。优选地,在上述基于多任务监督学习的视频行为识别方法中,在步骤1)中:对于给定一段输入视频,把它均匀划分成若干段,每段包含27帧图像,称之为视频序列。优选地,在上述基于多任务监督学习的视频行为识别方法中,步骤2)中,设计3D卷积深度神经网络对输入的视频序列提取时间和空间联合特征,并产生两个任务输出:图像显著性区域检测和视频行为分类。优选地,在上述基于多任务监督学习的视频行为识别方法中,3D卷积神经网络上路分支:3D卷积和池化单元的输出信号fa送入全局均匀池化层,对视频行为分类特征进行降维,得到输入视频时空表述特征,再经过一个全连接层得到视频行为分类结果;以及3D卷积神经网络下路分支:特征图堆叠层接收显著性单元输出特征图进行堆叠,得到特征fs经过2D卷积层a得到多通道融合显著性特征fb,fb输入到显著性图生成层,得到显著性区域检测结果。根据本专利技术的另一方面,提供了一种基于多任务监督学习的视频行为识别系统,包括:视频特征提取模块,用于对划分输入视频得到的视频序列提取与分类任务相关的特征,其中与分类任务相关的特征为时间和空间联合特征;以及任务分类模块,用于实现根据视频序列的特征进行图像显著性区域检测和视频行为分类。优选地,在上述基于多任务监督学习的视频行为识别系统中,视频特征提取模块包括:3D卷积和池化单元和显著性模板生成单元,其中,3D卷积和池化单元共有4组,前后串连;显著性模板生成单元共有3组,每个3D卷积和池化单元后都会连接一个显著性模板生成单元,用来生成显著性模板和显著性特征图其中,3D卷积和池化单元输出信号和显著性模板进行点乘和相加得到混叠信号后,送入下一个3D卷积和池化单元作为输入。优选地,在上述基于多任务监督学习的视频行为识别系统中,每组3D卷积和池化单元包括卷积层和池化层;以及每组显著性模板生成单元由3D均匀池化层、3D卷积层、第二2D卷积层、空域显著性激活层和2D上采样反卷积层组成,其中,输入信号经过处理,产生两路输出:一支经过3D均匀池化层、3D卷积层、第二2D卷积层和空域显著性激活层处理后输出图像显著性模板另外一支经过3D均匀池化层、3D卷积层、第二2D卷积层和2D上采样反卷积层后输出显著性特征图优选地,在上述基于多任务监督学习的视频行为识别系统中,3D卷积层的尺寸设置为3×3×3,第二2D卷积层的尺寸设置为1×1,空域显著性激活函数采用sigmoid函数,显著性模板通过对显著性特征图进行softmax运算得到,如下式所示:训练阶段,行为分类损失函数Lact显著性区域检测损失函数Lact都采用交叉熵函数,最后整体的损失函数为两者之和,如下式所示:Lall=Lact+Lsal。优选地,在上述基于多任务监督学习的视频行为识别系统中,任务分类模块包括:全连接层,用于视频行为分类;显著性图生成层,用于生成显著性区域检测结果;全局均匀池化层,用于对视频行为分类特征进行降维;以及第一2D卷积层,用于得到多通道融合显著性特征fb。与现有技术相比,本专利技术的有益效果是:利用本专利技术提供的技术方案,在对视频中存在的行为进行识别时,采用了一种基于多任务监督学习的方式。相比于传统的单一任务模型的视频行为识别方法,多个关联任务共同学习由于存在知识的传递和共享,可以促进单个任务的学习,有效地提升了视频行为分类的准确率;同时,使用本专利技术提出的模板点乘单元,可以利用显著性区域检测图指导视频行为分类特征提取过程,提升了视频行为分类器训练的收敛速度。附图说明为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。图1为本专利技术的基于多任务监督学习的视频行为识别方法的流程图。图2为本专利技术的基于多任务监督学习的视频行为识别方法的神经网络结构示意图。图3为本专利技术的神经网络结构的3D卷积和池化单元的结构示意图。图4为本专利技术的神经网络结构的的显著性模板生成单元的结构示意图。具体实施方式本专利技术提供的基于多任务监督学习的视频行为识别方法不同于以往的单任务学习模式的视频行为识别方法,在本专利技术中,设计了一个多分支深度神经网络模型来实现多个相关的学习任务,以此促进各个子任务的学习。具体地说,给定一段视频作为输入,神经网络模型的输出包括两项:行为分类和显著性区域检测。这是两个相关联的任务,检测到图像中的显著性区域,基于此进行行为分类将会更加准确。因为在包含运动的视频序列中,显著性区域往往就是运动发生的区域。如果神经网络在进行行为推断时,更加关注于来自于显著性区域的特征,则行为分类的准确性将得到提升。本专利技术方法采用深度学习模型架构,设计一种端到端多任务分支的深度神经网络模型,使得多个相关任务之间的知识可以传递和共享,以此来提升视频行为分类的准确性。本专利技术方法的原理是:1.)根据多个关联任务可以相互促进学习的理论,给定一段输入视频序列,设计深度神经网络提取共用特征,给出两种不同的预测输出,来提升视频行为分类的准确率;2.)由视频运动区域和视频显著性区域相重合为依据,利用显著性区域检测图来指导视频行为分类特征提取,加快了视频行为分类的训练过程。一种基于多任务监督学习的视频行为识别方法,设计3D卷积神经网络提取时空联合表述特征,产生两个任务输出。具体地,此过程可分解为视频特征提取本文档来自技高网...

【技术保护点】
1.一种基于多任务监督学习的视频行为识别方法,其特征在于,包括:/n步骤1)将输入视频划分成多个视频序列,每个视频序列包含若干帧图像;以及/n步骤2)设计3D卷积神经网络对视频序列提取时间和空间联合特征,实现显著性区域检测和视频行为分类。/n

【技术特征摘要】
20191015 CN 20191097676321.一种基于多任务监督学习的视频行为识别方法,其特征在于,包括:
步骤1)将输入视频划分成多个视频序列,每个视频序列包含若干帧图像;以及
步骤2)设计3D卷积神经网络对视频序列提取时间和空间联合特征,实现显著性区域检测和视频行为分类。


2.根据权利要求1所述的基于多任务监督学习的视频行为识别方法,其特征在于,在步骤1)中:对于给定一段输入视频,把它均匀划分成若干段,每段包含27帧图像,称之为视频序列。


3.根据权利要求1所述的基于多任务监督学习的视频行为识别方法,其特征在于,步骤2)中,设计3D卷积深度神经网络对输入的视频序列提取时间和空间联合特征,并产生两个任务输出:图像显著性区域检测和视频行为分类。


4.根据权利要求1所述的基于多任务监督学习的视频行为识别方法,其特征在于,其中,所述3D卷积神经网络上路分支:3D卷积和池化单元的输出信号fa送入全局均匀池化层,对视频行为分类特征进行降维,得到输入视频时空表述特征,再经过一个全连接层得到视频行为分类结果;以及所述3D卷积神经网络下路分支:特征图堆叠层接收显著性单元输出特征图进行堆叠,得到特征fs经过2D卷积层a得到多通道融合显著性特征fb,fb输入到显著性图生成层,得到显著性区域检测结果。


5.一种基于多任务监督学习的视频行为识别系统,其特征在于,包括:
视频特征提取模块,用于对划分输入视频得到的视频序列提取与分类任务相关的特征,其中所述与分类任务相关的特征为时间和空间联合特征;以及
任务分类模块,用于实现根据所述视频序列的特征进行图像显著性区域检测和视频行为分类。


6.根据权利要求5所述的基于多任务监督学习的视频行为识别系统,其特征在于,所述视频...

【专利技术属性】
技术研发人员:李楠楠张世雄赵翼飞李若尘李革安欣赏张伟民
申请(专利权)人:深圳龙岗智能视听研究院
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1