当前位置: 首页 > 专利查询>东南大学专利>正文

一种基于Attention-LSTM网络的视频行为识别方法技术

技术编号:21090600 阅读:30 留言:0更新日期:2019-05-11 10:20
本发明专利技术公开了一种基于Attention‑LSTM网络的视频行为识别方法。通过光流图序列生成模块对输入的RGB图序列进行变换,得到光流图序列;将光流图序列与原RGB图序列输入时域注意力取帧模块,分别选取两种图序列中非冗余的关键帧;将两种图的关键帧序列输入AlexNet网络特征提取模块,分别提取出两种帧图的时序特征和空间特征,通过特征分权加强模块,对最后一层卷积层输出的特征图执行加重与动作相关性强的特征权重的操作;将两个AlexNet网络特征提取模块输出的特征图输入LSTM网络行为识别模块,分别对两种图片进行识别,并将两种识别结果通过融合模块按比例融合,得到最终的视频行为识别结果。本发明专利技术不仅能实现从视频中识别行为的功能,且能提高识别的准确率。

【技术实现步骤摘要】
一种基于Attention-LSTM网络的视频行为识别方法
本专利技术属于计算机视觉领域,特别涉及了一种基于Attention-LSTM网络的视频行为识别方法。
技术介绍
智能视频分析是目前计算机视觉领域非常热,也是极具挑战的一个方向。智能视频分析方向包含众多的子研究方向,其中主要的两个研究方向为行为识别和行为检测。行为识别类似与图像的分类,主要解决“视频中的行为是什么”问题,给出一段只包含一个行为动作的修剪视频,要求给视频分类。行为检测(或定位)和目标检测一致,主要解决“视频中是否有相应的行为发生,如果有,则发生在视频帧序列的哪一段和在每一帧的什么位置”问题,这主要分两步完成,一是类似于目标检测中的候选区域提取,这步主要是从视频中找出可能含有动作的视频段;二是对该视频段进行分类。行为分类研究在深度学习出现之前,表现最好的算法是iDT算法,其思路是利用光流场来获得视频序列中的一些轨迹,再沿着轨迹提取HOF,HOG,MBH,trajectory4中的特征,其中HOF是基于灰度图计算,另外几个均基于密集光流计算;再利用FisherVector方法对特征进行编码;最后基于编码训练结果训练SVM,随机森林等传统的机器学习分类器方法进行分类和最终结果的输出。深度学习问世后,实现了从特征提取到分类的端到端解决方案。DuTran等人在二维的卷积核中引入时间维度,用三维的卷积核处理视频,实现端到端的训练,网络结构简单且速度快。因为视频除了空间维度外,最大的痛点是时间序列问题,基于RNN网络能很好处理序列问题,DuWenbin等人提出的基于RNN的网络算法引入姿态监督的机制,提高了视频分类的效果。行为检测中最大的难点是定位存在行为动作的视频段。过去的行为检测方法多采用滑动窗口法,然而基于滑动窗口法的动作定位非常耗时,时间效率低。
技术实现思路
为了解决上述
技术介绍
提出的技术问题,本专利技术提供一种基于Attention-LSTM网络的视频行为识别方法,实现对视频中目标行为的准确识别。为了实现上述技术目的,本专利技术的技术方案为:一种基于Attention-LSTM网络的视频行为识别方法,首先,通过光流图序列生成模块对输入的RGB图序列进行变换,得到光流图序列;其次,将得到的光流图序列与原RGB图序列输入时域注意力取帧模块,分别选取两种图序列中非冗余的关键帧;然后,将两种图的关键帧序列输入AlexNet网络特征提取模块,分别提取出两种帧图的时序特征和空间特征,同时,在AlexNet网络的最后一层卷积层与全连接层之间通过特征分权加强模块,对最后一层卷积层输出的特征图执行加重与动作相关性强的特征权重的操作;将两个AlexNet网络特征提取模块输出的特征图输入LSTM网络行为识别模块,分别对两种图片进行识别,并将两种识别结果通过融合模块按比例融合,得到最终的视频行为识别结果。进一步地,所述光流图片序列生成模块生成的光流图与原RGB图的尺寸相同。进一步地,所述时域注意力取帧模块采用注意力机制,计算序列图片之间的矢量距离,将距离小于设定阈值的帧图去除,则保留的帧图构成关键帧序列。进一步地,所述AlexNet网络特征提取模块依次包括5层卷积层和1层全连接层,图片先经过前5层卷积层进行特征提取,再在第5层特征图上通过特征分权加强模块加大与动作相关部位的权重,将特征分布变化的特征图进行最后的全连接操作得到输出的高维特征图。进一步地,将当前时刻帧图在经过AlexNet网络第5层卷积后的特征与上一时刻在经过LSTM网络的隐藏层特征共同作为输入送入特征分权加强模块,特征分权加强模块实现对两个特征矢量距离的计算,获得送入AlexNet网络全连接层输入的权重系数,将该权重系数与第5层卷积后的特征相乘得到的与动作有关的关键部位信息的特征送入AlexNet网络的全连接层,得到帧图的高维特征。进一步地,所述特征分权加强模块利用一个神经网络实现,该神经网络的损失函数loss如下:上式中,t为当前时刻帧图,T为一个行为的总时刻帧图,K为每个特征图上的特征值总数量,lt,i为该神经网络训练得到的权重系数值,是对一个行为的序列帧在一个像素点的值累加,是对所有像素点的值累加。进一步地,在LSTM网络行为识别模块中,1个LSTM单元的输入是当前时刻帧图特征信息xt与上一时刻特征信息ht-1,利用输入门、遗忘门和输出门控制LSTM单元的输出;所述输入门控制当前候选记忆单元特征的输入,输入门it如下:it=f(Wixt+Uiht-1+bi)上式中,f为激活函数,Wi、Ui、bi分别为输入门中xt、ht-1的权值系数和偏置;所述遗忘门控制上一时刻记忆单元特征的输入,遗忘门ft如下:ft=f(Wfxt+Ufht-1+bf)上式中,Wf、Uf、bf分别为遗忘门中xt、ht-1的权值系数和偏置;所述输出门控制融合了当前候选记忆单元特征与上一时刻记忆单元特征的当前记忆单元特征的输入,输出门如下:ot=f(Woxt+Uoht-1+bo)上式中,Wo、Uo、bo分别为输出门中xt、ht-1的权值系数和偏置;当前候选记忆单元特征上式中,Wc、Uc、bc分别为输出门中xt、ht-1的权值系数和偏置;当前记忆单元特征ct:根据ct得到经过该LSTM单元的隐藏层信息ht:ht=ot·tanh(ct)选择不同的卷积核信息得到多个LSTM隐藏单元,再经过全连接层和Softmax层送入融合模块。采用上述技术方案带来的有益效果:本专利技术通过运用基于深度学习的高效模型AlexNet和经典循环神经网络LSTM,结合注意力Attention机制得到Attention-LSTM网络,实现从视频中识别行为的功能,且能提高识别的准确率;此外,相较于卷积神经网络,循环神经网路LSTM加入了对时序信息的记录,可实现对动态行为的识别。本专利技术可应用在如检测出有人翻墙触发报警系统等安防场景下,或察觉并记录运动员等犯规操作等体育竞技场景下,或车辆行为异常检测抓拍,司机驾驶行为异常等交通管理场景下。附图说明图1是本专利技术的整体流程框图;图2是本专利技术中AlexNet网络结构图;图3是本专利技术中特征分权加强模块结构图。具体实施方式以下将结合附图,对本专利技术的技术方案进行详细说明。一种基于Attention-LSTM网络的视频行为识别方法,如图1所示。首先,通过光流图序列生成模块对输入的RGB图序列进行变换,得到光流图序列;其次,将得到的光流图序列与原RGB图序列输入时域注意力取帧模块,分别选取两种图序列中非冗余的关键帧;然后,将两种图的关键帧序列输入AlexNet网络特征提取模块,分别提取出两种帧图的时序特征和空间特征,同时,在AlexNet网络的最后一层卷积层与全连接层之间通过特征分权加强模块,对最后一层卷积层输出的特征图执行加重与动作相关性强的特征权重的操作;将两个AlexNet网络特征提取模块输出的特征图输入LSTM网络行为识别模块,分别对两种图片进行识别,并将两种识别结果通过融合模块(Fsusion模块)按比例融合,得到最终的视频行为识别结果。1、光流图序列生成模块光流图片序列生成模块的核心算法是光流法。在空间中,运动可以用运动场描述。而在一个图像平面上,物体的运动往往是通过图像序列中不同图像灰度分布的不同体现的。空间中的运动场本文档来自技高网
...

【技术保护点】
1.一种基于Attention‑LSTM网络的视频行为识别方法,其特征在于,首先,通过光流图序列生成模块对输入的RGB图序列进行变换,得到光流图序列;其次,将得到的光流图序列与原RGB图序列输入时域注意力取帧模块,分别选取两种图序列中非冗余的关键帧;然后,将两种图的关键帧序列输入AlexNet网络特征提取模块,分别提取出两种帧图的时序特征和空间特征,同时,在AlexNet网络的最后一层卷积层与全连接层之间通过特征分权加强模块,对最后一层卷积层输出的特征图执行加重与动作相关性强的特征权重的操作;将两个AlexNet网络特征提取模块输出的特征图输入LSTM网络行为识别模块,分别对两种图片进行识别,并将两种识别结果通过融合模块按比例融合,得到最终的视频行为识别结果。

【技术特征摘要】
1.一种基于Attention-LSTM网络的视频行为识别方法,其特征在于,首先,通过光流图序列生成模块对输入的RGB图序列进行变换,得到光流图序列;其次,将得到的光流图序列与原RGB图序列输入时域注意力取帧模块,分别选取两种图序列中非冗余的关键帧;然后,将两种图的关键帧序列输入AlexNet网络特征提取模块,分别提取出两种帧图的时序特征和空间特征,同时,在AlexNet网络的最后一层卷积层与全连接层之间通过特征分权加强模块,对最后一层卷积层输出的特征图执行加重与动作相关性强的特征权重的操作;将两个AlexNet网络特征提取模块输出的特征图输入LSTM网络行为识别模块,分别对两种图片进行识别,并将两种识别结果通过融合模块按比例融合,得到最终的视频行为识别结果。2.根据权利要求1所述基于Attention-LSTM网络的视频行为识别方法,其特征在于,所述光流图片序列生成模块生成的光流图与原RGB图的尺寸相同。3.根据权利要求1所述基于Attention-LSTM网络的视频行为识别方法,其特征在于,所述时域注意力取帧模块采用注意力机制,计算序列图片之间的矢量距离,将距离小于设定阈值的帧图去除,则保留的帧图构成关键帧序列。4.根据权利要求1所述基于Attention-LSTM网络的视频行为识别方法,其特征在于,所述AlexNet网络特征提取模块依次包括5层卷积层和1层全连接层,图片先经过前5层卷积层进行特征提取,再在第5层特征图上通过特征分权加强模块加大与动作相关部位的权重,将特征分布变化的特征图进行最后的全连接操作得到输出的高维特征图。5.根据权利要求4所述基于Attention-LSTM网络的视频行为识别方法,其特征在于,将当前时刻帧图在经过AlexNet网络第5层卷积后的特征与上一时刻在经过LSTM网络的隐藏层特征共同作为输入送入特征分权加强模块,特征分权加强模块实现对两个特征矢量距离的计算,...

【专利技术属性】
技术研发人员:陆生礼庞伟向丽苹范雪梅舒程昊吴成路阮小千梁彪邹涛
申请(专利权)人:东南大学东南大学—无锡集成电路技术研究所南京三宝科技股份有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1