一种基于Attention-LSTM网络的视频行为识别方法技术

技术编号：21090600 阅读：30 留言：0更新日期：2019-05-11 10:20

本发明专利技术公开了一种基于Attention‑LSTM网络的视频行为识别方法。通过光流图序列生成模块对输入的RGB图序列进行变换，得到光流图序列；将光流图序列与原RGB图序列输入时域注意力取帧模块，分别选取两种图序列中非冗余的关键帧；将两种图的关键帧序列输入AlexNet网络特征提取模块，分别提取出两种帧图的时序特征和空间特征，通过特征分权加强模块，对最后一层卷积层输出的特征图执行加重与动作相关性强的特征权重的操作；将两个AlexNet网络特征提取模块输出的特征图输入LSTM网络行为识别模块，分别对两种图片进行识别，并将两种识别结果通过融合模块按比例融合，得到最终的视频行为识别结果。本发明专利技术不仅能实现从视频中识别行为的功能，且能提高识别的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于Attention-LSTM网络的视频行为识别方法
本专利技术属于计算机视觉领域，特别涉及了一种基于Attention-LSTM网络的视频行为识别方法。
技术介绍
智能视频分析是目前计算机视觉领域非常热，也是极具挑战的一个方向。智能视频分析方向包含众多的子研究方向，其中主要的两个研究方向为行为识别和行为检测。行为识别类似与图像的分类，主要解决“视频中的行为是什么”问题，给出一段只包含一个行为动作的修剪视频，要求给视频分类。行为检测(或定位)和目标检测一致，主要解决“视频中是否有相应的行为发生，如果有，则发生在视频帧序列的哪一段和在每一帧的什么位置”问题，这主要分两步完成，一是类似于目标检测中的候选区域提取，这步主要是从视频中找出可能含有动作的视频段；二是对该视频段进行分类。行为分类研究在深度学习出现之前，表现最好的算法是iDT算法，其思路是利用光流场来获得视频序列中的一些轨迹，再沿着轨迹提取HOF，HOG，MBH，trajectory4中的特征，其中HOF是基于灰度图计算，另外几个均基于密集光流计算；再利用FisherVector方法对特征进行编码；最后基于编码训练结果训练SVM，随机森林等传统的机器学习分类器方法进行分类和最终结果的输出。深度学习问世后，实现了从特征提取到分类的端到端解决方案。DuTran等人在二维的卷积核中引入时间维度，用三维的卷积核处理视频，实现端到端的训练，网络结构简单且速度快。因为视频除了空间维度外，最大的痛点是时间序列问题，基于RNN网络能很好处理序列问题，DuWenbin等人提出的基于RNN的网络算法引入姿态监督的机制...

【技术保护点】
1.一种基于Attention‑LSTM网络的视频行为识别方法，其特征在于，首先，通过光流图序列生成模块对输入的RGB图序列进行变换，得到光流图序列；其次，将得到的光流图序列与原RGB图序列输入时域注意力取帧模块，分别选取两种图序列中非冗余的关键帧；然后，将两种图的关键帧序列输入AlexNet网络特征提取模块，分别提取出两种帧图的时序特征和空间特征，同时，在AlexNet网络的最后一层卷积层与全连接层之间通过特征分权加强模块，对最后一层卷积层输出的特征图执行加重与动作相关性强的特征权重的操作；将两个AlexNet网络特征提取模块输出的特征图输入LSTM网络行为识别模块，分别对两种图片进行识别，并将两种识别结果通过融合模块按比例融合，得到最终的视频行为识别结果。

【技术特征摘要】
1.一种基于Attention-LSTM网络的视频行为识别方法，其特征在于，首先，通过光流图序列生成模块对输入的RGB图序列进行变换，得到光流图序列；其次，将得到的光流图序列与原RGB图序列输入时域注意力取帧模块，分别选取两种图序列中非冗余的关键帧；然后，将两种图的关键帧序列输入AlexNet网络特征提取模块，分别提取出两种帧图的时序特征和空间特征，同时，在AlexNet网络的最后一层卷积层与全连接层之间通过特征分权加强模块，对最后一层卷积层输出的特征图执行加重与动作相关性强的特征权重的操作；将两个AlexNet网络特征提取模块输出的特征图输入LSTM网络行为识别模块，分别对两种图片进行识别，并将两种识别结果通过融合模块按比例融合，得到最终的视频行为识别结果。2.根据权利要求1所述基于Attention-LSTM网络的视频行为识别方法，其特征在于，所述光流图片序列生成模块生成的光流图与原RGB图的尺寸相同。3.根据权利要求1所述基于Attention-LSTM网络的视频行为识别方法，其特征在于，所述时域注意力取帧模块采用注意力机制，计算序列图片之间的矢量距离，将距离小于设定阈值的帧图去除，则保留的帧图构成关键帧序列。4.根据权利要求1所述基于Attention-LSTM网络的视频行为识别方法，其特征在于，所述AlexNet网络特征提取模块依次包括5层卷积层和1层全连接层，图片先经过前5层卷积层进行特征提取，再在第5层特征图上通过特征分权加强模块加大与动作相关部位的权重，将特征分布变化的特征图进行最后的全连接操作得到输出的高维特征图。5.根据权利要求4所述基于Attention-LSTM网络的视频行为识别方法，其特征在于，将当前时刻帧图在经过AlexNet网络第5层卷积后的特征与上一时刻在经过LSTM网络的隐藏层特征共同作为输入送入特征分权加强模块，特征分权加强模块实现对两个特征矢量距离的计算，...

【专利技术属性】
技术研发人员：陆生礼，庞伟，向丽苹，范雪梅，舒程昊，吴成路，阮小千，梁彪，邹涛，
申请(专利权)人：东南大学，东南大学—无锡集成电路技术研究所，南京三宝科技股份有限公司，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人