基于LRCN网络的行为识别方法、装置、设备及介质制造方法及图纸

技术编号：22220005 阅读：23 留言：0更新日期：2019-09-30 01:48

本发明专利技术实施例提供一种基于LRCN网络的行为识别方法、装置、设备及可读存储介质，其中，该方法包括：获取待识别的视频帧序列和对应的光流图；将待识别的视频帧序列和对应的光流图输入长时递归卷积网络模型，得到所述待识别的视频帧序列的行为类别标签，将所述待识别的视频帧序列中每相邻的预设数量的帧输入长时递归卷积网络模型中的第一卷积神经网络内，将预设数量的帧对应的光流图输入长时递归卷积网络模型中的第二卷积神经网络内，卷积神经网络分别对预设数量的帧和光流图采用数据融合的方式进行卷积层共享。该方案在卷积层之间引入共享，使得降低了相邻帧之间的图像信息存在的大量冗余之后再进行行为识别，从而有利于减少网络整体的计算量。

Behavior Recognition Method, Device, Equipment and Media Based on LRCN Network

全部详细技术资料下载

【技术实现步骤摘要】
基于LRCN网络的行为识别方法、装置、设备及介质
本专利技术涉及行为识别
，特别涉及一种基于LRCN(长时递归卷积网络)网络的行为识别方法、装置、设备及可读存储介质。
技术介绍
行为识别是序列学习任务的另一个具体实例，是时序的图像序列作为输入的一种学习。行为识别的目的是从对代理人行为和环境状况的一系列观察中识别一个或者多个代理人的行为。从20世纪80年代开始，这个研究领域由于它在许多不同的应用以及与许多不同研究领域的关联，例如，医学、人机交互和社会学，已经吸引了许多计算机科学领域人员的关注。目前，将结合卷积神经网络(CNN)与循环神经网络(LSTM)的LRCN(长时递归卷积网络)网络应用于视频序列进行行为识别。识别方法如图1所示，输入的视频序列是由一系列的采样的帧所组成的，视频可以看作图像在时间上的一个排布，一个长度为T的视频序列的每一帧是一张从一个连续的视频序列中采样得到的图片，每一张图片都输入一个单独的卷积神经网络，卷积神经网络的权重是与时刻相关固定的，每一个时间步的权重是不同的。对于输入的图片来说，采用的是从一个连续视频序列中采样的图片以及计算的光流图，光流是由稠密光流算法计算得到的，并且被缩放和平移x与y的在[-128，128]范围的光流值转化成的一张光流图，图片的第三通道是计算光流的幅度得到的。采用裸图片数据输入和光流图片输入分别使用两个不同的网络进行训练。在训练过程中，视频被缩放到了240×320的大小，通过用227×227抠图和镜像来增强数据。从而使得训练数据集的丰富性，以及达到各种动作视频样本的平衡。此外，LRCN网络是由视频中采样得...

【技术保护点】
1.一种基于长时递归卷积网络的行为识别方法，其特征在于，包括：获取待识别的视频帧序列和对应的光流图；将待识别的视频帧序列和对应的光流图输入长时递归卷积网络模型，得到所述待识别的视频帧序列的行为类别标签，其中，将所述待识别的视频帧序列中每相邻的预设数量的帧输入长时递归卷积网络模型中的第一卷积神经网络内，将预设数量的帧对应的光流图输入长时递归卷积网络模型中的第二卷积神经网络内，卷积神经网络分别对预设数量的帧和光流图采用数据融合的方式进行卷积层共享。

【技术特征摘要】
1.一种基于长时递归卷积网络的行为识别方法，其特征在于，包括：获取待识别的视频帧序列和对应的光流图；将待识别的视频帧序列和对应的光流图输入长时递归卷积网络模型，得到所述待识别的视频帧序列的行为类别标签，其中，将所述待识别的视频帧序列中每相邻的预设数量的帧输入长时递归卷积网络模型中的第一卷积神经网络内，将预设数量的帧对应的光流图输入长时递归卷积网络模型中的第二卷积神经网络内，卷积神经网络分别对预设数量的帧和光流图采用数据融合的方式进行卷积层共享。2.如权利要求1所述的基于长时递归卷积网络的行为识别方法，其特征在于，还包括：通过以下步骤训练所述长时递归卷积网络网络模型：获取视频帧序列、对应的光流图以及对应的行为类别标签作为样本；将视频帧序列中每相邻的预设数量的帧输入长时递归卷积网络模型中第一卷积神经网络内，将预设数量的帧对应的光流图输入长时递归卷积网络模型中第二卷积神经网络内，将所述第一卷积神经网络和所述第二卷积神经网络的输出作为长时递归卷积网络模型中一个长短时记忆网络的输入，将行为类别标签作为长时递归卷积网络模型的输出进行训练，得到所述长时递归卷积网络模型。3.如权利要求2所述的基于长时递归卷积网络的行为识别方法，其特征在于，将视频帧序列中每相邻的预设数量的帧输入长时递归卷积网络模型中第一卷积神经网络内，将预设数量的帧对应的光流图输入长时递归卷积网络模型中第二卷积神经网络内，包括：针对每相邻的预设数量的帧，第一卷积神经网络具备N层卷积，N为正整数，将第一帧输入第一卷积神经网络内，第一卷积神经网络的各层卷积依次对第一帧进行卷积计算；将第二帧与第一卷积神经网络内第一帧在第N-1层卷积的输出结果输入到第一卷积神经网络的第N层卷积；将第三帧与第一卷积神经网络内第一帧在第N-2层卷积的输出结果输入到第一卷积神经网络的N-1卷积；将第四帧与第一卷积神经网络内第一帧在第N-3层卷积的输出结果输入到第一卷积神经网络的第N-2层卷积；将第五帧与第一卷积神经网络内第一帧在第N-4层卷积的输出结果输入到第一卷积神经网络的第N-3层卷积，循环以上步骤直至将最后一帧输入第一卷积神经网络；第一卷积神经网络的各层卷积分别输出一个帧特征向量；针对预设数量的帧对应的光流图，第二卷积神经网络具备N层卷积，将第一帧对应的光流图输入第二卷积神经网络内，第二卷积神经网络的各层卷积依次对第一帧对应的光流图进行卷积计算；将第二帧对应的光流图与第二卷积神经网络内第一帧对应的光流图在第N-1层卷积的输出结果输入到第二卷积神经网络的第N层卷积；将第三帧对应的光流图与第二卷积神经网络内第一帧对应的光流图在第N-2层卷积的输出结果输入到第二卷积神经网络的N-1卷积；将第四帧对应的光流图与第二卷积神经网络内第一帧对应的光流图在第N-3层卷积的输出结果输入到第二卷积神经网络的第N-2层卷积；将第五帧对应的光流图与第二卷积神经网络内第一帧对应的光流图在第N-4层卷积的输出结果输入到第二卷积神经网络的第N-3层卷积，循环上述步骤直至将最后一帧对应的光流图输入第二卷积神经网络；循环以上步骤直至将最后一帧对应的光流图输入第二卷积神经网络，第二卷积神经网络的各层卷积分别输出一个光流图特征向量。4.如权利要求1至3中任一项所述的基于长时递归卷积网络的行为识别方法，其特征在于，所述预设数量等于所述时递归卷积网络模型中卷积神经网络的卷积层数。5.一种基于长时递归卷积网络的行为识别装置，其特征在于，包括：数据获取模块，用于获取待识别的视频帧序列和对应的光流图；识别模块，用于将待...

【专利技术属性】
技术研发人员：欧阳鹏，尹首一，李秀东，王博，
申请(专利权)人：北京清微智能科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人