基于LRCN网络的行为识别方法、装置、设备及介质制造方法及图纸

技术编号:22220005 阅读:23 留言:0更新日期:2019-09-30 01:48
本发明专利技术实施例提供一种基于LRCN网络的行为识别方法、装置、设备及可读存储介质,其中,该方法包括:获取待识别的视频帧序列和对应的光流图;将待识别的视频帧序列和对应的光流图输入长时递归卷积网络模型,得到所述待识别的视频帧序列的行为类别标签,将所述待识别的视频帧序列中每相邻的预设数量的帧输入长时递归卷积网络模型中的第一卷积神经网络内,将预设数量的帧对应的光流图输入长时递归卷积网络模型中的第二卷积神经网络内,卷积神经网络分别对预设数量的帧和光流图采用数据融合的方式进行卷积层共享。该方案在卷积层之间引入共享,使得降低了相邻帧之间的图像信息存在的大量冗余之后再进行行为识别,从而有利于减少网络整体的计算量。

Behavior Recognition Method, Device, Equipment and Media Based on LRCN Network

【技术实现步骤摘要】
基于LRCN网络的行为识别方法、装置、设备及介质
本专利技术涉及行为识别
,特别涉及一种基于LRCN(长时递归卷积网络)网络的行为识别方法、装置、设备及可读存储介质。
技术介绍
行为识别是序列学习任务的另一个具体实例,是时序的图像序列作为输入的一种学习。行为识别的目的是从对代理人行为和环境状况的一系列观察中识别一个或者多个代理人的行为。从20世纪80年代开始,这个研究领域由于它在许多不同的应用以及与许多不同研究领域的关联,例如,医学、人机交互和社会学,已经吸引了许多计算机科学领域人员的关注。目前,将结合卷积神经网络(CNN)与循环神经网络(LSTM)的LRCN(长时递归卷积网络)网络应用于视频序列进行行为识别。识别方法如图1所示,输入的视频序列是由一系列的采样的帧所组成的,视频可以看作图像在时间上的一个排布,一个长度为T的视频序列的每一帧是一张从一个连续的视频序列中采样得到的图片,每一张图片都输入一个单独的卷积神经网络,卷积神经网络的权重是与时刻相关固定的,每一个时间步的权重是不同的。对于输入的图片来说,采用的是从一个连续视频序列中采样的图片以及计算的光流图,光流是由稠密光流算法计算得到的,并且被缩放和平移x与y的在[-128,128]范围的光流值转化成的一张光流图,图片的第三通道是计算光流的幅度得到的。采用裸图片数据输入和光流图片输入分别使用两个不同的网络进行训练。在训练过程中,视频被缩放到了240×320的大小,通过用227×227抠图和镜像来增强数据。从而使得训练数据集的丰富性,以及达到各种动作视频样本的平衡。此外,LRCN网络是由视频中采样得到的20帧图像来训练的,虽然用的数据集每个视频的长度都长于20帧。采用的方法是按照6s的时长进行视频的分段截取,并重叠3s进行下一个时刻的截取,并将6s中视频的所有帧等间隔抽样取20帧。LRCN网络被训练用来预测一整个视频的一个行为类别标签,一整段视频20帧输出一个类别标签,在输出之前我们对于网络softmax层在所有帧上的输出做了一个平均来得到这一个输出的类别标签。我们可以看出,在现有的行为识别过程中,对视频序列中的连续每一帧都使用卷积神经网络进行卷积计算,使得计算开销比例较大。
技术实现思路
本专利技术实施例提供了一种基于LRCN(长时递归卷积网络)网络的行为识别方法,以解决现有技术中基于LRCN网络进行行为识别时计算开销较大的技术问题。该方法包括:将待识别的视频帧序列和对应的光流图输入长时递归卷积网络模型,得到所述待识别的视频帧序列的行为类别标签,其中,将所述待识别的视频帧序列中每相邻的预设数量的帧输入长时递归卷积网络模型中的第一卷积神经网络内,将预设数量的帧对应的光流图输入长时递归卷积网络模型中的第二卷积神经网络内,卷积神经网络分别对预设数量的帧和光流图采用数据融合的方式进行卷积层共享。本专利技术实施例还提供了一种基于LRCN网络的行为识别装置,以解决现有技术中基于LRCN网络进行行为识别时计算开销较大的技术问题。该装置包括:数据获取模块,用于获取待识别的视频帧序列和对应的光流图;识别模块,用于将待识别的视频帧序列和对应的光流图输入长时递归卷积网络模型,得到所述待识别的视频帧序列的行为类别标签,其中,将所述待识别的视频帧序列中每相邻的预设数量的帧输入长时递归卷积网络模型中的第一卷积神经网络内,将预设数量的帧对应的光流图输入长时递归卷积网络模型中的第二卷积神经网络内,卷积神经网络分别对预设数量的帧和光流图采用数据融合的方式进行卷积层共享。本专利技术实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意的基于LRCN网络的行为识别方法,以解决现有技术中基于LRCN网络进行行为识别时计算开销较大的技术问题。本专利技术实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述任意的基于LRCN网络的行为识别方法的计算机程序,以解决现有技术中基于LRCN网络进行行为识别时计算开销较大的技术问题。在本专利技术实施例中,在采用LRCN网络模型进行行为识别的过程中,提出了将待识别的视频帧序列中每相邻的预设数量的帧输入长时递归卷积网络模型中的第一卷积神经网络内,避免现有技术中将每帧输入一个卷积神经网络所导致的计算开销大的问题,进而将预设数量的帧对应的光流图输入长时递归卷积网络模型中的第二卷积神经网络内,即卷积神经网络在卷积层分别对预设数量的帧和对应的光流图进行卷积层共享,从而本申请实现了在不需要改变长时递归卷积网络模型结构的情况下,通过改变视频帧序列和光流图输入卷积神经网络的方式,使得在降低相邻帧之间的图像信息存在的大量冗余之后再进行行为识别,有利于减少网络整体的计算量。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,并不构成对本专利技术的限定。在附图中:图1是现有技术中的一种基于LRCN网络进行行为识别的示意图;图2是本专利技术实施例提供的一种基于LRCN网络的行为识别方法的流程图;图3是本专利技术实施例提供的一种基于LRCN网络的行为识别原理示意图;图4是本专利技术实施例提供的一种卷积优化单元的结构示意图;图5是本专利技术实施例提供的一种LRCN网络模型压缩前后的单元数对比示意图;图6是本专利技术实施例提供的一种计算机设备的结构示意图;图7是本专利技术实施例提供的一种基于LRCN网络的行为识别装置的结构示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,下面结合实施方式和附图,对本专利技术做进一步详细说明。在此,本专利技术的示意性实施方式及其说明用于解释本专利技术,但并不作为对本专利技术的限定。从图1所示的LRCN网络结构示意图本申请专利技术人发现,卷积计算在整个计算过程中占据的比例十分大,在每个视频序列的行为识别的过程中,LRCN网络的输入部分的每一张图片都要输入到单独的卷积神经网络进行计算,经过20个单独的卷积神经网络,每个时间步的卷积神经网络的权重是不同的。但实际上,相邻的帧之间的图像信息存在大量冗余,直接将每帧的原始图像输入到单独的卷积神经网络中进行运算无疑是增加了潜在的不必要的计算,因此,本申请专利技术人提出了上述基于LRCN网络的行为识别方法,以便减少网络整体的计算量。在本专利技术实施例中,提供了一种基于LRCN网络的行为识别方法,如图2所示,该方法包括:步骤202:获取待识别的视频帧序列和对应的光流图;步骤204:将待识别的视频帧序列和对应的光流图输入长时递归卷积网络模型,得到所述待识别的视频帧序列的行为类别标签,其中,将所述待识别的视频帧序列中每相邻的预设数量的帧输入长时递归卷积网络模型中的第一卷积神经网络内,将预设数量的帧对应的光流图输入长时递归卷积网络模型中的第二卷积神经网络内,卷积神经网络分别对预设数量的帧和光流图采用数据融合的方式进行卷积层共享。由图2所示的流程可知,在本专利技术实施例中,提出了将待识别的视频帧序列中每相邻的预设数量的帧输入长时递归卷积网络模型中的第一卷积神经网络内,避免现有技术中将每帧输入一个卷积神经网络所导致的计算开销大的问题,进而将预设数量的帧对应的光流图输入长时递归卷积网络模型中的第二卷积神经网络内,即卷积神经网络在卷积层分别对预设数量的帧和对本文档来自技高网
...

【技术保护点】
1.一种基于长时递归卷积网络的行为识别方法,其特征在于,包括:获取待识别的视频帧序列和对应的光流图;将待识别的视频帧序列和对应的光流图输入长时递归卷积网络模型,得到所述待识别的视频帧序列的行为类别标签,其中,将所述待识别的视频帧序列中每相邻的预设数量的帧输入长时递归卷积网络模型中的第一卷积神经网络内,将预设数量的帧对应的光流图输入长时递归卷积网络模型中的第二卷积神经网络内,卷积神经网络分别对预设数量的帧和光流图采用数据融合的方式进行卷积层共享。

【技术特征摘要】
1.一种基于长时递归卷积网络的行为识别方法,其特征在于,包括:获取待识别的视频帧序列和对应的光流图;将待识别的视频帧序列和对应的光流图输入长时递归卷积网络模型,得到所述待识别的视频帧序列的行为类别标签,其中,将所述待识别的视频帧序列中每相邻的预设数量的帧输入长时递归卷积网络模型中的第一卷积神经网络内,将预设数量的帧对应的光流图输入长时递归卷积网络模型中的第二卷积神经网络内,卷积神经网络分别对预设数量的帧和光流图采用数据融合的方式进行卷积层共享。2.如权利要求1所述的基于长时递归卷积网络的行为识别方法,其特征在于,还包括:通过以下步骤训练所述长时递归卷积网络网络模型:获取视频帧序列、对应的光流图以及对应的行为类别标签作为样本;将视频帧序列中每相邻的预设数量的帧输入长时递归卷积网络模型中第一卷积神经网络内,将预设数量的帧对应的光流图输入长时递归卷积网络模型中第二卷积神经网络内,将所述第一卷积神经网络和所述第二卷积神经网络的输出作为长时递归卷积网络模型中一个长短时记忆网络的输入,将行为类别标签作为长时递归卷积网络模型的输出进行训练,得到所述长时递归卷积网络模型。3.如权利要求2所述的基于长时递归卷积网络的行为识别方法,其特征在于,将视频帧序列中每相邻的预设数量的帧输入长时递归卷积网络模型中第一卷积神经网络内,将预设数量的帧对应的光流图输入长时递归卷积网络模型中第二卷积神经网络内,包括:针对每相邻的预设数量的帧,第一卷积神经网络具备N层卷积,N为正整数,将第一帧输入第一卷积神经网络内,第一卷积神经网络的各层卷积依次对第一帧进行卷积计算;将第二帧与第一卷积神经网络内第一帧在第N-1层卷积的输出结果输入到第一卷积神经网络的第N层卷积;将第三帧与第一卷积神经网络内第一帧在第N-2层卷积的输出结果输入到第一卷积神经网络的N-1卷积;将第四帧与第一卷积神经网络内第一帧在第N-3层卷积的输出结果输入到第一卷积神经网络的第N-2层卷积;将第五帧与第一卷积神经网络内第一帧在第N-4层卷积的输出结果输入到第一卷积神经网络的第N-3层卷积,循环以上步骤直至将最后一帧输入第一卷积神经网络;第一卷积神经网络的各层卷积分别输出一个帧特征向量;针对预设数量的帧对应的光流图,第二卷积神经网络具备N层卷积,将第一帧对应的光流图输入第二卷积神经网络内,第二卷积神经网络的各层卷积依次对第一帧对应的光流图进行卷积计算;将第二帧对应的光流图与第二卷积神经网络内第一帧对应的光流图在第N-1层卷积的输出结果输入到第二卷积神经网络的第N层卷积;将第三帧对应的光流图与第二卷积神经网络内第一帧对应的光流图在第N-2层卷积的输出结果输入到第二卷积神经网络的N-1卷积;将第四帧对应的光流图与第二卷积神经网络内第一帧对应的光流图在第N-3层卷积的输出结果输入到第二卷积神经网络的第N-2层卷积;将第五帧对应的光流图与第二卷积神经网络内第一帧对应的光流图在第N-4层卷积的输出结果输入到第二卷积神经网络的第N-3层卷积,循环上述步骤直至将最后一帧对应的光流图输入第二卷积神经网络;循环以上步骤直至将最后一帧对应的光流图输入第二卷积神经网络,第二卷积神经网络的各层卷积分别输出一个光流图特征向量。4.如权利要求1至3中任一项所述的基于长时递归卷积网络的行为识别方法,其特征在于,所述预设数量等于所述时递归卷积网络模型中卷积神经网络的卷积层数。5.一种基于长时递归卷积网络的行为识别装置,其特征在于,包括:数据获取模块,用于获取待识别的视频帧序列和对应的光流图;识别模块,用于将待...

【专利技术属性】
技术研发人员:欧阳鹏尹首一李秀东王博
申请(专利权)人:北京清微智能科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1