一种基于改进MobileNet的视频行为识别方法技术

技术编号:34110934 阅读:14 留言:0更新日期:2022-07-12 01:21
本发明专利技术提供一种基于改进MobileNet的视频行为识别方法,其包括如下步骤:首先,将待识别行为视频中的多个连续行为帧输入到所提出的识别网络中,来挖掘行为视频中前后帧之间的运动趋势特征。然后,在加权逐点卷积过程中,在时间轴上添加了一个随机淡入因子,为每个相关帧提供不同的权重来更有效地利用不同时刻的行为帧之间的运动趋势关系。本发明专利技术提供的行为识别方法采用了基于多帧MobileNet的轻量级网络架构,通过引入多个连续的行为帧来描述相似行为的内部差异,实现了细粒度的行为识别、检测和评估,提高基于视频的行为识别正确率。提高基于视频的行为识别正确率。提高基于视频的行为识别正确率。

【技术实现步骤摘要】
一种基于改进MobileNet的视频行为识别方法


[0001]本专利技术涉及人工智能
,更具体地,涉及一种基于改进MobileNet的视频行为识别方法。

技术介绍

[0002]视频行为识别是计算机视觉领域的一个重要研究方向,在智能视频监控、运动行为评估、步态识别等方面有着巨大的应用潜力。简单的视频行为识别,即动作分类,只需要将给定的视频正确分类为几个已知的动作类别,而复杂的行为识别通常包括一个具有严格时间顺序关系的动作集,而不是视频中只有一个动作类别。此外,与静态图像相比,视频内容和背景更加复杂多变。不同的行为可能有相似之处,而相同的行为在不同的环境中有不同的表现。
[0003]得益于深度学习和图像处理技术的快速发展,研究人员提出了许多可应用于行为识别的模型和方法,如卷积神经网络(CNN)、递归神经网络(RNN)、残差网络(ResNet)、注意机制等。CNN是一种包含卷积运算的深度前馈神经网络,具有表征学习能力,可以根据其层次结构对输入信息进行分类。RNN是一种以序列数据为输入,沿序列演化方向递归的递归神经网络,具有记忆性、参数共享性和图灵完备性。ResNet是2015年提出的卷积神经网络,首次应用于图像分类和目标识别,易于优化,可以通过增加相当大的深度来提高精度。计算机视觉中的注意机制可以使神经网络具有聚焦于其输入子集的能力,从而使模型能够忽略无关信息,聚焦于关键信息。然而,这些模型大多是为静态图像的简单动作分类而设计的,不能用于具有强时间关系的复杂行为识别与评估。

技术实现思路

[0004]本专利技术的目的在于针对现有技术的不足,提供一种基于改进MobileNet的视频行为识别方法,能够更好地利用待识别视频中连续帧之间的关系信息,在具有强时间关系的复杂行为识别与评估中实现更优的识别正确率。具体技术方案如下:
[0005]一种基于改进MobileNet的视频行为识别方法,所述改进MobileNet包括类3D卷积层、加权逐点卷积层、两步卷积模块、最大池化层、全连接层和SoftMax层;所述方法具体包括如下步骤:
[0006]步骤一:使用所述类3D卷积层对输入的视频中的多帧连续图像进行3D卷积操作,生成对应每帧图像的特征图;
[0007]步骤二:对步骤一输出的特征图沿着时间轴进行加权逐点卷积,生成能量趋势图;
[0008]步骤三:将步骤二输出的能量趋势图中的所有特征图依次进行N个串联的两步卷积操作进行特征提取,得到待识别行为的特征向量;
[0009]所述两步卷积用于首先增加特征图的层数,再降低每一层特征图的维度;
[0010]步骤四:基于步骤三所得特征向量,使用最大池化层和全连接层进行信息综合,并使用SoftMax层进行分类,得到行为识别结果。
[0011]进一步地,步骤一通过如下的子步骤来实现:
[0012]步骤1.1:对输入的视频进行解码,得到一系列有序彩色图像;
[0013]步骤1.2:取步骤1.1解码后的连续M帧彩色图像作为类3D卷积层的输入,每帧图像尺寸为[W,H,3];
[0014]步骤1.3:使用大小为3x3x3的卷积核对输入的M帧图像进行3D卷积操作,输出尺寸为[W,H,M]的特征图;
[0015]步骤1.4:重复步骤1.2和步骤1.3,直到处理完步骤1.1得到的所有图像,得到一组尺寸为[W,H,M]的特征图。
[0016]进一步地,步骤二通过如下的子步骤来实现:
[0017]步骤2.1:针对步骤一输出的每一个特征图,构造32个具有相同尺寸的淡入因子随机向量,其最小值为0.0,最大值为1.0,向量维度为M;
[0018]步骤2.2:基于步骤2.1所得的32个随机向量生成32个尺寸为[1x1xM]的卷积核;
[0019]步骤2.3:基于步骤2.2所得的卷积核对当前特征图进行逐点卷积,输出尺寸为[W,H,32]的特征图;
[0020]步骤2.4:重复步骤2.1至步骤2.3,直到处理完步骤一输出的所有特征图,得到一组尺寸为[W,H,32]的特征图,组成能量趋势图。
[0021]进一步地,所述步骤三中的两步卷积操作中的第一步用于得到具有更多层数的特征图,第二步用于降低输入特征图的维度;
[0022]所述两步卷积操作中的第一步具体包括:
[0023](1)使用步长为1的深度卷积对每个输入特征图进行处理,该步骤不改变输入特征图的尺寸;
[0024](2)使用比步骤(1)处理后的特征图具有更高维度的卷积核对步骤(1)处理后的特征图进行逐点卷积;
[0025]所述两步卷积操作中的第二步具体包括:
[0026](3)使用步长大于1的深度卷积对步骤(2)的输出结果进行处理,降低输入特征图的宽度和高度;
[0027](4)使用与步骤(3)处理后的特征图具有相同深度的卷积核对步骤(3)处理后的特征图进行处理。
[0028]本专利技术的有益效果如下:
[0029]本专利技术提出的基于改进MobileNet的视频行为识别方法,通过引入多个连续的行为帧来分析挖掘相似行为的内部差异,实现了细粒度的行为识别、检测和评估,并通过在时间轴上添加一个淡入因子,为每个相关帧提供不同的权重,从而更好地利用不同时间的行为帧之间的渐进关系,能够用于识别与评估具有强时间关系的复杂行为识别,且识别准确率高。
附图说明
[0030]图1是本专利技术方法的实施流程;
[0031]图2是类3D卷积示意图;
[0032]图3是能量趋势图合成示意图;
[0033]图4是两步卷积模块架构。
具体实施方式
[0034]下面根据附图和优选实施例详细描述本专利技术,本专利技术的目的和效果将变得更加明白,应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。
[0035]如图1所示,本专利技术中用于视频行为识别的改进MobileNet模型包括类3D卷积层、加权逐点卷积层、两步卷积模块、最大池化层、全连接层和SoftMax层。
[0036]本专利技术的基于改进MobileNet的视频行为识别方法具体包括如下步骤:
[0037]1.使用所述类3D卷积层对输入的视频中的多帧连续图像进行3D卷积操作,生成对应每帧图像的特征图,包括以下子步骤:
[0038]1.1对输入的视频进行解码,得到一系列有序彩色图像;
[0039]1.2取步骤1.1解码后的连续M帧彩色图像作为类3D卷积层的输入,每帧图像尺寸为[W,H,3],其中的W和H分别为待处理图像的宽带和高度,3代表红绿蓝三个颜色通道;
[0040]1.3使用大小为3x3x3的卷积核对输入的M帧图像进行3D卷积操作,输出尺寸为[W,H,M]的特征图。图2为M取值为5时,由5帧连续图像获得的5层特征图的示意图。
[0041]1.4重复步骤1.2和步骤1.3,直到处理完步骤1.1得到的所有图像,得到一组尺寸为[W,H,M]的特征图。
[0042]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于改进MobileNet的视频行为识别方法,其特征在于,所述改进MobileNet包括类3D卷积层、加权逐点卷积层、两步卷积模块、最大池化层、全连接层和SoftMax层;所述方法具体包括如下步骤:步骤一:使用所述类3D卷积层对输入的视频中的多帧连续图像进行3D卷积操作,生成对应每帧图像的特征图;步骤二:对步骤一输出的特征图沿着时间轴进行加权逐点卷积,生成能量趋势图;步骤三:将步骤二输出的能量趋势图中的所有特征图依次进行N个串联的两步卷积操作进行特征提取,得到待识别行为的特征向量;所述两步卷积用于首先增加特征图的层数,再降低每一层特征图的维度;步骤四:基于步骤三所得特征向量,使用最大池化层和全连接层进行信息综合,并使用SoftMax层进行分类,得到行为识别结果。2.根据权利要求1所述的基于改进MobileNet的视频行为识别方法,其特征在于,步骤一通过如下的子步骤来实现:步骤1.1:对输入的视频进行解码,得到一系列有序彩色图像;步骤1.2:取步骤1.1解码后的连续M帧彩色图像作为类3D卷积层的输入,每帧图像尺寸为[W,H,3];步骤1.3:使用大小为3x3x3的卷积核对输入的M帧图像进行3D卷积操作,输出尺寸为[W,H,M]的特征图;步骤1.4:重复步骤1.2和步骤1.3,直到处理完步骤1.1得到的所有图像,得到一组尺寸为[W,H,M]的特征图。3.根据权利要...

【专利技术属性】
技术研发人员:王修晖刘琳琦王亚茹李学盛贾波包其富
申请(专利权)人:中国计量大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1