一种基于改进MobileNet的视频行为识别方法技术

技术编号：34110934 阅读：14 留言：0更新日期：2022-07-12 01:21

本发明专利技术提供一种基于改进MobileNet的视频行为识别方法，其包括如下步骤：首先，将待识别行为视频中的多个连续行为帧输入到所提出的识别网络中，来挖掘行为视频中前后帧之间的运动趋势特征。然后，在加权逐点卷积过程中，在时间轴上添加了一个随机淡入因子，为每个相关帧提供不同的权重来更有效地利用不同时刻的行为帧之间的运动趋势关系。本发明专利技术提供的行为识别方法采用了基于多帧MobileNet的轻量级网络架构，通过引入多个连续的行为帧来描述相似行为的内部差异，实现了细粒度的行为识别、检测和评估，提高基于视频的行为识别正确率。提高基于视频的行为识别正确率。提高基于视频的行为识别正确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于改进MobileNet的视频行为识别方法

[0001]本专利技术涉及人工智能
，更具体地，涉及一种基于改进MobileNet的视频行为识别方法。

技术介绍

[0002]视频行为识别是计算机视觉领域的一个重要研究方向，在智能视频监控、运动行为评估、步态识别等方面有着巨大的应用潜力。简单的视频行为识别，即动作分类，只需要将给定的视频正确分类为几个已知的动作类别，而复杂的行为识别通常包括一个具有严格时间顺序关系的动作集，而不是视频中只有一个动作类别。此外，与静态图像相比，视频内容和背景更加复杂多变。不同的行为可能有相似之处，而相同的行为在不同的环境中有不同的表现。
[0003]得益于深度学习和图像处理技术的快速发展，研究人员提出了许多可应用于行为识别的模型和方法，如卷积神经网络(CNN)、递归神经网络(RNN)、残差网络(ResNet)、注意机制等。CNN是一种包含卷积运算的深度前馈神经网络，具有表征学习能力，可以根据其层次结构对输入信息进行分类。RNN是一种以序列数据为输入，沿序列演化方向递归的递归神经网络，具有记忆性、参数共享性和图灵完备性。ResNet是2015年提出的卷积神经网络，首次应用于图像分类和目标识别，易于优化，可以通过增加相当大的深度来提高精度。计算机视觉中的注意机制可以使神经网络具有聚焦于其输入子集的能力，从而使模型能够忽略无关信息，聚焦于关键信息。然而，这些模型大多是为静态图像的简单动作分类而设计的，不能用于具有强时间关系的复杂行为识别与评估。

技术实现思路

[0...

【技术保护点】

【技术特征摘要】
1.一种基于改进MobileNet的视频行为识别方法，其特征在于，所述改进MobileNet包括类3D卷积层、加权逐点卷积层、两步卷积模块、最大池化层、全连接层和SoftMax层；所述方法具体包括如下步骤：步骤一：使用所述类3D卷积层对输入的视频中的多帧连续图像进行3D卷积操作，生成对应每帧图像的特征图；步骤二：对步骤一输出的特征图沿着时间轴进行加权逐点卷积，生成能量趋势图；步骤三：将步骤二输出的能量趋势图中的所有特征图依次进行N个串联的两步卷积操作进行特征提取，得到待识别行为的特征向量；所述两步卷积用于首先增加特征图的层数，再降低每一层特征图的维度；步骤四：基于步骤三所得特征向量，使用最大池化层和全连接层进行信息综合，并使用SoftMax层进行分类，得到行为识别结果。2.根据权利要求1所述的基于改进MobileNet的视频行为识别方法，其特征在于，步骤一通过如下的子步骤来实现：步骤1.1：对输入的视频进行解码，得到一系列有序彩色图像；步骤1.2：取步骤1.1解码后的连续M帧彩色图像作为类3D卷积层的输入，每帧图像尺寸为[W,H,3]；步骤1.3：使用大小为3x3x3的卷积核对输入的M帧图像进行3D卷积操作，输出尺寸为[W,H,M]的特征图；步骤1.4：重复步骤1.2和步骤1.3，直到处理完步骤1.1得到的所有图像，得到一组尺寸为[W,H,M]的特征图。3.根据权利要...

【专利技术属性】
技术研发人员：王修晖，刘琳琦，王亚茹，李学盛，贾波，包其富，
申请(专利权)人：中国计量大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人