一种动作识别方法技术

技术编号:31588549 阅读:13 留言:0更新日期:2021-12-25 11:34
本发明专利技术公开了一种动作识别方法,包括:步骤1):通过设备获取图片序列集;步骤2):构建深度学习目标检测网络,将图片序列集输入到检测网络中,获得检测框集;步骤3):将检测框集转化为时空图;步骤4):获取图片、设备ID号、图像时间戳,并结合时空图,进行轨迹生成和轨迹数组对比;步骤5):通过时空图和轨迹数组的信息对轨迹数组进行更新,确认动作;步骤6):根据时间戳对轨迹数组进行接力更新,让轨迹数组保持动态性;该动作识别方法智能、高效、准确,可嵌入到任何场景和神经网络中,具有高度的模块化。具有高度的模块化。具有高度的模块化。

【技术实现步骤摘要】
一种动作识别方法


[0001]本专利技术涉及一种动作识别方法。

技术介绍

[0002]视频的理解与识别是计算机视觉的基础任务之一,相比图像来说,视频内容和背景更加复杂多变,不同的动作类别之间具有相似性,而相同的类别在不同环境下又有着不同的特点。此外,由于拍摄造成的遮挡、抖动、视角变化等也为动作识别进一步带来了困难。在实际应用中,精确的动作识别有助于舆情监控,广告投放,以及很多其他视频理解相关的任务。。而随着深度神经网络技术在计算机视觉各个领域的飞速发展,使用人工智能进行基于视频的动作识别任务已然十分普遍。具体的应用方式大体上分为以下三种:第一种是基于人工特征的视频动作识别。采用传统的机器学习算法,比如梯度直方图、时空兴趣点检测、光流直方图等提取图像和时序的特征表示,编码后进行分类。然而,当面临大规模数据集时,这些特征缺乏一定的灵活性和可扩展性。
[0003]第二种是使用三维卷积层进行基于视频的动作识别。三维卷积神经网络可以共同学习时间和空间特征,将一般的二维神经网络,如VGG、Inception、ResNet等扩展为三维卷积层,从而去学习视频帧序列的时空特征。但使用三维卷积神经网络会导致计算量大、部署困难以及容易过拟合的问题,总体来说,这种方式的特点是精度高但时间复杂度高。
[0004]第三种是基于双流的神经网络和时序结构集合。双流二维卷积采用分别对时间和空间建模的动作识别,来提取时空特征,然后通过平均池化或时序结构如LSTM、RNN把各种特征加权融合或进行注意力机制的加成,从而得到最终的结果,这个方式的特定是时间复杂度低,但精度不高。
[0005]目前采用的动作识别方法都是单一的,应用性不高,现实工业和应用中需求不仅仅是要求动作识别,而且还要进行目标检测等一系列的需求,时间复杂度要求是越小越好,不可能因为增加一个动作识别的要求,而去添加一套网络,加上目前大多数方法没能充分利用时序前后帧之间的运动关系,从而导致现有大多数识别方法不同时具备良好的准确性、较低的时效性、较广的鲁棒性。

技术实现思路

[0006]针对现有技术中的不足,本专利技术的目的是提供一种智能、高效、准确,可嵌入到任何场景和神经网络中,具有高度的模块化的动作识别方法。
[0007]本专利技术解决其技术问题所采用的技术方案是:一种动作识别方法,包括:步骤1):通过设备获取图片序列集;步骤2):构建深度学习目标检测网络,将图片序列集输入到检测网络中,获得检测框集;步骤3):将检测框集转化为时空图;
步骤4):获取图片、设备ID号、图像时间戳,并结合时空图,进行轨迹生成和轨迹数组对比;步骤5):通过时空图和轨迹数组的信息对轨迹数组进行更新,确认动作;步骤6):根据时间戳对轨迹数组进行接力更新,让轨迹数组保持动态性。
[0008]进一步的,在步骤1)中,获取图片序列集的方法为:通过设备采集视频,对视频进行抽帧处理,得到多个图像帧序列。
[0009]进一步的,在步骤2)中,获得的检测框集为:图像经过检测网络获得物体检测框集和人体检测框集。
[0010]进一步的,在步骤3)中,把检测框集转化成时空图的方法为:排序、过滤和对比,该时空图为多目标时空图,该多目标时空图包括物体时空图和人体时空图。
[0011]进一步的,在步骤3)中,将物体时空图和人体时空图进行人体关联处理,将人体时空图的面积和物体时空图的面积进行交并集比,过滤不符合需求条件的物体时空图。
[0012]进一步的,在步骤4)中,将时空图、图片、设备ID号、图像时间戳和该设备的轨迹数组进行交叉比对,以获得在该设备中属于该类别的轨迹,在比对的结果选取各自代表的帧信息,以当前时空图的信息构成当前帧信息,轨迹数组相应的类最后一帧信息构成前一帧信息,计算两帧中物体中心点的偏移量,来确认运动趋势。
[0013]进一步的,在步骤5)中,通过每个设备的每一个时间戳的时空图不断更新其轨迹数组,把数组存储的上一帧数组信息和当前帧的时空图信息进行物体中心点偏移量的判断,从而确认某一小阶段的运动趋势,然后把当前帧的交叉比数组存储到轨迹数组中。
[0014]进一步的,在步骤6)中,按照动作保留时长存在的时间戳长度,对轨迹数组进行选择和过滤,根据动作最小判断阈值去更新轨迹数组的运动状态数。
[0015]进一步的,在步骤6)中,对每个设备轨迹存储数组进行接力更新的方法为:提取轨迹数组有实际数据的部分,形成局部轨迹数组,所述的局部轨迹数组每一条轨迹下的每一帧进行遍历,对每一类最后一帧的信息作为当前帧进行判断,如数组信息的趋势个数能判定动作的状态,开始重新计数运动状态数,将当前帧的趋势个数重置,把当前帧的信息赋值作为轨迹存储数组的第一帧,轨迹存储数组其他帧重置为初始状态。
[0016]进一步的,在步骤6)中,轨迹数组接力更新后,动作代表时间戳更新为当前图片的时间戳,代表图像更新为当前时空图,代表性图像置信度更新为当前目标对象的置信度。
[0017]本专利技术的有益效果是:通过第一阶段网络时空图构建和第二阶段动作轨迹追踪,实现对动作的判别;在鲁棒性上,结合物体检测,借用了神经网络的高性能,作为一种强大的先验,使得精度更高、计算量更小,更加灵活,计算效率上,采取的是矩阵的切分、对比、速度更快,跟本身的神经网络的速度相差无几,能够做到模块化,随嵌随用。
附图说明
[0018]图1是本专利技术的系统架构图;图2是本专利技术的模块图;图3是本专利技术的人体关联处理的交并比图;图4是本专利技术的进行动作轨迹追踪图;
图5是本专利技术的进行动作轨迹接力更新图;图6是本专利技术的轨迹数组示例图。
具体实施方式
[0019]下面结合附图和具体实施例对本专利技术作进一步说明,以使本领域技术人员可以更好的理解本专利技术并能予以实施,但所举实施例不作为对本专利技术的限定。
实施例
[0020]下面对本申请提供的动作识别方法进行介绍。
[0021]图1结合图2显示本实例提供一种基于视觉的动作识别的方法,包括:步骤1:通过设备采集视频,获得图片序列集。
[0022]步骤2:构建深度学习目标检测网络,对图片进行物体检测和人体检测处理,获得检测框集。
[0023]步骤3:把检测框集转化为多目标时空图。
[0024]步骤4:通过时空图、图像、设备ID号、图像的时间戳,进行轨迹生成和轨迹数组对比。
[0025]步骤5:借助时空图和轨迹数组的信息对轨迹数组进行更新,确认动作。
[0026]步骤6:根据时间戳对轨迹数组进行接力更新,让轨迹数组保持动态性。
[0027]在步骤1中,通过设备源采集视频,对视频流进行解码操作,从而获得图片序列集,该步骤具体实施不在本专利技术内。
[0028]在步骤2中,采用基于深度学习的实时目标检测网络,采用的网络模型不在本专利技术的包括范围,所述的检测方法,其结果输出包括,图像经过检测网络获得目标对象的检测框集和人体的检测框集。
[0029]在步骤3中,通过排序、过滤、对比等方式本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种动作识别方法,其特征在于,包括:步骤1):通过设备获取图片序列集;步骤2):构建深度学习目标检测网络,将图片序列集输入到检测网络中,获得检测框集;步骤3):将检测框集转化为时空图;步骤4):获取图片、设备ID号、图像时间戳,并结合时空图,进行轨迹生成和轨迹数组对比;步骤5):通过时空图和轨迹数组的信息对轨迹数组进行更新,确认动作;步骤6):根据时间戳对轨迹数组进行接力更新,让轨迹数组保持动态性。2.如权利要求1所述的动作识别方法,其特征在于,在步骤1)中,获取图片序列集的方法为:通过设备采集视频,对视频进行抽帧处理,得到多个图像帧序列。3.如权利要求1所述的动作识别方法,其特征在于,在步骤2)中,获得的检测框集为:图像经过检测网络获得物体检测框集和人体检测框集。4.如权利要求3所述的动作识别方法,其特征在于,在步骤3)中,把检测框集转化成时空图的方法为:排序、过滤和对比,该时空图为多目标时空图,该多目标时空图包括物体时空图和人体时空图。5.如权利要求4所述的动作识别方法,其特征在于,在步骤3)中,将物体时空图和人体时空图进行人体关联处理,将人体时空图的面积和物体时空图的面积进行交并集比,过滤不符合需求条件的物体时空图。6.如权利要求1所述的动作识别方法,其特征在于,在步骤4)中,将时空图、图片、设备ID号、图像时间戳和该设备的轨迹数组进行交叉比对,以获得在该设备中属于该类别的轨迹,在比...

【专利技术属性】
技术研发人员:张元本陈名国
申请(专利权)人:广州微林软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1