【技术实现步骤摘要】
一种基于改进长效递归深度卷积模型的人物动作识别方法
本专利技术涉及人工智能识别
,主要涉及一种基于改进长效递归深度卷积模型的人物动作识别方法。
技术介绍
神经网络(全称人工神经网络)是一种模仿生物神经网络的数学模型,具有学习功能,是一种非线性的统计数据建模工具,通过统计学的方法使其和人一样具有判断能力,相较于普通的逻辑学推理更有优势,而深度学习则是以神经网络为架构,对数据进行特征学习的算法。在计算机视觉领域,如何对一个图片序列,或是由图片帧组成的视频进行识别是学术界重点关注的对象。按照拓扑结构被分为多个学习阶段,由卷积层,非线性处理单元和采样层的组合组成,在图像识别领域有很好的表现,广泛被运用于图像识别领域中的特征提取,目标检测,图像分类等,但对于视频中人的动作的识别却无能为力。对于视频中的人物行为识别主要分为两个部分,一是对于类似背景之类的静态信息的处理,二是对于动态对象的跟踪和识别。就视频分类来说,如何使视频中的静态信息和动态信息互不影响特征提取的同时又能保持这两者可以相互结合,以及结合的过程中动态 ...
【技术保护点】
1.一种基于改进长效递归深度卷积模型的人物动作识别方法,其特征在于,包括如下步骤:/n步骤S1、输入一组连续堆叠的视频帧,帧与帧之间的一组位移矢量场表示为d
【技术特征摘要】
1.一种基于改进长效递归深度卷积模型的人物动作识别方法,其特征在于,包括如下步骤:
步骤S1、输入一组连续堆叠的视频帧,帧与帧之间的一组位移矢量场表示为dt(u,v),后一帧与前一帧之间的位移矢量为(u,v),并将矢量场的水平和垂直分量dx和dy作为图像通道;
步骤S2、将输入的视频帧堆叠成L个连续帧的流动通道dx和dy,共形成2L个输入通道;构造用于任意帧τ的卷积神经网络输入体积Iτ如下:
u=[1;w],v[1;h],k=[1;L]
其中,u为宽度分量,v代表高度分量,k代表长度分量;将基于特征编码的时间矩阵Iτ(u,v,a)与RGB图像组成的三维矩阵Iτ2(u,v,a)分别作为时空卷积神经网络的输入,其中a∈[1,2L],是对L帧中一个点进行的编码,时间域上的神经网络多次经过由包含方向敏感的滤波器的卷积神经网络层,整流层和池化层迭代,其中散度,卷曲和剪切力也可以通过光流梯度进行计算,而RGB图像组成的那部分三维矩阵只需通过正常CNN的多次卷积池化滤波层迭代,最终得到在时间上和空间上帧与帧之间的相互独立的特征向量xt。
步骤S3、采用长效递归卷积神经网络将每个视觉输出特征向量xt通过归一化函数φv(.)进行特征转换,得到定长输出特征序列<x1,x2,...,xn>;将输出特征序列输入至递归序列学习模块,通过下述递归方程将隐藏状态映射到输出,进行时间动力学建模:
ht=g(Wxhxt+Whhht-1+bh)
zt=g(Whzht+bz)
其中g代表元素方向的非线性组合函数,xt代表输入,Wxh、Whh、Whz代表递归神经网络的模型参数,ht代表t时刻的隐藏状态,ht-1代表t前一时刻的隐藏状态,且h0=0;zt代表t时刻的输出;对于输出特征序列<x1,x2,...,xn>,可得<h1,h2,K,hn>和<z1,z2Kzn>,bh代表t时刻的隐藏状态函数的偏差值,bz代表t时刻输出函数的偏差值;
步骤S4、将输出特征序列<x1,x2,...,xn>输入至暂态RNN组件,获得每一时刻的暂态序列<y′1,y′2,...,y′n>,采用字符串Hash的方法对暂态序列<y′1,y′2,...,y′n>进行编码;将暂态序列<y′1,y′2,...,y′n>映射成一个值y1;
步骤S5、计算暂态序列<y′1,y′2,...,y′n>与从y1到暂态序列<y′1,y′2,...,y′n>的映射的匹配程度;将Hash值转化成二进制编码,再将y1分别与每一个映射值的二进制编码求汉明距离将汉明距离与预设阈值D比较;当汉明距离小于预设阈值D时,匹配成功,当汉明距离大于等于预设阈值D时,匹配失败;对暂态RNN组件进行更新,其中每一阶段的更新为之前所有的输入特征的一个总结,如下所示:
y′t=f(y′t-1,xt)
...
【专利技术属性】
技术研发人员:胡宸,陈志,史佳成,叶科淮,王仁杰,李玲娟,岳文静,
申请(专利权)人:南京邮电大学,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。