【技术实现步骤摘要】
递归神经网络的训练方法、识别方法、装置及处理设备
本专利技术涉及动作识别
,尤其是涉及一种递归神经网络的训练方法、识别方法、装置及处理设备。
技术介绍
现有的基于神经网络的动作识别技术基本分为两类:基于单帧图像的识别方法和基于多帧图像的识别方法。其中,基于单帧图像的识别方法,直接对视频中的单帧使用CNN(ConvolutionalNeuralNetwork,卷积神经网络)进行特征提取,直接进行动作的分类识别。其优点是训练速度快,收敛快,对于一些静态特征明显的动作有较好的分类效果,缺点是忽略了时间信息,容易对场景多拟合而单纯得变成了场景识别,如开和关的动作就无法得到区分。基于多帧图像的识别方法,对动作视频序列进行抽帧组成图像序列进行训练,使用CNN提取图像特征并加入注意力等机制学习时间信息,同时还可以加入长短期记忆模块LSTM(LongShort-TermMemory)等RNN(RecurrentNeuralNetwork,递归神经网络)模块对时间维度信息进行学习和综合。然而其输出仍然是单独的动作分类标签,将一个图像序列分为一个动作,而无法进行逐帧的动作识别预 ...
【技术保护点】
1.一种递归神经网络的训练方法,其特征在于,所述方法包括:获取训练样本,所述训练样本包括视频的多帧图像序列及所述视频对应的动作标识;对所述多帧图像序列进行特征提取,得到图像序列特征,所述图像序列特征包括每帧图像的特征;将所述图像序列特征输入递归神经网络进行动作分类,获得所述每帧图像的动作分类概率;其中,动作分类包含无动作类;基于所述动作分类概率,根据连接时序分类方法计算损失函数;通过对所述损失函数进行反向传播以训练递归神经网络。
【技术特征摘要】
1.一种递归神经网络的训练方法,其特征在于,所述方法包括:获取训练样本,所述训练样本包括视频的多帧图像序列及所述视频对应的动作标识;对所述多帧图像序列进行特征提取,得到图像序列特征,所述图像序列特征包括每帧图像的特征;将所述图像序列特征输入递归神经网络进行动作分类,获得所述每帧图像的动作分类概率;其中,动作分类包含无动作类;基于所述动作分类概率,根据连接时序分类方法计算损失函数;通过对所述损失函数进行反向传播以训练递归神经网络。2.根据权利要求1所述的方法,其特征在于,所述对所述多帧图像序列进行特征提取,得到图像序列特征的步骤,包括:将所述多帧图像序列输入卷积神经网络进行空间特征提取;将提取得到的空间特征输入长短期记忆模块进行时间特征提取;将提取得到的时间特征作为图像序列特征。3.根据权利要求1或2所述的方法,其特征在于,所述将所述图像序列特征输入递归神经网络进行动作分类,获得所述每帧图像的动作分类概率的步骤,包括:将所述每帧图像的特征输入递归神经网络的Softmax层,得到每个时间所述每帧图像的动作分类概率。4.根据权利要求1或2所述的方法,其特征在于,所述基于所述动作分类概率,根据连接时序分类方法计算损失函数的步骤,包括:将所述动作分类概率乘以所述动作分类概率对应的时间,计算所述多帧图像序列的分类概率;对所述多帧图像序列的分类概率通过动态规划方式,使用连接时序分类方法计算动作标识错误率;将所述动作标识错误率作为损失函数。5.根据权利要求4所述的方法,其特征在于,对所述多帧图像序列的分类概率通过动态规划方式,使用连接时序分类方法计算动作标识错误率的步骤,包括:基于所述多帧图像序列的分类概率,通过前向模块计算到第k个动作标识所能对应的在先动作标识的第一概率;基于所述多帧图像序列的分类概率,通过后向模块计算从第k+1动作标识开始所能对应的后续动作标识的第二概率;结合所述第一概率和所述第二概率得到动作标识错误率。6.一种应用权利要求1-5任一项获得的递归神经网络进行动作识别的方法,其特征在于,包括:获取待识别视频,并提取所述待识别视频的图像序列;所述图像序列包括至少两帧按时间排序的图像;将所述图像序列输入所述递归神经网络;其中,所述递归神经网络是基于连接时序分类方法进行训练得到的;通过所述递归神经网络对每...
【专利技术属性】
技术研发人员:张弛,曹宇,
申请(专利权)人:北京旷视科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。