【技术实现步骤摘要】
基于孪生三维卷积神经网络的行为分类方法
本专利技术涉及视频语音理解邻域,特别涉及一种视频中行为的分类方法。
技术介绍
行为分类是视频理解领域的重要分支,生成视频锦集、文字描述视频内容等更高层次的任务都以行为分类为基础。行为分类是一种通过提取视频的抽象语义信息并根据语义信息判断视频所包含的动作类别的技术。目前,视频分类问题尚无最优解,一类算法只利用了视频的空间特征,忽略了视频的时间特征,使得分类算法的效果不尽人意;另一类算法同时利用了时间与空间两种特征,这类方法通过光流场描述视频时间特征,并把时间特征抽象后用于行为分类,但是光流场的计算速度无法应用于实时行为分类的场景,并且光流场不是描述视频时间特征的最佳方法,基于光流场的行为分类算法的性能依旧有很大的提升空间。随着深度神经网络技术的发展,许多新颖有效的框架可以提取和抽象不同种类的特征。
技术实现思路
本专利技术旨在提出一种基于孪生三维卷积神经网络的行为分类方法,该方法通过绕过光流场提取过程,以达到提升行为分类算法速度的目的;此外算法还将引入新的时间 ...
【技术保护点】
1.一种基于孪生三维卷积神经网络的行为分类方法,其特征在于,该方法具体包括以下步骤:/n步骤1,调整图像帧的长、宽到孪生三维卷积神经网络要求的大小;/n步骤2,把图像帧序列按连续16帧一组进行分组,把每组图像帧输入孪生三维卷积神经网络,提取抽象时间特征与抽象空间特征,把抽象时间特征输入到反卷积网络,得到光流场;/n步骤3,拼接步骤2中得到的抽象时间特征与抽象空间特征,并把提取的一个视频中全部图像帧组的特征取算数平均,平均值输入分类器,获得视频中行为的类别的预测向量,与训练数据标签做运算得到第一损失函数L
【技术特征摘要】
1.一种基于孪生三维卷积神经网络的行为分类方法,其特征在于,该方法具体包括以下步骤:
步骤1,调整图像帧的长、宽到孪生三维卷积神经网络要求的大小;
步骤2,把图像帧序列按连续16帧一组进行分组,把每组图像帧输入孪生三维卷积神经网络,提取抽象时间特征与抽象空间特征,把抽象时间特征输入到反卷积网络,得到光流场;
步骤3,拼接步骤2中得到的抽象时间特征与抽象空间特征,并把提取的一个视频中全部图像帧组的特征取算数平均,平均值输入分类器,获得视频中行为的类别的预测向量,与训练数据标签做运算得到第一损失函数Lcls,表达式如下:
其中,pclass表示类别的预测向量,a表示训练数据的标签向量,aj表示第j维的训练数据的标签向量a,j表示向量中的维度,N表示一个训练批次中视频的数量;
把步骤2中...
【专利技术属性】
技术研发人员:周圆,李鸿儒,李绰,李孜孜,杨晶,
申请(专利权)人:天津大学,
类型:发明
国别省市:天津;12
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。