视频类别识别方法、装置、计算机设备及计算机存储介质制造方法及图纸

技术编号:22817587 阅读:21 留言:0更新日期:2019-12-14 13:19
本发明专利技术公开了一种视频类别识别方法、装置、计算机设备及计算机存储介质,属于视频识别领域。所述方法包括:获取待识别视频数据;将待识别视频数据输入视频分类模型中,视频分类模型包括依次连接的时空卷积神经网络模型、时空局部聚合描述特征3D‑VLAD模型以及分类识别模型,时空卷积神经网络模型包括依次堆叠的多个时空卷积神经网络层和多个时空最大池化层,3D‑VLAD模型用于将多个时空最大池化层中倒数的指定个数的时空最大池化层输出的时空特征图作为输入,得到时空局部聚合描述特征,分类识别模型用于根据时空局部聚合描述特征,得到分类结果。解决了现有技术中分类结果的准确性较低的问题,达到了提高准确性的效果。

Video category recognition methods, devices, computer equipment and computer storage media

【技术实现步骤摘要】
视频类别识别方法、装置、计算机设备及计算机存储介质
本专利技术涉及视频识别领域,特别涉及一种视频类别识别方法、装置、计算机设备及计算机存储介质。
技术介绍
目前,视频大数据发展火爆,内容视频化已成为互联网发展一大趋势。因此,对视频进行分类的识别技术显得尤为重要。一种视频类别识别方法中,将待识别的视频数据输入时空卷积神经网络(3D-ConvolutionalNeuralNetwork,3D-CNN)模型,获取该模型最后一层输出的特征图,之后将该特征图输入分类模型,得到分类结果。但是,上述方法对视频数据中细微动作变化的捕捉能力较差,进而导致分类结果的准确性较低。
技术实现思路
本专利技术实施例提供了一种视频类别识别方法、装置、计算机设备及计算机存储介质,能够解决相关技术中对视频数据中细微动作变化的捕捉能力较差,进而导致分类结果的准确性较低的问题。所述技术方案如下:根据本专利技术的第一方面,提供了一种视频类别识别方法,所述方法包括:获取待识别视频数据;将所述待识别视频数据输入视频分类模型中,所述视频分类模型包括依次连接的时空卷积神经网络模型、时空局部聚合描述特征3D-VLAD模型以及分类识别模型,所述时空卷积神经网络模型包括依次堆叠的多个时空卷积神经网络层和多个时空最大池化层,所述待识别视频数据输入所述时空卷积神经网络模型后,所述3D-VLAD模型用于将所述多个时空最大池化层中倒数的指定个数的时空最大池化层输出的时空特征图作为输入,得到时空局部聚合描述特征,所述分类识别模型用于根据所述时空局部聚合描述特征,得到分类结果;获取所述视频分类模型输出的所述待识别视频数据的分类结果。可选的,所述获取待识别的视频数据之前,所述方法还包括:获取模型训练样本集,所述模型训练样本集包括多个类型的视频集合,每个类型的所述视频集合包括多个视频数据;通过所述模型训练样本集对所述视频分类模型进行优化;当所述视频分类模型收敛时,停止优化。可选的,所述通过所述模型训练样本集对所述视频分类模型进行优化,包括:以所述模型训练样本集作为训练数据,根据损失函数和梯度下降法对所述视频分类模型进行优化。可选的,所述以所述模型训练样本集作为训练数据,根据损失函数和梯度下降法对所述视频分类模型进行优化之前,所述方法还包括:通过动态随机调整抽取帧数和抽取帧率策略的数据增强方法,对所述模型训练样本集进行数据扩充。可选的,所述时空卷积神经网络层包括公式:O={Oj|j=1,2,...,nO}其中,Ii为时空卷积神经网络层输入I的第i个时空特征图;O为时空卷积神经网络层的输出,Oj为O的第j个时空特征图;Wij为Ii与Oj相连的卷积核;nI为时空卷积神经网络层输入的时空特征图的个数,nO为时空卷积神经网络层输出的时空特征图的个数;bj为Oj的偏置参数;f(·)为激活函数;所述时空最大池化层包括公式:Y={ym|m=1,2,...,N}其中,Y为时空最大池化层输出的特征张量,为O的第m个时空特征图Om的第i+r1帧第j+r2行第t+r3列的特征值;为Y中的第m个时空特征图ym的第i帧第j行第t列的特征值;p1,p2,p3为Om的维度;k1,k2,k3为时空最大池化层的池化核的维度。可选的,所述Y为维度为N×W×H×D的特征向量,所述W为所述时空特征图的宽度,所述H为所述时空特征图的高度,所述D为所述时空特征图的通道数,所述3D-VLAD模型用于:将所述Y转化为维度为L×D的特征图M,再通过转换公式将所述特征图M转换为维度为K×D的特征矩阵G,所述转换公式包括:Z=M·W+BA=softmax(Z)其中,W,B为输出神经元为K的全连接层的参数,Z表示所述全连接层的输出;softmax(·)为归一化指数函数,A为所述归一化指数函数的输出;sum(·,1)表示对矩阵进行列求和;表示矩阵之间的点乘操作,AT为矩阵A的转置矩阵;Q为维度大小为K×D的聚类中心矩阵参数;将所述特征矩阵G变形为长度为K·D的特征向量;将所述长度为K·D的特征向量经过L2范数归一和一层全连接层,得到所述时空局部聚合描述特征。将所述多个时空最大池化层中倒数的指定个数的时空最大池化层经过3D-VLAD层得到的多个时空局部聚合描述特征v,拼接成一个时空局部聚合描述融合特征向量V=[v1,v2,...,vn]。可选的,所述分类识别模型用于:将所述时空局部聚合描述融合特征向量V依次经过三层全连接层,所述三层全连接层中最后一个全连接层的神经元个数为C,C为所述模型训练样本集中视频类别的个数;将所述最后一个全连接层的输出值以及概率公式确定所述分类结果,所述概率公式包括:其中,为p(ot)所述待识别视频数据属于第t类的概率值,ot表示所述最后一个全连接层的第t个输出值,ok表示所述最后一个全连接层的第k个输出值;e表示自然常数。另一方面,提供了一种视频类别识别装置,所述装置包括:数据获取模块,用于获取待识别视频数据;数据处理模块,用于将所述待识别视频数据输入视频分类模型中,所述视频分类模型包括依次连接的时空卷积神经网络模型、时空局部聚合描述特征3D-VLAD模型以及分类识别模型,所述时空卷积神经网络模型包括依次堆叠的多个时空卷积神经网络层和多个时空最大池化层,所述待识别视频数据输入所述时空卷积神经网络模型后,所述3D-VLAD模型用于将所述多个时空最大池化层中倒数的指定个数的时空最大池化层输出的时空特征图作为输入,得到时空局部聚合描述特征,所述分类识别模型用于根据所述时空局部聚合描述特征,得到分类结果;结果获取模块,用于获取所述视频分类模型输出的所述待识别视频数据的分类结果。一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述的视频类别识别方法。一方面,提供了一种计算机存储介质,所述存储介质中存储有指令,当该存储介质在计算机上运行时,使得所述计算机执行上述的视频类别识别方法。本专利技术实施例提供的技术方案带来的有益效果至少包括:通过获取待识别视频数据,将待识别视频数据输入视频分类模型中,视频分类模型包括依次连接的时空卷积神经网络模型、时空局部聚合描述特征3D-VLAD模型以及分类识别模型,其中时空卷积神经网络模型包括依次堆叠的多个时空卷积神经网络层和多个时空最大池化层,待识别视频数据输入时空卷积神经网络模型后,3D-VLAD模型用于将多个时空最大池化层中倒数的指定个数的时空最大池化层输出的时空特征图作为输入,得到时空局部聚合描述特征,分类识别模型用于根据时空局部聚合描述特征,得到分类结果;获取视频分类模型输出的待识别视频数据的分类结果。将多个时空特征图的时空局部聚合本文档来自技高网...

【技术保护点】
1.一种视频类别识别方法,其特征在于,所述方法包括:/n获取待识别视频数据;/n将所述待识别视频数据输入视频分类模型中,所述视频分类模型包括依次连接的时空卷积神经网络模型、时空局部聚合描述特征3D-VLAD模型以及分类识别模型,所述时空卷积神经网络模型包括依次堆叠的多个时空卷积神经网络层和多个时空最大池化层,所述待识别视频数据输入所述时空卷积神经网络模型后,所述3D-VLAD模型用于将所述多个时空最大池化层中倒数的指定个数的时空最大池化层输出的时空特征图作为输入,得到时空局部聚合描述特征,所述分类识别模型用于根据所述时空局部聚合描述特征,得到分类结果;/n获取所述视频分类模型输出的所述待识别视频数据的分类结果。/n

【技术特征摘要】
1.一种视频类别识别方法,其特征在于,所述方法包括:
获取待识别视频数据;
将所述待识别视频数据输入视频分类模型中,所述视频分类模型包括依次连接的时空卷积神经网络模型、时空局部聚合描述特征3D-VLAD模型以及分类识别模型,所述时空卷积神经网络模型包括依次堆叠的多个时空卷积神经网络层和多个时空最大池化层,所述待识别视频数据输入所述时空卷积神经网络模型后,所述3D-VLAD模型用于将所述多个时空最大池化层中倒数的指定个数的时空最大池化层输出的时空特征图作为输入,得到时空局部聚合描述特征,所述分类识别模型用于根据所述时空局部聚合描述特征,得到分类结果;
获取所述视频分类模型输出的所述待识别视频数据的分类结果。


2.根据权利要求1所述的方法,其特征在于,所述获取待识别视频数据之前,所述方法还包括:
获取模型训练样本集,所述模型训练样本集包括多个类型的视频集合,每个类型的所述视频集合包括多个视频数据;
通过所述模型训练样本集对所述视频分类模型进行优化;
当所述视频分类模型收敛时,停止优化。


3.根据权利要求2所述的方法,其特征在于,所述通过所述模型训练样本集对所述视频分类模型进行优化,包括:
以所述模型训练样本集作为训练数据,根据损失函数和梯度下降法对所述视频分类模型进行优化。


4.根据权利要求3所述的方法,其特征在于,所述以所述模型训练样本集作为训练数据,根据损失函数和梯度下降法对所述视频分类模型进行优化之前,所述方法还包括:
通过动态随机调整抽取帧数和抽取帧率策略的数据增强方法,对所述模型训练样本集进行数据扩充。


5.根据权利要求1所述的方法,其特征在于,所述时空卷积神经网络层包括公式:



O={Oj|j=1,2,...,nO}
其中,Ii为时空卷积神经网络层输入I的第i个时空特征图;O为时空卷积神经网络层的输出,Oj为O的第j个时空特征图;Wij为Ii与Oj相连的卷积核;nI为时空卷积神经网络层输入的时空特征图的个数,nO为时空卷积神经网络层输出的时空特征图的个数;bj为Oj的偏置参数;f(·)为激活函数;
所述时空最大池化层包括公式:



Y={ym|m=1,2,...,N}
其中,Y为时空最大池化层输出的特征张量,为O的第m个时空特征图Om的第i+r1帧第j+r2行第t+r3列的特征值;为Y中的第m个时空特征图ym的第i帧第j行第t列的特征值;p1,p2,p3为Om的维度;k1,k2,k3为时空最大池化层的池化核的维度。


6.根据权利要求5所述的方法,其特征在于,所述Y为维度为N×W×H×D的特征向量,所述W为所述时空特征图的宽度,所述H为所述时空特征图的高度,所述D为所述时空特征图的通道数,所述3D-VLAD模型用于:<...

【专利技术属性】
技术研发人员:肖定坤
申请(专利权)人:广州酷狗计算机科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1