视频类别识别方法、装置、计算机设备及计算机存储介质制造方法及图纸

技术编号：22817587 阅读：21 留言：0更新日期：2019-12-14 13:19

本发明专利技术公开了一种视频类别识别方法、装置、计算机设备及计算机存储介质，属于视频识别领域。所述方法包括：获取待识别视频数据；将待识别视频数据输入视频分类模型中，视频分类模型包括依次连接的时空卷积神经网络模型、时空局部聚合描述特征3D‑VLAD模型以及分类识别模型，时空卷积神经网络模型包括依次堆叠的多个时空卷积神经网络层和多个时空最大池化层，3D‑VLAD模型用于将多个时空最大池化层中倒数的指定个数的时空最大池化层输出的时空特征图作为输入，得到时空局部聚合描述特征，分类识别模型用于根据时空局部聚合描述特征，得到分类结果。解决了现有技术中分类结果的准确性较低的问题，达到了提高准确性的效果。

Video category recognition methods, devices, computer equipment and computer storage media

全部详细技术资料下载

【技术实现步骤摘要】
视频类别识别方法、装置、计算机设备及计算机存储介质
本专利技术涉及视频识别领域，特别涉及一种视频类别识别方法、装置、计算机设备及计算机存储介质。
技术介绍
目前，视频大数据发展火爆，内容视频化已成为互联网发展一大趋势。因此，对视频进行分类的识别技术显得尤为重要。一种视频类别识别方法中，将待识别的视频数据输入时空卷积神经网络(3D-ConvolutionalNeuralNetwork，3D-CNN)模型，获取该模型最后一层输出的特征图，之后将该特征图输入分类模型，得到分类结果。但是，上述方法对视频数据中细微动作变化的捕捉能力较差，进而导致分类结果的准确性较低。
技术实现思路
本专利技术实施例提供了一种视频类别识别方法、装置、计算机设备及计算机存储介质，能够解决相关技术中对视频数据中细微动作变化的捕捉能力较差，进而导致分类结果的准确性较低的问题。所述技术方案如下：根据本专利技术的第一方面，提供了一种视频类别识别方法，所述方法包括：获取待识别视频数据；将所述待识别视频数据输入视频分类模型中，所述视频分类模型包括依次连接的时空卷积神经网络模型、时空局部聚合描述特征3D-VLAD模型以及分类识别模型，所述时空卷积神经网络模型包括依次堆叠的多个时空卷积神经网络层和多个时空最大池化层，所述待识别视频数据输入所述时空卷积神经网络模型后，所述3D-VLAD模型用于将所述多个时空最大池化层中倒数的指定个数的时空最大池化层输出的时空特征图作为输入，得到时空局部聚合描述特征，所述分类识别模型用于根...

【技术保护点】
1.一种视频类别识别方法，其特征在于，所述方法包括：/n获取待识别视频数据；/n将所述待识别视频数据输入视频分类模型中，所述视频分类模型包括依次连接的时空卷积神经网络模型、时空局部聚合描述特征3D-VLAD模型以及分类识别模型，所述时空卷积神经网络模型包括依次堆叠的多个时空卷积神经网络层和多个时空最大池化层，所述待识别视频数据输入所述时空卷积神经网络模型后，所述3D-VLAD模型用于将所述多个时空最大池化层中倒数的指定个数的时空最大池化层输出的时空特征图作为输入，得到时空局部聚合描述特征，所述分类识别模型用于根据所述时空局部聚合描述特征，得到分类结果；/n获取所述视频分类模型输出的所述待识别视频数据的分类结果。/n

【技术特征摘要】
1.一种视频类别识别方法，其特征在于，所述方法包括：
获取待识别视频数据；
将所述待识别视频数据输入视频分类模型中，所述视频分类模型包括依次连接的时空卷积神经网络模型、时空局部聚合描述特征3D-VLAD模型以及分类识别模型，所述时空卷积神经网络模型包括依次堆叠的多个时空卷积神经网络层和多个时空最大池化层，所述待识别视频数据输入所述时空卷积神经网络模型后，所述3D-VLAD模型用于将所述多个时空最大池化层中倒数的指定个数的时空最大池化层输出的时空特征图作为输入，得到时空局部聚合描述特征，所述分类识别模型用于根据所述时空局部聚合描述特征，得到分类结果；
获取所述视频分类模型输出的所述待识别视频数据的分类结果。

2.根据权利要求1所述的方法，其特征在于，所述获取待识别视频数据之前，所述方法还包括：
获取模型训练样本集，所述模型训练样本集包括多个类型的视频集合，每个类型的所述视频集合包括多个视频数据；
通过所述模型训练样本集对所述视频分类模型进行优化；
当所述视频分类模型收敛时，停止优化。

3.根据权利要求2所述的方法，其特征在于，所述通过所述模型训练样本集对所述视频分类模型进行优化，包括：
以所述模型训练样本集作为训练数据，根据损失函数和梯度下降法对所述视频分类模型进行优化。

4.根据权利要求3所述的方法，其特征在于，所述以所述模型训练样本集作为训练数据，根据损失函数和梯度下降法对所述视频分类模型进行优化之前，所述方法还包括：
通过动态随机调整抽取帧数和抽取帧率策略的数据增强方法，对所述模型训练样本集进行数据扩充。

5.根据权利要求1所述的方法，其特征在于，所述时空卷积神经网络层包括公式：

O＝{Oj|j＝1,2,...,nO}
其中，Ii为时空卷积神经网络层输入I的第i个时空特征图；O为时空卷积神经网络层的输出，Oj为O的第j个时空特征图；Wij为Ii与Oj相连的卷积核；nI为时空卷积神经网络层输入的时空特征图的个数，nO为时空卷积神经网络层输出的时空特征图的个数；bj为Oj的偏置参数；f(·)为激活函数；
所述时空最大池化层包括公式：

Y＝{ym|m＝1,2,...,N}
其中，Y为时空最大池化层输出的特征张量，为O的第m个时空特征图Om的第i+r1帧第j+r2行第t+r3列的特征值；为Y中的第m个时空特征图ym的第i帧第j行第t列的特征值；p1,p2,p3为Om的维度；k1,k2,k3为时空最大池化层的池化核的维度。

6.根据权利要求5所述的方法，其特征在于，所述Y为维度为N×W×H×D的特征向量，所述W为所述时空特征图的宽度，所述H为所述时空特征图的高度，所述D为所述时空特征图的通道数，所述3D-VLAD模型用于：<...

【专利技术属性】
技术研发人员：肖定坤，
申请(专利权)人：广州酷狗计算机科技有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人