视频分类方法、装置、设备及介质制造方法及图纸

技术编号：34532791 阅读：17 留言：0更新日期：2022-08-13 21:26

本申请涉及一种视频分类方法、装置、设备及介质，该方法包括：构建多层特征融合网络；提取目标视频中的图像特征集和音频特征集；利用瓶颈单元向量交替在多层特征融合网络中进行图像特征和音频特征的联合学习，得到最后一层特征融合网络的图像特征融合单元输出的目标整体图像特征和最后一层特征融合网络的音频特征融合单元输出的目标整体音频特征；将目标整体图像特征和目标整体音频特征输入分类器，以确定目标视频的类别。本申请通过设置瓶颈单元向量在视频的图像特征和音频特征的融合过程中获得用于分类的重要特征信息，进行数据交互，解决了特征融合过程速度较慢且容易过拟合的问题。的问题。的问题。

全部详细技术资料下载

【技术实现步骤摘要】
视频分类方法、装置、设备及介质

[0001]本申请涉及深度学习
，尤其涉及一种视频分类方法、装置、设备及介质。

技术介绍

[0002]视频分类是目前计算机视觉领域研究的重点问题，对视频进行准确的分类可以增强用户体验，给予用户更好的推荐。对于公司而言，对大量的互联网视频进行相应的分类也有助于公司把握当下市场的热点内容，进行相应的战略部署。目前视频分类普遍采用的融合方法是将视频的各个图像特征和各个音频特征同时进行融合，然后进行视频分类，这样将视频的多个图像特征和多个音频特征同时融合，速度较慢且容易过拟合。
[0003]针对上述“将视频的多个图像特征和多个音频特征同时融合的话，速度较慢且容易过拟合”的问题，目前尚未提出有效的解决方案。

技术实现思路

[0004]本申请提供了一种视频分类方法、装置、设备及介质，以解决或至少部分解决上述“将视频的多个图像特征和多个音频特征同时融合，速度较慢且容易过拟合”的技术问题。
[0005]根据本申请实施例的一个方面，本申请提供了一种视频分类方法，包括：构建多层特征融合网络，其中，每一层特征融合网络包括一个图像特征融合单元和一个音频特征融合单元；提取目标视频中的图像特征集和音频特征集，其中，图像特征集用于作为第一层特征融合网络中的图像特征融合单元的输入，音频特征集用于作为第一层特征融合网络中的音频特征融合单元的输入；利用瓶颈单元向量交替在多层特征融合网络中进行图像特征和音频特征的联合学习，得到最后一层特征融合网络的图像特征融合单元输出的目标整体图像特征...

【技术保护点】

【技术特征摘要】
1.一种视频分类方法，其特征在于，包括：构建多层特征融合网络，其中，每一层所述特征融合网络包括一个图像特征融合单元和一个音频特征融合单元；提取目标视频中的图像特征集和音频特征集，其中，所述图像特征集用于作为第一层所述特征融合网络中的所述图像特征融合单元的输入，所述音频特征集用于作为第一层所述特征融合网络中的所述音频特征融合单元的输入；利用瓶颈单元向量交替在多层所述特征融合网络中进行图像特征和音频特征的联合学习，得到最后一层所述特征融合网络的所述图像特征融合单元输出的目标整体图像特征和最后一层所述特征融合网络的所述音频特征融合单元输出的目标整体音频特征；将所述目标整体图像特征和所述目标整体音频特征输入分类器，以确定所述目标视频的类别。2.根据权利要求1所述的方法，其特征在于，所述利用瓶颈单元向量交替在多层所述特征融合网络中进行图像特征和音频特征的联合学习包括按照如下方式对第一层的所述特征融合网络进行图像特征和音频特征的联合学习：随机生成所述瓶颈单元向量和图像特征表征向量；将所述图像特征表征向量、所述图像特征集以及所述瓶颈单元向量进行拼接后输入第一层所述特征融合网络的所述图像特征融合单元；获取第一层所述特征融合网络的所述图像特征融合单元输出的新的所述瓶颈单元向量，并随机生成音频特征表征向量；将所述音频特征表征向量、所述音频特征集以及所述瓶颈单元向量进行拼接后输入第一层所述特征融合网络的所述音频特征融合单元，以利用所述瓶颈单元向量完成第一层所述特征融合网络的图像特征和音频特征的联合学习。3.根据权利要求2所述的方法，其特征在于，所述利用瓶颈单元向量交替在多层所述特征融合网络中进行图像特征和音频特征的联合学习还包括：获取上一层所述特征融合网络的所述图像特征融合单元输出的新的所述图像特征表征向量、新的所述图像特征集以及所述音频特征融合单元输出的新的所述瓶颈单元向量；将所述图像特征表征向量、所述图像特征集以及所述音频特征融合单元进行拼接后输入当前层所述特征融合网络的所述图像特征融合单元；获取当前层所述图像特征融合单元输出的新的所述瓶颈单元向量、上一层所述音频特征融合单元输出的新的所述音频特征集以及新的所述音频特征表征向量；将所述音频特征表征向量、所述音频特征集以及所述瓶颈单元向量进行拼接后输入当前层所述音频特征融合单元，以完成当前层所述特征融合网络的图像特征和音频特征的联合学习。4.根据权利要求2所述的方法，其特征在于，所述利用瓶颈单元向量交替在多层所述特征融合网络中进行图像特征和音频特征的联合学习之后，所述方法还包括按照如下方式得到最后一层所述特征融合网络的所述图像特征融合单元输出的目标整体图像特征和最后一层所述特征融合网络的所述音频特征融合单元输出的目标整体音频特征：逐一...

【专利技术属性】
技术研发人员：朱彦浩，胡郡郡，唐大闰，
申请(专利权)人：北京明略昭辉科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人