视频分类方法、装置、设备及介质制造方法及图纸

技术编号:34532791 阅读:17 留言:0更新日期:2022-08-13 21:26
本申请涉及一种视频分类方法、装置、设备及介质,该方法包括:构建多层特征融合网络;提取目标视频中的图像特征集和音频特征集;利用瓶颈单元向量交替在多层特征融合网络中进行图像特征和音频特征的联合学习,得到最后一层特征融合网络的图像特征融合单元输出的目标整体图像特征和最后一层特征融合网络的音频特征融合单元输出的目标整体音频特征;将目标整体图像特征和目标整体音频特征输入分类器,以确定目标视频的类别。本申请通过设置瓶颈单元向量在视频的图像特征和音频特征的融合过程中获得用于分类的重要特征信息,进行数据交互,解决了特征融合过程速度较慢且容易过拟合的问题。的问题。的问题。

【技术实现步骤摘要】
视频分类方法、装置、设备及介质


[0001]本申请涉及深度学习
,尤其涉及一种视频分类方法、装置、设备及介质。

技术介绍

[0002]视频分类是目前计算机视觉领域研究的重点问题,对视频进行准确的分类可以增强用户体验,给予用户更好的推荐。对于公司而言,对大量的互联网视频进行相应的分类也有助于公司把握当下市场的热点内容,进行相应的战略部署。目前视频分类普遍采用的融合方法是将视频的各个图像特征和各个音频特征同时进行融合,然后进行视频分类,这样将视频的多个图像特征和多个音频特征同时融合,速度较慢且容易过拟合。
[0003]针对上述“将视频的多个图像特征和多个音频特征同时融合的话,速度较慢且容易过拟合”的问题,目前尚未提出有效的解决方案。

技术实现思路

[0004]本申请提供了一种视频分类方法、装置、设备及介质,以解决或至少部分解决上述“将视频的多个图像特征和多个音频特征同时融合,速度较慢且容易过拟合”的技术问题。
[0005]根据本申请实施例的一个方面,本申请提供了一种视频分类方法,包括:构建多层特征融合网络,其中,每一层特征融合网络包括一个图像特征融合单元和一个音频特征融合单元;提取目标视频中的图像特征集和音频特征集,其中,图像特征集用于作为第一层特征融合网络中的图像特征融合单元的输入,音频特征集用于作为第一层特征融合网络中的音频特征融合单元的输入;利用瓶颈单元向量交替在多层特征融合网络中进行图像特征和音频特征的联合学习,得到最后一层特征融合网络的图像特征融合单元输出的目标整体图像特征和最后一层特征融合网络的音频特征融合单元输出的目标整体音频特征;将目标整体图像特征和目标整体音频特征输入分类器,以确定目标视频的类别。
[0006]可选地,利用瓶颈单元向量交替在多层特征融合网络中进行图像特征和音频特征的联合学习包括按照如下方式对第一层的特征融合网络进行图像特征和音频特征的联合学习:随机生成瓶颈单元向量和图像特征表征向量;将图像特征表征向量、图像特征集以及瓶颈单元向量进行拼接后输入第一层特征融合网络的图像特征融合单元;获取第一层特征融合网络的图像特征融合单元输出的新的瓶颈单元向量,并随机生成音频特征表征向量;将音频特征表征向量、音频特征集以及瓶颈单元向量进行拼接后输入第一层特征融合网络的音频特征融合单元,以利用瓶颈单元向量完成第一层特征融合网络的图像特征和音频特征的联合学习。
[0007]可选地,利用瓶颈单元向量交替在多层特征融合网络中进行图像特征和音频特征的联合学习还包括:获取上一层特征融合网络的图像特征融合单元输出的新的图像特征表征向量、新的图像特征集以及音频特征融合单元输出的新的瓶颈单元向量;将图像特征表征向量、图像特征集以及音频特征融合单元进行拼接后输入当前层特征融合网络的图像特征融合单元;获取当前层图像特征融合单元输出的新的瓶颈单元向量、上一层音频特征融
合单元输出的新的音频特征集以及新的音频特征表征向量;将音频特征表征向量、音频特征集以及瓶颈单元向量进行拼接后输入当前层音频特征融合单元,以完成当前层特征融合网络的图像特征和音频特征的联合学习。
[0008]可选地,利用瓶颈单元向量交替在多层特征融合网络中进行图像特征和音频特征的联合学习之后,所述方法还包括按照如下方式得到最后一层特征融合网络的图像特征融合单元输出的目标整体图像特征和最后一层特征融合网络的音频特征融合单元输出的目标整体音频特征:逐一完成每一层特征融合网络的联合学习,直至最后一层图像特征融合单元输出新的图像特征表征向量和最后一层音频特征融合单元输出新的音频特征表征向量时,将图像特征表征向量确定为目标整体图像特征,将音频特征表征向量确定为目标整体音频特征。
[0009]可选地,提取目标视频中的图像特征集和音频特征集包括:提取目标视频的音频数据和图像数据;确定图像数据中的多个视频帧,并生成与多个视频帧对应的多个图像特征向量,其中,图像特征集包括多个图像特征向量;对音频数据进行特征提取,生成与多个视频帧对应的多个音频特征向量,其中,音频特征集包括多个音频特征向量。
[0010]可选地,利用瓶颈单元向量交替在多层特征融合网络中进行图像特征和音频特征的联合学习还包括:在每一层的特征融合网络中的音频特征融合单元或图像特征融合单元进行融合学习之后,将获得的目标融合特征存储至瓶颈单元向量。
[0011]可选地,在随机生成瓶颈单元向量之前,所述方法包括按照以下方式确定瓶颈单元向量的数量:获取图像特征集和/或音频特征集中的特征向量的数量值;确定多层特征融合网络当前所在网络环境的状态信息,并利用状态信息和数量值确定瓶颈单元向量的数量。
[0012]根据本申请实施例的另一个方面,本申请还提供了一种视频分类装置,包括:构建模块,用于构建多层特征融合网络,其中,每一层特征融合网络包括一个图像特征融合单元和一个音频特征融合单元;提取模块,用于提取目标视频中的图像特征集和音频特征集,其中,图像特征集用于作为第一层特征融合网络中的图像特征融合单元的输入,音频特征集用于作为第一层特征融合网络中的音频特征融合单元的输入;学习模块,用于利用瓶颈单元向量交替在多层特征融合网络中进行图像特征和音频特征的联合学习,得到最后一层特征融合网络的图像特征融合单元输出的目标整体图像特征和最后一层特征融合网络的音频特征融合单元输出的目标整体音频特征;确定模块,用于将目标整体图像特征和目标整体音频特征输入分类器,以确定目标视频的类别。
[0013]根据本申请实施例的另一个方面,本申请还提供了一种电子设备,包括存储器、处理器、通信接口及通信总线,存储器中存储有可在处理器上运行的计算机程序,存储器、处理器通过通信总线和通信接口进行通信,处理器执行计算机程序时实现上述任一方法的步骤。
[0014]根据本申请实施例的另一个方面,本申请还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质,程序代码使处理器执行上述任一方法。
[0015]本申请技术方案可以应用于深度学习技术进行计算机视觉的设计。
[0016]本申请实施例提供的上述技术方案与相关技术相比具有如下优点:
[0017]本申请提供一种视频分类方法,包括:构建多层特征融合网络,其中,每一层特征
融合网络包括一个图像特征融合单元和一个音频特征融合单元;提取目标视频中的图像特征集和音频特征集,其中,图像特征集用于作为第一层特征融合网络中的图像特征融合单元的输入,音频特征集用于作为第一层特征融合网络中的音频特征融合单元的输入;利用瓶颈单元向量交替在多层特征融合网络中进行图像特征和音频特征的联合学习,得到最后一层特征融合网络的图像特征融合单元输出的目标整体图像特征和最后一层特征融合网络的音频特征融合单元输出的目标整体音频特征;将目标整体图像特征和目标整体音频特征输入分类器,以确定目标视频的类别。
[0018]本申请利用瓶颈单元向量在视频的图像特征和音频特征的融合过程中进行数据交互,获得用于分类的重要特征信息,解决了特征融合过程速度较慢且容易本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频分类方法,其特征在于,包括:构建多层特征融合网络,其中,每一层所述特征融合网络包括一个图像特征融合单元和一个音频特征融合单元;提取目标视频中的图像特征集和音频特征集,其中,所述图像特征集用于作为第一层所述特征融合网络中的所述图像特征融合单元的输入,所述音频特征集用于作为第一层所述特征融合网络中的所述音频特征融合单元的输入;利用瓶颈单元向量交替在多层所述特征融合网络中进行图像特征和音频特征的联合学习,得到最后一层所述特征融合网络的所述图像特征融合单元输出的目标整体图像特征和最后一层所述特征融合网络的所述音频特征融合单元输出的目标整体音频特征;将所述目标整体图像特征和所述目标整体音频特征输入分类器,以确定所述目标视频的类别。2.根据权利要求1所述的方法,其特征在于,所述利用瓶颈单元向量交替在多层所述特征融合网络中进行图像特征和音频特征的联合学习包括按照如下方式对第一层的所述特征融合网络进行图像特征和音频特征的联合学习:随机生成所述瓶颈单元向量和图像特征表征向量;将所述图像特征表征向量、所述图像特征集以及所述瓶颈单元向量进行拼接后输入第一层所述特征融合网络的所述图像特征融合单元;获取第一层所述特征融合网络的所述图像特征融合单元输出的新的所述瓶颈单元向量,并随机生成音频特征表征向量;将所述音频特征表征向量、所述音频特征集以及所述瓶颈单元向量进行拼接后输入第一层所述特征融合网络的所述音频特征融合单元,以利用所述瓶颈单元向量完成第一层所述特征融合网络的图像特征和音频特征的联合学习。3.根据权利要求2所述的方法,其特征在于,所述利用瓶颈单元向量交替在多层所述特征融合网络中进行图像特征和音频特征的联合学习还包括:获取上一层所述特征融合网络的所述图像特征融合单元输出的新的所述图像特征表征向量、新的所述图像特征集以及所述音频特征融合单元输出的新的所述瓶颈单元向量;将所述图像特征表征向量、所述图像特征集以及所述音频特征融合单元进行拼接后输入当前层所述特征融合网络的所述图像特征融合单元;获取当前层所述图像特征融合单元输出的新的所述瓶颈单元向量、上一层所述音频特征融合单元输出的新的所述音频特征集以及新的所述音频特征表征向量;将所述音频特征表征向量、所述音频特征集以及所述瓶颈单元向量进行拼接后输入当前层所述音频特征融合单元,以完成当前层所述特征融合网络的图像特征和音频特征的联合学习。4.根据权利要求2所述的方法,其特征在于,所述利用瓶颈单元向量交替在多层所述特征融合网络中进行图像特征和音频特征的联合学习之后,所述方法还包括按照如下方式得到最后一层所述特征融合网络的所述图像特征融合单元输出的目标整体图像特征和最后一层所述特征融合网络的所述音频特征融合单元输出的目标整体音频特征:逐一...

【专利技术属性】
技术研发人员:朱彦浩胡郡郡唐大闰
申请(专利权)人:北京明略昭辉科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1