【技术实现步骤摘要】
本专利技术涉及视频分类,尤其是指一种基于多模态特征融合的视频分类方法、装置及计算机可读存储介质。
技术介绍
1、视频分类是机器学习和计算机视觉领域的重要任务之一,其目标是基于视频内容将视频划分至相应的类别中,视频分类在视频推荐系统、内容过滤、监控系统以及视频检索等领域均有着重要作用,随着互联网视频数据的爆炸式增长,如何对视频进行准确且高效的分类越来越重要。
2、传统的视频分类方法主要依赖于视觉信息,通常使用卷积神经网络(cnn)提取视频中的图像帧特征,再结合循环神经网络(rnn)或长短时记忆网络(lstm)处理由各个图像帧特征组成的时间序列信息,这种方法虽然充分提取了视频中包含的图像信息,但是忽略了视频中所含有的丰富的音频信息,从而导致最终的分类结果准确性较低。
3、为了解决这一问题,融合多模态信息进行视频分类的方法逐渐成为研究热点,目前的视频分类方法除了依赖视频的视觉信息外,还融合了视频的音频信息,其视觉信息和音频信息的融合方式包括以下几种:1、分别基于图像特征和音频特征进行视频分类,最后在模型的分类决策阶段将
...【技术保护点】
1.一种基于多模态特征融合的视频分类方法,其特征在于,包括:
2.根据权利要求1所述的基于多模态特征融合的视频分类方法,其特征在于,第l-1个自对齐融合层的目标融合特征矩阵表示为:
3.根据权利要求1所述的基于多模态特征融合的视频分类方法,其特征在于,更新后的第l-1个自对齐融合层输出的目标图像特征矩阵表示为:
4.根据权利要求3所述的基于多模态特征融合的视频分类方法,其特征在于,第l个自对齐融合层的目标图像特征矩阵和第一融合特征矩阵表示为:
5.根据权利要求1所述的基于多模态特征融合的视频分类方法,其特征在于,初始融合
...【技术特征摘要】
1.一种基于多模态特征融合的视频分类方法,其特征在于,包括:
2.根据权利要求1所述的基于多模态特征融合的视频分类方法,其特征在于,第l-1个自对齐融合层的目标融合特征矩阵表示为:
3.根据权利要求1所述的基于多模态特征融合的视频分类方法,其特征在于,更新后的第l-1个自对齐融合层输出的目标图像特征矩阵表示为:
4.根据权利要求3所述的基于多模态特征融合的视频分类方法,其特征在于,第l个自对齐融合层的目标图像特征矩阵和第一融合特征矩阵表示为:
5.根据权利要求1所述的基于多模态特征融合的视频分类方法,其特征在于,初始融合特征矩阵表示为:
6.根...
【专利技术属性】
技术研发人员:王宁,吴明辉,顾文超,周浩杰,吴秦,
申请(专利权)人:江南大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。