当前位置: 首页 > 专利查询>江南大学专利>正文

一种基于多模态特征融合的视频分类方法、装置及介质制造方法及图纸

技术编号:43550791 阅读:26 留言:0更新日期:2024-12-03 12:33
本发明专利技术属于视频分类技术领域,涉及一种基于多模态特征融合的视频分类方法、装置及介质;将待分类视频的图像特征矩阵和音频特征矩阵拼接并输入至第一多层感知机,输出初始融合特征矩阵;将图像特征矩阵、音频特征矩阵和初始融合特征矩阵输入至沿正传播方向依次串联的L个自对齐融合层进行中期融合;将第L个自对齐融合层输出的目标图像特征矩阵中的cls token向量、目标音频特征矩阵中的cls token向量和融合特征矩阵拼接后,进行后期融合,并输入至第三多层感知机,从而对待分类视频进行分类,本申请提供的视频分类方法通过多阶段特征融合充分融合了不同模态的特征信息,提高了视频分类结果准确性。

【技术实现步骤摘要】

本专利技术涉及视频分类,尤其是指一种基于多模态特征融合的视频分类方法、装置及计算机可读存储介质。


技术介绍

1、视频分类是机器学习和计算机视觉领域的重要任务之一,其目标是基于视频内容将视频划分至相应的类别中,视频分类在视频推荐系统、内容过滤、监控系统以及视频检索等领域均有着重要作用,随着互联网视频数据的爆炸式增长,如何对视频进行准确且高效的分类越来越重要。

2、传统的视频分类方法主要依赖于视觉信息,通常使用卷积神经网络(cnn)提取视频中的图像帧特征,再结合循环神经网络(rnn)或长短时记忆网络(lstm)处理由各个图像帧特征组成的时间序列信息,这种方法虽然充分提取了视频中包含的图像信息,但是忽略了视频中所含有的丰富的音频信息,从而导致最终的分类结果准确性较低。

3、为了解决这一问题,融合多模态信息进行视频分类的方法逐渐成为研究热点,目前的视频分类方法除了依赖视频的视觉信息外,还融合了视频的音频信息,其视觉信息和音频信息的融合方式包括以下几种:1、分别基于图像特征和音频特征进行视频分类,最后在模型的分类决策阶段将基于图像特征的分类结本文档来自技高网...

【技术保护点】

1.一种基于多模态特征融合的视频分类方法,其特征在于,包括:

2.根据权利要求1所述的基于多模态特征融合的视频分类方法,其特征在于,第l-1个自对齐融合层的目标融合特征矩阵表示为:

3.根据权利要求1所述的基于多模态特征融合的视频分类方法,其特征在于,更新后的第l-1个自对齐融合层输出的目标图像特征矩阵表示为:

4.根据权利要求3所述的基于多模态特征融合的视频分类方法,其特征在于,第l个自对齐融合层的目标图像特征矩阵和第一融合特征矩阵表示为:

5.根据权利要求1所述的基于多模态特征融合的视频分类方法,其特征在于,初始融合特征矩阵表示为:...

【技术特征摘要】

1.一种基于多模态特征融合的视频分类方法,其特征在于,包括:

2.根据权利要求1所述的基于多模态特征融合的视频分类方法,其特征在于,第l-1个自对齐融合层的目标融合特征矩阵表示为:

3.根据权利要求1所述的基于多模态特征融合的视频分类方法,其特征在于,更新后的第l-1个自对齐融合层输出的目标图像特征矩阵表示为:

4.根据权利要求3所述的基于多模态特征融合的视频分类方法,其特征在于,第l个自对齐融合层的目标图像特征矩阵和第一融合特征矩阵表示为:

5.根据权利要求1所述的基于多模态特征融合的视频分类方法,其特征在于,初始融合特征矩阵表示为:

6.根...

【专利技术属性】
技术研发人员:王宁吴明辉顾文超周浩杰吴秦
申请(专利权)人:江南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1