一种多模态第一视角视频分类方法及系统技术方案

技术编号:36695986 阅读:26 留言:0更新日期:2023-02-27 20:08
本发明专利技术属于计算机视觉领域,提供了一种多模态第一视角视频分类方法及系统。该方法包括,获取视频数据和视频动作类别,提取视频数据的视觉表示序列和音频表示序列;采用基于联合表示的交叉注意模块,得到联合表示增强的视觉特征表示序列和联合表示增强的音频特征表示序列;计算视觉模态的自监督对比损失函数和音频模态的自监督对比损失函数;计算视觉模态的分类预测结果和音频模态的分类预测结果;计算分类预测损失函数;构建联合损失函数,用于联合优化第一视角视频分类网络,得到已训练的第一视角视频分类网络。本发明专利技术针对每个模态应用自监督对比学习来增强模态内特征,使这些特征不受与动作有关的干扰因素的影响,提升了动作分类的精准度。作分类的精准度。作分类的精准度。

【技术实现步骤摘要】
一种多模态第一视角视频分类方法及系统


[0001]本专利技术属于计算机视觉
,尤其涉及一种多模态第一视角视频分类方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。
[0003]随着多传感器可穿戴设备的出现,如,GoPro和谷歌Glass,第一视角的音视频录制在极限运动、健康监测、生活记录和家庭自动化等许多领域变得流行起来。因此,计算机视觉领域对收集大规模数据集以及开发新的或调整现有方法以适应第一人称视角场景重新产生了兴趣,尤其是动作分类任务。目前,大多第一视角视频动作分类方法仅考虑视觉模态信息用以区分不同动作,但是它们忽视了音频信息对于第一视角视频动作分类的重要性。第一视角视频中蕴含了丰富的声音,这些声音来自手与物体之间的交互,以及可穿戴麦克风与正在进行的动作的近距离接触。特别地,音频是某些动作(例如,“洗
”ꢀ
和“煎”)以及动作中的对象 (例如,“放盘子”) 的主要鉴别器。有时,声音的时间进展(或变化)可以分离视觉上模糊的动作(例如,“打开水龙头”与“关闭水龙头”)。音频也可以捕捉在可穿戴相机的视野之外,但可以听到的动作(例如,“吃”可以听到但看不到)。由此可见,将音频信息整合到第一视角视频动作分类中是十分必要的。
[0004]据前期调研可知,目前有两个基于音频

视觉的第一视角动作分类方法。其中,一个方法采用传统特性融合方式将多个模态特征拼接起来,用于预测最终输出。虽然该融合机制允许低级别模态特征交互,但它未能充分挖掘模态间交互关系,因此性能改善有限。另一个方法,利用基于Transformer的交叉注意来捕捉跨模态关系,但它们未能有效利用视觉和音频间的互补关系。此外,最重要的是,上述方法不能很好地规避背景等干扰因素的影响,容易对发生在不同场景下的同一动作得到不同分类结果。比如,“吃”可能发生在完全不同背景和语境的不同地点。
[0005]因此,如何改进多模态学习范式以及利用不同模态间的互补性关系进行第一视角视频动作分类成为一个亟待探究的问题。

技术实现思路

[0006]为了解决上述
技术介绍
中存在的技术问题,本专利技术提供一种多模态第一视角视频分类方法及系统,其针对每个模态应用自监督对比学习,来增强模态内特征表示,使这些特征不受与动作有关的干扰因素的影响;同时,有效地利用不同模态之间的互补关系进行动作分类,显著提升动作分类的精准度。
[0007]为了实现上述目的,本专利技术采用如下技术方案:本专利技术的第一个方面提供一种多模态第一视角视频分类方法。
[0008]一种多模态第一视角视频分类方法,包括:
获取视频数据,采用已训练的第一视角视频分类网络,得到视频动作类别;所述第一视角视频分类网络的训练过程包括:获取视频数据和视频动作类别,提取视频数据的视觉表示序列和音频表示序列;基于视觉表示序列和音频表示序列,采用基于联合表示的交叉注意模块,得到联合表示增强的视觉特征表示序列和联合表示增强的音频特征表示序列;计算联合表示增强的视觉特征表示序列对应的视觉模态的自监督对比损失函数,计算联合表示增强的音频特征表示序列对应的音频模态的自监督对比损失函数;根据联合表示增强的视觉特征表示序列,得到视觉模态的分类预测结果;根据联合表示增强的音频特征表示序列,得到音频模态的分类预测结果;根据视觉模态的分类预测结果、音频模态的分类预测结果结合视频动作类别,计算分类预测损失函数;将视觉模态的自监督对比损失函数、音频模态的自监督对比损失函数和分类预测损失函数相加,得到联合损失函数,用于联合优化第一视角视频分类网络,得到已训练的第一视角视频分类网络。
[0009]进一步地,所述提取视频数据的视觉表示序列和音频表示序列的过程具体包括:提取视频数据的视频帧序列,将视频帧序列输入SlowFast网络,得到视觉表示序列;提取视频数据的音频数据,提取音频数据中Mel波段的log

Mel光谱图序列,将log

Mel光谱图序列输入Auditory SlowFast网络,得到音频表示序列。
[0010]进一步地,所述得到联合表示增强的视觉特征表示序列和联合表示增强的音频特征表示序列的过程具体包括:根据视觉表示序列和音频表示序列,计算视觉模态和音频模态的联合表示;根据视觉模态和音频模态的联合表示,分别计算视觉特征与联合表示的联合相关矩阵和音频特征与联合表示的联合相关矩阵;根据视觉特征与联合表示的联合相关矩阵和视觉表示序列,计算视觉模态的注意力权值;根据音频特征与联合表示的联合相关矩阵和音频表示序列,计算音频模态的注意力权值;根据视觉模态的注意力权值和视觉表示序列,计算联合表示增强的视觉特征表示序列;根据音频模态的注意力权值和音频表示序列,计算联合表示增强的音频特征表示序列。
[0011]进一步地,计算视觉模态的自监督对比损失函数的具体过程包括:对联合表示增强的视觉特征表示序列在时间维度上进行平均池化,得到视觉模态的全局特征向量;对于每个输入的视频数据,随机抽取与该视频数据对应的视频动作类别相同的正样本视频数据和不同的负样本视频数据;计算正样本视频数据视觉模态的全局特征向量和不同的负样本视频数据视觉模态的全局特征向量;采用该视频数据视觉模态的全局特征向量、正样本视频数据视觉模态的全局特征向量和不同的负样本视频数据视觉模态的全局特征向量,对视频模态进行对比学习,得到视觉模态的自监督对比损失函数。
[0012]进一步地,计算音频模态的自监督对比损失函数的过程具体包括:对联合表示增强的音频特征表示序列在时间维度上进行平均池化,得到音频模态
的全局特征向量;对于每个输入的视频数据,随机抽取与该视频数据对应的视频动作类别相同的正样本视频数据和不同的负样本视频数据;计算正样本视频数据音频模态的全局特征向量和不同的负样本视频数据音频模态的全局特征向量;采用该视频数据音频模态的全局特征向量、正样本视频数据音频模态的全局特征向量和不同的负样本视频数据音频模态的全局特征向量,对音频模态进行对比学习,得到音频模态的自监督对比损失函数。
[0013]进一步地,所述得到视觉模态的分类预测结果和得到音频模态的分类预测结果的过程具体包括:将联合表示增强的视觉特征表示序列分别输入动作动词预测分类器和动作名词预测分类器中,得到视觉模态的分类预测结果,所述视觉模态的分类预测结果包括视觉模态动词预测结果和视觉模态名词预测结果;将联合表示增强的音频特征表示序列分别输入动作动词预测分类器和动作名词预测分类器中,得到音频模态的分类预测结果,所述音频模态的分类预测结果包括:音频模态动词预测结果和音频模态名词预测结果。
[0014]进一步地,所述用于联合优化第一视角视频分类网络,得到已训练的第一视角视频分类网络的具体过程包括:基于联合损失函数,采用Adam优化器进行第一视角视频分类网络的参数优化更新,直到第一视角视频分类网络的参数满足设定的阈值,得到已训练的第一视角视频分类网络。
[0015]本发本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多模态第一视角视频分类方法,其特征在于,包括:获取视频数据,采用已训练的第一视角视频分类网络,得到视频动作类别;所述第一视角视频分类网络的训练过程包括:获取视频数据和视频动作类别,提取视频数据的视觉表示序列和音频表示序列;基于视觉表示序列和音频表示序列,采用基于联合表示的交叉注意模块,得到联合表示增强的视觉特征表示序列和联合表示增强的音频特征表示序列;计算联合表示增强的视觉特征表示序列对应的视觉模态的自监督对比损失函数,计算联合表示增强的音频特征表示序列对应的音频模态的自监督对比损失函数;根据联合表示增强的视觉特征表示序列,得到视觉模态的分类预测结果;根据联合表示增强的音频特征表示序列,得到音频模态的分类预测结果;根据视觉模态的分类预测结果、音频模态的分类预测结果结合视频动作类别,计算分类预测损失函数;将视觉模态的自监督对比损失函数、音频模态的自监督对比损失函数和分类预测损失函数相加,得到联合损失函数,用于联合优化第一视角视频分类网络,得到已训练的第一视角视频分类网络。2.根据权利要求1所述的多模态第一视角视频分类方法,其特征在于,所述提取视频数据的视觉表示序列和音频表示序列的过程具体包括:提取视频数据的视频帧序列,将视频帧序列输入SlowFast网络,得到视觉表示序列;提取视频数据的音频数据,提取音频数据中Mel波段的log

Mel光谱图序列,将log

Mel光谱图序列输入Auditory SlowFast网络,得到音频表示序列。3.根据权利要求1所述的多模态第一视角视频分类方法,其特征在于,所述得到联合表示增强的视觉特征表示序列和联合表示增强的音频特征表示序列的过程具体包括:根据视觉表示序列和音频表示序列,计算视觉模态和音频模态的联合表示;根据视觉模态和音频模态的联合表示,分别计算视觉特征与联合表示的联合相关矩阵和音频特征与联合表示的联合相关矩阵;根据视觉特征与联合表示的联合相关矩阵和视觉表示序列,计算视觉模态的注意力权值;根据音频特征与联合表示的联合相关矩阵和音频表示序列,计算音频模态的注意力权值;根据视觉模态的注意力权值和视觉表示序列,计算联合表示增强的视觉特征表示序列;根据音频模态的注意力权值和音频表示序列,计算联合表示增强的音频特征表示序列。4.根据权利要求1所述的多模态第一视角视频分类方法,其特征在于,计算视觉模态的自监督对比损失函数的具体过程包括:对联合表示增强的视觉特征表示序列在时间维度上进行平均池化,得到视觉模态的全局特征向量;对于每个输入的视频数据,随机抽取与该视频数据对应的视频动作类别相同的正样本视频数据和不同的负样本视频数据;计算正样本视频数据视觉模态的全局特征向量和不同的负样本视频数据视觉模态的全局特征向量;采用该视频数据视觉模态的全局特征向量、正样本视频数据视觉模态的全局特征向量和不同的负样本视频数据视觉模态的全局特征向量,对视频模态进行对比学习,得到视觉模态的自监督对比损失函数。5.根据权利要求1所述的多模态第一视角视频分类方法,其特征在于,计算音频模态的
自监督对比损失函数...

【专利技术属性】
技术研发人员:刘萌张风雷宋雪萌许海振郭杰王少华
申请(专利权)人:山东建筑大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1