【技术实现步骤摘要】
一种多模态第一视角视频分类方法及系统
[0001]本专利技术属于计算机视觉
,尤其涉及一种多模态第一视角视频分类方法及系统。
技术介绍
[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。
[0003]随着多传感器可穿戴设备的出现,如,GoPro和谷歌Glass,第一视角的音视频录制在极限运动、健康监测、生活记录和家庭自动化等许多领域变得流行起来。因此,计算机视觉领域对收集大规模数据集以及开发新的或调整现有方法以适应第一人称视角场景重新产生了兴趣,尤其是动作分类任务。目前,大多第一视角视频动作分类方法仅考虑视觉模态信息用以区分不同动作,但是它们忽视了音频信息对于第一视角视频动作分类的重要性。第一视角视频中蕴含了丰富的声音,这些声音来自手与物体之间的交互,以及可穿戴麦克风与正在进行的动作的近距离接触。特别地,音频是某些动作(例如,“洗
”ꢀ
和“煎”)以及动作中的对象 (例如,“放盘子”) 的主要鉴别器。有时,声音的时间进展(或变化)可以分离视觉上模糊的动作(例如,“打开水龙头”与“关闭水龙头”)。音频也可以捕捉在可穿戴相机的视野之外,但可以听到的动作(例如,“吃”可以听到但看不到)。由此可见,将音频信息整合到第一视角视频动作分类中是十分必要的。
[0004]据前期调研可知,目前有两个基于音频
‑
视觉的第一视角动作分类方法。其中,一个方法采用传统特性融合方式将多个模态特征拼接起来,用于预测最终输出。虽然该融合机制允许低级别模态特 ...
【技术保护点】
【技术特征摘要】
1.一种多模态第一视角视频分类方法,其特征在于,包括:获取视频数据,采用已训练的第一视角视频分类网络,得到视频动作类别;所述第一视角视频分类网络的训练过程包括:获取视频数据和视频动作类别,提取视频数据的视觉表示序列和音频表示序列;基于视觉表示序列和音频表示序列,采用基于联合表示的交叉注意模块,得到联合表示增强的视觉特征表示序列和联合表示增强的音频特征表示序列;计算联合表示增强的视觉特征表示序列对应的视觉模态的自监督对比损失函数,计算联合表示增强的音频特征表示序列对应的音频模态的自监督对比损失函数;根据联合表示增强的视觉特征表示序列,得到视觉模态的分类预测结果;根据联合表示增强的音频特征表示序列,得到音频模态的分类预测结果;根据视觉模态的分类预测结果、音频模态的分类预测结果结合视频动作类别,计算分类预测损失函数;将视觉模态的自监督对比损失函数、音频模态的自监督对比损失函数和分类预测损失函数相加,得到联合损失函数,用于联合优化第一视角视频分类网络,得到已训练的第一视角视频分类网络。2.根据权利要求1所述的多模态第一视角视频分类方法,其特征在于,所述提取视频数据的视觉表示序列和音频表示序列的过程具体包括:提取视频数据的视频帧序列,将视频帧序列输入SlowFast网络,得到视觉表示序列;提取视频数据的音频数据,提取音频数据中Mel波段的log
‑
Mel光谱图序列,将log
‑
Mel光谱图序列输入Auditory SlowFast网络,得到音频表示序列。3.根据权利要求1所述的多模态第一视角视频分类方法,其特征在于,所述得到联合表示增强的视觉特征表示序列和联合表示增强的音频特征表示序列的过程具体包括:根据视觉表示序列和音频表示序列,计算视觉模态和音频模态的联合表示;根据视觉模态和音频模态的联合表示,分别计算视觉特征与联合表示的联合相关矩阵和音频特征与联合表示的联合相关矩阵;根据视觉特征与联合表示的联合相关矩阵和视觉表示序列,计算视觉模态的注意力权值;根据音频特征与联合表示的联合相关矩阵和音频表示序列,计算音频模态的注意力权值;根据视觉模态的注意力权值和视觉表示序列,计算联合表示增强的视觉特征表示序列;根据音频模态的注意力权值和音频表示序列,计算联合表示增强的音频特征表示序列。4.根据权利要求1所述的多模态第一视角视频分类方法,其特征在于,计算视觉模态的自监督对比损失函数的具体过程包括:对联合表示增强的视觉特征表示序列在时间维度上进行平均池化,得到视觉模态的全局特征向量;对于每个输入的视频数据,随机抽取与该视频数据对应的视频动作类别相同的正样本视频数据和不同的负样本视频数据;计算正样本视频数据视觉模态的全局特征向量和不同的负样本视频数据视觉模态的全局特征向量;采用该视频数据视觉模态的全局特征向量、正样本视频数据视觉模态的全局特征向量和不同的负样本视频数据视觉模态的全局特征向量,对视频模态进行对比学习,得到视觉模态的自监督对比损失函数。5.根据权利要求1所述的多模态第一视角视频分类方法,其特征在于,计算音频模态的
自监督对比损失函数...
【专利技术属性】
技术研发人员:刘萌,张风雷,宋雪萌,许海振,郭杰,王少华,
申请(专利权)人:山东建筑大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。