【技术实现步骤摘要】
一种融合自监督多模态特征的视听事件定位方法
[0001]本专利技术涉及视听事件定位
,特别是涉及一种融合自监督多模态特征的视听事件定位方法。
技术介绍
[0002]人类是通过多种不同的感官(比如视觉、听觉、触觉、嗅觉等)协同感知周遭环境的。尽管目前机器学习已经在诸如图像分类(视觉)、语音识别(听觉)与自然语言处理(文本)等单模态任务上取得了飞跃性的进展,但为了更好地教会机器模仿人类感知现实世界的方式,许多需要协同利用多种模态数据的任务被提出。这些多模态的任务更加地贴近实际应用场景,对于其的研究也与日俱增。
[0003]基于视觉与听觉两种信号进行的视听事件定位是在多模态视频理解与分析领域的重要应用。对于一段给定的视频,算法需要确定在其中何时发生了人们关心的视听事件,并确定发生的事件的类型。由于视听事件具有视觉与听觉两方面的属性,将视频中图像数据与音频数据二者的信息充分利用起来,才能更高效准确地对其进行定位。从一方面来说,尽管多模态的数据相比于单模态提供了更多关于视频内容的有用信息,但由于视觉与听觉信号的构成方式天 ...
【技术保护点】
【技术特征摘要】
1.一种融合自监督多模态特征的视听事件定位方法,其特征在于,包括以下步骤:获取目标视频数据,并对所述目标视频数据进行预处理,得到图像信号和声音信号;将所述图像信号和声音信号输入至视听事件定位模型中进行识别与定位,得到所述目标视频数据中每个时刻的事件类别;其中,所述视听事件定位模型包括依次连接的视觉
‑
听觉特征提取模块、视听融合模块和分类模块;所述视觉
‑
听觉特征提取模块和所述视听融合模块相互独立;所述视觉
‑
听觉特征提取模块利用CNN和Bi
‑
LSTM分别对图像信号和声音信号进行空时特征的提取,得到视觉特征和听觉特征;所述视听融合模块基于余弦距离计算异步的视觉特征与听觉特征之间的相似度,并按照时间上相关性衰减的规律对特征对的相似度进行修正再融合特征;所述分类模块基于融合后的视觉特征和听觉特征进行分类,得到所述目标视频数据中每个时刻的事件类别。2.根据权利要求1所述的融合自监督多模态特征的视听事件定位方法,其特征在于,所述对所述目标视频数据进行预处理具体为:将获取到的目标视频数据分割为若干等长的片段,每个片段中均包含同步的图像数据和声音数据;从每一段图像数据中随机抽取一帧画面并对其进行随机的画面裁切与高斯模糊,得到图像帧信号;将每一段声音数据转换成log
‑
mel谱,得到声音谱信号;将所有的图像帧信号与声音谱信号按时间上的前后顺序排列起来得到图像信号和声音信号。3.根据权利要求1所述的融合自监督多模态特征的视听事件定位方法,其特征在于,所述视觉
‑
听觉特征提取模块包括视觉提取部分、听觉提取部分、视觉投影层、听觉投影层和互相关矩阵单元,所述视觉提取部分与听觉提取部分结构相同,包括依次连接的CNN和Bi
‑
LSTM;所述视觉提取部分的输入为所述图像信号,用于提取视觉特征,所述听觉提取部分的输入为所述声音信号,用于提取听觉特征;所述视觉投影层用于将所述视觉特征映射到更高维度的语义空间,得到高维视觉特征;所述听觉投影层用于将所述听觉特征映射到更高维度的语义空间,得到高维听觉特征;所述互相关矩阵单元用于在时间维度上求所述高维视觉特征和所述高维听觉特征之间的互相关矩阵。4.根据权利要求3所述的融合自监督多模态特征的视听事件定位...
【专利技术属性】
技术研发人员:冉粤,
申请(专利权)人:中国科学院上海微系统与信息技术研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。