一种基于跨模态认知共识对齐的音视频分割方法技术

技术编号：39495030 阅读：7 留言：0更新日期：2023-11-24 11:21

该发明专利技术公开了一种基于跨模态认知共识对齐的音视频分割方法，属于多模态图像分割领域

全部详细技术资料下载

【技术实现步骤摘要】
一种基于跨模态认知共识对齐的音视频分割方法

[0001]本专利技术属于多模态图像分割领域，给定一段视频和对应的音频，以音频信号为参考，对视频中发出该声音的目标进行提取并生成像素级掩码
。
本专利技术通过所提出的跨模态认知共识推断模块和认知共识引导的注意力模块，对音
、
视频进行显式的语义级跨模态对齐，并获得良好的目标分割结果
。

技术介绍

[0002]随着计算机视觉领域的不断发展，诸如语义分割
、
实例分割
、
全景分割的视觉图像目标细粒度分割技术已经取得了显著的成就，上述方法等同对待图像中的每一个目标和背景并对它们进行分割
。
然而，在真实多媒体应用场景中，往往只需要突出真正感兴趣的目标，这是上述图像分割方法无法实现的
。
而音视频分割的目的就是在音频信息的指导之下，精细化提取图像中感兴趣目标
(
发声目标
)
，这种分割方法在现实应用场景中有着广泛的潜在用途与重要的意义
。
[0003]音视频分割的主要挑战在于如下两个方面：一方面，模型需要充分理解视觉
、
音频两种模态各自的语义内容以及长距离上下文信息；另一方面，模型需要对视觉
、
音频模态进行显式
、
准确的对齐
。
准确来说，一段音频信息中通常只包含全局的音频标签信息，但视频的每一帧图像往往包含不同的局部目标，实现从全局到局部的对齐，并突出感兴趣...

【技术保护点】

【技术特征摘要】
1.
一种基于跨模态认知共识对齐的音视频分割方法，该方法包括：步骤1：获得视频帧以及其对应的音频片段；视觉编码器具有四个特征提取阶段，将视频帧输入至视觉编码器，并取视觉编码器四个阶段输出的视觉特征作为层次化视觉特征，并表示为
V
i
，
i
＝
1,2,3,4
；此外，将音频片段输入音频编码器，提取音频特征
F
a
；层次化视觉特征
V
i
与音频特征
F
a
将用于进行后续计算；步骤2：利用音频编码器和视觉编码器预置的分类头及其分类权重；在视觉编码器输出的层次化视觉特征
V
i
，
i
＝
1,2,3,4
中，
V4为最高层级的视觉特征，并且包含图像的全局性语义信息；分别对视觉特征
V4与音频特征
F
a
进行类别置信度打分，计算得到的视觉分类置信度与音频分类置信度接着，计算视觉标签文本与音频标签文本之间的语义级相似度
m
jk
，具体公式如下：其中，
||
·
||
F
代表
Frobenius
范数，
j
与
k
分别代表最终计算得到的语义相似度矩阵
M
sim
的行
、
列索引；接着，计算置信度重加权矩阵
M
cof
(j,k)
，具体公式如下：其中，
α
与
β
为平衡系数，置信度重加权矩阵
M
cof
(j,k)
内的值即可看做对应视觉语义与文本语义的认知共识打分；在获取置信度重加权矩阵
M
cof
(j,k)
后，找到矩阵中的最大打分值，并获取最大值处对应的视觉标签，以作为模态对齐的语义标...

【专利技术属性】
技术研发人员：吴庆波，施兆丰，李宏亮，孟凡满，潘力立，许林峰，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人